Criar e gerenciar conjuntos de dados

Um conjunto de dados inclui amostras representativas do tipo de conteúdo que você quer traduzir, como pares de segmentos correspondentes nos idiomas de origem e chegada. O conjunto de dados serve como entrada para treinar um modelo.

Um projeto pode ter vários conjuntos de dados cada um pode ser usado para treinar um modelo separado.

crie um conjunto de dados

Crie um conjunto de dados para conter os dados de treinamento do modelo. Ao criar um conjunto de dados, você especifica os idiomas de origem e de chegada dos dados de treinamento. Para mais informações sobre os idiomas e as variantes compatíveis, consulte Compatibilidade de idiomas para modelos personalizados.

Interface da Web

O console do AutoML Translation permite criar um novo conjunto de dados e importar itens para ele.
  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, clique em Conjuntos de dados.

  3. Na página Conjuntos de dados, clique em Criar conjunto de dados.

  4. Na caixa de diálogo Criar conjunto de dados, especifique os detalhes do conjunto:

    • Insira o nome do conjunto de dados.
    • Selecione os idiomas de origem e chegada nas listas suspensas.
    • Clique em Criar.

REST

Veja a seguir como enviar uma solicitação POST para o método project.locations.datasets/create.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto no Google Cloud.
  • LOCATION: a região em que o conjunto de dados estará localizado, como us-central1.
  • DATASET_NAME: Um nome para o conjunto de dados.
  • SOURCE_LANG_CODE: o código de idioma que especifica o idioma de origem do conjunto de dados.
  • TARGET_LANG_CODE: o código de idioma que especifica o idioma de destino do conjunto de dados.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Corpo JSON da solicitação:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Outras linguagens

C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para o .NET.

PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para PHP.

Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para Ruby.

Importar segmentos para um conjunto de dados

Depois de criar um conjunto de dados, é possível importar pares de segmentos para ele. Para mais detalhes sobre como preparar os dados de treinamento, consulte Como preparar dados de treinamento.

Para cada arquivo, o console do Google Cloud permite incluir tags em pares de segmentos importados com um ou mais pares de chave-valor. A inclusão de tags facilita a localização e a filtragem de segmentos por origem. Por exemplo, um par de chave-valor pode ser Domain:costmetics ou Year:2020.

É possível adicionar tags ao importar segmentos pelo console do Google Cloud. A API não permite a inclusão de tags. Além disso, não é possível modificar ou adicionar tags a segmentos que já foram importados.

IU da Web

As etapas a seguir importam itens para um conjunto de dados existente.

  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, clique em Conjuntos de dados.

  3. Na lista de conjuntos de dados, clique no nome do conjunto de dados a que você quer adicionar dados de treinamento.

  4. Acesse a guia Importar.

  5. Adicione arquivos para importar pares de segmentos para treinamento de modelo.

    Faça upload de arquivos do computador local para um bucket do Cloud Storage ou selecione arquivos existentes do Cloud Storage.

    Por padrão, o Cloud Translation divide automaticamente os dados em conjuntos de treinamento, validação e teste. Se você quiser fazer upload de arquivos separados para cada divisão, selecione Usar arquivos separados para treinamento, validação e teste (avançado). Use essa opção se o conjunto de dados tiver mais de 100.000 pares de segmentos para evitar exceder o limite máximo de 10.000 pares de segmentos para os conjuntos de validação e teste.

  6. Para adicionar tags a pares de segmentos, abra Tags (opcional).

    1. Na lista de arquivos, clique em Editar para incluir uma ou mais tags em todos os pares de segmentos de um determinado arquivo.

    2. No painel Tags, clique em Adicionar tag.

    3. Insira uma chave e um Valor. Será possível filtrar segmentos por esse par de chave-valor.

    4. Para adicionar mais tags, clique em Adicionar tag.

    5. Clique em Continuar quando terminar de adicionar tags.

  7. Clique em Continuar para importar pares de segmentos.

    Depois que a importação for concluída, você poderá ver os pares de frases importadas na guia Frases do seu conjunto de dados. Você filtra os segmentos por divisão (treinamento, validação ou teste) e por uma ou mais tags.

REST

Use o método projects.locations.datasets.importData para importar itens para um conjunto de dados.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto no Google Cloud.
  • LOCATION: a região em que o conjunto de dados estará localizado, como us-central1.
  • DATASET_ID: o ID do conjunto de dados ao qual os dados serão adicionados.
  • FILE_DISPLAY_NAME: o nome do arquivo que contém os dados a serem importados.
  • USAGE: especifica a divisão de dados para esses pares de segmentos (TRAIN, VALIDATION ou TEST).
  • FILE_PATH: o caminho para o arquivo de dados de origem no Cloud Storage.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Corpo JSON da solicitação:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Outras linguagens

C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para o .NET.

PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para PHP.

Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para Ruby.

Depois de criar e preencher o conjunto de dados, é possível treinar um modelo. Para saber mais, consulte Como criar e gerenciar rótulos.

Problemas de importação

Quando você cria um conjunto de dados, o AutoML Translation pode descartar pares de segmentos se eles forem muito longos, se os segmentos nos idiomas de origem e de destino forem idênticos (não traduzidos) ou se houver duplicatas (vários segmentos com o mesmo número de texto do idioma de origem).

Para pares de segmentos muito longos, recomendamos dividir os segmentos para aproximadamente 200 palavras ou menos e, em seguida, recriar o conjunto de dados. Portanto, o limite de 200 palavras é uma estimativa do tamanho máximo. Ao processar seus dados, o AutoML Translation usa um processo interno para tokenizar os dados de entrada, o que pode aumentar o tamanho das frases. Esses dados tokenizados são usados pelo AutoML Translation para medir o tamanho dos dados.

Para pares de segmento idênticos, remova-os do conjunto de dados. Se você quiser impedir que alguns segmentos sejam traduzidos, use um recurso de glossário para criar um dicionário personalizado.

Exportar dados

É possível exportar pares de segmentos de conjuntos de dados atuais para um bucket do Cloud Storage.

Interface da Web

  1. Acesse o console do AutoML Translation.

    Acessar a página "Tradução"

  2. No painel de navegação, clique em Conjuntos de dados para ver uma lista dos seus conjuntos de dados.

  3. Clique no nome do conjunto de dados para o qual você quer exportar dados.

  4. Na página de detalhes do conjunto de dados, clique em Exportar dados.

  5. Selecione um destino do Cloud Storage em que os arquivos TSV exportados serão salvos.

  6. Clique em Exportar.

    O AutoML Translation produz arquivos TSV nomeados de acordo com o conjunto de conjuntos de dados (treinamento, validação e teste).

REST

Use o método projects.locations.datasets.exportData para exportar dados para o Cloud Storage como arquivos TSV.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto no Google Cloud.
  • LOCATION: a região em que o conjunto de dados a ser exportado está localizado, como us-central1.
  • DATASET_ID: o ID do conjunto de dados a ser exportado.
  • DESTINATION_DIRECTORY: o caminho do Cloud Storage para onde a saída é enviada.

Método HTTP e URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Corpo JSON da solicitação:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Outras linguagens

C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para o .NET.

PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para PHP.

Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para Ruby.

Listar conjuntos de dados

Liste os conjuntos de dados disponíveis no projeto.

Interface da Web

Para ver uma lista dos conjuntos de dados disponíveis usando o console do AutoML Translation, clique em Conjuntos de dados no painel de navegação.

Para ver os conjuntos de dados de outro projeto, selecione o projeto na lista suspensa na parte superior direita da barra de título.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto no Google Cloud.
  • LOCATION: a região em que os conjuntos de dados a serem listados estão localizados, como us-central1.

Método HTTP e URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Outras linguagens

C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para o .NET.

PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para PHP.

Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para Ruby.

Excluir um conjunto de dados

Interface da Web

  1. No console do AutoML Translation, clique em Conjuntos de dados no painel de navegação para exibir a lista de conjuntos de dados disponíveis.

  2. Para excluir o conjunto de dados, selecione Mais > Excluir.

  3. Clique em Confirmar na caixa de diálogo de confirmação.

REST

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

  • PROJECT_ID pelo ID do projeto no Google Cloud.
  • LOCATION: a região em que os conjuntos de dados a serem listados estão localizados, como us-central1.
  • DATASET_ID: o ID do conjunto de dados a ser excluído.

Método HTTP e URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Para enviar a solicitação, expanda uma destas opções:

Você receberá uma resposta JSON semelhante a esta:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Outras linguagens

C#: Siga as Instruções de configuração do C# na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para o .NET.

PHP: Siga as Instruções de configuração do PHP na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para PHP.

Ruby: Siga as Instruções de configuração do Ruby na página das bibliotecas de cliente e acesse Documentação de referência do Cloud Translation para Ruby.