Créer un modèle de traduction personnalisé

Entraîner et utiliser un modèle de traduction personnalisé à l'aide de la console Google Cloud. L'exemple suivant utilise AutoML Translation pour entraîner un modèle de traduction anglais-espagnol en utilisant un ensemble de données contenant des paires de segments axées sur la technologie et la localisation du logiciel.

Avant de commencer

Pour pouvoir utiliser AutoML Translation, l'API Cloud Translation doit être activée pour votre projet, et vous devez disposer des autorisations associées aux rôles suivants :

  • Rôle Lecteur pour afficher les ressources existantes dans votre projet
  • Rôle Éditeur de l'API Cloud Translation pour créer et gérer des ensembles de données et des modèles
  • Rôle Administrateur de l'espace de stockage pour importer des données d'entraînement dans un bucket Cloud Storage

Créer un ensemble de données de traduction et importer des paires de segments

  1. Téléchargez le fichier d'archive contenant les exemples de données pour l'entraînement du modèle, puis extrayez les fichiers.

    Pour ce tutoriel, vous utiliserez le fichier TSV anglophone en espagnol.

  2. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  3. Dans le volet de navigation, cliquez sur Ensembles de données pour accéder à la page Ensembles de données.

  4. Cliquez sur Créer l’ensemble de données.

  5. Dans la boîte de dialogue Créer un ensemble de données, spécifiez les détails de l'ensemble de données :

    1. Saisissez tutorial_dataset comme nom de l'ensemble de données.
    2. Sélectionnez Anglais (EN) comme langue source dans la liste déroulante.
    3. Sélectionnez Espagnol (ES) comme langue cible.
    4. Cliquez sur Créer.
  6. Une fois l'ensemble de données créé, cliquez sur son nom pour en afficher les détails.

  7. Accédez à l'onglet Importer et importez l'ensemble de données en-es.tsv dans Cloud Storage:

    1. Sélectionnez Importer des fichiers à partir de votre ordinateur.
    2. Cliquez sur Sélectionner des fichiers, puis choisissez le fichier en-es.tsv que vous avez précédemment téléchargé et extrait.
    3. Cliquez sur Parcourir pour sélectionner ou créer un bucket Cloud Storage dans lequel votre fichier TSV est stocké. La région du bucket doit être us-central1.
  8. Cliquez sur Continuer.

    AutoML Translation divise automatiquement vos données en ensembles d'entraînement, de validation et de test. Vous pouvez afficher ces divisions et les paires de phrases importées dans l'onglet Phrases de votre ensemble de données.

Entraîner un modèle

  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, accédez à la page Ensembles de données.

  3. Cliquez sur l'ensemble de données tutorial_dataset.

  4. Ouvrez l'onglet Entraînement.

  5. Cliquez sur Démarrer l'entraînement pour ouvrir le volet Entraîner le nouveau modèle.

  6. Saisissez tutorial_model comme nom du modèle.

  7. Cliquez sur Démarrer l'entraînement.

L'entraînement d'un modèle peut prendre plusieurs heures.

Évaluer le modèle

Comparez le modèle au modèle Google NMT par défaut basé sur des paires de segments de votre ensemble de test.

  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, accédez à la page Modèles.

  3. Cliquez sur le modèle tutorial_model.

  4. Cliquez sur l'onglet Évaluation.

Dans la section Évaluations précédentes, Cloud Translation affiche le score BLEU de votre modèle par rapport au modèle NMT de Google. Le score BLEU (Bilingual Evaluation Understudy) indique la similitude entre une traduction automatique et des textes de référence. Les valeurs plus proches de 100 correspondent à des textes plus similaires.

Utiliser le modèle de traduction

À partir de la console Google Cloud, vous pouvez utiliser votre modèle personnalisé pour traduire du texte.

  1. Accédez à la console AutoML Translation.

    Accéder à la page "Traduction"

  2. Dans le volet de navigation, accédez à la page Modèles.

  3. Cliquez sur le modèle tutorial_model.

  4. Cliquez sur l'onglet Prédiction.

  5. Dans la zone de texte Anglais, saisissez le texte à traduire, puis cliquez sur Traduire.

    Vous pouvez comparer les résultats de votre modèle personnalisé avec ceux de Google NMT.

Effectuer un nettoyage

Pour éviter des frais Google Cloud inutiles, supprimez votre modèle, votre ensemble de données et votre fichier en-es.tsv. Vous pouvez également utiliser la console Google Cloud pour supprimer votre projet, si vous n'en avez plus besoin.

Étapes suivantes