创建自定义翻译模型

使用 Google Cloud 控制台训练和使用自定义翻译模型。以下示例使用 AutoML Translation,通过包含软件本地化的技术导向型句段对的数据集,训练英语-西班牙语翻译模型。

准备工作

您的项目必须启用 Cloud Translation API,并且您必须拥有以下角色授予的权限,然后才能开始使用 AutoML Translation:

  • Viewer 角色,可以查看项目中的现有资源
  • Cloud Translation API Editor 角色,可以创建和管理数据集和模型
  • Storage Admin 角色,可以将训练数据上传到 Cloud Storage 存储桶

创建翻译数据集并导入句段对

  1. 下载包含用于训练模型的示例数据的归档文件,并提取文件。

    在本教程中,您将使用英语到西班牙语的 TSV 文件。

  2. 转到 AutoML Translation 控制台。

    转到“翻译”页面

  3. 在导航窗格中,点击数据集以转到数据集页面。

  4. 点击创建数据集

  5. 创建数据集对话框中,指定数据集的详细信息:

    1. 输入 tutorial_dataset 作为数据集的名称。
    2. 从下拉列表中选择英语 (EN) 作为源语言。
    3. 选择西班牙语 (ES) 作为目标语言。
    4. 点击创建
  6. 创建数据集后,点击数据集名称以查看其详细信息。

  7. 转到导入标签页,并将 en-es.tsv 数据集上传到 Cloud Storage:

    1. 选择从您的计算机上传文件
    2. 点击选择文件,然后选择您之前下载和解压缩的 en-es.tsv 文件。
    3. 点击浏览,以选择或创建用于存储 TSV 的新 Cloud Storage 存储桶。存储桶区域必须为 us-central1
  8. 点击继续

    AutoML Translation 会自动将数据拆分为训练集、验证集和测试集。您可以在数据集的句子标签页中查看这些拆分和导入的句对。

训练模型

  1. 转到 AutoML Translation 控制台。

    转到“翻译”页面

  2. 在导航窗格中,转到数据集页面。

  3. 点击 tutorial_dataset 数据集。

  4. 转到训练标签页。

  5. 点击开始训练,以打开训练新模型窗格。

  6. 输入 tutorial_model 作为模型名称。

  7. 点击开始训练

模型训练可能需要几个小时才能完成。

评估模型

检查该模型与基于测试集中的句段对的默认 Google NMT 模型的对比情况。

  1. 转到 AutoML Translation 控制台。

    转到“翻译”页面

  2. 从导航窗格中,转到模型页面。

  3. 点击 tutorial_model 模型。

  4. 点击评估标签页。

之前的评估部分中,Cloud Translation 会显示您的模型的 BLEU 得分与 Google NMT 模型的对比情况。BLEU (Bilingual Evaluation Understudy) 得分表明了候选文本与参考文本的相似程度。值越接近 100,表示文本越相似。

使用翻译模型

在 Google Cloud 控制台中,您可以使用自定义模型来翻译一些文本。

  1. 转到 AutoML Translation 控制台。

    转到“翻译”页面

  2. 从导航窗格中,转到模型页面。

  3. 点击 tutorial_model 模型。

  4. 点击预测标签页。

  5. 英语文本框中,输入要翻译的文本,然后点击翻译

    您可以比较一下自定义模型与 Google NMT 模型的翻译结果。

清理

为避免产生不必要的 Google Cloud 费用,请删除您的模型数据集en-es.tsv 文件。您还可以使用 Google Cloud 控制台删除不需要的项目。

后续步骤

  • 如需了解自定义模型,请参阅新手指南
  • 如需创建自己的数据集和自定义模型,请参阅准备训练数据,了解如何准备数据。