Membuat model terjemahan kustom

Membuat model terjemahan kustom

Latih dan gunakan model terjemahan kustom menggunakan Konsol Google Cloud. Contoh berikut menggunakan AutoML Translation untuk melatih model terjemahan bahasa Inggris-ke-Spanyol menggunakan set data yang berisi pasangan segmen yang berhubungan dengan teknologi yang diperoleh dari pelokalan software.

Sebelum memulai

Sebelum Anda dapat mulai menggunakan AutoML Translation, project Anda harus mengaktifkan Cloud Translation API, dan Anda harus memiliki izin yang diberikan oleh peran berikut:

  • Peran Viewer untuk melihat resource yang ada di project Anda
  • Peran Cloud Translation API Editor untuk membuat serta mengelola set data dan model
  • Peran Storage Admin untuk mengupload data pelatihan ke bucket Cloud Storage

Membuat set data terjemahan dan mengimpor pasangan segmen

  1. Download file arsip yang berisi data sampel untuk melatih model, lalu ekstrak file tersebut.

    Untuk tutorial ini, Anda akan menggunakan file TSV bahasa Inggris ke bahasa Spanyol.

  2. Buka konsol AutoML Translation.

    Buka halaman Translation

  3. Dari panel navigasi, klik Set Data untuk membuka halaman Set Data.

  4. Klik Buat set data.

  5. Di dialog Buat set data, tentukan detail tentang set data tersebut:

    1. Masukkan tutorial_dataset sebagai nama untuk set data.
    2. Pilih Inggris (EN) sebagai bahasa sumber dari menu drop-down.
    3. Pilih Spanyol (ES) sebagai target bahasa.
    4. Klik Buat.
  6. Setelah set data dibuat, klik nama set data untuk melihat detailnya.

  7. Buka tab Impor, lalu upload set data en-es.tsv ke Cloud Storage:

    1. Pilih Upload file dari komputer.
    2. Klik Pilih file, lalu pilih file en-es.tsv yang telah Anda download dan ekstrak sebelumnya.
    3. Klik Jelajahi untuk memilih atau membuat bucket Cloud Storage baru tempat TSV disimpan. Region bucket harus us-central1.
  8. Klik Lanjutkan.

    AutoML Translation secara otomatis membagi data Anda menjadi set pelatihan, validasi, dan pengujian. Anda dapat melihat pemisahan ini dan pasangan kalimat yang diimpor di tab Kalimat dari set data Anda.

Melatih model

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Dari panel navigasi, buka halaman Set Data.

  3. Klik set data tutorial_dataset.

  4. Buka tab Latih.

  5. Klik Mulai pelatihan untuk membuka panel Latih model baru.

  6. Masukkan tutorial_model untuk nama model.

  7. Klik Mulai pelatihan.

Proses pelatihan model dapat memakan waktu beberapa jam untuk diselesaikan.

Mengevaluasi model

Periksa untuk melihat perbandingan model tersebut dengan model Google NMT default yang didasarkan pada pasangan segmen dari set pengujian Anda.

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Dari panel navigasi, buka halaman Model.

  3. Klik model tutorial_model.

  4. Klik tab Evaluasi.

Di bagian Evaluasi sebelumnya, Cloud Translation akan menampilkan skor BLEU model Anda jika dibandingkan dengan model Google NMT. Skor BLEU (Bilingual Evaluation Understudy) menunjukkan seberapa mirip teks kandidat dengan teks referensi; nilai yang mendekati angka 100 mewakili teks yang lebih serupa.

Menggunakan model terjemahan

Dari Konsol Google Cloud, Anda dapat menggunakan model kustom Anda untuk menerjemahkan beberapa teks.

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Dari panel navigasi, buka halaman Model.

  3. Klik model tutorial_model.

  4. Klik tab Prediksi.

  5. Di kotak teks Inggris, masukkan teks yang ingin diterjemahkan, lalu klik Terjemahkan.

    Anda dapat membandingkan hasil dari model kustom Anda dengan model Google NMT.

Pembersihan

Untuk menghindari biaya Google Cloud yang tidak perlu, hapus file model, set data, dan en-es.tsv. Anda juga dapat menggunakan Konsol Google Cloud untuk menghapus project Anda jika tidak membutuhkannya.

Langkah berikutnya

  • Untuk mempelajari model kustom, silakan melihat Panduan pemula.
  • Untuk membuat set data dan model kustom Anda sendiri, silakan melihat Menyiapkan data pelatihan untuk mendapatkan petunjuk tentang cara menyiapkan data.