Panduan pemula AutoML Translation

Dengan AutoML Translation, Anda dapat membangun model kustom (tanpa menulis kode) yang disesuaikan untuk konten khusus domain Anda dibandingkan dengan model Terjemahan Mesin Neural Google (NMT) default.

Bayangkan bahwa Anda memiliki layanan pelaporan keuangan yang memiliki peluang untuk berekspansi ke negara-negara baru. Pasar tersebut mengharuskan dokumen keuangan Anda yang terikat waktu diterjemahkan secara real time. Alih-alih mempekerjakan staf keuangan dwibahasa atau mengontrak penerjemah spesialis, keduanya memerlukan biaya tinggi karena keahlian domain dan kebutuhan Anda akan penyelesaian yang cepat, model kustom dapat membantu Anda mengotomatisasi pekerjaan terjemahan dengan cara yang skalabel.

Terjemahan

Coba sendiri

Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa Cloud Translation dalam skenario dunia nyata. Pelanggan baru mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Coba Cloud Translation secara gratis

Mengapa Machine Learning (ML) merupakan alat yang tepat untuk masalah ini?

Pemrograman klasik mengharuskan programmer memberikan petunjuk langkah demi langkah untuk diikuti oleh komputer. Namun, pendekatan berbasis aturan ini akan langsung menjadi tidak mungkin untuk diterjemahkan. Bahasa alami itu rumit, dan menerjemahkannya juga rumit. Terjemahan mesin dilakukan hampir seluruhnya dengan pendekatan statistik, dengan korpora paralel besar yang menggantikan pakar linguistik yang menyesuaikan sekumpulan aturan khusus secara manual.

Anda memerlukan sistem yang dapat melakukan generalisasi ke berbagai skenario terjemahan, tetapi berfokus pada kasus penggunaan dan domain linguistik khusus tugas pada pasangan bahasa yang penting bagi Anda. Dalam skenario ketika urutan aturan tertentu terikat untuk diperluas secara eksponensial, Anda memerlukan sistem yang dapat belajar dari contoh. Untungnya, sistem machine learning sangat tepat untuk menyelesaikan masalah ini.

Apakah model NMT default atau model kustom adalah alat yang tepat untuk saya?

Model terjemahan mesin neural (NMT) mencakup sejumlah besar pasangan bahasa dan berfungsi baik saat digunakan untuk teks tujuan umum. Model kustom yang benar-benar unggul adalah pada tahap pra finalisasi antara tugas terjemahan generik dan kosakata khusus yang spesifik. AutoML Translation dimulai dari model NMT generik, lalu menyesuaikan model agar sesuai dengan data pelatihan Anda guna mendapatkan terjemahan yang tepat untuk konten khusus domain yang penting bagi Anda.

Apa yang tercakup dalam machine learning?

Machine learning melibatkan penggunaan data untuk melatih algoritma guna mencapai hasil yang diinginkan. Hal-hal spesifik dari algoritma dan metode pelatihan berubah berdasarkan ruang lingkup masalah. Ada banyak subkategori yang berbeda dari machine learning, yang semuanya memecahkan masalah yang berbeda dan bekerja dalam batasan yang berbeda. AutoML Translation memungkinkan Anda melakukan supervised learning, yang melibatkan pelatihan komputer untuk mengenali pola dari pasangan segmen yang diterjemahkan. Dengan supervised learning, kita dapat melatih model kustom untuk menerjemahkan konten khusus domain yang penting bagi Anda.

Persiapan Data

Untuk melatih model kustom, Anda harus menyediakan pasangan segmen yang cocok dalam bahasa sumber dan target, yaitu pasangan segmen yang memiliki arti sama dalam bahasa asal terjemahan dan bahasa target. Semakin dekat arti pasangan segmen, semakin baik model Anda akan berfungsi.

Menilai kasus penggunaan Anda

Saat menyusun set data, selalu mulailah dengan kasus penggunaan. Anda bisa mulai dengan pertanyaan-pertanyaan berikut:

  • Apa hasil yang ingin Anda capai?
  • Jenis segmen apa yang perlu Anda terjemahkan untuk mencapai hasil ini? Apakah ini tugas yang dapat langsung dilakukan oleh model NMT?
  • Apakah mungkin bagi manusia untuk menerjemahkan segmen ini dengan cara yang memenuhi standar Anda? Jika tugas terjemahan bersifat ambigu, sampai-sampai orang yang fasih dalam kedua bahasa akan kesulitan melakukan pekerjaan yang memuaskan, mungkin model NMT dan model kustom Anda serupa dalam hal performa.
  • Jenis contoh apa yang paling mencerminkan jenis dan rentang data yang perlu diterjemahkan oleh sistem Anda?

Prinsip utama yang mendasari produk ML Google adalah machine learning yang berpusat pada manusia, yaitu pendekatan yang mengedepankan praktik AI yang bertanggung jawab, termasuk keadilan. Tujuan keadilan dalam ML adalah untuk memahami dan mencegah perlakuan yang tidak adil atau merugikan orang-orang yang terkait dengan ras, pendapatan, orientasi seksual, agama, gender, dan karakteristik lain yang secara historis terkait dengan diskriminasi dan marginalisasi, jika muncul dalam sistem algoritma atau pengambilan keputusan dengan bantuan algoritma. Anda dapat membaca selengkapnya di panduan kami dan menemukan catatan fair-aware dalam panduan di bawah ini. Saat Anda mempelajari panduan penyusunan set data, sebaiknya pertimbangkan faktor keabsahan machine learning jika relevan dengan kasus penggunaan Anda.

Mendapatkan data Anda

Setelah menentukan data yang diperlukan, Anda harus berupaya untuk mendapatkannya. Anda dapat memulai dengan memperhitungkan semua data yang dikumpulkan organisasi. Anda mungkin mendapati bahwa Anda sudah mengumpulkan data yang diperlukan untuk melatih model terjemahan. Jika tidak memiliki data yang diperlukan, Anda dapat memperolehnya secara manual atau meng-outsourcenya kepada penyedia pihak ketiga.

Cocokkan data dengan domain permasalahan Anda

Anda melatih model terjemahan kustom karena memerlukan model yang sesuai dengan domain linguistik tertentu. Pastikan pasangan segmen Anda telah optimal dalam merangkum keunikan kosakata, penggunaan, dan tata bahasa di industri atau area fokus Anda. Temukan dokumen berisi penggunaan umum yang akan Anda temukan dalam tugas terjemahan yang ingin diselesaikan, dan pastikan frasa paralelnya cocok dengan makna sedapat mungkin. Tentu saja, terkadang bahasa tidak dapat dipetakan dengan sempurna dalam hal kosakata atau sintaksis, tetapi cobalah untuk menangkap keragaman semantik yang Anda temui, jika memungkinkan. Anda membuat model dengan fitur terjemahan tujuan umum yang sudah cukup baik - contoh Anda adalah langkah terakhir yang spesial yang akan membuat model kustom berfungsi secara khusus untuk kasus penggunaan Anda. Jadi, pastikan mereka relevan dan mewakili penggunaan yang Anda harapkan.

Abadikan keragaman ruang linguistik Anda

Memang mudah untuk berasumsi bahwa cara orang menulis tentang domain tertentu cukup seragam, sehingga sejumlah kecil sampel teks yang diterjemahkan oleh sejumlah kecil penerjemah seharusnya cukup untuk melatih model yang efektif bagi siapapun yang menulis tentang domain tersebut. Tapi kita semua adalah individu, dan masing-masing dari kita menghadirkan kepribadian kita dalam kata-kata yang kita tulis. Set data pelatihan dengan pasangan kalimat dari banyak pilihan penulis dan penerjemah memiliki kemungkinan yang lebih besar dalam memberi Anda model yang berguna untuk menerjemahkan tulisan dari berbagai organisasi. Selain itu, pertimbangkan berbagai panjang dan struktur kalimat; set data yang semua kalimatnya memiliki ukuran yang sama atau memiliki struktur tata bahasa yang serupa tidak akan memberikan cukup informasi pada AutoML Translation untuk membuat model baik yang mampu mencakup semua kemungkinan.

Tetap memerlukan interaksi manusia

Jika memungkinkan, pastikan ada orang yang memahami kedua bahasa tersebut yang telah memvalidasi bahwa pasangan kalimat sudah benar dan mewakili terjemahan yang dapat dipahami dan akurat. Kesalahan sederhana seperti tidak menyelaraskan barisan spreadsheet data pelatihan dapat menghasilkan terjemahan yang terdengar tidak masuk akal. Data berkualitas tinggi adalah hal terpenting yang dapat Anda berikan ke AutoML Translation untuk mendapatkan model yang bermanfaat bagi bisnis Anda.

Bersihkan data yang berantakan

Sangat mudah untuk membuat kesalahan saat prapemrosesan, dan beberapa kesalahan tersebut dapat benar-benar membingungkan model AutoML Translation. Utamanya, temukan masalah data berikut yang dapat Anda perbaiki:

  • Hapus segmen sumber duplikat, terutama jika segmen tersebut memiliki target terjemahan yang berbeda. AutoML Translation hanya menggunakan contoh yang pertama kali dilihat dan menghapus semua pasangan lainnya pada waktu impor. Dengan menghapus duplikat, Anda memastikan AutoML Translation menggunakan terjemahan pilihan Anda.
  • Selaraskan segmen sumber ke segmen target yang benar.
  • Mencocokkan segmen dengan bahasa yang ditentukan; misalnya, sertakan hanya segmen bahasa China dalam set data bahasa China.
  • Untuk segmen target yang menyertakan bahasa campuran, pastikan kata yang tidak diterjemahkan sengaja tidak diterjemahkan, seperti nama produk atau organisasi. Segmen target yang secara keliru menyertakan kata yang tidak diterjemahkan akan menambahkan derau ke data pelatihan Anda, sehingga dapat menghasilkan model berkualitas lebih rendah.
  • Perbaiki segmen dengan kesalahan tipografi atau tata bahasa sehingga model Anda tidak meniru kesalahan ini.
  • Hapus konten yang tidak dapat diterjemahkan, seperti tag placeholder dan tag HTML. Konten yang tidak dapat diterjemahkan dapat menyebabkan error tanda baca.
  • Jangan menyertakan terjemahan yang menggantikan entitas umum dengan kata benda spesifik. Misalnya, Anda mungkin memiliki contoh yang mengubah "presiden" menjadi nama presiden tertentu, seperti "JFK" atau "John F Kennedy". Model dapat ikut mengubah semua instance "presiden" menjadi "JFK". Sebagai gantinya, hapus terjemahan ini atau ubah kata benda tertentu menjadi kata yang umum.
  • Hapus segmen duplikat dalam set pelatihan dan pengujian. (Pelajari set pelatihan dan pengujian lebih lanjut)
  • Bagi beberapa segmen menjadi pasangan segmen yang berbeda. Melakukan pelatihan pada set data dengan banyak item yang memiliki lebih dari 50 token (kata) akan menghasilkan model berkualitas lebih rendah. Bagi item menjadi kalimat individu, jika memungkinkan.
  • Gunakan huruf besar/kecil secara konsisten. Penggunaan huruf besar/kecil memengaruhi cara model belajar, misalnya, untuk membedakan teks judul dengan isi.
  • Menghapus tag TMX saat mengimpor data dari file TSV. Dalam beberapa kasus, Anda dapat mengekspor memori terjemahan yang sudah ada ke file TSV, yang mungkin menyertakan tag TMX. Namun, AutoML Translation hanya menghapus tag unit terjemahan saat Anda mengimpor dari file TMX (bukan untuk file TSV).

Cara AutoML Translation melakukan prapemrosesan data Anda

AutoML Translation berhenti mengurai file input data Anda saat:

  • Ada format yang tidak valid
  • Ada pasangan segmen yang sangat panjang (10 MB)
  • File menggunakan encoding selain UTF-8

AutoML Translation mengabaikan error untuk masalah yang tidak dapat dideteksi, seperti:

  • Elemen <tu> dalam file TMX tidak memiliki bahasa sumber atau target bahasa.
  • Salah satu pasangan segmen input kosong.

Untuk pembagian data otomatis, AutoML Translation melakukan pemrosesan tambahan:

  • Setelah set data diupload, set data akan menghapus pasangan segmen dengan segmen sumber yang identik.
  • Sistem ini membagi data Anda secara acak menjadi tiga set dengan rasio 8:1:1 (train:validation:test) sebelum pelatihan.

Pertimbangkan bagaimana AutoML Translation menggunakan set data Anda dalam membuat model kustom

Set data Anda berisi set pelatihan, validasi, dan pengujian. Jika Anda tidak menentukan pemisahan (lihat Mempersiapkan data pelatihan Anda dan set data Anda berisi kurang dari 100000 pasangan segmen, maka AutoML Translation akan otomatis menggunakan 80% dokumen konten Anda untuk pelatihan, 10% untuk validasi, dan 10% untuk pengujian. Jika data Anda lebih besar dari itu, Anda harus melakukan pembagian data sendiri.

Set Pelatihan

Sebagian besar data Anda harus berada dalam set pelatihan. Data ini adalah data yang "dilihat" oleh model Anda selama pelatihan: data ini digunakan untuk mempelajari parameter model, yaitu bobot koneksi antara node jaringan neural.

Set Validasi

Set validasi, terkadang juga disebut dengan kumpulan "dev", juga digunakan selama proses pelatihan. Selama pembelajaran model, framework menggunakan set pelatihan untuk melatih serangkaian model kandidat, kemudian menggunakan performa model pada set validasi untuk memilih model terbaik yang dihasilkan. Model tersebut menggunakan performa model pada validasi yang ditetapkan untuk menyesuaikan hyperparameter model, yang merupakan variabel yang menentukan struktur model. Jika Anda menggunakan set pelatihan untuk menyesuaikan hyperparameter, model tersebut akan terlalu fokus pada data pelatihan Anda. Menggunakan set data yang agak baru untuk menyesuaikan struktur model berarti model Anda akan digeneralisasi dengan lebih baik.

Set Pengujian

Set pengujian sama sekali tidak terlibat dalam proses pelatihan. Setelah model menyelesaikan pelatihannya sepenuhnya, kami menggunakan set pengujian sebagai tantangan yang benar-benar baru untuk model Anda. Performa model Anda di set pengujian dimaksudkan untuk memberi Anda gambaran yang cukup tentang performa model Anda pada data dunia nyata.

Pembagian Manual

AutoML dapat membagi data Anda menjadi set pelatihan, validasi, dan pengujian untuk Anda, atau Anda dapat melakukannya sendiri jika ingin memiliki kontrol yang lebih besar atas prosesnya, jika Anda menginginkan persentase pembagian yang berbeda, atau jika ada contoh tertentu yang yakin ingin disertakan dalam bagian tertentu dari siklus proses pelatihan model Anda.

 

Siapkan data Anda untuk diimpor

Setelah memutuskan pemisahan data secara manual atau otomatis, ada dua cara untuk menambahkan data:

  • Anda dapat mengimpor data sebagai file nilai yang dipisahkan tab (TSV) yang berisi segmen sumber dan target, satu pasangan segmen per baris.
  • Anda dapat mengimpor data sebagai file TMX, format standar untuk menyediakan pasangan segmen ke alat model terjemahan otomatis (pelajari lebih lanjut format TMX yang didukung). Jika file TMX berisi tag XML yang tidak valid, AutoML akan mengabaikannya. Jika file TMX tidak sesuai dengan format XML dan TMX yang tepat – misalnya, jika file tidak memiliki tag akhir atau elemen <tmx> – AutoML tidak akan memprosesnya. Cloud Translation juga mengakhiri pemrosesan dan menampilkan error jika melampaui lebih dari 1024 elemen <tu> yang tidak valid.

Evaluasi

Setelah model dilatih, Anda akan menerima ringkasan performa model tersebut. Klik tab Latih untuk melihat analisis mendetail.

Apa yang harus saya perhatikan sebelum mengevaluasi model saya?

Proses debug model seharusnya lebih difokuskan pada proses debug data, dan bukan pada model itu sendiri. Jika model Anda mulai bereaksi secara tidak terduga saat Anda mengevaluasi performanya sebelum dan setelah dikirim ke produksi, Anda harus kembali dan memeriksa data untuk melihat area yang dapat ditingkatkan.

Skor BLEU

Skor BLEU adalah cara standar untuk mengukur kualitas sistem terjemahan mesin. AutoML Translation menggunakan skor BLEU yang dihitung pada data pengujian yang Anda berikan sebagai metrik evaluasi utamanya. (Pelajari skor BLEU lebih lanjut.)

Model Google NMT, yang mendukung Cloud Translation API, dibuat untuk penggunaan umum. Model ini mungkin bukan solusi terbaik jika Anda menginginkan terjemahan khusus untuk bidang Anda sendiri. Model kustom yang dilatih biasanya memiliki performa yang lebih baik daripada model NMT dalam bidang yang terkait dengan set pelatihan Anda.

Setelah melatih model kustom dengan set data Anda sendiri, skor BLEU dari model kustom dan model Google NMT akan ditampilkan di tab Latih. Ada juga peningkatan performa skor BLEU dari model kustom di tab Latih. Semakin tinggi skor BLEU, semakin baik pula terjemahan yang dapat diberikan model Anda untuk kalimat yang mirip dengan data pelatihan Anda. Jika skor BLEU berada dalam rentang 30-40, model dianggap mampu menghasilkan terjemahan yang baik.

Menguji model Anda

Meskipun skor BLEU terlihat bagus, sebaiknya periksa sendiri model untuk memastikan performanya sesuai dengan harapan Anda. Jika data pelatihan dan pengujian Anda diambil dari kumpulan sampel yang salah dan sama, skornya mungkin akan sangat bagus meskipun terjemahannya tidak masuk akal. Tambahkan beberapa contoh sebagai input pada tab Predict dan bandingkan hasil dari model kustom dengan model dasar Google NM. Anda mungkin memperhatikan bahwa model Anda memiliki prediksi yang sama dengan model dasar, terutama pada segmen pendek atau jika Anda memiliki set pelatihan yang lebih kecil. Hal ini wajar terjadi - model dasarnya sudah cukup bagus untuk berbagai kasus penggunaan. Coba beberapa segmen yang lebih panjang atau lebih kompleks. Namun, jika semua hasil kalimat Anda sama dengan prediksi dari model dasar, hal ini mungkin mengindikasikan masalah data.

Jika ada kesalahan yang membuat Anda khawatir dengan pembuatan model (misalnya, fitur pasangan bahasa yang membingungkan yang sering kali mengganggu penerjemah manusia, atau kesalahan terjemahan yang mungkin sangat merugikan dalam hal kapital atau reputasi) pastikan set atau prosedur pengujian Anda mencakup kasus tersebut dengan memadai agar Anda merasa aman menggunakan model dalam tugas sehari-hari.

Langkah berikutnya

  • Untuk membuat set data dan model kustom Anda sendiri, lihat Menyiapkan data pelatihan untuk mendapatkan petunjuk tentang cara menyiapkan data Anda.