Membangun solusi analisis ML vision dengan Dataflow dan Cloud Vision API

Last reviewed 2024-05-23 UTC

Dalam arsitektur referensi ini, Anda akan mempelajari kasus penggunaan, alternatif desain, dan pertimbangan desain saat men-deploy pipeline Dataflow untuk memproses file gambar dengan Cloud Vision dan menyimpan hasil yang diproses di BigQuery. Anda dapat menggunakan hasil yang disimpan tersebut untuk analisis data skala besar dan untuk melatih model siap pakai BigQuery ML.

Dokumen arsitektur referensi ini ditujukan untuk data engineer dan ilmuwan data.

Arsitektur

Diagram berikut mengilustrasikan alur sistem untuk arsitektur referensi ini.

Arsitektur yang menunjukkan alur informasi untuk menyerap dan memicu, memproses, serta menyimpan dan menganalisis proses.

Seperti yang ditunjukkan dalam diagram sebelumnya, informasi mengalir sebagai berikut:

  1. Penyerapan dan pemicu: Ini adalah tahap pertama dalam alur sistem tempat image pertama kali masuk ke sistem. Selama tahap ini, tindakan berikut terjadi:

    1. Klien mengupload file gambar ke bucket Cloud Storage.
    2. Untuk setiap upload file, Cloud Storage otomatis mengirimkan notifikasi input dengan memublikasikan pesan ke Pub/Sub.
  2. Proses: Tahap ini segera mengikuti tahap penyerapan dan pemicu. Untuk setiap notifikasi input baru, tindakan berikut akan terjadi:

    1. Pipeline Dataflow memproses notifikasi input file ini, mengekstrak metadata file dari pesan Pub/Sub, dan mengirim referensi file ke Vision API untuk diproses.
    2. Vision API membaca gambar dan membuat anotasi.
    3. Pipeline Dataflow menyimpan anotasi yang dihasilkan oleh Vision API dalam tabel BigQuery.
  3. Simpan dan analisis: Ini adalah tahap terakhir dalam alur. Pada tahap ini, Anda dapat melakukan tindakan berikut dengan hasil yang disimpan:

    1. Membuat kueri tabel BigQuery dan menganalisis anotasi yang disimpan.
    2. Gunakan BigQuery ML atau Vertex AI untuk membuat model dan menjalankan prediksi berdasarkan anotasi yang disimpan.
    3. Lakukan analisis tambahan di pipeline Dataflow (yang tidak ditampilkan di diagram ini).

Produk yang digunakan

Arsitektur referensi ini menggunakan produk Google Cloud berikut:

Kasus penggunaan

Vision API mendukung berbagai fitur pemrosesan, termasuk pelabelan gambar, deteksi wajah dan struktur, pengenalan karakter optik, pemberian tag konten vulgar, dan lainnya. Masing-masing fitur ini memungkinkan beberapa kasus penggunaan yang berlaku untuk industri yang berbeda. Dokumen ini berisi beberapa contoh sederhana tentang hal yang mungkin dilakukan ketika menggunakan Vision API, tetapi spektrum kemungkinan aplikasi sangat luas.

Vision API juga menawarkan model machine learning terlatih yang canggih melalui REST dan RPC API. Anda dapat menetapkan label ke gambar dan mengklasifikasikannya ke dalam jutaan kategori yang telah ditentukan. Fitur ini membantu Anda mendeteksi objek, membaca teks yang dicetak dan ditulis tangan, serta membangun metadata berharga ke dalam katalog gambar Anda.

Arsitektur ini tidak memerlukan pelatihan model sebelum Anda dapat menggunakannya. Jika Anda memerlukan model kustom yang dilatih berdasarkan data spesifik, Vertex AI memungkinkan Anda melatih AutoML atau model kustom untuk tujuan computer vision, seperti klasifikasi gambar dan deteksi objek. Atau, Anda dapat menggunakan Vertex AI Vision untuk lingkungan pengembangan aplikasi menyeluruh yang memungkinkan Anda membangun, men-deploy, dan mengelola aplikasi computer vision.

Alternatif desain

Alih-alih menyimpan gambar dalam bucket Google Cloud Storage, proses yang menghasilkan gambar dapat memublikasikan gambar secara langsung ke sistem pesan—misalnya Pub/Sub—dan pipeline Dataflow dapat mengirim gambar secara langsung ke Vision API.

Alternatif desain ini dapat menjadi solusi yang baik untuk kasus penggunaan yang sensitif terhadap latensi saat Anda perlu menganalisis gambar dengan ukuran yang relatif kecil. Pub/Sub membatasi ukuran maksimum pesan hingga 10 Mb.

Jika perlu melakukan batch memproses gambar dalam jumlah besar, Anda dapat menggunakan asyncBatchAnnotate API yang dirancang khusus.

Pertimbangan desain

Bagian ini menjelaskan pertimbangan desain untuk arsitektur referensi ini:

Keamanan, privasi, dan kepatuhan:

Gambar yang diterima dari sumber yang tidak tepercaya dapat berisi malware. Karena Vision API tidak mengeksekusi apa pun berdasarkan gambar yang dianalisisnya, malware berbasis gambar tidak akan memengaruhi API. Jika Anda perlu memindai gambar, ubah pipeline Dataflow untuk menambahkan langkah pemindaian. Untuk mendapatkan hasil yang sama, Anda juga dapat menggunakan langganan terpisah ke topik Pub/Sub dan memindai gambar dalam proses terpisah.

Untuk informasi selengkapnya, lihat Mengotomatiskan pemindaian malware untuk file yang diupload ke Cloud Storage.

Vision API menggunakan Identity and Access Management (IAM) untuk autentikasi. Untuk mengakses Vision API, akun utama keamanan memerlukan akses ke Cloud Storage > Storage object viewer (roles/storage.objectViewer) ke bucket yang berisi file yang ingin Anda analisis.

Pengoptimalan biaya

Dibandingkan opsi lain yang dibahas, seperti pemrosesan latensi rendah dan batch processing asinkron, arsitektur referensi ini menggunakan cara hemat biaya untuk memproses gambar dalam pipeline streaming dengan mengelompokkan permintaan API. Streaming gambar langsung dengan latensi lebih rendah yang disebutkan di bagian Alternatif desain dapat lebih mahal karena adanya biaya tambahan Pub/Sub dan Dataflow. Untuk pemrosesan gambar yang tidak perlu terjadi dalam hitungan detik atau menit, Anda dapat menjalankan pipeline Dataflow dalam mode batch. Menjalankan pipeline dalam mode batch dapat memberikan sedikit penghematan jika dibandingkan dengan biaya untuk menjalankan pipeline streaming.

Vision API mendukung anotasi gambar batch asinkron offline untuk semua fitur. Permintaan asinkron mendukung hingga 2.000 gambar per batch. Sebagai respons, Vision API akan menampilkan file JSON yang disimpan di bucket Cloud Storage.

Vision API juga menyediakan serangkaian fitur untuk menganalisis gambar. Harga adalah per gambar per fitur. Untuk mengurangi biaya, hanya minta fitur spesifik yang Anda perlukan untuk solusi Anda.

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengoptimalan performa

Vision API adalah API yang membutuhkan banyak resource. Oleh karena itu, pemrosesan gambar dalam skala besar memerlukan orkestrasi panggilan API yang cermat. Pipeline Dataflow menangani pengelompokan permintaan API, menangani pengecualian yang terkait dengan pencapaian kuota dengan baik, dan menghasilkan metrik kustom penggunaan API. Metrik ini dapat membantu Anda memutuskan apakah peningkatan kuota API diperlukan, atau apakah parameter pipeline Dataflow harus disesuaikan untuk mengurangi frekuensi permintaan. Untuk mengetahui informasi lebih lanjut tentang peningkatan permintaan kuota untuk Vision API, lihat Kuota dan batas.

Pipeline Dataflow memiliki beberapa parameter yang dapat memengaruhi latensi pemrosesan. Untuk mengetahui informasi selengkapnya tentang parameter ini, lihat Men-deploy solusi analisis ML vision dengan Dataflow dan Vision API.

Deployment

Untuk men-deploy arsitektur ini, lihat Men-deploy solusi analisis ML vision dengan Dataflow dan Vision API.

Langkah selanjutnya

Kontributor

Penulis:

Kontributor lainnya:

Untuk melihat profil LinkedIn non-publik, login ke LinkedIn.