Panduan keandalan Dataflow

Last reviewed 2023-08-07 UTC

Dataflow merupakan layanan pemrosesan data yang terkelola sepenuhnya yang memungkinkan pengembangan pipeline data streaming yang cepat dan sederhana dengan menggunakan library Apache Beam open source. Dataflow meminimalkan latensi, waktu pemrosesan, serta biaya melalui penskalaan otomatis dan batch processing.

Praktik terbaik

Membangun pipeline data siap produksi menggunakan Dataflow - serangkaian dokumen mengenai penggunaan Dataflow termasuk perencanaan, pengembangan, deployment, dan pemantauan pipeline Dataflow.

  • Ringkasan - pengantar pipeline Dataflow.
  • Perencanaan - mengukur SLO, memahami dampak dari sumber data dan sink terhadap skalabilitas dan performa pipeline, mempertimbangkan ketersediaan tinggi, pemulihan dari bencana (disaster recovery), dan performa jaringan saat menentukan region untuk menjalankan tugas Dataflow Anda.
  • Pengembangan dan pengujian - menyiapkan lingkungan deployment, mencegah hilangnya data dengan menggunakan antrean yang dihentikan pengirimannya untuk penanganan error, serta mengurangi latensi dan biaya dengan meminimalkan operasi per-elemen yang mahal. Selain itu, menggunakan batch untuk mengurangi overhead performa tanpa membebani layanan eksternal, memisahkan penggabungan langkah-langkah yang tidak tepat sehingga langkah-langkah tersebut terpisah demi performa yang lebih baik, serta menjalankan pengujian end-to-end dalam praproduksi untuk memastikan jika pipeline terus memenuhi SLO Anda dan persyaratan produksi lainnya.
  • Deployment - continuous integration (CI) serta continuous delivery dan deployment (CD), dengan pertimbangan khusus untuk men-deploy versi baru pipeline streaming. Selain itu, contoh pipeline CI/CD, dan beberapa fitur untuk mengoptimalkan penggunaan resource. Terakhir, pembahasan tentang ketersediaan tinggi, redundansi geografis, dan praktik terbaik untuk keandalan pipeline, termasuk isolasi regional, penggunaan banyak snapshot, penanganan pengiriman tugas yang error, serta pemulihan dari error dan gangguan layanan yang berdampak pada pengoperasian pipeline.
  • Pemantauan - mengobservasi indikator tingkat layanan (SLI) yang merupakan indikator penting bagi performa pipeline, serta menentukan dan mengukur tujuan tingkat layanan (SLO).