Melacak metadata provenance dan lineage untuk data layanan kesehatan

Dokumen ini menjelaskan cara melacak metadata provenance dan lineage untuk data perawatan kesehatan di Google Cloud bagi para peneliti, data scientist, dan tim IT.

Metadata provenance dan lineage dapat membantu organisasi layanan kesehatan melacak dari mana data klinis dan operasional mereka berasal, apa yang terjadi pada data tersebut, dan dimana data tersebut disimpan. Pelacakan ini dapat membantu organisasi Anda dalam mencapai sasaran berikut saat menangani data layanan kesehatan:

  • Mematuhi kebijakan organisasi dan persyaratan eksternal.
  • Membuat beban kerja pemrosesan data yang dapat diulang, direproduksi, dan dibenarkan.

Metadata provenance dan lineage memiliki banyak level data, bergantung pada kasus penggunaannya. Dokumen ini mencakup tiga tingkat data—tingkat set data, tingkat kolom, dan tingkat catatan pasien—serta menunjukkan bagaimana fungsi bawaan di Google Cloud memungkinkan Anda mengakses dan melacak metadata provenance dan lineage pada tingkat-tingkat tersebut.

Data provenance

Data provenance adalah asal mula data Anda. Penting untuk melacak sumber mana yang menghasilkan data apa, terutama ketika Anda menyelaraskan beberapa sumber data ke skema yang sama. Untuk mengetahui informasi selengkapnya, lihat Mentransformasi dan menyelaraskan data untuk BigQuery.

Informasi Provenance juga berguna saat Anda menjalankan pemeriksaan kualitas data atau saat melakukan pembuatan profil data. Misalnya, jika mengetahui asal data, Anda dapat memutuskan apakah data memenuhi standar kualitas atau perlu dibersihkan.

Ada beberapa cara untuk melacak provenance di Google Cloud. Misalnya, Anda dapat melacak provenance set data arbitrer, seperti yang ada di Cloud Storage, menggunakan konvensi nama file atau struktur folder. Jika sumber data ditentukan dalam konvensi nama file, Anda dapat menggunakan Cloud Data Fusion untuk mengurai nama file dan menambahkan sistem sumber sebagai elemen data terstruktur ke dalam set data. Hal ini memungkinkan pengguna hilir memfilter berdasarkan sistem sumber dan menjalankan pemeriksaan validasi berdasarkan provenance data. Misalnya, struktur nama file berikut diurai menjadi beberapa bagian:

gs://bucket-name/data-source/data-type/data-name-and-time

Pada contoh nama file sebelumnya, sumber data disimpan dalam bucket, dengan jenis data tertentu dalam subpasal folder. Nama file diberi label berdasarkan nama data dan stempel waktunya. Konvensi nama file ini diuraikan selama pemrosesan, sehingga bucket, folder, dan nama masing-masing dapat ditambahkan sebagai elemen data terpisah dalam output akhir.

Resource provenance FHIR

Spesifikasi Fast Healthcare Interoperability Resources (FHIR), merupakan standar yang ditetapkan untuk pertukaran informasi layanan kesehatan secara elektronik, mencakup resource untuk mengelola informasi provenance. Jika Anda menggunakan alat Google Cloud untuk transformasi struktural, Anda dapat menggunakan resource provenance FHIR untuk melacak pemetaan dan transformasi struktural. Setiap elemen yang Anda petakan menghasilkan satu resource provenance, berapa pun jumlah resource FHIR yang dihasilkannya. Referensi ini memungkinkan Anda melacak silsilah di tingkat catatan pasien.

Silsilah data

Data lineage adalah hal yang terjadi pada data di setiap langkah di sepanjang pipeline. Penting untuk melacak transformasi yang terjadi pada data jika Anda perlu mereproduksi hasilnya atau memberikan informasi kepada pihak ketiga. Cloud Data Fusion secara otomatis melacak silsilah data untuk semua set data yang terintegrasi di tingkat set data dan tingkat kolom. Fungsi pengambilan data ini adalah alat yang canggih untuk mengurangi beban kerja dalam mengelola data silsilah, serta membantu pengguna memahami pipeline data.

Sebagai layanan integrasi data yang terkelola sepenuhnya, Cloud Data Fusion menyediakan antarmuka pengguna grafis (GUI) yang memungkinkan Anda melacak pipeline dan kolom data secara visual, serta API yang memungkinkan Anda mengekstrak data silsilah yang disimpan dalam Cloud Data Fusion. Kedua antarmuka ini memungkinkan Anda bekerja dengan sumber lain atau data silsilah lokal dalam mengelola transformasi data di seluruh ekosistem. Saat ini, Cloud Data Fusion mendukung silsilah di tingkat set data dan tingkat kolom.

Praktik terbaik

Beberapa praktik terbaik untuk melacak data asal dan silsilah di Google Cloud adalah sebagai berikut:

  • Mengaktifkan Cloud Logging saat Anda membuat instance Cloud Data Fusion. Mengaktifkan juga Cloud Logging dengan Cloud Healthcare API dan dengan alat atau produk berbasis cloud tambahan yang Anda gunakan.
  • Menggunakan Cloud Data Fusion sebanyak mungkin untuk pipeline Anda karena Cloud Data Fusion hanya dapat melacak silsilah untuk proses yang berjalan di dalam instance saja. Jika ada transformasi yang terjadi di luar instance—misalnya, di cloud yang berbeda atau di infrastruktur lokal—pastikan Anda memiliki praktik terbaik untuk melacak data. Atau, Anda dapat menggunakan open source Cask Data Application Platform (CDAP) untuk mendapatkan informasi.
  • Menyinkronkan tag data dengan tag metadata di seluruh organisasi Anda sehingga tag tersebut dapat ditelusuri di seluruh unit bisnis.

Langkah selanjutnya