Tracking von Provenance- und Lineage-Metadaten für Gesundheitsdaten

In diesem Dokument wird beschrieben, wie Provenance- und Lineage-Metadaten für Gesundheitsdaten in Google Cloud für Forscher, Data Scientists und IT-Teams erfasst werden.

Mithilfe von Provenance- und Lineage-Metadaten können Gesundheitsorganisationen zurückverfolgen, woher ihre medizinischen und operativen Daten stammen, was mit den Daten geschieht und wo sie gespeichert werden. Mit diesem Tracking kann Ihre Organisation die folgenden Ziele beim Umgang mit Gesundheitsdaten erreichen:

  • Einhalten der Organisationsrichtlinien und externen Anforderungen
  • Erstellen von wiederholbaren, reproduzierbaren und vertretbaren Datenverarbeitungsarbeitslasten

Provenance- und Lineage-Metadaten haben je nach Anwendungsfall viele Datenebenen. In diesem Dokument werden drei Datenebenen behandelt: Dataset-Ebene, Feldebene (Spaltenebene) und Patientenaktenebene. Außerdem wird gezeigt, wie Sie mit in Google Cloud integrierten Funktionen auf diesen Ebenen auf Provenance- und Lineage-Metadaten zugreifen und diese verfolgen können.

Data Provenance

Data Provenance ist der Ursprung Ihrer Daten. Es ist wichtig den Überblick darüber zu behalten, welche Quelle welche Daten erzeugt, insbesondere wenn Sie mehrere Datenquellen zu einem gemeinsamen Schema vereinheitlichen. Weitere Informationen finden Sie unter Daten für BigQuery umwandeln und abstimmen.

Informationen zur Provenance sind auch nützlich, wenn Sie Datenqualitätsprüfungen durchführen oder Datenprofile erstellen. Wenn Sie beispielsweise wissen, woher die Daten stammen, können Sie entscheiden, ob sie Ihren Qualitätsstandards entsprechen oder ob sie bereinigt werden müssen.

Es gibt mehrere Möglichkeiten, die Provenance in Google Cloud zurückzuverfolgen. Sie können beispielsweise mithilfe einer Dateinamenskonvention oder einer Ordnerstruktur die Provenance beliebiger Datasets, z. B. Datasets in Cloud Storage, erfassen. Wenn die Datenquelle in der Dateinamenskonvention definiert ist, können Sie den Dateinamen mit Cloud Data Fusion parsen und das Quellsystem als strukturiertes Datenelement zum Dataset hinzufügen. So können nachgelagerte Nutzer nach Quellsystem filtern und Validierungsprüfungen auf Basis der Datenherkunft durchführen. Die folgende Dateinamenstruktur wird beispielsweise in mehrere Bereiche geparst:

gs://bucket-name/data-source/data-type/data-name-and-time

Im vorherigen Dateinamenbeispiel wird die Datenquelle in einem Bucket mit dem jeweiligen Datentyp in einem Ordnerunterbereich gespeichert. Der Dateiname wird mit dem Namen der Daten und ihrem Zeitstempel gekennzeichnet. Diese Dateinamenkonvention wird während der Verarbeitung geparst, sodass der Bucket, der Ordner und der Name jeweils als separate Datenelemente in der endgültigen Ausgabe hinzugefügt werden können.

FHIR-Herkunftsressource

Die FHIR-Spezifikation (Fast Healthcare Interoperability Resources), ein etablierter Standard für den elektronischen Austausch von Gesundheitsinformationen, enthält eine Ressource zur Verwaltung von Herkunftsinformationen. Wenn Sie die Google Cloud-Tools für strukturelle Transformationen verwenden, können Sie strukturelle Transformationen und Zuordnungen mithilfe der FHIR-Herkunftsressource erfassen. Jedes von Ihnen zugeordnete Element gibt eine Herkunftsressource aus, unabhängig davon, wie viele FHIR-Ressourcen es erzeugt. Mit dieser Ressource können Sie die Herkunft auf der Ebene von Patientenakten verfolgen.

Data Lineage

Data Lineage bezieht sich auf das, was mit den Daten in jedem Schritt der Pipeline geschieht. Es ist wichtig, zu wissen, welche Transformationen mit welchen Daten erfolgen, falls Sie das Ergebnis reproduzieren oder Informationen an Dritte weitergeben müssen. Cloud Data Fusion erfasst automatisch die Herkunft der Daten für alle integrierten Datasets auf Dataset- und Feldebene. Diese Datenerfassungsfunktion ist ein leistungsfähiges Tool, um die Arbeitslast für die Verwaltung von Herkunftsdaten zu reduzieren und Nutzern dabei zu helfen, Datenpipelines zu verstehen.

Als vollständig verwalteter Dienst zur Datenintegration bietet Cloud Data Fusion eine grafische Benutzeroberfläche (GUI), mit der Sie Pipelines und Datenfelder visuell verfolgen können, sowie eine API, mit der Sie die in Cloud Data Fusion gespeicherten Herkunftsdaten extrahieren können. Mit diesen beiden Schnittstellen können Sie mit anderen Quellen oder lokalen Herkunftsdaten arbeiten, um Datentransformationen im gesamten System zu verwalten. Derzeit unterstützt Cloud Data Fusion das Data Lineage auf Dataset- und Feldebene.

Best Practices

Hier einige Best Practices für das Tracking von Provenance- und Lineage-Daten in Google Cloud:

  • Aktivieren Sie Cloud Logging, wenn Sie eine Cloud Data Fusion-Instanz erstellen. Aktivieren Sie Cloud Logging ebenfalls mit der Cloud Healthcare API und mit jedem zusätzlichen cloudbasierten Tool oder Produkt, das Sie verwenden.
  • Verwenden Sie Cloud Data Fusion für einen möglichst großen Teil Ihrer Pipeline, da es die Herkunft nur für Prozesse erfassen kann, die in der Instanz ausgeführt werden. Wenn Transformationen außerhalb der Instanz stattfinden, z. B. in einer anderen Cloud oder lokal, achten Sie darauf, dass Sie über Best Practices zum Erfassen der Daten verfügen. Alternativ können Sie die Open-Source-Plattform Cask Data Application Platform (CDAP) verwenden, um Informationen zu erfassen.
  • Synchronisieren Sie die Daten-Tags und die Metadaten-Tags in Ihrer Organisation, damit über Geschäftsbereiche hinweg nach den Tags gesucht werden kann.

Nächste Schritte