Klinische Daten und Betriebsdaten mit Cloud Data Fusion aufnehmen

In diesem Dokument erfahren Forscher, Data Scientists und IT-Teams, wie über Cloud Data Fusion Daten nutzbar gemacht werden können, indem sie in BigQuery, ein Data Warehouse für aggregierte Daten in Google Cloud, aufgenommen und dort transformiert und gespeichert werden.

Organisationen im Gesundheitswesen sind bei Analysen in ihrem Bereich auf Daten angewiesen. Meist sind diese jedoch in isolierten Systemen gespeichert. In diesem Dokument wird gezeigt, wie Sie mit Cloud Data Fusion auf diese Daten zugreifen können.

Cloud Data Fusion als Dienst zur Datenintegration verwenden

Cloud Data Fusion ist ein vollständig verwalteter, cloudnativer Datenintegrationsdienst mit einer umfassenden Bibliothek von Open-Source-Transformationen und mehr als 100 verfügbaren Plug-ins, die eine Vielzahl von Systemen und Datenformaten bieten.

Mit Cloud Data Fusion können Sie Rohdaten aus verschiedenen Quellen aufnehmen, integrieren und transformieren. Beispielsweise können Sie mit Cloud Data Fusion Datenquellen zusammenführen, bevor Sie Daten in BigQuery schreiben, um sie zu analysieren.

Rohdaten stammen aus Datenquellen, bei denen es sich um relationale Datenbanken, Dateisysteme, Mainframes und andere Legacy-Systeme, öffentlichen Cloud-Systeme und Google Cloud handeln kann. Cloud Data Fusion-Ziele, auch Senken genannt, sind die Standorte, an denen die Daten geschrieben werden, z. B. Cloud Storage und BigQuery.

Cloud Storage als Data Lake verwenden

Sie können Cloud Storage als Sammelpunkt für die Daten verwenden, die Sie in die Cloud verschieben möchten, und Sie können Cloud Storage auch als Data Lake nutzen. Mit seinen vielen Connectors füllt Cloud Data Fusion den Data Lake aus lokalen Systemen.

Klinische Datentypen mit der Cloud Healthcare API aufnehmen

Die Cloud Healthcare API bietet eine verwaltete Lösung für die Aufnahme, Speicherung und den Zugriff auf Gesundheitsdaten in Google Cloud, da sie eine wichtige Brücke zwischen Pflegesystemen und in der Cloud gehosteten Anwendungen bildet. In der Cloud Healthcare API entsprechen jeder modalitätsspezifische Datenspeicher und die zugehörige API den aktuellen Standards. Die Cloud Healthcare API unterstützt die Datentypen Fast Healthcare Interoperability Resources (FHIR), HL7v2 und Digital Imaging and Communications in Medicine (DICOM). Weitere Informationen finden Sie unter Getting to know the Cloud Healthcare API.

In letzter Zeit haben Organisationen des Gesundheitswesens den FHIR-Datentyp für EHR-Systeme (Electronic Health Record) und Gesundheitssysteme verwendet, um klinische Daten über verschiedene Organisationen hinweg besser abfragen zu können. Wenn Ihre Organisation Zugriff auf FHIR hat, können Sie die Cloud Healthcare API verwenden, um FHIR-Daten für Bulk-Uploads klinischer Daten aufzunehmen.

Die Cloud Healthcare API unterstützt mehrere Versionen von FHIR. Weitere Informationen zu unterstützten Versionen und Funktionen finden Sie in der FHIR-Konformitätserklärung.

Andere strukturierte Daten aufnehmen

Um die Möglichkeiten zur Datenintegration zu erweitern, unterstützen die in diesem Dokument besprochenen Google Cloud-Produkte gängige strukturierte Datenformate wie CSV, JSON, Avro, ORC und Parquet. Darüber hinaus kann Cloud Storage jedes Datenformat in Form eines Blob-Speichers aufnehmen. Weitere Informationen finden Sie unter Einführung in das Laden von Daten aus Cloud Storage.

Das Open-Source-Tool BigQuery Data Importer kann Rohdaten in BigQuery importieren und bietet folgende Features:

  • Automatische Dekomprimierung von Eingabedateien mit Unterstützung einer Vielzahl von Formaten, einschließlich GZIP, LZ4, TAR und ZIP
  • Vollständige Erkennung des Dataset-Schemas
  • Leistungsfähige Parallelisierung basierend auf Dataflow

Das Datenimport-Tool ist nicht auf Gesundheitsdaten beschränkt. Mit dem Tool können Sie beliebige Datasets in einem unterstützten Format zur weiteren Analyse in BigQuery importieren. Derzeit unterstützt das Tool CSV-Datentypen.

Daten laden

Es gibt zwei Arten des Ladens von Daten: vollständig und inkrementell. Beim anfänglichen vollständigen Laden werden Daten, die sich in lokalen Data Warehouses befinden, im Batchverfahren in BigQuery, das Cloud-Data-Warehouse von Google, geladen. Dieser vollständige Ladevorgang wird nur einmal ausgeführt.

Ein inkrementeller Ladevorgang erfolgt häufig nach der anfänglichen vollständigen Aufnahme mit dem Ziel, die Daten in der Cloud mit dem primären Datenspeicher synchron zu halten. Inkrementelle Ladevorgänge können über regelmäßige Datenbank-Dumps oder per Echtzeit-Streaming stattfinden. Für die regelmäßige Aktualisierung können Sie einen Batch von Datenbank-Updates in Cloud Storage laden und dann in das Cloud-Data-Warehouse integrieren. Für die Echtzeitaktualisierung können Sie die Echtzeit-Datenbankreplikation einrichten, indem Sie entweder OLTP-Datenbanken (Online Transaction Processing) oder Messaging-Protokolle wie das HL7v2-Streaming verwenden. Weitere Informationen finden Sie unter Cloud Data Transfer.

Große Datasets übertragen

Wenn Sie große Datasets in Google Cloud übertragen möchten, müssen Sie die Übertragungsdauer, die Kosten und die Komplexität berücksichtigen. Weitere Informationen finden Sie unter Migration zu Google Cloud: Große Datasets übertragen.

Datenlebenszyklus

Die Datenaufnahme ist nur der erste Schritt im Datenlebenszyklus. Google Cloud bietet Technologien für den gesamten Datenlebenszyklus, einschließlich Aufnahme, Speicherung, Analyse und Visualisierung.

Nächste Schritte