Mit Data Catalog arbeiten

Data Catalog ist ein Feature von Dataplex, das in BigQuery eingebunden wird. Es katalogisiert automatisch Metadaten zu BigQuery-Ressourcen wie Tabellen, Datasets, Ansichten und Modellen. In diesem Dokument wird beschrieben, wie Sie in diesen Ressourcen suchen, die Datenherkunft ansehen und Tags mithilfe von Data Catalog hinzufügen.

Nach BigQuery-Ressourcen suchen

So verwenden Sie Data Catalog für die Suche nach BigQuery-Datasets, -Tabellen und markierten Projekten:

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Suche auf.

    Zur Suche

  2. Geben Sie in das Feld Suche eine Suchanfrage ein und klicken Sie auf Suchen.

    Mit der Data Catalog-Suche können Sie Daten in Ihren Projekten und Organisationen finden.

    Verwenden Sie zum Verfeinern der Suchparameter den Bereich Filter. Klicken Sie beispielsweise im Abschnitt Systeme das Kästchen BigQuery an. Die Ergebnisse werden nach BigQuery-Systemen gefiltert.

Sie können einfache Suchanfragen in Data Catalog über die Google Cloud Console ausführen. Weitere Informationen zur Suche in der Google Cloud Console finden Sie unter Öffentliches Dataset öffnen.

Data Lineage

Die Datenherkunft ist ein Dataplex-Feature, mit dem Sie verfolgen können, wie Daten sich durch Ihre Systeme bewegen: woher die Daten stammen, wohin sie übertragen werden und welche Transformationen auf sie angewendet werden. Sie können direkt über BigQuery auf das Data-Lineage-Feature zugreifen.

Wenn Sie die Herkunft der Daten in Ihrem BigQuery-Projekt aktivieren, zeichnet Dataplex automatisch die Herkunftsinformationen für Tabellen auf, die von den folgenden Vorgängen erstellt wurden:

Hinweis

In diesem Abschnitt aktivieren Sie die Data Lineage API und weisen IAM-Rollen (Identity and Access Management) zu, die Nutzern die erforderlichen Berechtigungen zum Ausführen der einzelnen Aufgaben in diesem Dokument gewähren.

Data Lineage aktivieren

  1. Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl das Projekt aus, das die Ressourcen enthält, für die Sie die Herkunft verfolgen möchten.

    Zur Projektauswahl

  2. Aktivieren Sie die Data Lineage API und Data Catalog APIs.

    APIs aktivieren

Erforderliche IAM-Rollen

Informationen zur Herkunft werden automatisch erfasst, wenn Sie die Data Lineage API aktivieren.

Bitten Sie Ihren Administrator, Ihnen die folgenden IAM-Rollen zu gewähren, um die Berechtigungen zu erhalten, die Sie zum Aufrufen von Herkunftsvisualisierungsdiagrammen benötigen:

Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff verwalten.

Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

Weitere Informationen finden Sie unter Data Lineage-Rollen.

Herkunftsdiagramme in BigQuery ansehen

So rufen Sie das Diagramm zur Datenreihenvisualisierung in BigQuery auf:

  1. Öffnen Sie in der Google Cloud Console die Seite BigQuery.

    BigQuery aufrufen

  2. Maximieren Sie im Bereich Explorer Ihr Projekt und das Dataset und wählen Sie dann eine Tabelle aus.

  3. Klicken Sie auf den Tab Lineage.

    Tab „Datenherkunft“.

    Ihr Diagramm zur Datenvisualisierung wird angezeigt.

    Data-Lineage-Diagramm

  4. Optional: Wählen Sie einen Knoten aus, um weitere Details zu den Entitäten oder Prozessen aufzurufen, die an der Erstellung von Herkunftsinformationen beteiligt sind.

Weitere Informationen zur Data-Lineage finden Sie unter Datenherkunft.

Tags und Tag-Vorlagen

Mit Tags können Organisationen Metadaten für alle ihre Dateneinträge in einem einheitlichen Dienst erstellen, suchen und verwalten.

In diesem Abschnitt werden zwei wichtige Data Catalog-Konzepte erläutert:

  • Mit Tags können Sie Kontext für einen Dateneintrag angeben, indem Sie benutzerdefinierte Metadatenfelder anhängen.

  • Tag-Vorlagen sind wiederverwendbare Strukturen, mit denen sich schnell neue Tags erstellen lassen.

Tags

Der Data Catalog bietet zwei Arten von Tags: private Tags und öffentliche Tags.

Private Tags

Private Tags bieten strenge Zugriffssteuerungen. Sie können die Tags und die zugehörigen Dateneinträge nur suchen oder ansehen, wenn Ihnen die erforderlichen Leseberechtigungen sowohl für die private Tag-Vorlage als auch die Dateneinträge gewährt wurden.

Für die Suche nach privaten Tags auf der Data Catalog-Seite müssen Sie die Suchsyntax tag: oder die Suchfilter verwenden.

Private Tags eignen sich für Szenarien, in denen Sie einige vertrauliche Informationen im Tag speichern müssen und zusätzliche Zugriffsbeschränkungen anwenden möchten, außer dass der Nutzer berechtigt ist, den getaggten Eintrag aufzurufen.

Öffentliche Tags

Öffentliche Tags bieten im Vergleich zu privaten Tags eine weniger strenge Zugriffssteuerung für die Suche und Anzeige von Tags. Jeder Nutzer, der über die erforderlichen Leseberechtigungen für einen Dateneintrag verfügt, kann alle zugehörigen öffentlichen Tags ansehen. Leseberechtigungen für öffentliche Tags sind nur erforderlich, wenn Sie in Data Catalog eine Suche mit der Syntax tag: oder einer nicht angehängten Tag-Vorlage ausführen.

Öffentliche Tags unterstützen sowohl die einfache Suche als auch die Suche mit Prädikaten auf der Data Catalog-Suchseite. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die Standardeinstellung und die empfohlene Option in der Google Cloud Console.

Angenommen, Sie haben eine öffentliche Tag-Vorlage namens employee data, die Sie zum Erstellen von Tags für drei Dateneinträge mit den Namen Name, Location und Salary verwendet haben. Von den drei Dateneinträgen können nur Mitglieder einer bestimmten Gruppe namens HR den Dateneintrag Salary sehen. Die anderen beiden Dateneinträge haben Leseberechtigungen für alle Mitarbeiter des Unternehmens.

Wenn ein Mitarbeiter kein Mitglied der HR-Gruppe ist, die Data Catalog-Suchseite verwendet und mit dem Wort employee sucht, zeigt das Suchergebnis nur die Dateneinträge Name und Location mit den zugehörigen öffentlichen Tags an.

Öffentliche Tags sind für eine Vielzahl von Szenarien hilfreich. Öffentliche Tags unterstützen die einfache Suche und Suche mit Prädikaten, während private Tags nur die Prädikate unterstützen.

Tag-Vorlagen

Um mit dem Taggen von Metadaten zu beginnen, müssen Sie zuerst mindestens eine Tag-Vorlage erstellen. Eine Tag-Vorlage kann eine öffentliche oder eine private Tag-Vorlage sein. Wenn Sie eine Tag-Vorlage erstellen, ist die Option zum Erstellen einer öffentlichen Tag-Vorlage die Standardeinstellung und wird in der Google Cloud Console empfohlen. Eine Tag-Vorlage ist eine Gruppe an Schlüssel/Wert-Paaren in Form von Metadaten, die Felder genannt werden. Ein Satz Vorlagen ist mit einem Datenbankschema für Ihre Metadaten vergleichbar.

Sie können Ihre Tags nach Themen strukturieren. Beispiele:

  • Ein data governance-Tag mit Feldern für Data Governor, Aufbewahrungsdatum, Löschdatum, personenidentifizierbare Informationen (Ja oder Nein), Datenklassifizierung (öffentlich, vertraulich, gesetzliche Vorschriften)
  • Ein data quality-Tag mit Feldern für Qualitätsprobleme, Aktualisierungshäufigkeit, SLO-Informationen
  • Ein data usage-Tag mit Feldern für Top-Nutzer, Top-Abfragen, durchschnittliche Anzahl täglicher Nutzer

Sie können dann Tags miteinander mischen und so kombinieren, dass nur die Tags verwendet werden, die für jedes Daten-Asset und Ihre Geschäftsanforderungen relevant sind.

Zum Einstieg enthält Data Catalog eine Galerie von Beispiel-Tag-Vorlagen, um gängige Tag-Anwendungsfälle zu veranschaulichen. Anhand dieser Beispiele erfahren Sie mehr über die Möglichkeiten von Tagging, als Inspiration oder als Ausgangspunkt für die Erstellung einer eigenen Tagging-Infrastruktur.

Führen Sie die folgenden Schritte aus, um eine Tag-Vorlage zu verwenden:

  1. Rufen Sie in der Google Cloud Console die Dataplex-Seite Tag-Vorlagen auf.

    Tag-Vorlagen aufrufen

  2. Klicken Sie auf Tag-Vorlage erstellen.

    Die Vorlagengalerie wird auf der Seite Vorlage erstellen angezeigt.

Nachdem Sie eine Vorlage aus der Galerie ausgewählt haben, können Sie sie wie jede andere Tag-Vorlage verwenden. Außerdem haben Sie die Möglichkeit, Attribute hinzuzufügen oder zu löschen und können die Vorlage ganz nach Ihren geschäftlichen Anforderungen ändern. Anschließend können Sie mit Data Catalog nach den Vorlagenfeldern und -werten suchen.

Weitere Informationen zu Tags und Tag-Vorlagen finden Sie unter Tags und Tag-Vorlagen.

Regionale Ressourcen

Alle Tag-Vorlagen und Tags werden in einer bestimmten Google Cloud-Region gespeichert. Mit Tag-Vorlagen können Sie Tags in beliebigen Regionen erstellen. Sie müssen also keine Kopien Ihrer Vorlage erstellen, wenn Sie Metadateneinträge über mehrere Regionen verteilt haben.