Datenprofilerstellung

Mit der Dataplex-Datenprofilerstellung können Sie gängige statistische Eigenschaften der Spalten in Ihren BigQuery-Tabellen ermitteln. Diese Informationen helfen Ihnen, Ihre Daten effektiver zu verstehen und zu analysieren.

Informationen wie typische Datenwerte, Datenverteilung und Nullwerte können die Analyse beschleunigen. In Kombination mit der Datenklassifizierung können mit der Datenprofilerstellung Datenklassen oder vertrauliche Informationen erkannt werden, die wiederum Richtlinien für die Zugriffssteuerung aktivieren können.

Dataplex verwendet diese Informationen auch, um Regeln für Datenqualitätsprüfungen zu empfehlen.

Konzeptmodell

Mit Dataplex können Sie einen Datenprofilscan erstellen, um das Profil Ihrer Daten besser zu verstehen.

Das folgende Diagramm zeigt, wie Dataplex Daten scannt, um Berichte zu statistischen Merkmalen zu erstellen.

Bei einem Datenprofilscan werden Tabellendaten analysiert, um Berichte zu statistischen Merkmalen zu erstellen.

Ein Datenprofilerstellungsscan ist einer BigQuery-Tabelle zugeordnet und scannt die Tabelle, um die Ergebnisse der Datenprofilerstellung zu generieren. Ein Datenprofilscan unterstützt mehrere Konfigurationsoptionen.

Konfigurationsoptionen

In diesem Abschnitt werden die Konfigurationsoptionen beschrieben, die zum Ausführen von Scans zur Datenprofilerstellung verfügbar sind.

Planungsoptionen

Sie können einen Datenprofilscan mit einer definierten Häufigkeit oder bei Bedarf über die API oder die Google Cloud Console planen.

Geltungsbereich

Im Rahmen der Spezifikation eines Datenprofilscans können Sie den Bereich eines Jobs als eine der folgenden Optionen angeben:

  • Vollständige Tabelle: Die gesamte Tabelle wird im Datenprofilscan gescannt. Stichproben-, Zeilen- und Spaltenfilter werden auf die gesamte Tabelle angewendet, bevor die Profilerstellungsstatistik berechnet wird.

  • Inkrementell: Die von Ihnen angegebenen inkrementellen Daten werden beim Datenprofilscan gescannt. Geben Sie eine Date- oder Timestamp-Spalte in der Tabelle an, die als Inkrement verwendet werden soll. In der Regel ist dies die Spalte, nach der die Tabelle partitioniert ist. Stichproben, Zeilen- und Spaltenfilter werden auf die inkrementellen Daten angewendet, bevor die Profilerstellungsstatistiken berechnet werden.

Daten filtern

Sie können Daten, die für die Profilerstellung gescannt werden sollen, mithilfe von Zeilen- und Spaltenfiltern filtern. Mithilfe von Filtern können Sie die Ausführungszeit und -kosten reduzieren und sensible und nicht nützliche Daten ausschließen.

  • Zeilenfilter: Mit Zeilenfiltern können Sie sich auf Daten innerhalb eines bestimmten Zeitraums oder aus einem bestimmten Segment wie einer Region konzentrieren. Sie können beispielsweise Daten mit einem Zeitstempel vor einem bestimmten Datum herausfiltern.

  • Spaltenfilter: Mit Spaltenfiltern können Sie bestimmte Spalten aus der Tabelle ein- oder ausschließen, um den Datenprofilerstellungsscan auszuführen.

Beispieldaten

Mit Dataplex können Sie einen Prozentsatz der Datensätze aus Ihren Daten angeben, die zum Ausführen eines Datenprofilscans geprüft werden sollen. Durch das Erstellen von Scans zur Datenprofilerstellung für eine kleinere Stichprobe von Daten können die Ausführungszeit und die Kosten für die Abfrage des gesamten Datasets reduziert werden.

Mehrere Datenprofilerstellungsscans

Mit Dataplex können Sie mit der Google Cloud Console mehrere Datenprofilscans gleichzeitig erstellen. Sie können bis zu 100 Tabellen aus einem Dataset auswählen und für jedes Dataset einen Datenprofilscan erstellen. Weitere Informationen

Scanergebnisse in BigQuery-Tabelle exportieren

Sie können die Scanergebnisse der Datenprofilerstellung zur weiteren Analyse in eine BigQuery-Tabelle exportieren. Um die Berichterstellung anzupassen, können Sie die BigQuery-Tabellendaten mit einem Looker-Dashboard verbinden. Sie können einen aggregierten Bericht erstellen, indem Sie dieselbe Ergebnistabelle für mehrere Scans verwenden.

Ergebnisse der Datenprofilerstellung

Die Ergebnisse der Datenprofilerstellung enthalten die folgenden Werte:

Spaltentyp Ergebnisse der Datenprofilerstellung
Numerische Spalte
  • Prozentsatz der Nullwerte.
  • Prozentsatz der annähernden eindeutigen (eindeutigen) Werte.
  • Die 10 häufigsten Werte in der Spalte Er kann kleiner als 10 sein, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist. Nullwerte werden nicht berücksichtigt. Für jeden dieser häufigsten Werte wird der Prozentsatz des Vorkommens dieses Werts in den im aktuellen Scan gescannten Daten angezeigt.
  • Durchschnitt, Standardabweichung, Mindestwert, ungefähres unteres Quartil, ungefährer Medianwert, ungefähres oberes Quartil und Höchstwerte.
Spalte „String“
  • Prozentsatz der Nullwerte.
  • Prozentsatz der annähernden eindeutigen (eindeutigen) Werte.
  • Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein kann, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist.
  • Durchschnittliche, minimale und maximale Länge des Strings.
Andere nicht verschachtelte Spalten (Datum, Uhrzeit, Zeitstempel, Binärzahlen usw.)
  • Prozentsatz der Nullwerte.
  • Prozentsatz der annähernden eindeutigen (eindeutigen) Werte.
  • Die 10 häufigsten Werte in der Spalte, die kleiner als 10 sein kann, wenn die Anzahl der eindeutigen Werte in der Spalte kleiner als 10 ist.
Alle anderen verschachtelten oder komplexen Datentypspalten (z. B. Datensatz, Array, JSON) oder eine beliebige Spalte im Modus Repeated.
  • Prozentsatz der Nullwerte.

Die Ergebnisse umfassen die Anzahl der Datensätze, die bei jeder Ausführung gescannt werden.

Berichterstellung und Überwachung

Sie können die Ergebnisse der Datenprofilerstellung mit den folgenden Berichten und Methoden überwachen und analysieren:

  • Mit der Quelltabelle auf den Seiten „BigQuery“ und „Data Catalog“ veröffentlichte Berichte

    Wenn Sie einen Datenprofilscan konfiguriert haben, um die Ergebnisse auf den BigQuery- und Data Catalog-Seiten in der Google Cloud Console zu veröffentlichen, können Sie die Ergebnisse des neuesten Datenprofilscans auf diesen Seiten auf dem Tab Datenprofil von jedem Projekt aus aufrufen.

    Veröffentlichte Berichte

  • Bericht „Bisherige Daten“ pro Job in Dataplex

    Auf der Dataplex-Seite Profile (Profil) können Sie die detaillierten Berichte für die neuesten und bisherigen Jobs ansehen. Dazu gehören Profilinformationen auf Spaltenebene und die verwendete Konfiguration.

    Bisheriger Bericht pro Job

  • Tab „Analyse“

    Auf der Dataplex-Seite Profil können Sie auf dem Tab Analyse die Trends für eine bestimmte Statistik einer Spalte über mehrere Profiljobs anzeigen. Bei einem inkrementellen Scan können Sie beispielsweise sehen, wie sich der Durchschnitt eines Werts im Laufe der Zeit entwickelt hat.

    Tab „Analyse“.

  • Eigenes Dashboard oder eigene Analysen erstellen

    Wenn Sie einen Datenprofilscan zum Exportieren oder Speichern von Ergebnissen in einer BigQuery-Tabelle konfiguriert haben, können Sie mit Tools wie Looker Studio eigene Dashboards erstellen.

Beschränkungen

  • Ergebnisse der Datenprofilerstellung werden nicht als Tags in Data Catalog veröffentlicht.
  • Die Datenprofilerstellung wird für BigQuery-Tabellen mit allen Spaltentypen außer BIGNUMERIC unterstützt. Ein Scan, der für eine Tabelle mit der Spalte BIGNUMERIC erstellt wird, führt zu einem Validierungsfehler und kann nicht erfolgreich erstellt werden.
  • Die zu scannenden BigQuery-Tabellen dürfen maximal 300 Spalten haben.

Preise

  • Dataplex verwendet die Premium-SKU für die Verarbeitung zur Abrechnung der Datenprofilerstellung. Weitere Informationen finden Sie unter Preise.

  • Das Veröffentlichen von Ergebnissen der Datenprofilerstellung in Data Catalog ist noch nicht verfügbar. Sobald diese verfügbar ist, wird sie zum selben Preis wie die Speicherung von Katalogmetadaten in Rechnung gestellt. Weitere Informationen finden Sie unter Preise.

  • Die Premium-Verarbeitung von Dataplex für die Datenprofilerstellung wird pro Sekunde mit einem Minimum von einer Minute abgerechnet.

  • Fehlgeschlagene Profilerstellungsscans werden Ihnen nicht in Rechnung gestellt.

  • Die Kosten hängen von der Anzahl der Zeilen, der Anzahl der Spalten, der Menge der gescannten Daten, den Partitionierungs- und Clustering-Einstellungen der Tabelle und der Häufigkeit des Scans ab.

  • Es gibt mehrere Möglichkeiten, die Kosten für Datenprofilscans zu reduzieren:

    • Probenahme
    • Inkrementelle Scans
    • Spaltenfilterung
    • Zeilenfilterung
  • Verwenden Sie das Label goog-dataplex-workload-type mit dem Wert DATA_PROFILE, um die Gebühren für die Datenprofilerstellung von anderen Gebühren der Dataplex Premium-Verarbeitungs-SKU zu trennen.

  • Verwenden Sie die folgenden Labels, um zusammengefasste Gebühren zu filtern:

    • goog-dataplex-datascan-data-source-dataplex-entity
    • goog-dataplex-datascan-data-source-dataplex-lake
    • goog-dataplex-datascan-data-source-dataplex-zone
    • goog-dataplex-datascan-data-source-project
    • goog-dataplex-datascan-data-source-region
    • goog-dataplex-datascan-id
    • goog-dataplex-datascan-job-id

Nächste Schritte