Klassifizierungsmodell anhand von Volkszählungsdaten erstellen und verwenden

In dieser Anleitung verwenden Sie ein binäres logistisches Regressionsmodell in BigQuery ML, um den Einkommensbereich von Personen basierend auf ihren demografischen Daten vorherzusagen. Ein binäres logistisches Regressionsmodell sagt vorher, ob ein Wert in eine von zwei Kategorien fällt. In diesem Fall, ob das jährliche Einkommen einer Person über oder unter 50.000 $ fällt.

In dieser Anleitung wird das Dataset bigquery-public-data.ml_datasets.census_adult_income verwendet. Dieses Dataset enthält demografische und einkommensbezogene Informationen von US-Bürgern aus den Jahren 2000 und 2010.

Lernziele

Aufgaben in dieser Anleitung:

Logistisches Regressionsmodell erstellen
Modell bewerten
Vorhersagen mithilfe des Modells treffen.
Die vom Modell generierten Ergebnisse erklären.

Kosten

In dieser Anleitung werden kostenpflichtige Komponenten von Google Cloud verwendet, darunter:

BigQuery
BigQuery ML

Weitere Informationen zu den Kosten für BigQuery finden Sie auf der Seite BigQuery-Preise.

Weitere Informationen zu den Kosten für BigQuery ML finden Sie unter BigQuery ML-Preise.

Hinweise

Wählen Sie in der Google Cloud Console auf der Seite der Projektauswahl ein Google Cloud-Projekt aus oder erstellen Sie eines.

Hinweis: Wenn Sie die Ressourcen, die Sie in diesem Verfahren erstellen, nicht behalten möchten, erstellen Sie ein Projekt, anstatt ein vorhandenes Projekt auszuwählen. Wenn Sie fertig sind, können Sie das Projekt löschen und dadurch alle mit dem Projekt verknüpften Ressourcen entfernen.

Zur Projektauswahl
Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.
BigQuery API aktivieren.
Aktivieren Sie die API

Erforderliche Berechtigungen

Zum Erstellen des Modells mit BigQuery ML benötigen Sie die folgenden IAM-Berechtigungen:

bigquery.jobs.create
bigquery.models.create
bigquery.models.getData
bigquery.models.updateData
bigquery.models.updateMetadata

Zum Ausführen von Inferenzen benötigen Sie die folgenden Berechtigungen:

bigquery.models.getData für das Modell
bigquery.jobs.create

Einführung

Eine häufige Aufgabe beim maschinellen Lernen besteht darin, Daten einem von zwei Typen zuzuordnen, den sogenannten Labels. Beispielsweise wäre es für einen Einzelhändler interessant, anhand von bestimmten Informationen zu einem Kunden vorherzusagen, ob dieser Kunde ein neues Produkt kauft. In diesem Fall könnten die beiden Labels will buy und won't buy lauten. Der Einzelhändler kann ein Dataset so erstellen, dass eine Spalte beide Labels darstellt und außerdem Kundeninformationen wie den Standort des Kunden, seine vorherigen Einkäufe und die gemeldeten Präferenzen enthält. Der Einzelhändler kann dann ein binäres logistisches Regressionsmodell verwenden, das anhand dieser Kundeninformationen vorhersagt, welches Label den jeweiligen Kunden am besten repräsentiert.

In dieser Anleitung erstellen Sie ein binäres logistisches Regressionsmodell, das anhand der demografischen Attribute eines Befragten bei der US-Volkszählung vorhersagt, ob sein Einkommen in einen von zwei Bereichen fällt.

Dataset erstellen

Erstellen Sie ein BigQuery-Dataset zum Speichern des Modells:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen
Klicken Sie im Bereich Explorer auf den Namen Ihres Projekts.
Klicken Sie auf Aktionen ansehen > Dataset erstellen.
Führen Sie auf der Seite Dataset erstellen die folgenden Schritte aus:
- Geben Sie unter Dataset-ID census ein.
- Wählen Sie als Standorttyp die Option Multiregional und dann USA (mehrere Regionen in den USA) aus.
  
  Die öffentlichen Datasets sind am multiregionalen Standort US gespeichert. Der Einfachheit halber sollten Sie Ihr Dataset am selben Standort speichern.
- Übernehmen Sie die verbleibenden Standardeinstellungen und klicken Sie auf Dataset erstellen.

Sehen Sie sich die Daten an

Untersuchen Sie das Dataset und ermitteln Sie, welche Spalten als Trainingsdaten für das logistische Regressionsmodell verwendet werden sollen. Wählen Sie 100 Zeilen aus der Tabelle census_adult_income aus:

SQL

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor die folgende GoogleSQL-Abfrage aus:

SELECT
age,
workclass,
marital_status,
education_num,
occupation,
hours_per_week,
income_bracket,
functional_weight
FROM
`bigquery-public-data.ml_datasets.census_adult_income`
LIMIT
100;

Die Ergebnisse sehen in etwa so aus:

BigQuery DataFrames

Bevor Sie dieses Beispiel ausprobieren, folgen Sie den Schritten zur Einrichtung von BigQuery DataFrames in der BigQuery-Kurzanleitung: BigQuery DataFrames verwenden. Weitere Informationen finden Sie in der Referenzdokumentation zu BigQuery DataFrames.

Richten Sie zur Authentifizierung bei BigQuery die Standardanmeldedaten für Anwendungen ein. Weitere Informationen finden Sie unter Authentifizierung für eine lokale Entwicklungsumgebung einrichten.

import bigframes.pandas as bpd

df = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
    max_results=100,
)
df.peek()
# Output:
# age      workclass       marital_status  education_num          occupation  hours_per_week income_bracket  functional_weight
#  47      Local-gov   Married-civ-spouse             13      Prof-specialty              40           >50K             198660
#  56        Private        Never-married              9        Adm-clerical              40          <=50K              85018
#  40        Private   Married-civ-spouse             12        Tech-support              40           >50K             285787
#  34   Self-emp-inc   Married-civ-spouse              9        Craft-repair              54           >50K             207668
#  23        Private   Married-civ-spouse             10   Handlers-cleaners              40          <=50K              40060

In den Abfrageergebnissen sehen Sie, dass die Spalte income_bracket der Tabelle census_adult_income nur einen von zwei Werten enthält: <=50K oder >50K. Die Spalte functional_weight gibt die Anzahl der Personen an, die nach Ansicht der Volkszählungs-Organisationdurch eine bestimmte Zeile repräsentiert wird. Die Werte dieser Spalte stehen in keinem Zusammenhang mit dem Wert von income_bracket für eine bestimmte Zeile.

Beispieldaten vorbereiten

In dieser Anleitung sagen Sie das Einkommen der Befragten bei der Volkszählung anhand der folgenden Attribute vorher:

Alter
Art der Tätigkeit
Familienstand
Bildungsniveau
Beruf
Arbeitsstunden pro Woche

Für diese Vorhersage extrahieren Sie Informationen aus Daten zu Befragten der Volkszählung in der Tabelle census_adult_income. Wählen Sie Featurespalten aus, einschließlich:

education_num, das für das Bildungsniveau des Befragten steht
workclass, das für die Art der Tätigkeit des Befragten steht

Schließen Sie Spalten aus, die Daten duplizieren. Beispiel:

education, da education und education_num dieselben Daten in unterschiedlichen Formaten ausdrücken

Trennen Sie die Daten in Trainings-, Auswertungs- und Vorhersage-Sets, indem Sie eine neue dataframe-Spalte erstellen, die von der functional_weight-Spalte abgeleitet wird. Weisen Sie 80 % der Datenquelle anhand von Labels dem Trainieren des Modells zu und reservieren Sie die verbleibenden 20 % für die Bewertung und Vorhersage.

SQL

Erstellen Sie zur Vorbereitung der Beispieldaten eine Ansicht, die die Trainingsdaten enthält. Diese Ansicht wird später in dieser Anleitung von der CREATE MODEL-Anweisung verwendet.

Führen Sie die Abfrage aus, mit der die Beispieldaten vorbereitet werden:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

CREATE OR REPLACE VIEW
`census.input_data` AS
SELECT
age,
workclass,
marital_status,
education_num,
occupation,
hours_per_week,
income_bracket,
CASE
  WHEN MOD(functional_weight, 10) < 8 THEN 'training'
  WHEN MOD(functional_weight, 10) = 8 THEN 'evaluation'
  WHEN MOD(functional_weight, 10) = 9 THEN 'prediction'
END AS dataframe
FROM
`bigquery-public-data.ml_datasets.census_adult_income`

Maximieren Sie im Bereich Explorer das Dataset census und suchen Sie die Ansicht input_data.
Klicken Sie auf den Namen der Ansicht, um den Informationsbereich zu öffnen. Das Ansichtsschema wird auf dem Tab Schema angezeigt.

Abfrageergebnisse

BigQuery DataFrames

Erstellen Sie einen DataFrame mit dem Namen input_data. Sie verwenden input_data später in dieser Anleitung, um das Modell zu trainieren, zu bewerten und Vorhersagen zu treffen.

import bigframes.pandas as bpd

input_data = bpd.read_gbq(
    "bigquery-public-data.ml_datasets.census_adult_income",
    columns=(
        "age",
        "workclass",
        "marital_status",
        "education_num",
        "occupation",
        "hours_per_week",
        "income_bracket",
        "functional_weight",
    ),
)
input_data["dataframe"] = bpd.Series("training", index=input_data.index,).case_when(
    [
        (((input_data["functional_weight"] % 10) == 8), "evaluation"),
        (((input_data["functional_weight"] % 10) == 9), "prediction"),
    ]
)
del input_data["functional_weight"]

Logistisches Regressionsmodell erstellen

Erstellen Sie ein logistisches Regressionsmodell mit den Trainingsdaten, die Sie im vorherigen Abschnitt mit Labels versehen haben.

SQL

Verwenden Sie die Anweisung CREATE MODEL und geben Sie LOGISTIC_REG als Modelltyp an.

Im Folgenden finden Sie nützliche Informationen zur CREATE MODEL-Anweisung:

Die Option input_label_cols gibt an, welche Spalte in der SELECT-Anweisung als Labelspalte verwendet werden soll. Hier ist die Labelspalte income_bracket, sodass das Modell anhand der anderen in dieser Zeile vorhandenen Werte lernt, welcher der beiden Werte von income_bracket für eine bestimmte Zeile am wahrscheinlichsten ist.
Sie müssen nicht angeben, ob ein logistisches Regressionsmodell binär oder mehrklassig ist. BigQuery kann anhand der Anzahl der eindeutigen Werte in der Labelspalte bestimmen, welcher Modelltyp trainiert werden soll.
Die Option auto_class_weights ist auf TRUE gesetzt, um die Klassenlabels in den Trainingsdaten auszugleichen. Standardmäßig sind die Trainingsdaten ungewichtet. Wenn die Labels in den Trainingsdaten ungewichtet sind, lernt das Modell unter Umständen, bei der Vorhersage die häufigste Labelklasse zu stark einzubeziehen. In diesem Fall befinden sich die meisten Befragten im Dataset in der unteren Einkommensklasse. Dies kann zu einem Modell führen, in dem bei der Vorhersage die untere Einkommensklasse zu stark berücksichtigt wird. Mit Klassengewichtungen werden die Klassenlabels ausgewogen. Dazu werden für jede Klasse die Gewichtungen im umgekehrten Verhältnis zur Häufigkeit dieser Klasse berechnet.
Die Anweisung SELECT fragt die Ansicht input_data ab, die die Trainingsdaten enthält. Die Klausel WHERE filtert die Zeilen in input_data so, dass nur die Zeilen zum Trainieren des Modells verwendet werden, die als Trainingsdaten gekennzeichnet sind.

Führen Sie die Abfrage aus, mit der Ihr logistisches Regressionsmodell erstellt wird:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

CREATE OR REPLACE MODEL
`census.census_model`
OPTIONS
( model_type='LOGISTIC_REG',
  auto_class_weights=TRUE,
  data_split_method='NO_SPLIT',
  input_label_cols=['income_bracket'],
  max_iterations=15) AS
SELECT * EXCEPT(dataframe)
FROM
`census.input_data`
WHERE
dataframe = 'training'

Maximieren Sie im Bereich Explorer das Dataset census und dann den Ordner Modelle.
Klicken Sie auf das Modell census_model, um den Informationsbereich zu öffnen.
Klicken Sie auf den Tab Schema (Schema). Das Modellschema führt die Attribute auf, die BigQuery ML zur Durchführung der logistischen Regression verwendet hat. Das Schema sollte in etwa so aussehen:

Informationen zum Clusterschema

BigQuery DataFrames

Verwenden Sie die Methode fit, um das Modell zu trainieren, und die Methode to_gbq, um es in Ihrem Dataset zu speichern.

import bigframes.ml.linear_model

# input_data is defined in an earlier step.
training_data = input_data[input_data["dataframe"] == "training"]
X = training_data.drop(columns=["income_bracket", "dataframe"])
y = training_data["income_bracket"]

census_model = bigframes.ml.linear_model.LogisticRegression(
    # Balance the class labels in the training data by setting
    # class_weight="balanced".
    #
    # By default, the training data is unweighted. If the labels
    # in the training data are imbalanced, the model may learn to
    # predict the most popular class of labels more heavily. In
    # this case, most of the respondents in the dataset are in the
    # lower income bracket. This may lead to a model that predicts
    # the lower income bracket too heavily. Class weights balance
    # the class labels by calculating the weights for each class in
    # inverse proportion to the frequency of that class.
    class_weight="balanced",
    max_iterations=15,
)
census_model.fit(X, y)

census_model.to_gbq(
    your_model_id,  # For example: "your-project.census.census_model"
    replace=True,
)

Modellleistung bewerten

Nachdem Sie das Modell erstellt haben, bewerten Sie die Leistung des Modells anhand der tatsächlichen Daten.

SQL

Die Funktion ML.EVALUATE-Funktion wertet die vom Modell generierten vorhergesagten Werte anhand der tatsächlichen Daten aus.

Als Eingabe verwendet die Funktion ML.EVALUATE das trainierte Modell und die Zeilen aus der Ansicht input_data, für die evaluation als Spaltenwert dataframe festgelegt ist. Die Funktion gibt eine einzelne Zeile mit Statistiken zum Modell zurück.

Führen Sie die ML.EVALUATE-Abfrage aus:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

SELECT
*
FROM
ML.EVALUATE (MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'evaluation'
  )
)

Die Ergebnisse sehen in etwa so aus:

BigQuery DataFrames

Verwenden Sie die Methode score, um das Modell anhand der tatsächlichen Daten zu bewerten.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `census_model` object
# from previous steps.
census_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.census.census_model"
)

# input_data is defined in an earlier step.
evaluation_data = input_data[input_data["dataframe"] == "evaluation"]
X = evaluation_data.drop(columns=["income_bracket", "dataframe"])
y = evaluation_data["income_bracket"]

# The score() method evaluates how the model performs compared to the
# actual data. Output DataFrame matches that of ML.EVALUATE().
score = census_model.score(X, y)
score.peek()
# Output:
#    precision    recall  accuracy  f1_score  log_loss   roc_auc
# 0   0.685764  0.536685   0.83819  0.602134  0.350417  0.882953

Sie können auch den Informationsbereich des Modells in der Google Cloud Console aufrufen, um die während des Trainings berechneten Bewertungsmesswerte aufzurufen:

Ausgabe von ML.EVALUATE

Einkommensklasse vorhersagen

Ermitteln Sie mithilfe des Modells die Einkommensklasse, zu der ein bestimmter Befragter wahrscheinlich gehört.

SQL

Verwenden Sie die Funktion ML.PREDICT, um Vorhersagen zur wahrscheinlichen Einkommensklasse zu treffen. Geben Sie das trainierte Modell und die Zeilen aus der Ansicht input_data ein, für die prediction als Spaltenwert dataframe festgelegt ist.

Führen Sie die ML.PREDICT-Abfrage aus:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

SELECT
*
FROM
ML.PREDICT (MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'prediction'
  )
)

Die Ergebnisse sehen in etwa so aus:

predicted_income_bracket ist der vorhergesagte Wert von income_bracket.

BigQuery DataFrames

Verwenden Sie die Methode predict, um Vorhersagen zur wahrscheinlichen Einkommensklasse zu treffen.

# Select model you'll use for predictions. `read_gbq_model` loads model
# data from BigQuery, but you could also use the `census_model` object
# from previous steps.
census_model = bpd.read_gbq_model(
    your_model_id,  # For example: "your-project.census.census_model"
)

# input_data is defined in an earlier step.
prediction_data = input_data[input_data["dataframe"] == "prediction"]

predictions = census_model.predict(prediction_data)
predictions.peek()
# Output:
#           predicted_income_bracket                     predicted_income_bracket_probs  age workclass  ... occupation  hours_per_week income_bracket   dataframe
# 18004                    <=50K  [{'label': ' >50K', 'prob': 0.0763305999358786...   75         ?  ...          ?               6          <=50K  prediction
# 18886                    <=50K  [{'label': ' >50K', 'prob': 0.0448866871906495...   73         ?  ...          ?              22           >50K  prediction
# 31024                    <=50K  [{'label': ' >50K', 'prob': 0.0362982319421936...   69         ?  ...          ?               1          <=50K  prediction
# 31022                    <=50K  [{'label': ' >50K', 'prob': 0.0787836112058324...   75         ?  ...          ?               5          <=50K  prediction
# 23295                    <=50K  [{'label': ' >50K', 'prob': 0.3385373037905673...   78         ?  ...          ?              32          <=50K  prediction

Vorhersageergebnisse erklären

Mit der Funktion ML.EXPLAIN_PREDICT können Sie ermitteln, warum das Modell diese Vorhersageergebnisse generiert.

ML.EXPLAIN_PREDICT ist eine erweiterte Version der Funktion ML.PREDICT. ML.EXPLAIN_PREDICT gibt nicht nur Vorhersageergebnisse aus, sondern gibt auch zusätzliche Spalten aus, um die Vorhersageergebnisse zu erklären. In der Praxis können Sie ML.EXPLAIN_PREDICT anstelle von ML.PREDICT ausführen. Weitere Informationen finden Sie in der Übersicht zu BigQuery ML Explainable AI.

Führen Sie die ML.EXPLAIN_PREDICT-Abfrage aus:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor folgende Abfrage aus:

SELECT
*
FROM
ML.EXPLAIN_PREDICT(MODEL `census.census_model`,
  (
  SELECT
    *
  FROM
    `census.input_data`
  WHERE
    dataframe = 'evaluation'),
  STRUCT(3 as top_k_features))

Die Ergebnisse sehen in etwa so aus:

Bei logistischen Regressionsmodellen werden Shapley-Werte verwendet, um für jedes Feature im Modell Feature-Attributionswerte zu generieren. ML.EXPLAIN_PREDICT gibt die drei wichtigsten Featureattributionen pro Zeile der Ansicht input_data aus, da top_k_features in der Abfrage auf 3 gesetzt wurde. Diese Zuordnungen werden nach dem absoluten Wert der Attribution in absteigender Reihenfolge sortiert. In Zeile 1 dieses Beispiels wird die Funktionhours_per_week am meisten zur Gesamtvorhersage beigetragen, aber in Zeile 2 trug occupation am meisten zur allgemeinen Vorhersage bei.

Modell global erklären

Mit der Funktion ML.GLOBAL_EXPLAIN können Sie ermitteln, welche Features im Allgemeinen am wichtigsten sind, um die Einkommensklasse zu ermitteln. Zur Verwendung von ML.GLOBAL_EXPLAIN müssen Sie das Modell mit der Option ENABLE_GLOBAL_EXPLAIN auf TRUE neu trainieren.

Trainieren Sie das Modell neu und rufen Sie globale Erläuterungen für das Modell ab:

Öffnen Sie in der Google Cloud Console die Seite BigQuery.

BigQuery aufrufen

Führen Sie im Abfrageeditor die folgende Abfrage aus, um das Modell neu zu trainieren:

CREATE OR REPLACE MODEL `census.census_model`
OPTIONS
  ( model_type='LOGISTIC_REG',
    auto_class_weights=TRUE,
    enable_global_explain=TRUE,
    input_label_cols=['income_bracket']
  ) AS
SELECT * EXCEPT(dataframe)
FROM
  `census.input_data`
WHERE
  dataframe = 'training'

Führen Sie im Abfrageeditor die folgende Abfrage aus, um globale Erläuterungen zu erhalten:
```
SELECT
  *
FROM
  ML.GLOBAL_EXPLAIN(MODEL `census.census_model`)
```
Die Ergebnisse sehen in etwa so aus:

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Dataset löschen

Wenn Sie Ihr Projekt löschen, werden alle Datasets und Tabellen entfernt. Wenn Sie das Projekt wieder verwenden möchten, können Sie das in dieser Anleitung erstellte Dataset löschen:

Rufen Sie, falls erforderlich, die Seite "BigQuery" in der Google Cloud Console auf.

Zur Seite "BigQuery"
Klicken Sie im Navigationsbereich auf das Dataset census, das Sie erstellt haben.
Klicken Sie rechts im Fenster auf Dataset löschen. Dadurch werden das Dataset und das Modell gelöscht.
Bestätigen Sie im Dialogfeld Dataset löschen den Löschbefehl. Geben Sie dazu den Namen des Datasets (census) ein und klicken Sie auf Löschen.

Projekt löschen

So löschen Sie das Projekt:

Achtung: Das Löschen von Projekten hat folgende Auswirkungen:

Alle Inhalte des Projekts werden gelöscht. Wenn Sie für die Aufgaben in diesem Dokument ein bereits bestehendes Projekt verwendet haben und dieses löschen, werden auch alle anderen im Rahmen des Projekts erstellten Daten gelöscht.
Benutzerdefinierte Projekt-IDs gehen verloren. Beim Erstellen dieses Projekts haben Sie möglicherweise eine benutzerdefinierte Projekt-ID erstellt, die Sie weiterhin verwenden möchten. Damit die URLs, die die Projekt-ID nutzen, z. B. eine appspot.com-URL, erhalten bleiben, sollten Sie ausgewählte Ressourcen innerhalb des Projekts löschen, statt das gesamte Projekt.

Wenn Sie mehrere Architekturen, Anleitungen und Kurzanleitungen durcharbeiten möchten, können Sie die Überschreitung von Projektkontingenten verhindern, indem Sie Projekte wiederverwenden.

Wechseln Sie in der Google Cloud Console zur Seite Ressourcen verwalten.
Zur Seite „Ressourcen verwalten“
Wählen Sie in der Projektliste das Projekt aus, das Sie löschen möchten, und klicken Sie dann auf Löschen.
Geben Sie im Dialogfeld die Projekt-ID ein und klicken Sie auf Shut down (Beenden), um das Projekt zu löschen.

Nächste Schritte

Einführung in BigQuery ML
Mehr zum Erstellen von Modellen auf der Seite zur CREATE MODEL-Syntax