Genera insight sui dati in BigQuery

Per ricevere assistenza, invia un'email a [email protected].

Gli insight sui dati offrono un modo automatizzato per esplorare e comprendere i dati. Utilizza Gemini per generare query in base ai metadati di una tabella e consente di scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Questo documento descrive le funzionalità principali degli insight sui dati e il processo per automatizzare la generazione di query per un'esplorazione dei dati approfondita.

Informazioni sugli approfondimenti sui dati

Gli analisti di dati affrontano il problema dell'avvio a freddo nell'esplorazione dei dati quando esplorano un nuovo set di dati con conoscenze preliminari scarse o nulle. Il problema spesso comporta incertezze sulla struttura dei dati, sui pattern chiave e sugli insight pertinenti. Utilizzando la generazione automatica di query basata sui metadati, gli insight sui dati risolvono il problema dell'avvio a freddo nell'esplorazione dei dati. Gli insight forniscono segnali preziosi per aiutarti a prendere decisioni informate e ottenere informazioni più approfondite sui tuoi dati. Invece di iniziare da zero, puoi avviare più rapidamente l'esplorazione dei dati con query significative che offrono insight preziosi.

Le query generate utilizzando gli insight sui dati vengono fondate utilizzando i dati di scansione del profilo pubblicati. Gli insight sui dati utilizzano i dati di scansione del profilo pubblicati per creare query che restituiscano risultati, fornendo un recupero efficiente e affidabile delle informazioni. Questo accelera notevolmente l'avvio del processo di analisi dei dati e ti consente di analizzare i dati con una direzione e uno scopo più chiari.

Gli insight sui dati fungono da strumento di guida per risolvere il problema comune legato alla navigazione in set di dati sconosciuti, consentendo di prendere decisioni informate e scoprire pattern più rapidamente durante l'esplorazione dei dati.

Esempio di esecuzione di insight

Considera una tabella denominata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Genere STRING
Periodo di incarico INT64
PhoneService STRING
OnlineBackup STRING
Dipendenti BOOLEAN
Contratto STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Tasso di abbandono BOOLEAN

Di seguito sono riportati alcuni esempi di query generate dagli insight sui dati per questa tabella:

  • Identifica i clienti che hanno un abbonamento a tutti i servizi premium e che sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identificare il servizio internet con il maggior numero di clienti che hanno abbandonato il sito.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Informazioni sugli insight di grounding mediante le scansioni del profilo

Gli insight sui dati utilizzano i dati di scansione del profilo pubblicati per migliorare l'accuratezza delle query generate. I dati di scansione del profilo forniscono informazioni preziose sulla distribuzione dei dati, sui tipi di dati e sui riepiloghi statistici del set di dati.

Informazioni sui dati della scansione del profilo

I dati di scansione del profilo sono i metadati che descrivono i contenuti di una tabella. e include le seguenti informazioni:

  • Tipi di dati delle colonne
  • Valori minimo e massimo
  • Distribuzione dei valori
  • Valori null o mancanti
  • Valori principali
  • Valori unici e relative frequenze

Gli insight sui dati utilizzano queste informazioni per generare query personalizzate per una tabella specifica.

In che modo gli approfondimenti sui dati elaborano le query utilizzando i dati di scansione del profilo

Gli insight sui dati utilizzano i dati della scansione del profilo per creare query basate sulla distribuzione effettiva dei dati e sui pattern all'interno del set di dati. Questa procedura prevede i seguenti passaggi:

  • L'analisi dei dati della scansione del profilo per identificare pattern, tendenze o anomalie nei dati interessanti
  • Generare query incentrate su questi pattern, tendenze o anomalie per scoprire informazioni importanti.
  • Convalidare le query generate in base ai dati di scansione del profilo per garantire che le query restituiscano risultati significativi

Suggerimenti per massimizzare i vantaggi degli approfondimenti sui dati

Le query basate su dati stabili assicurano che le informazioni ottenute siano accurate, pertinenti e fruibili, consentendoti di prendere decisioni migliori basate sui dati. Per ottenere il massimo dalle query basate su dati empirici reali utilizzando i dati di scansione del profilo, segui questi suggerimenti:

  • Assicurati che nella tabella siano pubblicati dati aggiornati per la scansione del profilo. Ciò consente agli insight sui dati di generare query più accurate e pertinenti.
  • Esamina le query generate per comprendere come si basano sui dati della scansione del profilo. In questo modo puoi interpretare i risultati e ottenere approfondimenti sui dati.
  • Modifica le impostazioni di analisi del profilo della tabella o fornisci ulteriore contesto per gli insight sui dati se le query generate non sono pertinenti o utili.

Prezzi

La funzionalità degli insight sui dati di BigQuery non viene fatturata durante l'anteprima.

Limitazioni

  • Gli insight sui dati sono disponibili per tabelle BigQuery, tabelle BigLake, tabelle esterne e viste.
  • Per i clienti multi-cloud, i dati provenienti da altri cloud non sono disponibili.
  • Gli insight sui dati non supportano i tipi di colonna Geo o JSON.
  • Le esecuzioni degli insight non garantiscono la visualizzazione delle query ogni volta. Per aumentare le probabilità di generare query più coinvolgenti, riavvia la pipeline degli insight.
  • Per le tabelle con controllo dell'accesso (ACL) a livello di colonna e autorizzazioni utente limitate, puoi generare insight se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.

Prima di iniziare

Autorizzazioni e ruoli richiesti

Per ottenere le autorizzazioni necessarie per utilizzare gli insight sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM sul progetto:

  • Esegui la pipeline di insight:

    • Ruolo IAM Utente Cloud AI Companion (roles/cloudaicompanion.user) nell'account di servizio per il progetto in cui attivi la scansione degli insight

      L'indirizzo email dell'account di servizio ha il seguente formato:

      service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com

    • Autorizzazione dataplex.datascans.create sul progetto

    • Autorizzazione bigquery.tables.getData nella tabella BigQuery

    • Accesso in lettura a tutte le colonne della tabella

  • Visualizza gli approfondimenti generati:

    • dataplex.datascans.getData sulla scansione dei dati generata
  • Query geolocalizzate che utilizzano le scansioni del profilo:

    • BigQuery DataScan DataViewer (roles/dataplex.dataScanDataViewer) Ruolo IAM nell'account di servizio (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com)

    • Autorizzazione dataplex.datascans.getData per la scansione del profilo dati pubblicato

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso agli account di servizio.

Potresti anche essere in grado di ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Abilita le API

Per utilizzare gli insight sui dati, abilita le API seguenti nel tuo progetto:

Per ulteriori informazioni sull'abilitazione dell'API Gemini, consulta Attivare Gemini Code Assist in un progetto Google Cloud.

Generare insight per una tabella BigQuery

Per generare insight per una tabella BigQuery, devi accedere alla voce della tabella in BigQuery utilizzando BigQuery Studio.

  1. Nella console Google Cloud, vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro Explorer, seleziona la tabella per cui vuoi generare insight.

  3. Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che gli insight per questa tabella non sono ancora stati generati.

  4. Per attivare la pipeline di insight, fai clic su Genera insight.

    Sono necessari 5-10 minuti per la compilazione degli insight.

    Se è accessibile un'analisi del profilo pubblicata per la tabella, questa viene utilizzata per generare insight completi. In caso contrario, gli insight vengono formulati in base ai nomi delle colonne e alle rispettive descrizioni. Questo approccio ti garantisce di ricevere insight indipendentemente dalla disponibilità di una scansione del profilo.

  5. Nella scheda Approfondimenti, esplora le query generate e le relative descrizioni.

  6. Per aprire una query in BigQuery, fai clic su Apri in BigQuery.

  7. Per generare un nuovo insieme di query, fai clic su Genera insight e attiva di nuovo la pipeline.

Genera insight per una tabella BigQuery esterna

Gli insight sui dati di BigQuery supportano le tabelle esterne di BigQuery che si trovano nello stesso progetto. Se la tabella BigQuery fa riferimento a dati archiviati in Cloud Storage in un altro progetto Google Cloud, la generazione degli insight non riesce.

Per generare insight per una tabella BigQuery esterna, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.

Genera insight per una tabella BigLake

Per generare insight per una tabella BigLake, segui questi passaggi:

  1. Abilita l'API BigQuery Connection nel tuo progetto.

    Abilitare l'API BigQuery Connection

  2. Creare una connessione BigQuery. Per maggiori informazioni, consulta Gestire le connessioni.

  3. Concedi il ruolo IAM Visualizzatore oggetti Storage (roles/storage.objectViewer) all'account di servizio corrispondente alla connessione BigQuery che hai creato.

    Puoi recuperare l'ID account di servizio dai dettagli della connessione.

  4. Per generare insight, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.

Passaggi successivi