Esegui query sui formati delle tabelle aperte con manifest

Questo documento descrive come utilizzare i file manifest per eseguire query sui dati archiviati in formati a tabella aperta come Apache Hudi e Delta Lake.

In alcuni formati di tabella aperta, come Hudi e Delta Lake, lo stato attuale viene esportato sotto forma di uno o più file manifest. Un file manifest contiene un elenco di file di dati che creano tabelle. Con il supporto dei file manifest in BigQuery, puoi eseguire query e caricare i dati archiviati in formati di tabelle aperte.

Prima di iniziare

Abilita le API Connessione BigQuery, Prenotazione BigQuery e BigLake .
Abilita le API
Per creare tabelle BigLake, puoi eseguire i comandi Spark utilizzando uno dei seguenti metodi:
- Crea un cluster Dataproc. Per eseguire query sulle tabelle Hudi, imposta il campo --optional-components su HUDI. Per eseguire query sulle tabelle delta, imposta --optional-components su Presto.
- Utilizzare una stored procedure per Spark in BigQuery. Per farlo, segui questi passaggi:
  1. Crea una connessione Spark.
  2. Configurare il controllo dell'accesso per quella connessione.
Per archiviare il file manifest in Cloud Storage, crea un bucket Cloud Storage. Per accedere al file manifest, devi connetterti al tuo bucket Cloud Storage. Per farlo, segui questi passaggi:
1. Crea una connessione alle risorse Cloud.
2. Configurare l'accesso per quella connessione.

Ruoli obbligatori

Per eseguire query sulle tabelle BigLake basate su dati di Hudi e Delta Lake, assicurati di disporre dei seguenti ruoli:

Utente connessione BigQuery (roles/bigquery.connectionUser)
Visualizzatore dati BigQuery (roles/bigquery.dataViewer)
Utente BigQuery (roles/bigquery.user)

Puoi anche eseguire query sulle tabelle esterne di Hudi. Tuttavia, ti consigliamo di eseguire l'upgrade della tabella esterna a BigLake. Per eseguire query sulle tabelle esterne Hudi, assicurati di disporre dei seguenti ruoli:

Visualizzatore dati BigQuery (roles/bigquery.dataViewer)
Utente BigQuery (roles/bigquery.user)
Visualizzatore oggetti Storage (roles/storage.objectViewer)

A seconda delle tue autorizzazioni, puoi concedere questi ruoli a te stesso o chiedere all'amministratore di concederli. Per ulteriori informazioni sulla concessione dei ruoli, consulta Visualizzazione dei ruoli assegnabili sulle risorse.

Per visualizzare le autorizzazioni esatte necessarie per eseguire query sulle tabelle BigLake, espandi la sezione Autorizzazioni richieste:

Autorizzazioni obbligatorie

bigquery.connections.use
bigquery.jobs.create
bigquery.readsessions.create (Obbligatorio solo se stai leggendo i dati con l'API BigQuery Storage Read)
bigquery.tables.get
bigquery.tables.getData

Potresti essere in grado di ottenere queste autorizzazioni anche con i ruoli personalizzati o altri ruoli predefiniti.

Esegui query sui carichi di lavoro Hudi

Per eseguire query sui dati Hudi, segui questi passaggi:

Crea una tabella esterna basata sui dati Hud.
Esegui l'upgrade della tabella esterna a BigLake.

Creare tabelle esterne Hudi

Quando sincronizzi le tabelle utilizzando lo strumento di sincronizzazione per Hudi e BigQuery, abilita il flag use-bq-manifest-file per passare all'approccio basato sul file manifest. Questo flag esporta anche un file manifest in un formato supportato da BigQuery e lo utilizza per creare una tabella esterna con il nome specificato nel parametro --table.

Per creare una tabella esterna Hudi, segui questi passaggi:

Per creare una tabella esterna Hudi, invia un job a un cluster Dataproc esistente. Quando crei il connettore Hudi-BigQuery, abilita il flag use-bq-manifest-file per passare all'approccio basato sul file manifest. Questo flag consente di esportare un file manifest in un formato supportato da BigQuery e lo utilizza per creare una tabella esterna con il nome specificato nel parametro --table.
```
spark-submit \
   --master yarn \
   --packages com.google.cloud:google-cloud-bigquery:2.10.4 \
   --class org.apache.hudi.gcp.bigquery.BigQuerySyncTool  \
   JAR \
   --project-id PROJECT_ID \
   --dataset-name DATASET \
   --dataset-location LOCATION \
   --table TABLE \
   --source-uri URI  \
   --source-uri-prefix URI_PREFIX \
   --base-path BASE_PATH  \
   --partitioned-by PARTITION_BY \
   --use-bq-manifest-file
```
Sostituisci quanto segue:
- JAR: se utilizzi il connettore Hudi-BigQuery, specifica hudi-gcp-bundle-0.14.0.jar. Se utilizzi il componente Hudi in Dataproc 2.1, specifica /usr/lib/hudi/tools/bq-sync-tool/hudi-gcp-bundle-0.12.3.1.jar
- PROJECT_ID: l'ID progetto in cui vuoi creare la tabella Hudi BigLake
- DATASET: il set di dati in cui creare la tabella Hudi BigLake
- LOCATION: il luogo in cui vuoi creare la tabella Hudi BigLake
- TABLE: il nome della tabella che vuoi creare
  
  Se stai eseguendo la transizione dalla versione precedente del connettore Hudi-BigQuery (0.13.0 e versioni precedenti) che creava visualizzazioni nei file manifest, assicurati di utilizzare lo stesso nome di tabella che consente di mantenere il codice della pipeline downstream esistente.
- URI: l'URI Cloud Storage creato per archiviare il file manifest Hudi
  
  Questo URI punta alla partizione di primo livello; assicurati di includere la chiave di partizione. Ad esempio, gs://mybucket/hudi/mydataset/EventDate=*
- URI_PREFIX: prefisso del percorso URI di Cloud Storage, di solito è il percorso delle tabelle Hudi
- BASE_PATH: il percorso di base per le tabelle Hudi
  
  Ad esempio, gs://mybucket/hudi/mydataset/
- PARTITION_BY: il valore della partizione
  
  Ad esempio, EventDate
Per ulteriori informazioni sulla configurazione del connettore, consulta Connettore Hud-BigQuery.
Per impostare controlli granulari appropriati o per accelerare le prestazioni abilitando la memorizzazione nella cache dei metadati, consulta Upgrade delle tabelle BigLake.

Esegui query sui carichi di lavoro Delta

Per eseguire una query sui carichi di lavoro Delta, segui questi passaggi:

Genera un file manifest.
Crea una tabella BigLake in base al file manifest.
Imposta controlli granulari appropriati o accelera le prestazioni abilitando la memorizzazione nella cache dei metadati. A questo scopo, consulta Eseguire l'upgrade delle tabelle BigLake.

Genera un file manifest

BigQuery supporta il file manifest in formato SymLinkTextInputFormat, che consiste in un elenco di URI delimitato da una nuova riga. Per ulteriori informazioni sulla generazione di un file manifest, consulta Configurare l'integrazione di Presto per Delta Lake ed eseguire query sulle tabelle Delta.

Per generare un file manifest, invia un job a un cluster Dataproc esistente:

SQL

Utilizzando Spark, esegui questo comando su una tabella delta nella località path-to-delta-table:

GENERATE symlink_format_manifest FOR TABLE delta.`<path-to-delta-table>`

Scala

Utilizzando Spark, esegui questo comando su una tabella delta nella località path-to-delta-table:

val deltaTable = DeltaTable.forPath(<path-to-delta-table>)
deltaTable.generate("symlink_format_manifest")

Java

Utilizzando Spark, esegui questo comando su una tabella delta nella località path-to-delta-table:

DeltaTable deltaTable = DeltaTable.forPath(<path-to-delta-table>);
deltaTable.generate("symlink_format_manifest");

Python

Utilizzando Spark, esegui questo comando su una tabella delta nella località path-to-delta-table:

deltaTable = DeltaTable.forPath(<path-to-delta-table>)
deltaTable.generate("symlink_format_manifest")

Creazione tabelle BigLake delta

Per creare una tabella Delta BigLake, utilizza l'istruzione CREATE EXTERNAL TABLE con il campo file_set_spec_type impostato su NEW_LINE_DELIMITED_MANIFEST:

Vai alla pagina BigQuery.

Vai a BigQuery
Nell'editor query, esegui l'istruzione CREATE EXTERNAL TABLE:
```
CREATE EXTERNAL TABLE PROJECT_ID.DATASET_NAME.TABLE_NAME
WITH PARTITION COLUMNS(
`PARTITION_COLUMN PARTITION_COLUMN_TYPE`,)
WITH CONNECTION `PROJECT_IDREGION.CONNECTION_NAME`
OPTIONS (
   format = "DATA_FORMAT",
   uris = ["URI"],
   file_set_spec_type = 'NEW_LINE_DELIMITED_MANIFEST',
   hive_partition_uri_prefix = "PATH_TO_DELTA_TABLE"
   max_staleness = STALENESS_INTERVAL,
   metadata_cache_mode = 'CACHE_MODE');
```
Sostituisci quanto segue:
- DATASET_NAME: il nome del set di dati che hai creato
- TABLE_NAME: il nome da assegnare a questa tabella
- REGION: la località in cui si trova la connessione (ad esempio, us-east1)
- CONNECTION_NAME: il nome della connessione creata
- DATA_FORMAT: uno qualsiasi dei formati supportati (ad esempio PARQUET)
- URI: il percorso del file manifest (ad esempio, gs://mybucket/path)
- PATH_TO_DELTA_TABLE: un prefisso comune per tutti gli URI di origine prima dell'inizio della codifica della chiave di partizione
- STALENESS_INTERVAL: specifica se i metadati memorizzati nella cache vengono utilizzati dalle operazioni sulla tabella BigLake e la frequenza di aggiornamento dei metadati memorizzati nella cache affinché l'operazione li utilizzi. Per maggiori informazioni sulle considerazioni relative alla memorizzazione nella cache dei metadati, consulta Memorizzazione nella cache dei metadati per migliorare le prestazioni.
  Per disattivare la memorizzazione nella cache dei metadati, specifica 0. Questa è l'impostazione predefinita.
  
  Per abilitare la memorizzazione nella cache dei metadati, specifica un valore letterale a intervalli compreso tra 30 minuti e 7 giorni. Ad esempio, specifica INTERVAL 4 HOUR per un intervallo di inattività di 4 ore. Con questo valore, le operazioni sulla tabella utilizzano i metadati memorizzati nella cache se la tabella è stata aggiornata nelle ultime 4 ore. Se i metadati memorizzati nella cache sono precedenti, l'operazione recupera i metadati da Delta Lake.
- CACHE_MODE: specifica se la cache dei metadati viene aggiornata automaticamente o manualmente. Per saperne di più sulle considerazioni sulla memorizzazione nella cache dei metadati, consulta Memorizzazione nella cache dei metadati per migliorare le prestazioni.
  Imposta AUTOMATIC per aggiornare la cache dei metadati a un intervallo definito dal sistema, di solito tra 30 e 60 minuti.
  
  Imposta il valore MANUAL se vuoi aggiornare la cache dei metadati in base a una pianificazione stabilita. In questo caso, puoi chiamare la procedura di sistema BQ.REFRESH_EXTERNAL_METADATA_CACHE per aggiornare la cache.
  
  Devi impostare CACHE_MODE se STALENESS_INTERVAL è impostato su un valore maggiore di 0.
Esempio:
```
CREATE EXTERNAL TABLE mydataset.mytable
WITH CONNECTION `us-east1.myconnection`
OPTIONS (
    format="PARQUET",
    uris=["gs://mybucket/path/partitionpath=*"],
    file_set_spec_type = 'NEW_LINE_DELIMITED_MANIFEST'
    hive_partition_uri_prefix = "gs://mybucket/path/"
    max_staleness = INTERVAL 1 DAY,
    metadata_cache_mode = 'AUTOMATIC'
);
```

Esegui l'upgrade delle tabelle BigLake

Puoi anche accelerare le prestazioni dei carichi di lavoro sfruttando la memorizzazione nella cache dei metadati e le viste materializzate. Se vuoi utilizzare la memorizzazione nella cache dei metadati, puoi specificare le relative impostazioni. Per ottenere i dettagli della tabella, come il formato di origine e l'URI di origine, consulta Ottenere informazioni sulla tabella.

Per aggiornare una tabella esterna a una tabella BigLake o aggiornare una tabella BigLake esistente, seleziona una delle seguenti opzioni:

SQL

Utilizza l'istruzione DDL CREATE OR REPLACE EXTERNAL TABLE per aggiornare una tabella:

Nella console Google Cloud, vai alla pagina BigQuery.

Vai a BigQuery
Nell'Editor query, inserisci la seguente istruzione:
```
CREATE OR REPLACE EXTERNAL TABLE
  `PROJECT_ID.DATASET.EXTERNAL_TABLE_NAME`
  WITH CONNECTION `REGION.CONNECTION_ID`
  OPTIONS(
    format ="TABLE_FORMAT",
    uris = ['BUCKET_PATH'],
    max_staleness = STALENESS_INTERVAL,
    metadata_cache_mode = 'CACHE_MODE'
    );
```
Sostituisci quanto segue:
- PROJECT_ID: il nome del progetto che contiene la tabella
- DATASET: il nome del set di dati che contiene la tabella
- EXTERNAL_TABLE_NAME: il nome della tabella
- REGION: la regione che contiene la connessione
- CONNECTION_ID: il nome della connessione da utilizzare
- TABLE_FORMAT: il formato utilizzato dalla tabella
  
  Non puoi modificare questa impostazione durante l'aggiornamento della tabella.
- BUCKET_PATH: il percorso del bucket Cloud Storage che contiene i dati per la tabella esterna, nel formato ['gs://bucket_name/[folder_name/]file_name'].
  Puoi selezionare più file dal bucket specificando un carattere jolly asterisco (*) nel percorso. Ad esempio, ['gs://mybucket/file_name*']. Per maggiori informazioni, consulta Supporto dei caratteri jolly per gli URI di Cloud Storage.
  
  Puoi specificare più bucket per l'opzione uris fornendo più percorsi.
  
  I seguenti esempi mostrano valori uris validi:
  - ['gs://bucket/path1/myfile.csv']
  - ['gs://bucket/path1/*.csv']
  - ['gs://bucket/path1/*', 'gs://bucket/path2/file00*']
  Quando specifichi valori uris che hanno come target più file, tutti questi file devono condividere uno schema compatibile.
  
  Per maggiori informazioni sull'utilizzo degli URI Cloud Storage in BigQuery, consulta Percorso della risorsa di Cloud Storage.
- STALENESS_INTERVAL: specifica se i metadati memorizzati nella cache vengono utilizzati dalle operazioni sulla tabella e quanto devono essere aggiornati i metadati memorizzati nella cache affinché l'operazione li utilizzi
  
  Per maggiori informazioni sulle considerazioni relative alla memorizzazione nella cache dei metadati, consulta Memorizzazione nella cache dei metadati per migliorare le prestazioni.
  Per disattivare la memorizzazione nella cache dei metadati, specifica 0. Questa è l'impostazione predefinita.
  
  Per abilitare la memorizzazione nella cache dei metadati, specifica un valore letterale a intervalli compreso tra 30 minuti e 7 giorni. Ad esempio, specifica INTERVAL 4 HOUR per un intervallo di inattività di 4 ore. Con questo valore, le operazioni sulla tabella utilizzano i metadati memorizzati nella cache se la tabella è stata aggiornata nelle ultime 4 ore. Se i metadati memorizzati nella cache sono precedenti, l'operazione recupera i metadati da Cloud Storage.
- CACHE_MODE: specifica se la cache dei metadati viene aggiornata automaticamente o manualmente
  
  Per saperne di più sulle considerazioni sulla memorizzazione nella cache dei metadati, consulta la pagina relativa alla memorizzazione dei metadati per le prestazioni.
  Imposta AUTOMATIC per aggiornare la cache dei metadati a un intervallo definito dal sistema, di solito tra 30 e 60 minuti.
  
  Imposta il valore MANUAL se vuoi aggiornare la cache dei metadati in base a una pianificazione stabilita. In questo caso, puoi chiamare la procedura di sistema BQ.REFRESH_EXTERNAL_METADATA_CACHE per aggiornare la cache.
  
  Devi impostare CACHE_MODE se STALENESS_INTERVAL è impostato su un valore maggiore di 0.
Fai clic su Esegui.

Per ulteriori informazioni su come eseguire le query, consulta Eseguire una query interattiva.

bq

Utilizza i comandi bq mkdef e bq update per aggiornare una tabella:

Genera una definizione della tabella esterna che descriva gli aspetti della tabella da modificare:
```
bq mkdef --connection_id=PROJECT_ID.REGION.CONNECTION_ID \
--source_format=TABLE_FORMAT \
--metadata_cache_mode=CACHE_MODE \
"BUCKET_PATH" > /tmp/DEFINITION_FILE
```
Sostituisci quanto segue:
- PROJECT_ID: il nome del progetto che contiene il collegamento
- REGION: la regione che contiene la connessione
- CONNECTION_ID: il nome della connessione da utilizzare
- TABLE_FORMAT: il formato utilizzato dalla tabella. Non puoi modificare questa impostazione durante l'aggiornamento della tabella.
- CACHE_MODE: specifica se la cache dei metadati viene aggiornata automaticamente o manualmente. Per ulteriori informazioni sulle considerazioni relative alla memorizzazione nella cache dei metadati, consulta Memorizzazione nella cache dei metadati per le prestazioni.
  
  Imposta il valore AUTOMATIC per aggiornare la cache dei metadati a un intervallo definito dal sistema, di solito compreso tra 30 e 60 minuti.
  
  Imposta il valore MANUAL se vuoi aggiornare la cache dei metadati in base a una pianificazione stabilita. In questo caso, puoi chiamare la procedura di sistema BQ.REFRESH_EXTERNAL_METADATA_CACHE per aggiornare la cache.
  
  Devi impostare CACHE_MODE se STALENESS_INTERVAL è impostato su un valore maggiore di 0.
- BUCKET_PATH: il percorso del bucket Cloud Storage contenente i dati per la tabella esterna, nel formato gs://bucket_name/[folder_name/]file_name.
  
  Puoi limitare i file selezionati dal bucket specificando un carattere jolly asterisco (*) nel percorso. Ad esempio, gs://mybucket/file_name*. Per ulteriori informazioni, consulta Supporto dei caratteri jolly per gli URI di Cloud Storage.
  
  Puoi specificare più bucket per l'opzione uris fornendo più percorsi.
  
  I seguenti esempi mostrano valori uris validi:
  - gs://bucket/path1/myfile.csv
  - gs://bucket/path1/*.csv
  - gs://bucket/path1/*,gs://bucket/path2/file00*
  Quando specifichi valori uris che hanno come target più file, tutti questi file devono condividere uno schema compatibile.
  
  Per ulteriori informazioni sull'utilizzo degli URI Cloud Storage in BigQuery, consulta Percorso risorsa di Cloud Storage.
- DEFINITION_FILE: il nome del file di definizione della tabella che stai creando.
Aggiorna la tabella utilizzando la nuova definizione della tabella esterna:
```
bq update --max_staleness=STALENESS_INTERVAL \
--external_table_definition=/tmp/DEFINITION_FILE \
PROJECT_ID:DATASET.EXTERNAL_TABLE_NAME
```
Sostituisci quanto segue:
- STALENESS_INTERVAL: specifica se i metadati memorizzati nella cache vengono utilizzati dalle operazioni sulla tabella e quanto devono essere aggiornati i metadati memorizzati nella cache affinché l'operazione li utilizzi. Per ulteriori informazioni sulle considerazioni sulla memorizzazione nella cache dei metadati, consulta Memorizzazione nella cache dei metadati per le prestazioni.
  
  Per disattivare la memorizzazione nella cache dei metadati, specifica 0. Questa è l'impostazione predefinita.
  
  Per abilitare la memorizzazione nella cache dei metadati, specifica un valore di intervallo compreso tra 30 minuti e 7 giorni utilizzando il formato Y-M D H:M:S descritto nella documentazione sui tipi di dati INTERVAL. Ad esempio, specifica 0-0 0 4:0:0 per un intervallo di inattività di 4 ore. Con questo valore, le operazioni sulla tabella utilizzano i metadati memorizzati nella cache se la tabella è stata aggiornata nelle ultime 4 ore. Se i metadati memorizzati nella cache sono precedenti, l'operazione recupera i metadati da Cloud Storage.
- DEFINITION_FILE: nome del file di definizione della tabella che hai creato o aggiornato.
- PROJECT_ID: il nome del progetto che contiene la tabella
- DATASET: il nome del set di dati contenente la tabella
- EXTERNAL_TABLE_NAME: il nome della tabella

Esegui query su BigLake e sulle tabelle esterne

Dopo aver creato una tabella BigLake, puoi eseguire una query utilizzando la sintassi GoogleSQL, come se fosse una tabella BigQuery standard. Ad esempio, SELECT field1, field2 FROM mydataset.my_cloud_storage_table;.

Limitazioni

BigQuery supporta solo l'esecuzione di query sulle tabelle v1 del lettore Delta Lake.
L'integrazione di Hudi e BigQuery funziona solo per le tabelle copy-on-write partizionate in stile hive.
L'utilizzo di file manifest per eseguire query sui dati archiviati in uno spazio di archiviazione di terze parti non è supportato.

Passaggi successivi

Scopri di più sull'utilizzo di SQL in BigQuery.
Scopri di più sulle tabelle BigLake.
Scopri di più sulle quote di BigQuery.