Lavora con i dati di Salesforce Data Cloud in BigQuery

Gli utenti del cloud di dati possono accedere ai propri dati del cloud di dati in modo nativo in BigQuery. Puoi analizzare i dati del cloud di dati con BigQuery Omni ed eseguire analisi cross-cloud con i dati di Google Cloud. In questo documento, forniamo istruzioni su come accedere ai dati del cloud di dati e diverse attività analitiche che puoi eseguire con questi dati in BigQuery.

Il cloud di dati funziona con BigQuery sulla base della seguente architettura:

Cloud di dati.

Prima di iniziare

Prima di utilizzare i dati del cloud di dati, devi essere un utente del cloud di dati. Se hai abilitato Controlli di servizio VPC sul tuo progetto, avrai bisogno di autorizzazioni aggiuntive.

Ruoli obbligatori

I ruoli e le autorizzazioni seguenti sono obbligatori:

  • Abbonato ad Analytics Hub (roles/analyticshub.subscriber)
  • Amministratore BigQuery (roles/bigquery.admin)

Condividi i dati dal cloud di dati

Questa documentazione mostra come condividere i dati dal cloud di dati a BigQuery - Condivisioni di dati BYOL - Integrazione zero-ETL con BigQuery.

Per accedere a un set di dati nel cloud di dati in BigQuery, devi prima collegare il set di dati a BigQuery seguendo questa procedura:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Fai clic su Cloud di dati di Salesforce.

    Vengono visualizzati i set di dati del cloud di dati. Puoi trovare il set di dati per nome utilizzando il seguente pattern di denominazione:

    listing_DATA_SHARE_NAME_TARGET_NAME
    
    Sostituisci quanto segue:

    • DATA_SHARE_NAME: il nome della condivisione di dati nel cloud di dati.
    • TARGET_NAME: il nome della destinazione BigQuery nel cloud di dati.
  3. Fai clic sul set di dati da aggiungere a BigQuery.

  4. Fai clic su Aggiungi set di dati al progetto.

  5. Specifica il nome del set di dati collegato.

Una volta creato il set di dati collegato, puoi esplorare il set di dati e le tabelle al suo interno. Tutti i metadati delle tabelle vengono recuperati dinamicamente da Data Cloud. Tutti gli oggetti all'interno del set di dati sono viste mappate agli oggetti del cloud di dati. BigQuery supporta tre tipi di oggetti del cloud di dati:

  • Oggetti data lake (DLO)
  • Oggetti modello di dati (DMO)
  • Oggetti di insight calcolati (CIO)

Tutti questi oggetti sono rappresentati come viste in BigQuery. Queste viste puntano a tabelle nascoste archiviate in Amazon S3.

Utilizzo dei dati del cloud di dati

I seguenti esempi utilizzano un set di dati denominato Northwest Trail Outfitters (NTO) ospitato nel cloud di dati. Questo set di dati è composto da tre tabelle che rappresentano i dati delle vendite online dell'organizzazione NTO:

  • linked_nto_john.nto_customers__dll
  • linked_nto_john.nto_products__dll
  • linked_nto_john.nto_orders__dll

L'altro set di dati utilizzato in questi esempi sono i dati point of sale offline. Questo valore copre le vendite offline ed è costituito da tre tabelle:

  • nto_pos.customers
  • nto_pos.products
  • nto_pos.orders

I seguenti set di dati archiviano oggetti aggiuntivi:

  • aws_data
  • us_data

Eseguire query ad hoc

Con BigQuery Omni puoi eseguire query ad hoc per analizzare i dati del cloud di dati tramite il set di dati sottoscritto. L'esempio seguente mostra una query semplice che esegue una query sulla tabella dei clienti dal cloud di dati.

SELECT name__c, age__c
  FROM `listing_nto_john.nto_customers__dll`
  WHERE age > 40
  LIMIT 1000;

Esegui query cross-cloud

Le query cross-cloud consentono di unire qualsiasi tabella nella regione BigQuery Omni e le tabelle nelle aree geografiche di BigQuery. Per ulteriori informazioni sulle query cross-cloud, consulta questo post del blog. In questo esempio, recuperiamo le vendite totali per un cliente di nome john.

-- Get combined sales for a customer from both offline and online sales
USING (
  SELECT total_price FROM `listing_nto_john.nto_orders__dll`
       WHERE customer_name = 'john'
  UNION ALL
  SELECT total_price FROM `listing_nto_john.nto_orders__dll`
       WHERE customer_name = 'john'
) a SELECT SUM(total_price);

Cross-Cloud Data Transfer tramite CTAS

Puoi utilizzare l'opzione Crea tabella come selezione per spostare i dati dalle tabelle Cloud di dati della regione BigQuery Omni alla regione US.

-- Move all the orders for March to the US region
CREATE OR REPLACE TABLE us_data.online_orders_march
  AS SELECT * FROM listing_nto_john.nto_orders__dll
    WHERE EXTRACT(MONTH FROM order_time) = 3

La tabella di destinazione è una tabella gestita da BigQuery nella regione US. Questa tabella può essere unita ad altre tabelle. Questa operazione comporta costi per il traffico in uscita da AWS in base alla quantità di dati trasferiti.

Dopo lo spostamento dei dati, non dovrai più pagare le tariffe per il traffico in uscita per eventuali query eseguite nella tabella online_orders_march.

Viste materializzate cross-cloud

Le viste materializzate cross-cloud (CCMV) trasferiscono i dati da una regione BigQuery Omni a una regione BigQuery non BigQuery Omni in modo incrementale. Configura una nuova CCMV che trasferisce un riepilogo delle vendite totali dalle transazioni online e replica i dati nella regione US.

Puoi accedere alle CCMV da Ads Data Hub e unirle ad altri dati di Ads Data Hub. Le CCMV funzionano per la maggior parte come tabelle gestite da BigQuery.

Crea una vista materializzata locale

Per creare una vista materializzata locale:

-- Create a local materialized view that keeps track of total sales by day

CREATE MATERIALIZED VIEW `aws_data.total_sales`
  OPTIONS (enable_refresh = true, refresh_interval_minutes = 60)
  AS SELECT EXTRACT(DAY FROM order_time) AS date, SUM(order_total) as sales
    FROM `listing_nto_john.nto_orders__dll`
    GROUP BY 1;

Autorizza la vista materializzata

Per creare un CCMV, devi autorizzare le viste materializzate. Puoi autorizzare la vista (aws_data.total_sales) o il set di dati (aws_data). Per autorizzare la vista materializzata:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Apri il set di dati di origine listing_nto_john.

  3. Fai clic su Condivisione e poi su Autorizza set di dati.

  4. Inserisci il nome del set di dati (in questo caso listing_nto_john), poi fai clic su Ok.

Crea una vista materializzata della replica

Crea una nuova vista materializzata della replica nella regione US. La vista materializzata viene replicata periodicamente ogni volta che viene apportata una modifica ai dati di origine per mantenere la replica aggiornata.

-- Create a replica MV in the us region.
CREATE MATERIALIZED VIEW `us_data.total_sales_replica`
  AS REPLICA OF `aws_data.total_sales`;

Esegui una query su una vista materializzata della replica

Nell'esempio seguente viene eseguita una query su una vista materializzata della replica:

-- Find total sales for the current month for the dashboard

SELECT EXTRACT(MONTH FROM CURRENT_DATE()) as month, SUM(sales)
  FROM us_data.total_sales_replica
  WHERE month = EXTRACT(MONTH FROM date)
  GROUP BY 1

Utilizzo dei dati del cloud di dati con INFORMATION_SCHEMA

I set di dati del cloud di dati supportano le viste INFORMATION_SCHEMA di BigQuery. I dati nelle viste INFORMATION_SCHEMA vengono sincronizzati regolarmente dal cloud di dati e potrebbero essere inattivi. La colonna SYNC_STATUS nelle viste TABLES e SCHEMATA mostra l'ora dell'ultima sincronizzazione completata, eventuali errori che impediscono a BigQuery di fornire dati aggiornati e i passaggi necessari per correggere l'errore.

Le query INFORMATION_SCHEMA non riflettono i set di dati creati di recente prima della sincronizzazione iniziale.

I set di dati del cloud di dati sono soggetti alle stesse limitazioni degli altri set di dati collegati, ad esempio sono accessibili solo in INFORMATION_SCHEMA nelle query basate sui set di dati.

Passaggi successivi