Esegui il deployment di un processo di trasformazione dei dati tra MongoDB Atlas e Google Cloud

Last reviewed 2023-12-13 UTC

Questo documento descrive come eseguire il deployment della trasformazione dei dati tra MongoDB Atlas e Google Cloud. In questo documento, eseguirai il deployment di un processo ETL (estrazione, trasformazione e caricamento) tra i dati da MongoDB Atlas a BigQuery.

Queste istruzioni sono rivolte agli amministratori di dati che vogliono utilizzare BigQuery per eseguire analisi complesse sui dati operativi memorizzati in MongoDB Atlas. Avere familiarità con MongoDB Atlas, BigQuery e Dataflow.

Architettura

Il seguente diagramma mostra l'architettura di riferimento che utilizzi quando esegui il deployment di questa soluzione.

Architettura per la trasformazione dei dati tra MongoDB Atlas e Google Cloud

Come mostrato nel diagramma, sono disponibili tre modelli Dataflow che gestiscono il processo di integrazione. Il primo modello, Da MongoDB a BigQuery, è una pipeline batch che legge i documenti da MongoDB e li scrive in BigQuery. Il secondo modello, da BigQuery a MongoDB, è un modello batch che può essere utilizzato per leggere i dati analizzati da BigQuery e scriverli in MongoDB. Il terzo modello, da MongoDB a BigQuery (CDC), è una pipeline di inserimento flussi che funziona con modifiche in tempo reale di MongoDB per gestire le modifiche nei dati operativi. Per maggiori dettagli, consulta Trasformazione dei dati tra MongoDB Atlas e Google Cloud.

Obiettivi

I seguenti passaggi di deployment mostrano come utilizzare il modello MongoDB to BigQuery per eseguire il processo ETL tra i dati da MongoDB Atlas a BigQuery. Per eseguire il deployment di questo processo ETL, devi eseguire le seguenti attività:

  • Eseguire il provisioning di un cluster MongoDB Atlas in Google Cloud.
  • Carica i dati nel tuo cluster MongoDB.
  • Configura l'accesso ai cluster.
  • Configurare una tabella BigQuery su Google Cloud.
  • Crea e monitora il job Dataflow che trasferisce i dati MongoDB in BigQuery.
  • Convalida le tabelle di output in BigQuery.

Costi

In questo documento vengono utilizzati i seguenti componenti fatturabili di Google Cloud:

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud possono essere idonei a una prova senza costi aggiuntivi.

Una volta completate le attività descritte in questo documento, puoi evitare la fatturazione continua eliminando le risorse che hai creato. Per ulteriori informazioni, consulta la pagina Pulizia.

Prima di iniziare

Completa i seguenti passaggi per configurare un ambiente per l'architettura di MongoDB su BigQuery.

  1. Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
  2. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  3. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  4. Abilita le API BigQuery and Dataflow.

    Abilita le API

  5. Nella pagina del selettore di progetti della console Google Cloud, seleziona o crea un progetto Google Cloud.

    Vai al selettore progetti

  6. Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

  7. Abilita le API BigQuery and Dataflow.

    Abilita le API

Installa MongoDB Atlas

In questa sezione utilizzerai Cloud Marketplace per installare un'istanza MongoDB Atlas. Queste istruzioni presuppongono che tu non abbia un account MongoDB esistente. Per i dettagli completi sulla configurazione di un abbonamento e sul collegamento del tuo account di fatturazione Google all'account MongoDB, consulta Google Cloud Self-Serve Marketplace nella documentazione di MongoDB.

  1. Nella console Google Cloud, espandi il menu di navigazione e seleziona Marketplace.
  2. Nella casella di ricerca di Marketplace, inserisci MongoDB Atlas.
  3. Nei risultati di ricerca, seleziona MongoDB Atlas (Pay as You Go).
  4. Nella pagina MongoDB Atlas (pagamento a consumo), rivedi la panoramica per conoscere termini e condizioni, quindi fai clic su Registrati a MongoDB.
  5. Nella pagina dell'abbonamento a MongoDB, seleziona il tuo account di fatturazione, accetta i termini e fai clic su Abbonati.
  6. Fai clic sul pulsante Registrati con MongoDB e crea un account MongoDB.
  7. Nella pagina che richiede di selezionare un'organizzazione, seleziona l'organizzazione MongoDB a cui collegare il tuo account di fatturazione Google Cloud.
  8. Attendi che Google Cloud completi la sincronizzazione della tua organizzazione.

Quando gli account sono sincronizzati, la pagina MongoDB Atlas (pagamento a consumo) nella console Google Cloud viene aggiornata per visualizzare il pulsante Gestisci su fornitore.

Crea un cluster MongoDB Atlas

In questa sezione creerai un cluster MongoDB. Durante il processo di creazione, seleziona le seguenti informazioni:

  • Il tipo di cluster. Seleziona il Livello del cluster in base ai requisiti dell'infrastruttura.
  • La regione preferita per il tuo cluster. Ti consigliamo di selezionare l'area geografica più vicina alla tua posizione fisica.

Per informazioni dettagliate su come creare ed eseguire il deployment di un cluster MongoDB gratuito, consulta la pagina relativa al deployment di un cluster gratuito nella documentazione di MongoDB.

Per creare e configurare il cluster, segui questi passaggi:

  1. Nella console Google Cloud, nella pagina MongoDB Atlas (pagamento a consumo), fai clic su Gestisci sul provider.
  2. Nella pagina di accesso di MongoDB, fai clic su Google, quindi sull'Account Google che hai utilizzato per installare MongoDB Atlas.

    Come nuovo utente, la UI di MongoDB si apre automaticamente sulla pagina Deployment del database.

  3. Nella UI di Atlas, nella pagina Deployment di database, fai clic su Crea.

  4. Nella pagina Crea un cluster, fai clic su Condiviso.

    L'opzione Condiviso fornisce un cluster gratuito che puoi utilizzare per testare questa architettura di riferimento.

  5. Nella pagina Crea un cluster condiviso, nella sezione Provider cloud e regione, segui questi passaggi:

    1. Seleziona Google Cloud.
    2. Seleziona la regione più vicina a te e che ha le caratteristiche che vuoi.
  6. Nella sezione Livello del cluster, seleziona l'opzione M0.

    I cluster M0 sono gratuiti e adatti ad applicazioni proof of concept di piccole dimensioni.

  7. In Nome cluster, inserisci un nome per il cluster.

  8. Fai clic su Crea cluster per eseguire il deployment del cluster.

Configura il cluster MongoDB

In questa sezione vengono completate le seguenti procedure:

  • Caricamento dei dati di esempio nel cluster.
  • È in corso la configurazione dell'accesso al cluster.
  • Connessione al cluster in corso...

Carica dati di esempio nel cluster MongoDB

Ora che hai creato un cluster MongoDB, devi caricare dati nel cluster. MongoDB carica una serie di set di dati di esempio. Puoi utilizzare uno qualsiasi di questi set di dati per testare questo deployment. Tuttavia, potresti voler utilizzare un set di dati simile ai dati effettivi che utilizzerai nel deployment della produzione.

Per maggiori dettagli su come caricare i dati di esempio, vedi Caricare i dati di esempio nella documentazione di MongoDB.

Per caricare i dati di esempio:

  1. Nella UI di Atlas, nella pagina Deployment di database, individua il cluster di cui hai appena eseguito il deployment.
  2. Fai clic sul pulsante Ellissi (...), quindi fai clic su Carica set di dati di esempio.

    Il caricamento dei dati di esempio richiede circa 5 minuti.

  3. Esamina i set di dati di esempio e prendi nota della raccolta che vuoi utilizzare durante il test di questo deployment.

Configura l'accesso al cluster

Per connettere il cluster, devi creare un utente del database e impostare l'indirizzo IP per il cluster:

  • L'utente del database è separato dall'utente MongoDB. L'utente del database deve essere collegato a MongoDB da Google Cloud.
  • Per questa architettura di riferimento, utilizzi il blocco CIDR di 0.0.0.0/0 come indirizzo IP. Questo blocco CIDR consente l'accesso da qualsiasi luogo ed è adatto solo per un deployment proof of concept come questo. Tuttavia, quando esegui il deployment di una versione di produzione di questa architettura, assicurati di inserire un intervallo di indirizzi IP appropriato per la tua applicazione.

Per maggiori dettagli su come configurare un utente del database e l'indirizzo IP per il tuo cluster, consulta Configurare l'accesso al cluster con la procedura guidata di avvio rapido nella documentazione di MongoDB.

Per configurare l'accesso al cluster, segui questi passaggi:

  1. Nella sezione Sicurezza del riquadro di navigazione a sinistra, fai clic su Guida rapida.
  2. Nella pagina Nome utente e password, procedi nel seguente modo per creare l'utente del database:
    1. In Nome utente, inserisci il nome dell'utente del database.
    2. In Password, inserisci la password dell'utente del database.
    3. Fai clic su Create User (Crea utente).
  3. Nella pagina Nome utente e password, segui questi passaggi per aggiungere un indirizzo IP per il tuo cluster:

    1. In Indirizzo IP, inserisci 0.0.0.0/0.

      Per il tuo ambiente di produzione, seleziona l'indirizzo IP appropriato per l'ambiente.

    2. (Facoltativo) In Descrizione, inserisci una descrizione del cluster.

    3. Fai clic su Add Entry (Aggiungi voce).

  4. Fai clic su Termina e chiudi.

Connessione al tuo cluster

Dopo aver configurato l'accesso al cluster, ora devi connetterti al cluster. Per dettagli su come connetterti al cluster, consulta Connettersi al cluster nella documentazione di MongoDB.

Segui questi passaggi per connetterti al cluster:

  1. Nella UI di Atlas, nella pagina Deployment di database, individua il cluster di cui hai appena eseguito il deployment.
  2. Seleziona Connetti.
  3. Nella pagina Connetti, fai clic sull'opzione Bussola.
  4. Individua il campo Copia stringa di connessione, quindi copia e salva la stringa di connessione MongoDB. Puoi utilizzare questa stringa di connessione durante l'esecuzione dei modelli Dataflow.

    La sintassi della stringa di connessione è la seguente:

    mongodb+srv://<UserName>:<Password>@<HostName>
    

    La stringa di connessione contiene automaticamente il nome utente dell'utente del database creato nel passaggio precedente. Tuttavia, ti verrà chiesta la password dell'utente del database quando utilizzi questa stringa per la connessione.

  5. Fai clic su Chiudi.

Crea un set di dati in BigQuery

Quando crei un set di dati in BigQuery, devi solo inserire il nome di un set di dati e selezionare una posizione geografica per il set di dati. Tuttavia, esistono campi facoltativi che puoi impostare sul set di dati. Per ulteriori informazioni su questi campi facoltativi, consulta Creare set di dati.

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona il progetto in cui vuoi creare il set di dati.

  3. Espandi l'opzione e fai clic su Crea set di dati.

  4. Nella pagina Crea set di dati:

    1. In ID set di dati, inserisci un nome univoco del set di dati.
    2. In Tipo di località, scegli una località geografica per il set di dati. Una volta creato un set di dati, la località non può essere modificata.

      Se scegli EU o una regione con sede nell'UE per la località del set di dati, i dati principali dei clienti BigQuery risiedono nell'UE. Per una definizione dei dati principali dei clienti BigQuery, consulta Termini specifici dei servizi.

    3. Fai clic su Crea set di dati.

Crea, monitora e convalida un job batch di Dataflow

In Dataflow, utilizza le istruzioni riportate di seguito per creare un job batch una tantum che carichi i dati di esempio da MongoDB a BigQuery. Dopo aver creato il job batch, ne monitori l'avanzamento nell'interfaccia di monitoraggio Dataflow. Per dettagli completi sull'utilizzo dell'interfaccia di monitoraggio, consulta Utilizzare l'interfaccia di monitoraggio di Dataflow.

  1. Nella console Google Cloud, vai alla pagina Dataflow.

    Vai a Dataflow

  2. Fai clic su Crea job da modello.

  3. Nella pagina Crea job da modello, segui questi passaggi:

    1. In Nome job, inserisci un nome univoco per il job, ad esempio mongodb-to-bigquery-batch. Assicurati che nessun altro job Dataflow con questo nome sia attualmente in esecuzione nel progetto.
    2. Per Endpoint a livello di regione, seleziona la stessa località del set di dati BigQuery che hai appena creato.
    3. Per Modello Dataflow, nell'elenco Elabora i dati in blocco (batch), seleziona Da MongoDB a BigQuery.
    4. Nella sezione Parametri obbligatori, inserisci i seguenti parametri:

      1. In URI di connessione MongoDB, inserisci la stringa di connessione Atlas MongoDB.
      2. Per Database Mongo, inserisci il nome del database creato in precedenza.
      3. Per Raccolta Mongo, inserisci il nome della raccolta campione che hai annotato in precedenza.
      4. Per la tabella di destinazione BigQuery, fai clic su Sfoglia e seleziona la tabella BigQuery creata nel passaggio precedente.
      5. Per Opzione utente, inserisci NESSUNO o FLATTEN.

        NONE caricherà l'intero documento in formato stringa JSON in BigQuery. FLATTEN appiattisce il documento a un livello. Se non fornisci una funzione definita dall'utente, l'opzione FLATTEN funziona solo con i documenti che hanno uno schema fisso.

      6. Per avviare il job, fai clic su Esegui job.

  4. Segui questi passaggi per aprire l'interfaccia di monitoraggio di Dataflow, in cui puoi verificare l'avanzamento del job batch e verificare che il job venga completato senza errori:

    1. Nella console Google Cloud, nel progetto per questo deployment, apri il menu di navigazione.
    2. In Analytics, fai clic su Dataflow.
  5. Dopo che la pipeline è stata eseguita correttamente, segui questi passaggi per convalidare l'output della tabella:

    1. In BigQuery, apri il riquadro Spazio di esplorazione.
    2. Espandi il progetto, fai clic sul set di dati, quindi fai doppio clic sulla tabella.

      Ora dovresti essere in grado di visualizzare i dati MongoDB nella tabella.

Esegui la pulizia

Per evitare che ai tuoi account MongoDB e Google Cloud vengano addebitati costi, devi mettere in pausa o terminare il cluster MongoDB Atlas ed eliminare il progetto Google Cloud che hai creato per questa architettura di riferimento.

Mettere in pausa o terminare il cluster MongoDB Atlas

La procedura seguente fornisce le informazioni di base per mettere in pausa il cluster. Per i dettagli completi, consulta Mettere in pausa, riprendere o terminare un cluster nella documentazione di MongoDB.

  1. Nell'interfaccia utente di Atlas, vai alla pagina Deployment di database per il tuo progetto Atlas.
  2. Per il cluster che vuoi mettere in pausa, fai clic su .
  3. Fai clic su Metti in pausa cluster.
  4. Fai clic su Metti in pausa cluster per confermare la scelta.

Elimina il progetto

  1. Nella console Google Cloud, vai alla pagina Gestisci risorse.

    Vai a Gestisci risorse

  2. Nell'elenco dei progetti, seleziona il progetto che vuoi eliminare, quindi fai clic su Elimina.
  3. Nella finestra di dialogo, digita l'ID del progetto e fai clic su Chiudi per eliminare il progetto.

Passaggi successivi

Collaboratori

Autori:

Altri collaboratori:

Accedi a LinkedIn per vedere i profili LinkedIn non pubblici.