Gestisci e monitora l'infrastruttura Google Cloud

Last reviewed 2023-11-13 UTC

Dopo aver eseguito il deployment di un'applicazione in produzione in Google Cloud, potresti dover modificare l'infrastruttura che utilizza. Ad esempio, potrebbe essere necessario modificare i tipi di macchine delle VM o la classe di archiviazione dei bucket Cloud Storage. Questa parte della guida all'affidabilità dell'infrastruttura di Google Cloud riassume le linee guida per la gestione dei cambiamenti che puoi seguire per ridurre il rischio di affidabilità delle risorse dell'infrastruttura. Questa parte descrive anche come è possibile monitorare la disponibilità dell'infrastruttura Google Cloud.

Esegui il deployment progressivo delle modifiche all'infrastruttura

Quando devi modificare il più possibile l'infrastruttura Google Cloud, esegui progressivamente il deployment delle modifiche in produzione. Ad esempio, se devi cambiare i tipi di macchine delle VM, esegui il deployment delle modifiche su alcune VM in una zona e monitora gli effetti delle modifiche. In caso di problemi, ripristina rapidamente l'infrastruttura allo stato stabile precedente. Diagnostica e risolvi i problemi, quindi riavvia il processo di deployment progressivo. Dopo aver verificato che il carico di lavoro venga eseguito come previsto, esegui gradualmente il deployment delle modifiche in tutta l'infrastruttura.

Per ulteriori informazioni sulle strategie per testare ed eseguire il deployment delle modifiche in modo affidabile nell'infrastruttura e nelle applicazioni Google Cloud, consulta Strategie di test e deployment delle applicazioni.

Controlla le modifiche alle risorse globali

Quando modifichi risorse globali come reti VPC e bilanciatori del carico globali, presta particolare attenzione a verificare le modifiche prima di eseguirne il deployment in produzione.

Poiché le risorse globali sono resilienti alle interruzioni di zone e regioni, potresti decidere di utilizzare singole istanze di determinate risorse globali nella tua architettura. In questi deployment, le risorse globali possono diventare single point of failure. Ad esempio, se inavvertitamente configuri in modo errato una regola di forwarding del bilanciatore del carico globale, il frontend può interrompere la ricezione o l'elaborazione delle richieste degli utenti. In effetti, l'applicazione non è disponibile per gli utenti in questo caso sebbene il backend sia intatto. Per evitare queste situazioni, esercita un controllo rigoroso sulle modifiche alle risorse globali. Ad esempio, nella procedura di revisione delle modifiche puoi classificare eventuali modifiche apportate alle risorse globali come modifiche ad alto rischio che altri revisori devono verificare e approvare.

Monitorare la disponibilità dell'infrastruttura Google Cloud

Puoi monitorare lo stato attuale dei servizi Google Cloud in tutte le regioni utilizzando la dashboard di Google Cloud Service Health. Puoi anche visualizzare una cronologia degli errori dell'infrastruttura (chiamati incidenti) per ciascun servizio. La pagina della cronologia fornisce i dettagli di ogni incidente, come la durata, le zone e le regioni interessate, i servizi interessati e le eventuali soluzioni consigliate.

Puoi anche visualizzare gli incidenti relativi al tuo progetto utilizzando Service Health personalizzato. Service Health consente inoltre di richiedere informazioni sugli incidenti utilizzando un'API in base al progetto o alla singola organizzazione e consente di configurare gli avvisi.

Google fornisce aggiornamenti regolari sullo stato di ogni incidente, incluso un tempo stimato per l'aggiornamento successivo. Puoi ricevere gli aggiornamenti dello stato per gli incidenti in modo programmatico usando un feed RSS. Per ulteriori informazioni, consulta Incidenti e dashboard di Google Cloud Service Health.