Configurazione di monitoraggio, avvisi e logging

Last reviewed 2024-09-02 UTC

Questo documento nel Framework dell'architettura Google Cloud ti mostra come configurare monitoraggio, avvisi e logging in modo da poter intervenire in base al comportamento del tuo sistema. Ciò include l'identificazione di metriche per monitorare e creare dashboard per semplificare la visualizzazione delle informazioni sui tuoi sistemi.

Il programma di ricerca DORA (Resource and Assessment) definisce il monitoraggio come:

"Il processo di raccolta, analisi e utilizzo delle informazioni per monitorare applicazioni e infrastruttura per guidare le decisioni aziendali. Il monitoraggio è una funzionalità fondamentale perché ti offre informazioni sistemi e il tuo lavoro".

Il monitoraggio consente ai proprietari dei servizi di:

  • Prendi decisioni consapevoli quando le modifiche al servizio influiscono sulle prestazioni
  • Applica un approccio scientifico alla risposta agli incidenti
  • Misura l'allineamento del tuo servizio agli obiettivi commerciali

Con il monitoraggio, il logging e gli avvisi attivi, puoi:

  • Analizza le tendenze a lungo termine
  • Confrontare gli esperimenti nel tempo
  • Definisci gli avvisi sulle metriche critiche
  • Crea dashboard pertinenti in tempo reale
  • Esegui analisi retrospettiva
  • Monitora sia le metriche basate sull'attività che quelle sull'integrità del sistema
    • Le metriche basate sull'attività ti aiutano a comprendere l'efficacia dei tuoi sistemi la tua attività. Ad esempio, utilizza le metriche per monitorare seguenti:
      • Il costo di un'applicazione per servire un utente
      • La variazione di volume nel traffico del sito in seguito a una riprogettazione
      • Il tempo impiegato da un cliente ad acquistare un prodotto sul tuo sito
    • Le metriche di integrità del sistema ti aiutano a capire se i sistemi sono funzionano correttamente ed entro livelli di prestazioni accettabili.

Utilizza quanto segue quattro segnali aurei per monitorare il sistema:

  • Latenza. Il tempo necessario per gestire una richiesta.
  • Traffico. A quanta domanda deve far fronte il tuo sistema.
  • Errori. Quantità delle richieste che non vanno a buon fine. L'errore può essere esplicito (ad esempio, HTTP 500), implicito (ad esempio, un HTTP 200 risposta positiva associata ai contenuti sbagliati) o in base alle norme (per Ad esempio, se ti impegni a utilizzare tempi di risposta di un secondo, qualsiasi richiesta un secondo è un errore).
  • Saturazione. Quanto è completo il tuo servizio. La saturazione è una misura di la frazione del tuo sistema, evidenziando le risorse più vincolate (vale a dire, in un sistema vincolato alla memoria, mostra la memoria; in un sistema I/O vincolato, mostra I/O).

Crea un piano di monitoraggio

Crea un piano di monitoraggio in linea con la missione della tua organizzazione e le sue la strategia operativa. Includi la pianificazione del monitoraggio e dell'osservabilità durante lo sviluppo di applicazioni. Includere nelle prime fasi di un piano di monitoraggio un piano di monitoraggio di sviluppo possono guidare un'organizzazione verso l'eccellenza operativa.

Includi i seguenti dettagli nel piano di monitoraggio:

  • Includi tutti i tuoi sistemi, incluse risorse on-premise e cloud Google Cloud.
  • Includi il monitoraggio dei costi del cloud per assicurarti che la scalabilità eventi che non comportano il superamento delle soglie di budget.
  • Crea diverse strategie di monitoraggio per l'infrastruttura di misurazione indicatori chiave di prestazione, prestazioni, esperienza utente e business (KPI). Ad esempio, le soglie statiche potrebbero essere adatte a misurare delle prestazioni dell'infrastruttura ma non riflettono veramente l'esperienza dell'utente.

Aggiorna il piano man mano che maturano le tue strategie di monitoraggio. Ripeti il piano per migliorare l'integrità dei tuoi sistemi.

Definisci metriche che misurano tutti gli aspetti della tua organizzazione

Definisci le metriche necessarie per misurare il comportamento del deployment. Ecco come fare:

  • Definisci i tuoi scopi commerciali.
  • Identificare le metriche e i KPI che possono fornirti risultati quantificabili informazioni per misurare il rendimento. Assicurati che le definizioni delle metriche puoi tradurre in tutti gli aspetti della tua organizzazione, dall'attività dalle esigenze aziendali, compresi i costi del cloud, ai componenti tecnici.
  • Utilizza queste metriche per creare indicatori del livello del servizio (SLI) per le tue applicazioni. Per ulteriori informazioni, vedi Scegli gli SLI appropriati.

Metriche comuni per vari componenti

Le metriche vengono generate a tutti i livelli del servizio, dall'infrastruttura e networking alla logica di business. Ad esempio:

  • Metriche dell'infrastruttura:
    • Statistiche sulle macchine virtuali, tra cui istanze, CPU, memoria all'utilizzo e conteggia
    • Statistiche basate su container, tra cui l'utilizzo del cluster, capacità del cluster, utilizzo a livello di pod e conteggi
    • Statistiche di networking, incluso il traffico in entrata/in uscita, la larghezza di banda componenti, latenza e velocità effettiva
    • Richieste al secondo, misurate dal bilanciatore del carico
    • Blocchi di disco totali letti, per disco
    • Pacchetti inviati tramite una determinata interfaccia di rete
    • Dimensione heap della memoria per un determinato processo
    • Distribuzione delle latenze di risposta
    • Numero di query non valide rifiutate da un'istanza di database
  • Metriche dell'applicazione:
    • Comportamento specifico per l'applicazione, incluse query al secondo e scritture al secondo e i messaggi inviati al secondo
  • Metriche delle statistiche sui servizi gestiti:
    • QPS, velocità effettiva, latenza, utilizzo per i servizi gestiti da Google (API o prodotti come BigQuery, App Engine e Bigtable)
  • Metriche delle statistiche sulla connettività di rete:
    • Statistiche relative a VPN/interconnect sulla connessione a on-premise o sistemi esterni a Google Cloud.
  • SLI
    • Metriche associate all'integrità complessiva del sistema.

Configura il monitoraggio

Configura il monitoraggio per monitorare sia le risorse on-premise che le risorse cloud.

Scegli una soluzione di monitoraggio che:

  • È indipendente dalla piattaforma
  • Fornisce funzionalità uniformi per il monitoraggio di ambienti on-premise, ibridi e multi-cloud

Usare un'unica piattaforma per consolidare i dati di monitoraggio ricevuti da origini diverse consente di creare metriche e visualizzazioni uniformi le dashboard.

Quando configuri il monitoraggio, automatizza le attività di monitoraggio, se possibile.

Monitoraggio con Google Cloud

L'utilizzo di un servizio di monitoraggio, come Cloud Monitoring, più semplice rispetto a creare personalmente un servizio di monitoraggio. Monitoraggio di un'applicazione complessa costituisce di per sé un notevole impegno ingegneristico. Anche con modelli esistenti per la strumentazione, la raccolta e la visualizzazione dei dati e gli avvisi si tratta di un lavoro a tempo pieno da costruire e mantenere.

Valuta la possibilità di utilizzare Cloud Monitoring per ottenere visibilità le prestazioni, la disponibilità e l'integrità delle tue applicazioni dell'infrastruttura per le risorse on-premise e cloud.

Cloud Monitoring è un servizio gestito che fa parte Observability di Google Cloud. Puoi utilizzare Cloud Monitoring e monitorare i servizi e le metriche personalizzate di Google Cloud. Cloud Monitoring fornisce un'API per l'integrazione con strumenti di monitoraggio di terze parti.

Cloud Monitoring aggrega metriche, log ed eventi dall'account basata su cloud. Questi dati offrono a sviluppatori e operatori un'ampia gamma insieme di segnali osservabili che possono accelerare l'analisi delle cause principali e ridurre la media per risolvere il problema. Puoi utilizzare Cloud Monitoring per definire avvisi e metriche personalizzate che soddisfano i tuoi scopi commerciali e ti aiutano ad aggregare, per visualizzare e monitorare l'integrità del sistema.

Cloud Monitoring fornisce dashboard predefinite per cloud e open source per le applicazioni. Utilizzando il modello di metriche, puoi definire dashboard personalizzate con potenti strumenti di visualizzazione configurare i grafici in Esplora metriche.

Configura avvisi

Un buon sistema di avviso migliora la tua capacità di rilasciare funzionalità. Sono utili Confrontare le prestazioni nel tempo per determinare la velocità dei rilasci di funzionalità la necessità di eseguire il rollback di una release di funzionalità. Per informazioni sui rollback, consulta Ripristina le release precedenti senza problemi.

Quando configuri gli avvisi, mappa questi ultimi direttamente alle metriche critiche. Questi metriche più critiche includono:

  • I quattro segnali aurei:
      .
    • Latenza
    • Traffico
    • Errori
    • Saturazione
  • Integrità del sistema
  • Utilizzo del servizio
  • Eventi di sicurezza
  • Esperienza utente

Rendi utilizzabili gli avvisi per ridurre al minimo i tempi di risoluzione. Per farlo, per ogni avviso:

  • Includi una descrizione chiara, che indichi cosa viene monitorato e il proprio impatto aziendale.
  • Fornisci tutte le informazioni necessarie per agire immediatamente. Se serve pochi clic e la navigazione per capire gli avvisi, è impegnativo l'interlocutore deve intervenire.
  • Definire i livelli di priorità dei vari avvisi.
  • Identifica chiaramente la persona o il team responsabile di rispondere all'avviso.

Per le applicazioni e i servizi critici, crea azioni di riparazione automatica gli avvisi attivati a causa di condizioni di guasto comuni, come l'integrità del servizio di errori, modifiche alla configurazione o picchi di velocità effettiva.

Mentre configuri gli avvisi, prova a eliminare il lavoro manuale. Ad esempio, elimina il lavoro manuale eliminando gli errori frequenti o automatizzando le correzioni di questi errori, potrebbe evitare l'attivazione di un avviso. Eliminare il lavoro manuale permette a chi al fine di rendere affidabili i componenti operativi della tua applicazione. Per ulteriori informazioni, vedi Crea una cultura dell'automazione.

Crea dashboard di monitoraggio e avvisi

Una volta eseguito il monitoraggio, crea dashboard pertinenti e semplici che includere informazioni dai tuoi sistemi di monitoraggio e avviso.

Scegliere un modo appropriato per visualizzare la dashboard può essere difficile per legare agli obiettivi di affidabilità. Crea dashboard per visualizzare entrambi:

  • Analisi a breve termine e in tempo reale
  • Analisi a lungo termine

Per ulteriori informazioni sull'implementazione della gestione visiva, vedi la funzionalità nell'articolo Gestione visiva.

Abilita il logging per le applicazioni critiche

I servizi di logging sono fondamentali per il monitoraggio dei sistemi. Mentre le metriche vengono in base agli elementi specifici da monitorare, i log contengono informazioni preziose necessarie per il debug, l'analisi relativa alla sicurezza e la conformità i tuoi requisiti.

La registrazione dei dati generati dai tuoi sistemi ti aiuta a garantire strategia di sicurezza. Per ulteriori informazioni sul logging e sulla sicurezza, vedi Implementare il logging e i controlli di rilevamento nella categoria di sicurezza del framework dell'architettura.

Cloud Logging è un servizio integrato di logging che consente di archiviare, cercare, analizzare, monitorare e avvisi su dati ed eventi dei log. Logging raccoglie automaticamente dai servizi di Google Cloud e di altri cloud provider. Puoi utilizzare la modalità per creare metriche per il monitoraggio e per creare esportazioni di log verso da servizi esterni come Cloud Storage, BigQuery, e Pub/Sub.

Configura un audit trail

Aiuta a rispondere a domande come "chi ha fatto cosa, dove e quando" nel tuo per i progetti Google Cloud, utilizza Audit log di Cloud.

Cloud Audit Logs acquisisce diversi tipi di attività, tra cui:

  • I log delle attività di amministrazione contengono voci di log per le chiamate API o altri azioni amministrative che modificano la configurazione o i metadati delle risorse. I log delle attività di amministrazione sono sempre abilitati.
  • Gli audit log di accesso ai dati registrano le chiamate API che vengono create, modificate o lette forniti dall'utente. Gli audit log di accesso ai dati sono disabilitati per impostazione predefinita possono essere molto grandi. Puoi configurare i servizi Google Cloud per produrre i log di accesso ai dati.

Per un elenco dei servizi Google Cloud che scrivono audit log, consulta Servizi Google con log di controllo. Utilizza i controlli IAM (Identity and Access Management) per limitare gli utenti che possono accedere alla visualizzazione dei controlli logaritmi.

Passaggi successivi