Funzionalità dell’agente AWS DevOps
Risposta autonoma agli incidenti
Apri tuttoL’agente AWS DevOps si integra con sistemi di ticketing e allarmi come ServiceNow per avviare automaticamente le indagini dai ticket di incidente, accelerando la risposta agli incidenti all'interno dei flussi di lavoro esistenti per ridurre il tempo medio di risoluzione (MTTR).
Puoi anche avviare e guidare le indagini utilizzando la chat interattiva. L’agente AWS DevOps agisce come membro del tuo team operativo, lavorando direttamente all'interno dei tuoi strumenti di collaborazione come ServiceNow e Slack per condividere i risultati e coordinare la risposta. Se necessario, crea un caso per il Supporto AWS direttamente da un'indagine, fornendo agli esperti del supporto AWS un contesto immediato per una risoluzione più rapida.
AWS DevOps Agent valuta automaticamente gli incidenti e identifica le relazioni tra gli allarmi, rilevando quelli causati dallo stesso evento. Ciò permette di rispondere in maniera tempestiva agli incidenti, distinguendo immediatamente gli allarmi collegati da quelli che richiedono indagini separate, riducendo il rumore operativo e permettendo ai team di concentrarsi prima sui problemi più critici.
L’agente AWS DevOps si integra con strumenti di osservabilità, repository di codice e pipeline CI/CD per correlare e analizzare dati di telemetria, codice e implementazione, condividendo le ipotesi esplorate, le osservazioni e gli esiti delle cause principali. Attraverso indagini sistematiche, l’agente AWS DevOps identifica la causa principale dei problemi derivanti da modifiche al sistema, anomalie di input, limiti di risorse, guasti dei componenti e problemi di dipendenza nell'intero ambiente.
Una volta identificata la causa principale, l’agente AWS DevOps fornisce piani di mitigazione dettagliati, che includono azioni per risolvere l'incidente, convalidare il successo e annullare una modifica, se necessario. L’agente AWS DevOps fornisce anche istruzioni pronte per l'agente che possono essere implementate da un altro agente di frontiera, ad esempio miglioramenti del codice che possono essere implementati dall'agente autonomo Kiro.
AWS DevOps Agent migliora continuamente le capacità di analisi esaminando le indagini per sviluppare competenze investigative. Queste competenze permettono all'agente di apprendere come valutare gli eventi, procedere all'analisi della causa principale e creare piani di mitigazioni in modo sempre più rapido ed efficace, migliorando progressivamente nel corso del tempo.
- Modifiche al sistema: se un incidente è causato dalla limitazione di Amazon DynamoDB a causa di una recente modifica del codice che comporta un'elevata latenza dovuta a un uso inefficiente, l’agente AWS DevOps potrebbe consigliare di annullare la modifica come misura di mitigazione immediata.
- Modifiche al sistema: se un incidente è causato da errori di sottoscrizione di Amazon SNS dovuti alla mancata corrispondenza delle policy di filtro a seguito dell’implementazione di un codice, l’agente AWS DevOps può consigliare di annullare la modifica al codice che ha alterato la struttura del messaggio come mitigazione immediata per ripristinare il flusso di messaggi.
- Anomalie di input: se un incidente è causato dalla limitazione delle notifiche da parte di AWS Lambda a causa di un traffico elevato che supera i limiti, l’agente AWS DevOps può consigliare di aumentare i limiti di concorrenza come misura di mitigazione immediata.
- Anomalie di input: se un incidente è causato da errori di pubblicazione dei messaggi di Amazon SNS dovuti a problemi di dimensione dei messaggi, l’agente AWS DevOps potrebbe consigliare di aggiungere la convalida alla pubblicazione dei messaggi di Amazon SNS come misura di mitigazione immediata.
- Limiti delle risorse: se un incidente è causato dalla limitazione delle API dovuta al superamento dei limiti di velocità, l’agente AWS DevOps può consigliare di aumentare i limiti di rate/burst come misura di mitigazione immediata.
- Limiti delle risorse: se un incidente è causato dalla limitazione di Amazon DynamoDB dovuta a una capacità di scrittura superata, l’agente AWS DevOps potrebbe consigliare di aumentare la capacità di scrittura come misura di mitigazione immediata.
- Guasti dei componenti: se un incidente è causato dalla latenza di avvio a freddo dovuta al degrado delle prestazioni, l’agente AWS DevOps può consigliare di aumentare la concorrenza predisposta come misura di mitigazione immediata.
Attraverso un'analisi sistematica degli allarmi derivanti da modifiche del sistema, anomalie di input, limiti di risorse, guasti dei componenti e problemi di dipendenza nell'intero stack, l’agente AWS DevOps guida i team DevOps con fasi di mitigazione mirate, riducendo il tempo medio di risoluzione (MTTR) da ore a minuti. Ad esempio:
Prevenzione proattiva degli incidenti
Apri tuttoAWS DevOps Agent analizza i modelli degli incidenti storici per fornire raccomandazioni utili volte a migliorare quattro aree chiave: osservabilità, ottimizzazione dell'infrastruttura, miglioramento della pipeline di distribuzione e resilienza delle applicazioni. Ad esempio, AWS DevOps Agent è in grado di identificare lacune nei test che avrebbero impedito il verificarsi del problema in frase di produzione. Queste raccomandazioni includono anche specifiche pronte per l'uso da parte di agenti o colleghi incaricati dell'implementazione di codici applicativi o infrastrutturali. Ciò favorisce un miglioramento continuo senza la necessità di gestire un backlog.
L’agente AWS DevOps identifica le lacune nella copertura dell'osservabilità e le opportunità per ottimizzare gli allarmi, riducendo il tempo medio di rilevamento (MTTD) in modo da poter identificare i problemi prima che diventino un problema più grande. Ad esempio, dopo aver riscontrato che il rilevamento degli incidenti per errori recenti ha richiesto troppo tempo, AWS DevOps Agent potrebbe consigliare di implementare il monitoraggio e il rilevamento delle anomalie più vicino all'origine dell'errore per ridurre i tempi di rilevamento e prevenire interruzioni prolungate.
Utilizzando un ciclo di apprendimento, l’agente AWS DevOps continua a perfezionare i suoi consigli, ad allinearsi alle priorità operative e a fornire consigli sempre più pertinenti e personalizzati in base alle esigenze organizzative in base al feedback del team sui consigli.
L’agente AWS DevOps analizza i modelli degli incidenti storici per fornire raccomandazioni mirate che prevengono interruzioni future e rafforzano la resilienza del sistema. Grazie alla valutazione di incidenti reali, offre miglioramenti specifici e attuabili che riducono sia la frequenza sia l'impatto di problemi simili in quattro aree chiave: osservabilità, ottimizzazione dell'infrastruttura, miglioramento della pipeline di distribuzione e resilienza delle applicazioni.
- Miglioramento dell'osservabilità: l’agente AWS DevOps può consigliare di regolare le soglie di allarme da 15 guasti nell'arco di 20 minuti a 3 guasti entro 5 minuti per i sistemi di autenticazione critici per ridurre i tempi di rilevamento, prevenendo interruzioni prolungate dell'integrazione.
- Miglioramento dell'osservabilità: l’agente AWS DevOps può consigliare l'implementazione di filtri metrici CloudWatch mirati per tracciare modelli anomali di “accesso negato” per le modifiche ai ruoli IAM, consentendo un rilevamento più rapido rispetto a un allarme precedente.
- Miglioramento dell'infrastruttura: dopo aver analizzato che lo schema delle tabelle di Amazon DynamoDB non corrisponde al modello di accesso principale del servizio, imponendo scansioni complete delle tabelle inefficienti, l’agente AWS DevOps consiglia di creare un indice secondario globale (GSI) con l'attributo richiesto frequentemente come chiave di partizione. Ciò trasformerebbe le operazioni da scansioni a query, riducendo la latenza da 2.500-3.500 ms a meno di 100 ms e prevenendo la limitazione.
- Miglioramento dell'infrastruttura: l'analisi dell’agente AWS DevOps mostra che l'applicazione dispone di risorse adeguate ma è vincolata da un collo di bottiglia a singolo pod in cui tutte le richieste vengono accodate a un'istanza durante i picchi di traffico. L’agente AWS DevOps può consigliare di aggiungere Horizontal Pod Autoscaler al cluster Kubernetes, che scalerà automaticamente il servizio orizzontalmente in base alla domanda, distribuendo efficacemente il carico su più pod.
- Pipeline di implementazione: dopo aver analizzato le implementazioni Amazon ECS non riuscite, l’agente AWS DevOps potrebbe consigliare di abilitare i rollback automatici e monitorare gli stati di implementazione con Amazon EventBridge. Queste modifiche rileveranno e risolveranno rapidamente gli errori di controllo dell’integrità delle attività, prevenendo l'interruzione delle transazioni con i clienti.
- Pipeline di implementazione: dopo aver analizzato gli errori di implementazione, l’agente AWS DevOps può consigliare la convalida obbligatoria pre-implementazione di Amazon Managed Service per la connettività Prometheus per le definizioni delle attività di Amazon ECS. Questa raccomandazione ridurrebbe le implementazioni non riuscite rilevando i problemi di connettività durante il processo di implementazione.
Gestione delle attività SRE on demand
Apri tuttoÈ possibile fare a DevOps Agent qualsiasi domanda operativa e ottenere risposte immediate e contestuali basate sull'effettiva infrastruttura, senza dover utilizzare console o strumenti di monitoraggio diversi. Oltre a questa funzionalità, è possibile creare, salvare e condividere grafici e report personalizzati , come riepiloghi quotidiani dello stato delle operazioni o tendenze degli errori 4XX, per tenere traccia dei parametri operativi e condividere suggerimenti con il team.
AWS DevOps Agent offre integrazioni predefinite con gli strumenti esistenti, tra cui strumenti di osservabilità (CloudWatch, Dynatrace, Datadog, New Relic, Splunk), repository di codice e pipeline CI/CD (GitHub, GitLab, Azure DevOps) e strumenti di ticketing/collaborazione (ServiceNow, PagerDuty, Slack) per identificare rapidamente le cause principali dei problemi, prevenire incidenti futuri in modo proattivo e ottenere risposte contestuali sull'ambiente.
È possibile connettersi a server MCP privati o remoti per integrare ulteriori strumenti come sistemi proprietari, piattaforme specializzate, sistemi di controllo versione gestiti dal cliente e documentazione relativa all'infrastruttura interna. In questo modo AWS DevOps Agent può accedere in modo sicuro a strumenti, dati e flussi di lavoro interni per fornire informazioni più accurate e automatizzare le attività in base al contesto reale dell'organizzazione.
AWS DevOps Agent studia l'ambiente, individuando automaticamente le applicazioni, i relativi servizi e le risorse incluse in tali servizi. Tramite la capacità di analisi della topologia, l'agente esamina tutti gli strumenti configurati e accetta gli input dell'utente, comprendendo meglio le risorse, le relazioni e i flussi principali dell'applicazione. Esegue poi una mappatura di queste relazioni, creando una topologia dinamica e costantemente aggiornata, per una panoramica generale delle applicazioni. AWS DevOps Agent combina la mappa delle risorse aggiornata in tempo reale con dati di telemetria, codice e distribuzione per comprendere meglio l'ambiente, risolvere incidenti più rapidamente, prevenire problemi futuri in modo proattivo e fornire risposte contestuali basate sull'effettivo funzionamento delle applicazioni.
È possibile aggiungere competenze modulari e riutilizzabili che AWS DevOps Agent può invocare per eseguire attività in modo coerente e affidabile. Le competenze definite da clienti e partner permettono di ampliare le capacità dell'agente in base all'ambiente. Ad esempio, è possibile definire una competenza che permetta ad AWS DevOps Agent di eseguire una query sui log di database on-premises, fornendo informazioni sulle posizioni dei log, sulle convenzioni di denominazione e sulle strategie di query. Trasferendo tali dati all'agente, è possibile migliorare il rilevamento servizi, le analisi dei log, i runbook per rispondere agli incidenti e le informazioni sulla responsabilità del team.
Passaggi successivi
Hai trovato quello che cercavi?
Facci sapere la tua opinione in modo da migliorare la qualità dei contenuti delle nostre pagine