Recursos do AWS DevOps Agent
Resposta autônoma a incidentes
Abrir tudoO AWS DevOps Agent integra-se a sistemas de emissão de tíquetes e alertas, como o ServiceNow, para iniciar automaticamente investigações a partir de tíquetes de incidentes, acelerando a resposta a incidentes dentro dos seus fluxos de trabalho existentes para reduzir o tempo médio de resolução (MTTR).
Também é possível iniciar e orientar investigações usando o bate-papo interativo. O AWS DevOps Agent atua como membro da sua equipe de operações, trabalhando diretamente nas suas ferramentas de colaboração, como ServiceNow e Slack, para compartilhar descobertas e coordenar respostas. Quando necessário, crie um caso do AWS Support diretamente de uma investigação, fornecendo aos especialistas do AWS Support um contexto imediato para uma resolução mais rápida.
O Agente de DevOps da AWS classifica incidentes automaticamente e associa alertas relacionados para identificar quando eles derivam de um mesmo evento. Isso agiliza o atendimento a ocorrências, pois permite reconhecer de imediato quais alertas estão interligados e quais demandam uma análise separada, diminuindo a quantidade de informações irrelevantes e permitindo que as equipes se concentrem primeiro nos problemas mais graves.
O AWS DevOps Agent integra-se a ferramentas de observabilidade, repositórios de código e pipelines de CI/CD para correlacionar e analisar dados de telemetria, código e implantação, compartilhando suas hipóteses exploradas, observações e conclusões sobre as causas principais. Por meio de investigações sistemáticas, o AWS DevOps Agent identifica a causa raiz dos problemas decorrentes de alterações no sistema, anomalias de entrada, limites de recursos, falhas de componentes e problemas de dependência em todo o seu ambiente.
Depois que o AWS DevOps Agent identifica a causa raiz, ele fornece planos de mitigação detalhados, que incluem ações para resolver o incidente, validar o sucesso e reverter uma alteração, se necessário. O AWS DevOps Agent também fornece instruções prontas para agentes que podem ser implementadas por outro agente de fronteira, por exemplo, melhorias de código que podem ser implementadas pelo agente autônomo Kiro.
O Agente de DevOps da AWS aprimora os recursos de investigação ao analisar análises anteriores para desenvolver habilidades aprendidas nesse processo. Essa capacidade estuda casos passados para entender como classificar eventos e elaborar análises de causa raiz e planos de solução de maneira mais eficiente e rápida, se tornando cada vez mais inteligente com o tempo.
- Alterações no sistema: se um incidente for causado porque o Amazon DynamoDB ficou sob controle de utilização devido a uma alteração recente no código que resultou em alta latência por uso ineficiente, o AWS DevOps Agent poderá recomendar reverter a alteração como uma mitigação imediata.
- Alterações no sistema: se um incidente for causado por erros de assinatura do Amazon SNS devido à incompatibilidade da política de filtro após a implantação de um código, o AWS DevOps Agent poderá recomendar a reversão da alteração de código que modificou a estrutura da mensagem como uma mitigação imediata para restaurar o fluxo de mensagens.
- Anomalias de entrada: se um incidente for causado pelo controle de utilização do AWS Lambda em notificações devido ao tráfego elevado que excede os limites, o AWS DevOps Agent poderá recomendar o aumento dos limites de simultaneidade como uma mitigação imediata.
- Anomalias de entrada: se um incidente for causado por falhas na publicação de mensagens do Amazon SNS devido a problemas com o tamanho das mensagens, o AWS DevOps Agent poderá recomendar a adição de validação à publicação de mensagens do Amazon SNS como uma mitigação imediata.
- Limites de recursos: se um incidente for causado por controle de utilização da API devido ao excedente dos limites de taxa, o AWS DevOps Agent poderá recomendar o aumento dos limites de taxa/burst como uma mitigação imediata.
- Limites de recursos: se um incidente for causado pelo controle de utilização do Amazon DynamoDB devido ao excedente da capacidade de gravação, o AWS DevOps Agent poderá recomendar o aumento da capacidade de gravação como uma mitigação imediata.
- Falhas de componentes: se um incidente for causado por latência de inicialização a frio devido à degradação da performance, o AWS DevOps Agent poderá recomendar o aumento da simultaneidade provisionada como uma mitigação imediata.
Por meio da investigação sistemática de alarmes decorrentes de alterações no sistema, anomalias de entrada, limites de recursos, falhas de componentes e problemas de dependência em toda a sua pilha, o AWS DevOps Agent orienta as equipes de DevOps com etapas de mitigação direcionadas, reduzindo o tempo médio de resolução (MTTR) de horas para minutos. Por exemplo:
Prevenção proativa de incidentes
Abrir tudoO Agente de DevOps da AWS analisa padrões em incidentes históricos para fornecer recomendações acionáveis que fortalecem quatro áreas principais: observabilidade, otimização da infraestrutura, aprimoramento do pipeline de implantação e resiliência de aplicações. Por exemplo, o Agente de DevOps da AWS consegue identificar falhas nos testes que, se resolvidas, teriam evitado que um problema chegasse ao ambiente de produção. As recomendações geradas também incluem especificações prontas para uso por agentes, o que permite repassar a implementação para o seu agente de programação ou para um membro da equipe responsável por atualizar o código da aplicação ou da infraestrutura. Com isso, é possível promover melhorias contínuas sem a necessidade de gerenciar uma lista de pendências.
O AWS DevOps Agent identifica lacunas na cobertura de observabilidade e oportunidades para ajustar seus alarmes, reduzindo o tempo médio de detecção (MTTD) para que você possa identificar problemas antes que eles se tornem maiores. Por exemplo, após identificar que a detecção de incidentes para falhas recentes demorava muito, o Agente de DevOps da AWS pode recomendar a implementação de monitoramento e detecção de anomalias mais próximas da fonte do erro para reduzir o tempo de detecção, evitando interrupções prolongadas.
Usando um ciclo de aprendizagem, o AWS DevOps Agent continua a refinar suas recomendações, alinhando-se às suas prioridades operacionais e fornecendo recomendações cada vez mais relevantes e adaptadas às necessidades da sua organização, com base no feedback da sua equipe sobre as recomendações.
O AWS DevOps Agent analisa padrões em incidentes históricos para fornecer recomendações direcionadas que evitam interrupções futuras e fortalecem a resiliência do sistema. Ao avaliar incidentes reais, ele oferece melhorias específicas e acionáveis que reduzem tanto a frequência quanto o impacto de problemas semelhantes em quatro áreas principais: observabilidade, otimização da infraestrutura, aprimoramento do pipeline de implantação e resiliência de aplicações.
- Melhoria da observabilidade: o AWS DevOps Agent pode recomendar o ajuste dos limites de alarme de 15 falhas em 20 minutos para 3 falhas em 5 minutos para sistemas de autenticação críticos, a fim de reduzir o tempo de detecção, evitando interrupções prolongadas na integração.
- Melhoria na observabilidade: o AWS DevOps Agent pode recomendar a implementação de filtros de métricas CloudWatch direcionados para rastrear padrões anômalos de “Acesso negado” para alterações de perfis do IAM, permitindo uma detecção mais rápida em comparação com um alarme anterior.
- Melhoria da infraestrutura: após analisar que o esquema da tabela do Amazon DynamoDB não corresponde ao padrão de acesso principal do serviço, forçando varreduras completas ineficientes da tabela, o AWS DevOps Agent recomenda a criação de um Índice Secundário Global (GSI) com o atributo consultado com frequência como chave de partição. Isso transformaria as operações de varreduras em consultas, reduzindo a latência de 2.500-3.500 ms para menos de 100 ms e evitando o controle de utilização.
- Melhoria da infraestrutura: a análise do AWS DevOps Agent mostra que a aplicação tem recursos adequados, mas é limitada por um gargalo de pod único, onde todas as solicitações são enfileiradas em uma instância durante picos de tráfego. O AWS DevOps Agent pode recomendar a adição do Horizontal Pod Autoscaler ao cluster do Kubernetes, que dimensionará automaticamente o serviço horizontalmente com base na demanda, distribuindo efetivamente a carga por vários pods.
- Pipeline de implantação: após analisar implantações do Amazon ECS que falharam, o AWS DevOps Agent pode recomendar a ativação de reversões automáticas e o monitoramento dos estados de implantação com o Amazon EventBridge. Essas alterações detectarão e resolverão rapidamente as falhas na verificação de integridade das tarefas, evitando a interrupção das transações dos clientes.
- Pipeline de implantação: após analisar as falhas de implantação, o AWS DevOps Agent pode recomendar a validação obrigatória pré-implantação da conectividade do Amazon Managed Service for Prometheus para definições de tarefas do Amazon ECS. Essa recomendação reduziria as falhas nas implantações, detectando problemas de conectividade durante o processo de implantação.
Manipulação de tarefas de SRE sob demanda
Abrir tudoFaça perguntas sobre qualquer questão operacional ao Agente de DevOps e obtenha respostas imediatas e contextualizadas, baseadas na sua própria infraestrutura, sem precisar navegar entre consoles ou ferramentas de monitoramento. Além de fazer perguntas e obter respostas, crie, salve e compartilhe gráficos e relatórios personalizados, como resumos diários da saúde operacional ou tendências de erros do tipo 4xx, que ajudam a acompanhar indicadores operacionais e a compartilhar percepções com a sua equipe.
O Agente de DevOps da AWS conta com integrações nativas com as ferramentas que você já utiliza, como soluções de observabilidade (CloudWatch, Dynatrace, Datadog, New Relic e Splunk), repositórios de código e pipelines de CI/CD (GitHub, GitLab e Azure DevOps), além de plataformas de gerenciamento de chamados e colaboração (ServiceNow, PagerDuty e Slack). Com isso, é possível identificar rapidamente as causas raiz de problemas, evitar ocorrências futuras de maneira proativa e obter respostas sob demanda e alinhadas com a realidade do seu ambiente.
É possível se conectar a servidores MCP particulares ou remotos para integrar outras ferramentas, como sistemas exclusivos, plataformas especializadas, sistemas de controle de versão gerenciados pelo cliente e documentações internas de infraestrutura. Com isso, o Agente de DevOps da AWS acessa de forma segura suas ferramentas, dados e fluxos de trabalho internos, proporcionando insights mais precisos e automatizando ações com base na realidade da sua organização.
O Agente de DevOps da AWS conhece o seu ambiente, identificando automaticamente as aplicações, os serviços que as compõem e os recursos que fazem parte desses serviços. Com a sua capacidade de análise de topologia, ele consulta todas as ferramentas configuradas, recebe as informações fornecidas por você e cria um entendimento completo dos recursos das suas aplicações, das relações entre eles e dos fluxos mais importantes. Essas relações são organizadas em uma topologia dinâmica e atualizada continuamente, que oferece uma visão realmente abrangente das suas aplicações. Ao cruzar esse mapa de recursos em tempo real com dados de telemetria, informações de código e registros de implantação, o Agente de DevOps da AWS passa a ter um conhecimento aprofundado do seu ambiente, o que permite resolver incidentes com mais rapidez, evitar problemas futuros de forma proativa e obter respostas alinhadas com o contexto, baseadas no funcionamento real das suas aplicações.
Adicione habilidades modulares e reutilizáveis que o Agente de DevOps da AWS pode acionar para executar tarefas de forma consistente e confiável. As habilidades definidas por clientes e parceiros permitem ampliar as capacidades da ferramenta para adequá-la às características do seu ambiente. Por exemplo, é possível criar uma habilidade que permita ao Agente de DevOps da AWS consultar logs de bancos de dados on-premises, informando onde esses logs estão armazenados, as convenções de nomenclatura e as estratégias de consulta. Ao compartilhar o conhecimento acumulado pela sua organização com a ferramenta, você otimiza desde processos de descoberta de serviços e análise de logs até a runbooks de resposta a incidentes e a consulta de informações sobre a responsabilidade de cada equipe pelas soluções.
Próximas etapas
Você encontrou o que estava procurando hoje?
Informe-nos para que possamos melhorar a qualidade do conteúdo em nossas páginas