AWS DevOps Agent 的功能
自主事件响应
全部打开AWS DevOps Agent 可与 ServiceNow 等工单和告警系统集成,能从事件工单中自动启动调查流程,在您现有工作流内加速事件响应速度,进而缩短平均解决时间(MTTR)。
您还可以使用交互式聊天发起并引导调查。AWS DevOps Agent 如同您运营团队的一员,直接在 ServiceNow 和 Slack 等协作工具中工作,共享调查发现并协调响应措施。有需要时,可直接从调查中创建 AWS Support 案例,为 AWS Support 专家提供即时上下文信息,从而加快问题解决速度。
AWS DevOps 代理会自动对事件进行分类,并关联相关警报,以识别哪些警报源自同一事件。这可加快事件响应速度,因为系统能立即识别哪些警报相互关联、哪些需要单独调查,从而减少干扰,使团队能够优先处理最关键的问题。
AWS DevOps Agent 与可观测性工具、代码存储库和 CI/CD 管道集成,以关联和分析遥测、代码和部署数据,同时共享其探索的假设、观察结果和根本原因调查发现。通过系统性调查,AWS DevOps Agent 可识别整个环境中由系统变更、输入异常、资源限制、组件故障及依赖关系问题而引发的问题的根本原因。
AWS DevOps Agent 确定根本原因后,将提供详细的缓解计划,其中包括解决事件、验证成功以及在需要时恢复更改的措施。AWS DevOps Agent 还提供可由其他前沿代理实施的代理就绪型指令,例如,可由 Kiro 自主代理实施的代码改进。
AWS DevOps 代理通过回顾以往的调查记录来建立学习型调查技能,从而增强调查能力。所学的调查技能会分析过往调查案例,以了解如何更高效地对事件进行分类处理,并更快地生成根本原因分析和缓解方案,从而随着时间的推移不断提升智能水平。
- 系统变更:如果事件是由于近期代码变更导致 Amazon DynamoDB 被节流(低效使用引发高延迟)造成的,AWS DevOps Agent 可能会建议回滚该变更,以此作为即时缓解措施。
- 系统变更如果事件是由于代码部署后筛选策略不匹配导致 Amazon SNS 订阅出错造成的,AWS DevOps Agent 可能会建议回滚修改了消息结构的代码变更,以此作为即时缓解措施来恢复消息流。
- 输入异常:如果事件是由于流量超出限制导致 AWS Lambda 在处理通知时被节流造成的,AWS DevOps Agent 可能会建议提高并发限制,以此作为即时缓解措施。
- 输入异常:如果事件是由于消息大小问题导致 Amazon SNS 消息发布失败造成的,AWS DevOps Agent 可能会建议在 Amazon SNS 消息发布流程中增加校验步骤,以此作为即时缓解措施。
- 资源限制:如果事件是由超出速率限制导致的 API 限制造成的,AWS DevOps Agent 可能会建议提高速率/突发限制,以此作为立即缓解措施。
- 资源限制:如果事件是由于写入容量超出导致的 Amazon DynamoDB 限制导致的,AWS DevOps Agent 可能会建议增加写入容量,以此作为即时缓解措施。
- 组件故障:如果事件是由于性能下降导致的冷启动延迟造成的,AWS DevOps Agent 可能会建议增加预置并发性,以此作为即时缓解措施。
AWS DevOps Agent 会对整个堆栈中由系统变更、输入异常、资源限制、组件故障以及依赖关系问题引发的告警进行系统性调查,为 DevOps 团队提供针对性的缓解步骤,将平均解决时间(MTTR)从数小时缩短至几分钟。 例如:
主动预防事件
全部打开AWS DevOps 代理会分析历史事件的模式,提供切实可行的建议,从而强化四大关键领域:可观测性、基础设施优化、部署管道增强以及应用程序弹性。例如,AWS DevOps 代理可以识别那些本应阻止问题进入生产环境的测试缺口。建议还包括提供可供代理使用的规范,以便将实施工作交由您的编码代理或同事来更新应用程序或基础设施代码。这有助于实现持续改进,而无需管理待办事项列表。
AWS DevOps Agent 可以识别可观测性覆盖范围的缺口以及优化警报的机会,从而缩短平均检测时间(MTTD),让您可以提前发现隐患,以免其发展为更大的问题。例如,在发现近期故障的事件检测耗时过长后,AWS DevOps 代理可能会建议在更靠近错误源的位置实施监控与异常检测,以缩短检测时间,防止长时间停机。
通过学习循环机制,AWS DevOps Agent 将持续优化建议,匹配您的运维优先级,并根据团队对建议的反馈,不断提供更贴合您组织需求的建议。
AWS DevOps Agent 会分析历史事件的模式,提供有针对性的建议,以防将来出现中断并增强系统弹性。该服务通过评估真实事件,提供具体且切实可行的改进,从四个主要领域降低同类问题的发生频率和影响:可观测性、基础设施优化、部署管道增强和应用程序韧性。
- 可观测性改进:针对关键身份验证系统,AWS DevOps Agent 可能会建议将警报阈值从“20 分钟内出现 15 次故障”调整为“5 分钟内出现 3 次故障”,以缩短检测时间,防止长时间的集成中断。
- 可观测性改进:AWS DevOps Agent 可能会建议实施有针对性的 CloudWatch 指标筛选条件,以跟踪 IAM 角色变更时异常的“访问被拒绝”模式,从而获得比之前的警报机制更快的检测速度。
- 基础设施改进:分析发现 Amazon DynamoDB 表的架构与服务的主要访问模式不匹配,导致全表扫描效率低下后,AWS DevOps Agent 会建议创建全局二级索引(GSI),并将高频查询的属性设为分区键。这会将操作从“扫描”转变为“查询”,将延迟从 2500-3500 毫秒降至 100 毫秒以内,同时防止节流。
- 基础设施改进:AWS DevOps Agent 的分析显示,应用程序本身资源充足,但受制于单容器组(pod)瓶颈,流量高峰时所有请求都会在一个实例中排队。AWS DevOps Agent 可能会建议为 Kubernetes 集群添加 Horizontal Pod Autoscaler,它会根据需求自动横向扩展服务,将负载有效分发到多个容器组(pod)。
- 部署管道:在分析 Amazon ECS 部署失败的情况后,AWS DevOps Agent 可能会建议启用自动回滚功能,并通过 Amazon EventBridge 监控部署状态。这些调整能快速检测并处理任务运行状况检查失败的问题,防止客户交易中断。
- 部署管道:分析部署失败问题后,AWS DevOps Agent 可能会建议在 Amazon ECS 任务定义中强制执行 Amazon Managed Service for Prometheus 连接性的部署前验证。该建议会在部署过程中检测连接性问题,从而减少部署失败的情况。
按需 SRE 任务处理
全部打开向 DevOps 代理询问任何运营问题,即可获得基于您实际基础设施的即时、情境化答案,无需在控制台或监控工具之间来回切换。除问答以外,还可以创建、保存并分享自定义图表及报告,例如每日运营正常状况摘要或 4xx 错误趋势,以帮助您跟踪运营指标并与团队沟通见解。
AWS DevOps 代理提供与您现有工具的内置集成,包括可观测性工具(CloudWatch、Dynatrace、Datadog、New Relic、Splunk)、代码存储库和 CI/CD 管道(GitHub、GitLab、Azure DevOps),以及工单/协作工具(ServiceNow、PagerDuty、Slack),从而快速识别根本原因、主动预防未来事件,并针对您的环境获取按需、基于上下文的解答。
连接到私有或远程的 MCP 服务器,以集成其他工具,包括专有系统、专用平台、客户管理的版本控制系统以及内部基础设施文档。这使 AWS DevOps 代理能够安全地访问您的内部工具、数据和工作流程,从而利用您组织中的真实上下文信息提供更准确的见解并自动化执行操作。
AWS DevOps 代理会了解您的环境,自动发现应用程序、其组件服务以及构成这些服务的资源。借助其拓扑分析能力,该代理会扫描所有已配置的工具,接收用户输入,并全面掌握您的应用程序资源、关联关系及关键流程。它将这些关系映射到动态且持续更新的拓扑结构中,从而使您能够真正全面地了解您的应用程序。通过将此实时资源地图与遥测数据、代码及部署数据进行关联,AWS DevOps 代理能深入了解您的环境,从而实现更快的故障排除、主动预防未来问题,并基于应用程序的运行情况提供具有情境感知能力的解答。
添加可重用的模块化技能,以便 AWS DevOps 代理能够调用这些技能来一致且可靠地执行任务。通过客户和合作伙伴自定义的技能,您可以扩展代理的功能以适应您的环境——例如,您可以通过提供日志位置、命名约定和查询策略的相关知识,定义一项技能,使 AWS DevOps 代理能够查询本地数据库日志。通过将机构知识传递给代理,您可以赋能从服务发现和日志分析,到事件响应运行手册及团队所有权信息等各个方面。
找到今天要查找的内容了吗?
请提供您的意见,以便我们改进网页内容的质量