×

扫码关注微信公众号

挖贝网> 产业> 详情

运维必备的好帮手:SREAgent

2026/6/23 11:41:19     

运维必备的好帮手:SREAgent

近期我们发布了公共云版,开箱即用的SREAgent,对运维而言这是一个必备的好助手,简单看下它给运维带来的一些直接的帮助。

在介绍能带来的一些帮助之前,要先强调下,因为运维通常是高风险的操作,SREAgent为了避免造成问题,目前采用的避免误操作导致生产环境各种问题的方法是:
1. 给SREAgent配置的权限尽量是只读的,例如云账号的权限,或者其他例如运维平台的权限等,因为这个需要用户自己控制,所以SREAgent也只能是在配置账号的时候强调;

2. 做具体的操作时,SREAgent内置了白名单机制,对于高危的操作直接拒绝执行。

有了这样的安全保障后,才可以放心的使用SREAgent来做运维的一些事情,来继续看它可以给运维带来的一些直接的帮助的事情:

1. 帮助回答研发的各种问题以及运维自己处理各种问题

运维通常要面对众多的研发,经常会需要回答各种问题,通过SREAgent,研发则可以自助的去问各种问题,因为和环境(测试、预发或生产)是直接关联了的,所以和泛泛而问的情况是完全不同的。同样,运维自己也可以用这个来处理各种问题,无论是了解环境情况,还是排查某些问题等。


2.自动处理众多的告警

可以给SREAgent配置对接一些告警源,这样SREAgent会自动的来接这些告警,并自动的进行排查,标识为高风险的告警,还是可忽略的,以及该怎么解决(通过将贝联珠贯团队的经验沉淀为内置的skills,提高排查的准确性等),同样,为了避免风险,具体的操作目前阶段还是会交给人来决定和执行(在告警治理或运维大盘中都可以看到SREAgent处理的结果)。

告警源配置目前可支持以下几种监控系统的对接:

告警源说明同步模式
AliyunCmsAlertSource阿里云云监控(CMS)告警拉取
CdhEventSourceCDH事件源拉取
K8sEventSourceKubernetes 事件源拉取
TencentEmrAlertSource腾讯云 EMR 告警拉取
TencentWedataAlertSource腾讯云 WeData 告警拉取
AliyunEmrAlertSource阿里云 EMR 告警拉取
DatapilotAlertSourceDataPilot 告警拉取
FlashcatAlertSourceFlashcat(夜莺监控)告警拉取
GrafanaWebhookEventSourceGrafana Webhook 事件源推送
ZabbixAlertSourceZabbix 告警拉取
TdhAlertSourceTDH告警拉取

3.自动巡检避免一些高风险或其他的潜在问题

对于不同的系统,都有一些高风险或其他需要关注的情况,对于这些情况,自动的巡检是非常的关键的,例如简单的有系统核心的功能是否可用,甚至系统的某些存储策略、架构原则是否生效,成本是否有严重浪费等,在SREAgent里不需要编写代码,而是可以自然语言的方式直接来写需要怎么巡检就可以,非常方便。


除了以上这些开箱即用的直接的帮助外,SREAgent还有很多其他的能力,例如成本分析、拓扑关系分析等。如果觉得还不够用或有自己私有的环境、产品等,可通过自行开发skill,安装到SREAgent中,来扩展SREAgent的能力。


欢迎运维岗或研发岗的都给自己配备上这个好用的帮手,具体试用SREAgent 的方法请见199 元,10亿运维token,快来抢