K8s告警诊断:手册比模型重要
值得看指数 60.0 NO. 018 · 2026.04.22
发布2026/04/21
为什么值得看
STCLab的两人SRE团队基于HolmesGPT和CNCF工具构建了Kubernetes告警自动诊断流水线,发现结构化runbooks比大模型本身更能提升诊断准确性。对于资源有限的中小团队,优先标准化运维手册而非堆砌模型能力,是更务实的AIOps落地路径。
编辑判断
目前K8s故障排查的主流方案仍是基于Prometheus Alertmanager的人工runbook或Robusta这类事件驱动平台,前者依赖工程师经验,后者配置复杂且成本高。
HolmesGPT的方案轻量在于它不要求你替换现有监控栈,而是通过标准化YAML格式的runbook让LLM做意图识别和步骤执行,本质上是用结构化的知识工程弥补模型推理的不可控性。
如果你现在还在用两人团队人肉处理EKS告警,且已有较为完善的运维文档,这是比引入重量级AIOps平台更现实的中间态方案。