AI 智能诊断 + 自动修复 Skill
一套结构化的 Markdown 知识文件,赋予 AI Agent 专业级的系统诊断与修复能力
用户只需说"服务器很慢",AI 就能自动分诊、定位根因、给出修复方案并安全执行。
v3.1 | 60+ 场景 | 126 命令 | 三平台覆盖
2026-03-25  |  AI Diagnostics Team

一分钟了解 CVM Doctor

What it does, why it matters

一句话

CVM Doctor 是一个 Skill(技能包) —— 不是传统的监控程序或脚本。 它用结构化的 Markdown 文件教 AI Agent 像资深运维一样思考和操作, 覆盖从"发现症状"到"定位根因"再到"安全修复"的全链路

60+
诊断场景覆盖
126
操作命令(含修复)
99%
常见问题覆盖率

解决什么问题

  • 用户说"服务器慢" → AI 不知道从何入手
  • AI 运维知识碎片化,容易跑偏或遗漏
  • 简单问题也跑全套命令,浪费时间
  • 跨平台命令差异大(Linux/macOS/Windows)
  • AI 直接执行危险命令,缺少安全机制

怎么解决的

  • 诊断 + 修复:不只是发现问题,还能安全修复
  • Quick → Deep:10秒分诊 + 按需深度分析
  • 模块化加载:只加载需要的知识,省 67-89% Token
  • 22 个适配器:一套 Skill 三平台通用
  • 安全门控:修复操作必须用户确认

完整工作流:从症状到修复

User → AI → Skill → Diagnosis → Fix — The Complete Flow

👤 用户
用户输入1
"服务器很慢"
确认修复方案7
安全门控:必须用户同意后执行
🧠 AI Agent
识别意图2
提取关键词,判断为系统诊断需求
执行 Quick 分诊4
运行 4 项快检,解析命令输出
生成诊断报告6
综合推理根因 + 证据链 + 修复建议
执行修复8
用户确认后安全执行,验证结果
📚 Skill 知识
加载诊断协议3
三层场景匹配(Tier 1→2→3),选择诊断路径
SKILL.md
Deep 根因分析5
级联推理路径:内存→Swap→I/O
deep-combined.md
加载修复命令6b
安全操作步骤 + 风险等级标注
commands/*.md

🧠 AI Agent 自主做的事

推理 + 执行 + 沟通

  • 意图理解:从用户模糊描述中提取关键信息
  • 命令执行:在终端运行命令,实时解析输出
  • 综合推理:多指标联动,推断根因和因果关系
  • 自然语言沟通:向用户解释结果、征求修复确认

📚 Skill 提供的知识

结构化知识 + 决策树 + 安全规范

  • 场景路由:60+ 场景匹配规则和优先级(Tier 1→2→3)
  • 命令模板:126 个命令的三平台对照表
  • 阈值标准:每个指标的专业判定值
  • 安全门控:要求用户确认、风险等级、禁止操作清单

实战演示:用户说"服务器很慢"

A concrete walkthrough of the full diagnostic + fix flow

Step 1

场景匹配

用户:"服务器很慢"

大模型加载 SKILL.md,匹配关键词"慢" → 命中 Tier 1 核心场景

系统慢/卡
推荐路径:Quick 全扫 → Deep 异常组件
耗时:<3 秒

Step 2

Quick 分诊

AI 加载 resource-saturation-quick.md

运行 4 项快检:
✅ CPU queue 6/8 cores — OK
⚠️ Memory Swap 768MB — WARNING
⚠️ Disk I/O wait 28% — WARNING
✅ Network 0 drops — OK

耗时:~10 秒

Step 3

Deep 关联分析

2 个异常组件 → 触发 Combined Deep

AI 加载 deep-combined.md
命中 Branch 1: 内存级联

根因推导:
内存 92% → Swap 激增
→ 磁盘 I/O 抖动
→ CPU 等 I/O(表象)

根因:内存不足
❌ 不要加 CPU,没用!

Step 4

修复执行

AI 向用户展示诊断报告和修复方案:

修复建议:
1. 重启内存泄漏进程 (PID 3842)
2. 调整 swappiness=10
3. 清理大文件释放空间

🛡️ 用户确认后执行
验证:Swap 降至 50MB ✅

关键亮点

不是看到 CPU 等 I/O 就去修 CPU —— Combined Deep 能识别出"内存不足 → Swap 抖动 → I/O 升高"的级联关系, 找到真正的根因(内存),避免浪费资源在错误的修复方向上。 整个过程 全自动化:AI 按 Skill 定义的路径执行,用户只需确认最后的修复操作。

核心设计:分层 + 模块化

Why this architecture, and what it buys us

没有 Skill 的 AI

不知道该查什么、先查什么
一股脑跑 30 个命令,浪费 5 分钟
看到 Swap 高就建议加内存,可能根因是进程泄漏
直接执行 kill -9,没有确认机制
每次对话都要重新学一遍运维知识

有 Skill 的 AI

10 秒 Quick 分诊:先定位问题在哪
按需 Deep:只深入分析异常组件
级联推理:识别内存→Swap→I/O 的因果链
安全门控:修复前展示方案,等用户确认
知识固化:Markdown 文件即知识,一次编写永久可用

🎯 设计一:分层决策(3 层)

解决"AI 上下文有限"的问题

层级加载时机内容覆盖率
Tier 1始终在上下文10 个高频场景80%
Tier 2Tier 1 未匹配时加载60+ 扩展场景95%
Tier 3最后回退20 大类完整路由99%

好处:80% 的问题只需要 300 行 SKILL.md 就能匹配,不浪费上下文。

📦 设计二:模块化拆分

解决"加载了用不到的知识"的问题

Before:单体文件
6,000 词
全部加载
After:按需加载
600 词
只加载需要的模块

省 67-89% Token:健康检查只需 Quick 模块;只有 CPU 异常时才加载 CPU Deep。

可扩展性:不止本地诊断

From Local Diagnostics to Remote Operations

核心思路:Skill 是"知识",命令是"动作",可以任意组合

CVM Doctor 的每个命令文件都包含 Linux/macOS/Windows 三平台对照表。 这意味着命令本身就是可远程传输的 —— 只需要把命令发到目标机器上执行, 再把结果拿回来让 AI 分析。scp、ssh、远程执行工具都可以作为传输通道。

🌐 远程诊断架构

💬 用户
"帮我看看
10.0.0.5"
🧠 大模型
加载 Skill
生成诊断命令
🔗 传输层
ssh / scp /
API 调用
🖥️ 远程机器
执行命令
📊 结果回传
AI 分析
输出报告

Skill 本身不需要改动 —— 只需要换一个"命令传输通道",知识完全复用。

🔄 原生支持远程的场景

  • 批量巡检:用 ssh 循环对 100 台机器做 Quick 扫描
  • 远程修复:诊断后生成修复命令,scp + ssh 执行
  • 故障排查:用户给 IP,AI 生成诊断脚本,远程跑
  • 合规审计:定期跑安全检查命令,汇总报告

🚀 未来可扩展方向

  • K8s Pod 内诊断:kubectl exec 进入容器执行命令
  • API 网关集成:Skill 知识嵌入运维平台,提供诊断 API
  • 自动化巡检:配合 cron 定期 Quick 扫描 + 异常告警
  • 知识共享:不同团队复用同一套诊断知识

💡 关键洞察

传统方案写死了"本地执行"。CVM Doctor 的设计中,知识和执行是解耦的。 Skill 提供的是"查什么、怎么判、怎么修"的知识,而"在哪执行"只是一个传输问题。 这意味着 同一套知识可以服务本地机器、远程机器、容器、甚至未来不知道什么形态的计算节点

总结

What we built and where it's going

CVM Doctor 的本质

一套让 AI Agent 具备专业系统诊断与修复能力的知识工程方案。 用结构化 Markdown 文件定义"何时查、查什么、怎么判、怎么修", 在不写一行业务代码的前提下,实现了比传统监控脚本更智能、更灵活的诊断体验。

已做到的

60+ 场景、99% 覆盖率
诊断 + 修复全链路(含安全门控)
Quick 10s → Deep 20-60s 渐进诊断
5 大级联分析分支(内存→磁盘→CPU)
67-89% Token 效率提升
Linux / macOS / Windows 三平台
知识可传输:远程诊断天然支持

🚀 接下来可以做

远程执行集成:配合 remote-executor skill
GPU 监控:nvidia-smi Quick/Deep 模块
容器专属:Docker/K8s 资源限制/OOM
数据库诊断:慢查询/连接池/锁竞争
自动化巡检:定期 Quick + 异常告警
知识模板化:抽象出通用的 Skill 开发方法论
CVM Doctor

知识驱动的 AI 诊断 — 让每次"服务器慢"都有专业答案