What it does, why it matters
CVM Doctor 是一个 Skill(技能包) —— 不是传统的监控程序或脚本。 它用结构化的 Markdown 文件教 AI Agent 像资深运维一样思考和操作, 覆盖从"发现症状"到"定位根因"再到"安全修复"的全链路。
User → AI → Skill → Diagnosis → Fix — The Complete Flow
推理 + 执行 + 沟通
结构化知识 + 决策树 + 安全规范
A concrete walkthrough of the full diagnostic + fix flow
用户:"服务器很慢"
大模型加载 SKILL.md,匹配关键词"慢" → 命中 Tier 1 核心场景
系统慢/卡
推荐路径:Quick 全扫 → Deep 异常组件
耗时:<3 秒
AI 加载 resource-saturation-quick.md
运行 4 项快检:
✅ CPU queue 6/8 cores — OK
⚠️ Memory Swap 768MB — WARNING
⚠️ Disk I/O wait 28% — WARNING
✅ Network 0 drops — OK
耗时:~10 秒
2 个异常组件 → 触发 Combined Deep
AI 加载 deep-combined.md
命中 Branch 1: 内存级联
根因推导:
内存 92% → Swap 激增
→ 磁盘 I/O 抖动
→ CPU 等 I/O(表象)
根因:内存不足
❌ 不要加 CPU,没用!
AI 向用户展示诊断报告和修复方案:
修复建议:
1. 重启内存泄漏进程 (PID 3842)
2. 调整 swappiness=10
3. 清理大文件释放空间
🛡️ 用户确认后执行
验证:Swap 降至 50MB ✅
不是看到 CPU 等 I/O 就去修 CPU —— Combined Deep 能识别出"内存不足 → Swap 抖动 → I/O 升高"的级联关系, 找到真正的根因(内存),避免浪费资源在错误的修复方向上。 整个过程 全自动化:AI 按 Skill 定义的路径执行,用户只需确认最后的修复操作。
Why this architecture, and what it buys us
解决"AI 上下文有限"的问题
| 层级 | 加载时机 | 内容 | 覆盖率 |
|---|---|---|---|
| Tier 1 | 始终在上下文 | 10 个高频场景 | 80% |
| Tier 2 | Tier 1 未匹配时加载 | 60+ 扩展场景 | 95% |
| Tier 3 | 最后回退 | 20 大类完整路由 | 99% |
好处:80% 的问题只需要 300 行 SKILL.md 就能匹配,不浪费上下文。
解决"加载了用不到的知识"的问题
省 67-89% Token:健康检查只需 Quick 模块;只有 CPU 异常时才加载 CPU Deep。
From Local Diagnostics to Remote Operations
CVM Doctor 的每个命令文件都包含 Linux/macOS/Windows 三平台对照表。 这意味着命令本身就是可远程传输的 —— 只需要把命令发到目标机器上执行, 再把结果拿回来让 AI 分析。scp、ssh、远程执行工具都可以作为传输通道。
Skill 本身不需要改动 —— 只需要换一个"命令传输通道",知识完全复用。
传统方案写死了"本地执行"。CVM Doctor 的设计中,知识和执行是解耦的。 Skill 提供的是"查什么、怎么判、怎么修"的知识,而"在哪执行"只是一个传输问题。 这意味着 同一套知识可以服务本地机器、远程机器、容器、甚至未来不知道什么形态的计算节点。
What we built and where it's going
一套让 AI Agent 具备专业系统诊断与修复能力的知识工程方案。 用结构化 Markdown 文件定义"何时查、查什么、怎么判、怎么修", 在不写一行业务代码的前提下,实现了比传统监控脚本更智能、更灵活的诊断体验。
知识驱动的 AI 诊断 — 让每次"服务器慢"都有专业答案