UI 预览 · 数据为 mock 示意(区别于真机)。点「开始自动调优」看逐轮播放效果。
Agent(出主意的 LLM)
高级
任意 OpenAI 兼容端点都行(OpenRouter / OpenAI / DeepSeek / 本地)。Key 仅本会话用于调 agent,不入诊断热路径、不随轨迹存盘;生产建议走环境变量注入。注意:别用被压测的那个 vLLM 模型当 agent(它在被压、可能太小)。
model / host / port(身份,~7) tensor / pipeline-parallel(按卡数收窄)
这 ~250 个里大半 vLLM 启动时已自调到最优(KV block 数 / attention backend / 兼容门);agent 实际只动 max-num-seqs / max-num-batched-tokens / gpu-util / performance_mode 这一小撮 + 诊断点名的对症旋钮。安全不靠黑名单,靠 launch-catch + 一次性容器兜底。
⚠ 已纳入 → 记分牌自动加质量门(等价闸):每个候选额外跑固定 prompt 比对基线输出,质量掉超阈值即判负(防 Agent 靠降质量刷吞吐)。
目标
SLA · TTFT p99 ≤ ms · TPOT p99 ≤ ms 预算 轮 / min
1observe读诊断
2hypothesize挂诊断选旋钮
3act沙盒重启
4measure压测打分
5decide留下/回滚

点「开始自动调优」,Agent 会在沙盒里诊断驱动地迭代调旋钮、用压测打分,每步改动只有压测证实才留下,破 SLA 自动回滚。零干扰:不碰生产、不改源码。

👁 眼睛(深度诊断) + ✋ 手(压测+serve控制) + 📊 记分牌(基线/Δ) 同进程