UI 预览 · 数据为 mock 示意(区别于真机)。点「开始自动调优」看逐轮播放效果。
Agent(出主意的 LLM)
预设
OpenRouter
OpenAI
DeepSeek
本地 (Ollama / vLLM)
自定义
Base URL
API Key
Model
高级
任意
OpenAI 兼容
端点都行(OpenRouter / OpenAI / DeepSeek / 本地)。Key 仅本会话用于调 agent,
不入诊断热路径、不随轨迹存盘
;生产建议走环境变量注入。注意:
别用被压测的那个 vLLM 模型当 agent
(它在被压、可能太小)。
额外指引(追加到系统 prompt 之后,塞业务约束 / 偏好)
temperature
超时 (s)
重试
动作范围 · vLLM 全量 − 身份(~7) − 硬件收窄
model / host / port(身份,~7)
tensor / pipeline-parallel(按卡数收窄)
quantization(待开质量门)
kv-cache-dtype(待开质量门)
这 ~250 个里大半 vLLM 启动时已自调到最优(KV block 数 / attention backend / 兼容门);agent 实际只动
max-num-seqs / max-num-batched-tokens / gpu-util / performance_mode
这一小撮 + 诊断点名的对症旋钮。安全不靠黑名单,靠 launch-catch + 一次性容器兜底。
开「质量门」· 纳入 quantization / kv-cache-dtype(T2,加等价闸)
⚠ 已纳入 → 记分牌自动加
质量门(等价闸)
:每个候选额外跑固定 prompt 比对基线输出,质量掉超阈值即判负(防 Agent 靠降质量刷吞吐)。
目标
吞吐优先
延迟优先
性价比
SLA · TTFT p99 ≤
ms · TPOT p99 ≤
ms
预算
轮 /
min
1
observe
读诊断
→
2
hypothesize
挂诊断选旋钮
→
3
act
沙盒重启
→
4
measure
压测打分
→
5
decide
留下/回滚
点「开始自动调优」,Agent 会在
沙盒
里诊断驱动地迭代调旋钮、用压测打分,每步改动只有压测证实才留下,破 SLA 自动回滚。
零干扰
:不碰生产、不改源码。
👁 眼睛
(深度诊断) +
✋ 手
(压测+serve控制) +
📊 记分牌
(基线/Δ) 同进程
Round
/
当前最优
tok/s
诊断
假设
$
tok/s
诊断快照(Agent 看到的事实)
Agent 推理
证据引用
预期效果
压测打分
指标
before
after
Δ
output_tps
ttft_p99
tpot_p99
判定
假设
吞吐
→
tok/s(×
)
,仍满足 TTFT SLA
$
复制
「×3」只在「现实但没调过」的默认基线上成立 —— 那正是大量真实部署的现状。已调过的基线则是诚实的边际收益(+5~15%),Agent 会如实报「已近最优」。
查看完整推理轨迹
promote 到生产(人工确认)
完整推理轨迹
✕
诊断快照(Agent 看到的事实)
Agent 推理
证据引用
预期效果
本轮命令
压测打分
指标
before
after
Δ
output_tps
ttft_p99
tpot_p99
判定
复制 Markdown
下载 JSON