currently serving
TTFT p99
ms
TTFT p99
ms
/ SLA ms
TPOT p99
ms
/ SLA ms
·
| *** |
·
ms
p50
p95
p99
ms
p50
p95
p99
tok/s
tok/s
KV cache
%
%
%
%
%
CUDA padding
%
ms
ms
ms
—
Compute roof
Memory roof
Compute roof
Memory roof
( · )·
Compute roof = ·
Memory roof = ·
= FLOP/byte
()
B=: TFLOPs/s
→
| Kernel | |||||
|---|---|---|---|---|---|
|
|
|
|||
|
·
-lineinfo
↗ ()
→
|
|||||
🟢 ·
%
/s
µs
%
%
%
str
0 ms
(
end−start) ·
|
||||||
▶
·
·
B · ·
/
| TTFT | · p50 / p95 / p99 |
| TPOT | · p50 / p95 / p99 |
| E2E | · p50 / p95 / p99 |
| Output | |
| Input | |
| Tokens | out · in |
| Endpoint | |
| Model | |
| API | |
| Prompt / Output | / tok |
| Concurrency | |
| Bounded by |
预览 · 后端为真闭环(SimSandbox 确定性打分 + 启发式 agent + 真 session 记录);真 GPU 沙盒 + LLM agent 为下一增量。点「开始自动调优」跑一次真实(模拟评分)调优 session。
Agent(出主意的 LLM)
高级
任意 OpenAI 兼容端点都行(OpenRouter / OpenAI / DeepSeek / 本地)。Key 仅本会话用于调 agent,不入诊断热路径、不随轨迹存盘;生产建议走环境变量注入。注意:别用被压测的那个 vLLM 模型当 agent(它在被压、可能太小)。
model / host / port(身份,~7)
tensor / pipeline-parallel(按卡数收窄)
quantization(待开质量门)
kv-cache-dtype(待开质量门)
这 ~250 个里大半 vLLM 启动时已自调到最优(KV block 数 / attention backend / 兼容门);agent 实际只动 max-num-seqs / max-num-batched-tokens / gpu-util / performance_mode 这一小撮 + 诊断点名的对症旋钮。安全不靠黑名单,靠 launch-catch + 一次性容器兜底。
⚠ 已纳入 → 记分牌自动加质量门(等价闸):每个候选额外跑固定 prompt 比对基线输出,质量掉超阈值即判负(防 Agent 靠降质量刷吞吐)。
1observe读诊断
→
2hypothesize挂诊断选旋钮
→
3act沙盒重启
→
4measure压测打分
→
5decide留下/回滚
点「开始自动调优」,Agent 会在沙盒里诊断驱动地迭代调旋钮、用压测打分,每步改动只有压测证实才留下,破 SLA 自动回滚。零干扰:不碰生产、不改源码。
👁 眼睛(深度诊断) + ✋ 手(压测+serve控制) + 📊 记分牌(基线/Δ) 同进程
Round /
当前最优 tok/s
诊断
假设
$
tok/s
诊断快照(Agent 看到的事实)
Agent 推理
证据引用
预期效果
压测打分
指标beforeafterΔ
output_tps
ttft_p99
tpot_p99
判定
假设
吞吐 → tok/s(×),仍满足 TTFT SLA
$ 复制
「×3」只在「现实但没调过」的默认基线上成立 —— 那正是大量真实部署的现状。已调过的基线则是诚实的边际收益(+5~15%),Agent 会如实报「已近最优」。
完整推理轨迹
✕诊断快照(Agent 看到的事实)
Agent 推理
证据引用
预期效果
本轮命令
压测打分
指标beforeafterΔ
output_tps
ttft_p99
tpot_p99
判定