pping-lang

healthy engine rules
currently serving

vLLM GPU Count BF16 Peak Mem BW
TTFT p99
ms
TTFT p99 SLA ms
TPOT p99 SLA ms
TTFT p99
ms / SLA ms
TPOT p99
ms / SLA ms

·
ms
p50
p95
p99
ms
p50
p95
p99
tok/s
tok/s
KV cache
%

%
%
%
%
CUDA padding
%

Compute roof Memory roof

Compute roof Memory roof

预览 · 后端为真闭环(SimSandbox 确定性打分 + 启发式 agent + 真 session 记录);真 GPU 沙盒 + LLM agent 为下一增量。点「开始自动调优」跑一次真实(模拟评分)调优 session。
Agent(出主意的 LLM)
高级
任意 OpenAI 兼容端点都行(OpenRouter / OpenAI / DeepSeek / 本地)。Key 仅本会话用于调 agent,不入诊断热路径、不随轨迹存盘;生产建议走环境变量注入。注意:别用被压测的那个 vLLM 模型当 agent(它在被压、可能太小)。
model / host / port(身份,~7) tensor / pipeline-parallel(按卡数收窄)
这 ~250 个里大半 vLLM 启动时已自调到最优(KV block 数 / attention backend / 兼容门);agent 实际只动 max-num-seqs / max-num-batched-tokens / gpu-util / performance_mode 这一小撮 + 诊断点名的对症旋钮。安全不靠黑名单,靠 launch-catch + 一次性容器兜底。
⚠ 已纳入 → 记分牌自动加质量门(等价闸):每个候选额外跑固定 prompt 比对基线输出,质量掉超阈值即判负(防 Agent 靠降质量刷吞吐)。
目标
SLA · TTFT p99 ≤ ms · TPOT p99 ≤ ms 预算 轮 / min
1observe读诊断
2hypothesize挂诊断选旋钮
3act沙盒重启
4measure压测打分
5decide留下/回滚

点「开始自动调优」,Agent 会在沙盒里诊断驱动地迭代调旋钮、用压测打分,每步改动只有压测证实才留下,破 SLA 自动回滚。零干扰:不碰生产、不改源码。

👁 眼睛(深度诊断) + ✋ 手(压测+serve控制) + 📊 记分牌(基线/Δ) 同进程