📋 Baseline 说明:本表由无 WellChina 上下文的 Blind sub-agent 按同一 rubric 独立打分。
Blind 分数不是对错基准——它只是"相同 rubric 在不同上下文下的另一次执行"。
唯一判对错的场景是锚点词部分(见下方第二个表)。Top 10 对照表仅作为诊断信号,
提示"哪些维度可能需要深查",不能据此推断 Skill 打错。真实校准需要 L3(Ahrefs/DataForSEO)或 L4(GSC/GA4 真实数据)。
Top 10 对照(诊断信号,非判决)
| # | 关键词 | Skill | Blind | Δ | 诊断信号 |
| 1 | {{KW_1_NAME}} |
{{KW_1_SKILL}} | {{KW_1_BLIND}} |
{{KW_1_DELTA}} |
{{KW_1_DIAGNOSTIC}} |
锚点词通过率(v3 · L1 baseline 唯一有效判决用途)
锚点词是唯一的 rubric 自检器:预设 expected_band,若 Blind 按 rubric 打分偏离 band 超过 8 分,
说明 rubric 本身 对该类别的区分力不够,需要结构性调整(不是 Skill 问题)。
通过率 ≥ 80% 视为 rubric 健康。
| # | 锚点词 | 类别 | 期望带 | Blind 分 | 判定 |
| {{ANCHOR_N}} |
{{ANCHOR_KW}} |
{{ANCHOR_CATEGORY}} |
{{ANCHOR_BAND}} |
{{ANCHOR_SCORE}} |
{{ANCHOR_STATUS}} |
Rubric 健康度(v3 · 仅基于锚点通过率,不含 Top 10 skill-blind 对比)
- 低价值锚点通过率: {{LOW_PASS_RATE}}(期望 < 40,通过 = 实测 < 45)
- 中立锚点通过率: {{MID_PASS_RATE}}(期望 30-55,通过 = 实测在 22-63 之间 ±8)
- 高价值锚点通过率: {{HIGH_PASS_RATE}}(期望 > 65,通过 = 实测 > 60)
- 整体健康度: {{OVERALL_PASS_RATE}}(≥ 80% 视为 rubric 健康,< 70% 说明 rubric 需结构性调整)
{{#IF MERGED_MODE}}