任务:沿用 BrowseComp 多 hop 检索基准,要求 meta agent 在不修改 evaluator 与数据的前提下,提升 ReAct agent 的准确率。本次 baseline 已升级为新的 o3 ReAct 单 agent(dev 50% / test 32.7%)。
资源与产出:预算 max-cycles=20,实际总耗时 10h06m。Meta agent 在 ROOT 下生成 5 个根节点,并对其中得分最优的节点 5 展开 4 个子节点(5.1–5.4)。最终状态:5 done · 1 merged (5.4) · 3 pruned (1, 3, 4)。
结论一句话:本次 run 获得完整的端到端成功——5.4 的 Judge-with-override 在 dev 上达到 62.5% (+12.5pp)、在独立 test set 上验证为 50.7% (+18.0pp),并已成功合并进 trunk。同时这条方案与 2026-04-13 刚发的 Princeton AggAgent 论文高度一致(详见第七节)。
| 节点 | 方向 | 状态 | B_dev | Δ vs trunk | 分数条 |
|---|---|---|---|---|---|
| 1 | 让 agent 同时跟踪多个候选答案 + 逐轮打 PASS/FAIL 表 | ✂ pruned | 42.5% | −7.5pp | |
| 2 | 答完之后起一个“挥师”反驳自己(同模型) | ≈ done | 52.5% | +2.5pp | |
| 3 | 先从 Wikipedia “某类型名单”拉出候选集再逐个筛 | ✂ pruned | 45.0% | −5.0pp | |
| 4 | 拆成子问题各自查 → 取候选交集 | ✂ pruned | 25.0% | −25pp | |
| 5 | 同题跑 4 遇独立 agent + 裁判选一个 | ↑ done | 55.0% | +5.0pp | |
| 5.1 | 4 个 agent 各担一种搜索风格(枚举/反证/深读/践意) | ✗ done | 47.5% | −2.5pp | |
| 5.2 | 裁判不只看摘要,还能自己 search/visit 8 次验证 | ↑ done | 57.5% | +7.5pp | |
| 5.3 | 修一个小 bug:裁判写“Candidate 2”被 grader 判错 | ≈ done | 52.5% | +2.5pp | |
| 5.4 | 允许裁判自己再查(20 步)并出一个全新答案,必须他自己验证全 PASS 才能交 | ★ merged | 62.5% | +12.5pp dev / +18.0pp test |
胜出方案 — 节点 5.4 (Judge-with-override): 起点是 N=4 同构 ReAct ensemble + judge 投票 (节点 5, 55%); 5.4 给 judge 20 步自带工具预算 + override 权限——4 个候选都不满足 constraint 时,judge 自己再搜并提新答案(必须自己跑出全 PASS 才能交)。 Override 在 ~10% 题上 fire,把 ensemble 顶到 62.5% (dev) / 50.7% (test, +18pp)。
其余 4 条主路 (结构化 belief table / 同模型 falsifier / Wikipedia 枚举 / decompose-intersect) 全部低于 baseline → 印证"瓶颈不是裁判精细度"这个 insight。
config 设了 max_depth=2,prompt 也明确要求 "depth-1 应是抽象 axis(verification / retrieval / orchestration),具体 mechanism push 到 depth-2"。但实际 idea tree 里 节点 1–5 都被以完整 mechanism spec 直接挂在 depth-1 并当 leaf dispatch(只有节点 5 因为后期要做兄弟变体,事后被当成内部节点)。
后果:(1) "verification axis 整体失败" 这种 axis-level 判断只能用语言(root insight)记,无法用树结构 enforce,所以 5.x 阶段 meta agent 不会主动意识到自己"重回 verification axis 是矛盾";(2) 节点 1+2 失败后没有触发 1.x/2.x 子节点,因为它们已被当作 leaf "完成"了。
TreeAddNode 加结构化校验,max_depth ≤ 2 且 parent=ROOT 时 hypothesis 必须是 "axis/direction" 语义;(b) 在 RunSubagent 加 leaf-only 约束;(c) prompt 加 1-shot 示例展示正确树形态。
本次胜出方案 5.4 Judge-with-override 与 Princeton NLP 组 2026-04-13 刚发的论文 "Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks"(Lee et al.)核心机制高度一致: