| 点击节点查看详情 · 悬浮快速预览

V3 Idea Tree — skill_20cycles (BrowseComp)

5 个根节点 · 20 cycles 配额(实际探索 9 个节点)· baseline dev 50% / test 32.7% · 最优 dev 62.5% / test 50.7% (5.4) · 总耗时 10h06m · 5.4 已合并进 trunk
最优(候选合并)
已完成 / 高于 baseline
低于 baseline / 剪枝
待探索

V3 skill_20cycles · 实验汇报

汇报范围:本次 BrowseComp 优化 run(docs/total_test/research_log/v3-withskill_20cycles)· 含 Idea Tree 解读、与同期论文的方法论对照、以及对 framework 的迭代建议。
Baseline (dev 40Q)
50.0%
o3 ReAct 起点
最优 dev (5.4)
62.5%
+12.5pp · 25/40
Baseline (test 300Q)
32.7%
o3 ReAct trunk · ~3h
最终 test (5.4)
50.7%
+18.0pp · 已合并
合并次数
1
5.4 → trunk 62.5%
探索节点 / 总耗时
9 / 10h
5 done · 1 merged · 3 pruned

🎯一、Run 总览

任务:沿用 BrowseComp 多 hop 检索基准,要求 meta agent 在不修改 evaluator 与数据的前提下,提升 ReAct agent 的准确率。本次 baseline 已升级为新的 o3 ReAct 单 agent(dev 50% / test 32.7%)。

资源与产出:预算 max-cycles=20,实际总耗时 10h06m。Meta agent 在 ROOT 下生成 5 个根节点,并对其中得分最优的节点 5 展开 4 个子节点(5.1–5.4)。最终状态:5 done · 1 merged (5.4) · 3 pruned (1, 3, 4)

结论一句话:本次 run 获得完整的端到端成功——5.4 的 Judge-with-override 在 dev 上达到 62.5% (+12.5pp)、在独立 test set 上验证为 50.7% (+18.0pp),并已成功合并进 trunk。同时这条方案与 2026-04-13 刚发的 Princeton AggAgent 论文高度一致(详见第七节)。

📊二、节点得分一览

节点方向状态B_devΔ vs trunk分数条
1让 agent 同时跟踪多个候选答案 + 逐轮打 PASS/FAIL 表✂ pruned42.5%−7.5pp
2答完之后起一个“挥师”反驳自己(同模型)≈ done52.5%+2.5pp
3先从 Wikipedia “某类型名单”拉出候选集再逐个筛✂ pruned45.0%−5.0pp
4拆成子问题各自查 → 取候选交集✂ pruned25.0%−25pp
5同题跑 4 遇独立 agent + 裁判选一个↑ done55.0%+5.0pp
5.14 个 agent 各担一种搜索风格(枚举/反证/深读/践意)✗ done47.5%−2.5pp
5.2裁判不只看摘要,还能自己 search/visit 8 次验证↑ done57.5%+7.5pp
5.3修一个小 bug:裁判写“Candidate 2”被 grader 判错≈ done52.5%+2.5pp
5.4允许裁判自己再查(20 步)并出一个全新答案,必须他自己验证全 PASS 才能交★ merged62.5%+12.5pp dev / +18.0pp test

🔍三、核心发现 + 胜出方案

Root insight:The binding constraint is candidate-set retrieval coverage, not reasoning/judging sophistication.
所有干预的天花板都由"正确实体有没有进入候选池"决定,下游的重排/验证/裁判精细化都只是在挪椅子。

胜出方案 — 节点 5.4 (Judge-with-override): 起点是 N=4 同构 ReAct ensemble + judge 投票 (节点 5, 55%); 5.4 给 judge 20 步自带工具预算 + override 权限——4 个候选都不满足 constraint 时,judge 自己再搜并提新答案(必须自己跑出全 PASS 才能交)。 Override 在 ~10% 题上 fire,把 ensemble 顶到 62.5% (dev) / 50.7% (test, +18pp)

其余 4 条主路 (结构化 belief table / 同模型 falsifier / Wikipedia 枚举 / decompose-intersect) 全部低于 baseline → 印证"瓶颈不是裁判精细度"这个 insight。

🌳四、附带发现:meta agent 的 prompt-following bug

config 设了 max_depth=2,prompt 也明确要求 "depth-1 应是抽象 axis(verification / retrieval / orchestration),具体 mechanism push 到 depth-2"。但实际 idea tree 里 节点 1–5 都被以完整 mechanism spec 直接挂在 depth-1 并当 leaf dispatch(只有节点 5 因为后期要做兄弟变体,事后被当成内部节点)。

后果:(1) "verification axis 整体失败" 这种 axis-level 判断只能用语言(root insight)记,无法用树结构 enforce,所以 5.x 阶段 meta agent 不会主动意识到自己"重回 verification axis 是矛盾";(2) 节点 1+2 失败后没有触发 1.x/2.x 子节点,因为它们已被当作 leaf "完成"了。

修复方向:(a) 在 TreeAddNode 加结构化校验,max_depth ≤ 2 且 parent=ROOT 时 hypothesis 必须是 "axis/direction" 语义;(b) 在 RunSubagent 加 leaf-only 约束;(c) prompt 加 1-shot 示例展示正确树形态。

📄五、外部对照:与同期论文 AggAgent 撞车

本次胜出方案 5.4 Judge-with-override 与 Princeton NLP 组 2026-04-13 刚发的论文 "Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks"(Lee et al.)核心机制高度一致

  • 都把 aggregation agent 视为独立 agent,给它工具去探索 trajectory + 外部环境;
  • 都打破 "聚合只能从 N 个候选选" 的限制;
  • 论文报 +5.3% avg / +10.3% on deep research;我们 5.4 报 +12.5pp dev / +18pp test。
意义:外部学术对照证明 meta agent 自主探索能产出与同期顶会论文同等水位的研究方案。论文是专门为这思想设计,我们是 meta agent 在 root insight 引导下、从 5.1/5.2/5.3 连续失败逐步推理出来的——后者的"链式 ideate 工作流"本身就是 V3 的产物。

🚧六、对 framework 的可改进点

  • B_test timeout 必须解耦:5.4 第一次合并时被 GitMergeBranch 的 600s 硬编码 timeout 拒绝(5.4 单题 ~5× 算力,300 题需数小时),靠手动 background 跑才完成。建议 B_test 评测异步化 / 允许子集门控。
  • Prompt-following enforce:把 "depth-1 = abstract axis" 的约束做到 tool 层(见第四节)。
  • 跨 run 的 insight 持久化:V2-2 已经验证 "子问题分解 + 投机并行 query" 在 BrowseComp 上有效,V3 在同任务从零开始没有复用,浪费前 4 个根节点的 cycles。
  • 40 题 dev 噪声太大:5.3 亲自证明 ±5pp 是 baseline noise(同代码摇了 5pp)。建议关键节点重测 N 次取 median。

七、汇报小结

  1. 端到端成功:5.4 dev 62.5% (+12.5pp),test 50.7% (+18pp),已合并进 trunk。
  2. 研究价值得到外部佐证:与刚发的 Princeton AggAgent 论文方法论高度一致。
  3. 暴露 framework bug:meta agent 没遵守 max_depth=2 下 "depth-1 = abstract axis" 的 prompt 规定(见第四节)。
  4. 下一步:(a) tool 层 enforce depth-1 axis 约束;(b) 把 V2-2 "子问题分解" 与 V3 "judge override" 组合实验;(c) 跨 run 复用 ROOT insight;(d) 在新 trunk (62.5%) 上发起下一轮 run。