Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 13894cfb-b0c3-41cf-86d9-3a9904fb7648 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-04-28T00:48:58.681621+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
13894cfb-b0c3-41cf-86d9-3a9904fb7648coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:58.681621+00:00
bac02d06-2e65-4d4a-ac88-574fe88f861fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:58.598047+00:00
383c168c-efb9-42ba-94b9-194817b207a1coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:58.516527+00:00
978da6b0-5a71-4895-b421-42ba7d9cce2dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:58.412600+00:00
352807bf-f8c9-48be-a035-4c3209b013a9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:58.285633+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2200
########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
13894cfb-b0c3-41cf-86d9-3a9904fb7648typescript-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.681621+00:00
bac02d06-2e65-4d4a-ac88-574fe88f861fpython-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.598047+00:00
383c168c-efb9-42ba-94b9-194817b207a1typescript-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.516527+00:00
978da6b0-5a71-4895-b421-42ba7d9cce2dpython-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.412600+00:00
352807bf-f8c9-48be-a035-4c3209b013a9typescript-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.285633+00:00
7e1121d4-6294-45a5-9a64-e32bd8b9ca26python-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.133463+00:00
6bab3c09-f7ac-41d7-88a0-ba8fa594eb36typescript-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:58.012724+00:00
2be83b82-1575-4b2f-a495-398768299023python-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:57.880016+00:00
751ad61c-91d4-4422-aa39-fca864da9584typescript-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:57.702996+00:00
6e5bb988-38b1-4e23-8fd9-439c247bbce4python-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:57.581504+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0048  (coder)