Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d5edad71-d5e6-454c-8993-f921c00d9b8d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T12:01:31.842693+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d5edad71-d5e6-454c-8993-f921c00d9b8dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:31.842693+00:00
5ad2c9a5-a679-480e-8084-5887cf90da10coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:31.778877+00:00
20925c4d-c55e-4e81-a8b7-9d25a14b75d3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:31.739703+00:00
58e3e983-a8e1-4dfd-8ac9-1975cab23f28coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:31.697961+00:00
119e560c-f8cf-4bc1-90ca-73b00b40f471coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:31.651443+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3850
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d5edad71-d5e6-454c-8993-f921c00d9b8dtypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.842693+00:00
5ad2c9a5-a679-480e-8084-5887cf90da10python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.778877+00:00
20925c4d-c55e-4e81-a8b7-9d25a14b75d3typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.739703+00:00
58e3e983-a8e1-4dfd-8ac9-1975cab23f28python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.697961+00:00
119e560c-f8cf-4bc1-90ca-73b00b40f471typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.651443+00:00
8bd97403-9461-4d39-841d-e4d448f89fafpython-performance-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.581249+00:00
7fa51ab1-e3fc-4257-b8bc-3677e2fbd925typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.521272+00:00
985ad734-8a02-486d-be96-efca8b78459cpython-bugfix-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.481878+00:00
9567d81b-a436-4df6-a3ad-1456b5587f18typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.440523+00:00
39a242ef-0997-4430-9e34-24ccc6d25d3bpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T12:01:31.402851+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0043  (coder)