Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 294558c0-6ea5-4453-8b49-6c6ed4b4045e | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:05:56.315809+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
294558c0-6ea5-4453-8b49-6c6ed4b4045ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:05:56.315809+00:00
688363b0-ceb1-48c1-a1f8-a26125ef469dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:05:56.249803+00:00
ca481f28-ba47-47d1-bdae-11bea79a83abcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:05:56.193402+00:00
db34e302-740a-48c1-89ad-12c411e3b6accoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:05:56.127016+00:00
e4e2b947-2982-491c-8a78-32682e8ad3a0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:05:56.060715+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5500
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
294558c0-6ea5-4453-8b49-6c6ed4b4045etypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:05:56.315809+00:00
688363b0-ceb1-48c1-a1f8-a26125ef469dpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:05:56.249803+00:00
ca481f28-ba47-47d1-bdae-11bea79a83abtypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:05:56.193402+00:00
db34e302-740a-48c1-89ad-12c411e3b6acpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:05:56.127016+00:00
e4e2b947-2982-491c-8a78-32682e8ad3a0typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:05:56.060715+00:00
4d747786-487f-4863-be11-c0e43542fa3cpython-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:05:55.994750+00:00
d57c64a7-44b6-41f8-9b5d-fd651173d7d0typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:05:55.927615+00:00
78ac7290-3230-4a68-ac0a-b2c1800b4d19python-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:05:55.863238+00:00
893f6f2e-4064-4e2e-b900-2a0238c7a5d0typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:05:55.796979+00:00
e149c707-7277-487a-b53d-897245aeafd4python-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:05:55.730458+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0039  (coder)