Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: aecdd78b-3cb5-47ca-9055-98ff29f0c813 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-04-28T00:48:40.688404+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
aecdd78b-3cb5-47ca-9055-98ff29f0c813coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:40.688404+00:00
68a28740-deba-4c82-b3d4-69ba541ae104coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:40.616304+00:00
b384ed51-2c0c-43da-8a47-ad58bb13ffdacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:40.559670+00:00
30b74244-76ae-4a9b-a9a9-483f2dfada32coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:40.499957+00:00
77f55a82-b8c3-49ff-b25f-f0e75da2be9dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:48:40.433582+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2150
######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
aecdd78b-3cb5-47ca-9055-98ff29f0c813typescript-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.688404+00:00
68a28740-deba-4c82-b3d4-69ba541ae104python-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.616304+00:00
b384ed51-2c0c-43da-8a47-ad58bb13ffdatypescript-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.559670+00:00
30b74244-76ae-4a9b-a9a9-483f2dfada32python-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.499957+00:00
77f55a82-b8c3-49ff-b25f-f0e75da2be9dtypescript-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.433582+00:00
915c18da-3359-4610-9a27-1f72034cf32epython-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.374218+00:00
02ebfcad-072c-482d-9e71-83530ddf1330typescript-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.317918+00:00
8ae542ce-d759-4156-960a-8a9f5903d16dpython-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.259010+00:00
2d00763a-b2ff-4c36-b890-46f71d276b49typescript-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.202735+00:00
34f3f83b-aaa2-44ea-8d4e-23208ff33e3epython-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:48:40.140611+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0048  (coder)