Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d567c6f7-2539-4f36-b9cc-f73694562981 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:56:38.803082+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d567c6f7-2539-4f36-b9cc-f73694562981coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:38.803082+00:00
55afbf7e-7985-4830-9100-058127a7dd7acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:38.739523+00:00
08abec44-6510-4638-a04f-4081f3ec44accoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:38.676395+00:00
90359648-e732-49eb-8705-679c0194b9efcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:38.613433+00:00
953f5c26-7f6b-4ce4-81f7-6f2e88bdb719coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:38.534387+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic6080
################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d567c6f7-2539-4f36-b9cc-f73694562981typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.803082+00:00
55afbf7e-7985-4830-9100-058127a7dd7apython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.739523+00:00
08abec44-6510-4638-a04f-4081f3ec44actypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.676395+00:00
90359648-e732-49eb-8705-679c0194b9efpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.613433+00:00
953f5c26-7f6b-4ce4-81f7-6f2e88bdb719typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.534387+00:00
53c8f260-e0c6-47d0-99f1-3cef9d6b72e5python-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.471189+00:00
ae02804c-e9b2-4bd5-9d4d-8212c7f35919typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.392127+00:00
d562aa41-bad8-4ab4-8d7e-ec22d11d5849python-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.312727+00:00
5f1b23fd-5b9f-4eb8-b4e6-195503066dbetypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.248582+00:00
c213d5f5-a458-4d1e-9387-d66b06c2fabfpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:38.168498+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0038  (coder)