Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 54b0f19a-741f-4556-ac59-9c46ef1453e4 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:23:03.988637+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
54b0f19a-741f-4556-ac59-9c46ef1453e4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:23:03.988637+00:00
bd2c538b-daa3-435b-8ae0-c36a34fdfd5bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:23:03.920147+00:00
4e1d0ce0-e3e1-4662-8f5d-c6b92a802f70coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:23:03.870413+00:00
715f2fec-ac61-4bd0-92a8-0a422942760ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:23:03.805075+00:00
a426cbd9-34eb-432e-881b-28679c3aa1dccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:23:03.731166+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5550
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
54b0f19a-741f-4556-ac59-9c46ef1453e4typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.988637+00:00
bd2c538b-daa3-435b-8ae0-c36a34fdfd5bpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.920147+00:00
4e1d0ce0-e3e1-4662-8f5d-c6b92a802f70typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.870413+00:00
715f2fec-ac61-4bd0-92a8-0a422942760epython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.805075+00:00
a426cbd9-34eb-432e-881b-28679c3aa1dctypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.731166+00:00
666b0245-8298-4004-ae46-f0466d233df5python-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.658001+00:00
6b7caddc-9d31-4ab6-9365-d976b92bc82btypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.599983+00:00
b26d05a2-0b59-47ee-b4b8-000bf5700d5epython-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.537818+00:00
e51fb10a-5380-42f9-9493-08d03cd4d748typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.483241+00:00
4cb350d0-c205-41cf-8df7-c33036eed438python-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:23:03.425813+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0039  (coder)