Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 7a10bb86-c693-4621-b4a1-89e54b2cca67 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T00:43:46.014390+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
7a10bb86-c693-4621-b4a1-89e54b2cca67coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:46.014390+00:00
c11ce563-a516-4cb8-b8ad-f55f76360d7ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:45.960195+00:00
8157dbaa-0fc0-46e2-8bf9-5a5d7ad57836coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:45.883461+00:00
dc575049-1145-4fe1-b720-888bfaf5ded3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:45.812819+00:00
7a080d6c-c545-4875-9771-1ef18acb42e3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:45.742902+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2650
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
7a10bb86-c693-4621-b4a1-89e54b2cca67typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:46.014390+00:00
c11ce563-a516-4cb8-b8ad-f55f76360d7epython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.960195+00:00
8157dbaa-0fc0-46e2-8bf9-5a5d7ad57836typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.883461+00:00
dc575049-1145-4fe1-b720-888bfaf5ded3python-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.812819+00:00
7a080d6c-c545-4875-9771-1ef18acb42e3typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.742902+00:00
490e7f65-71c9-495a-8939-673df94f4046python-performance-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.653093+00:00
fd899d6b-7a27-43c7-918b-b05517e89819typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.609785+00:00
d11051af-ff4c-4072-aa88-33e98c10951fpython-bugfix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.548502+00:00
57aa2e2e-afcc-4b01-bf01-a02b5878abfdtypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.486276+00:00
bdc8871f-d858-4e23-808d-8e97c067cf47python-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:45.422782+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0047  (coder)