Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 967468bf-569c-49b5-81df-05ad8be978ce | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:20:42.531758+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
967468bf-569c-49b5-81df-05ad8be978cecoder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:20:42.531758+00:00
d2ad6524-7b64-47bb-b873-c3d5679faef2coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:20:42.468131+00:00
7d4153e3-2c43-4184-a95b-52bfddb3b273coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:20:42.404506+00:00
c773e73e-46fb-4462-9a11-80b714b3f157coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:20:42.346519+00:00
e12e2b68-3dab-4cba-8d33-3b742bb59591coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:20:42.279175+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic6730
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
967468bf-569c-49b5-81df-05ad8be978cetypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.531758+00:00
d2ad6524-7b64-47bb-b873-c3d5679faef2python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.468131+00:00
7d4153e3-2c43-4184-a95b-52bfddb3b273typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.404506+00:00
c773e73e-46fb-4462-9a11-80b714b3f157python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.346519+00:00
e12e2b68-3dab-4cba-8d33-3b742bb59591typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.279175+00:00
5ddfaba2-79fc-46ed-9900-1042952935bfpython-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.223309+00:00
6a91aad7-46b7-47b7-984d-8b06f9de3742typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.151421+00:00
42cf159b-98ae-45ea-90d9-aedddd838488python-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.088017+00:00
cc626983-125d-42b3-88e0-663719eadc14typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:20:42.024512+00:00
758449a1-7185-4c8b-9cbd-40e5276b00ecpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:20:41.960374+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0037  (coder)