Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: ab65acc7-0752-4a23-ac94-a59849a0f4c0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:41:16.958522+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
ab65acc7-0752-4a23-ac94-a59849a0f4c0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:16.958522+00:00
f9781514-8a91-4d1d-8852-8d10d4f257fdcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:16.851204+00:00
9315213b-f08b-4cbc-9871-45c504007163coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:16.730579+00:00
17ee305f-e08e-4739-aeee-842511b7a5e6coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:16.638844+00:00
f0f1324a-31f4-4fa1-9ad9-a6bfc5f8a64bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:16.449834+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic4650
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
ab65acc7-0752-4a23-ac94-a59849a0f4c0typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.958522+00:00
f9781514-8a91-4d1d-8852-8d10d4f257fdpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.851204+00:00
9315213b-f08b-4cbc-9871-45c504007163typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.730579+00:00
17ee305f-e08e-4739-aeee-842511b7a5e6python-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.638844+00:00
f0f1324a-31f4-4fa1-9ad9-a6bfc5f8a64btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.449834+00:00
8ca3b8a3-c327-43b3-800a-9152bbe38055python-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.328469+00:00
d872877e-6b95-448d-9f52-ddd31b5d287btypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.203798+00:00
ff43325e-8c87-482a-b1ac-b92c14bfb6e1python-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:41:16.110509+00:00
81dc5c1a-53bb-43f0-9c28-acea42949977typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:41:15.991931+00:00
2f65f0ac-89a4-4be7-94e5-f2f1a229535cpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:41:15.922003+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0041  (coder)