Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 8ac19780-4016-4d10-875d-58fcf0db6df5 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-04-28T00:19:05.343999+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
8ac19780-4016-4d10-875d-58fcf0db6df5coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:19:05.343999+00:00
1cc50cbc-1c15-40ee-b9c3-54e3c6585d72coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:19:05.279385+00:00
f8600b4d-2ce9-4a57-9b50-444dff6acb88coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:19:05.205326+00:00
7b34d4e5-5fc8-4eb0-bfde-f67da25f24cfcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:19:05.138086+00:00
98002622-c0f0-4496-98c5-c5ca8d5c456ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-04-28T00:19:05.072282+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1900
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
8ac19780-4016-4d10-875d-58fcf0db6df5typescript-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.343999+00:00
1cc50cbc-1c15-40ee-b9c3-54e3c6585d72python-multi-file-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.279385+00:00
f8600b4d-2ce9-4a57-9b50-444dff6acb88typescript-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.205326+00:00
7b34d4e5-5fc8-4eb0-bfde-f67da25f24cfpython-test-writing-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.138086+00:00
98002622-c0f0-4496-98c5-c5ca8d5c456ctypescript-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.072282+00:00
79faa582-0cee-4532-8d2e-878c2d5848fapython-performance-easy-001wrong-logic0.740$0.00102026-04-28T00:19:05.010803+00:00
f78d4333-c1d4-454c-a528-bb438a7dbbd2typescript-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:19:04.940637+00:00
c3a129ef-04e6-4001-b1e6-39345febac17python-bugfix-easy-001wrong-logic0.740$0.00102026-04-28T00:19:04.869597+00:00
7c3514c2-a5d5-49dc-8b5a-d235e367c242typescript-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:19:04.795467+00:00
b446ed89-27a1-494c-a331-bd746c66de37python-security-fix-easy-001wrong-logic0.740$0.00102026-04-28T00:19:04.727722+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0049  (coder)