Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 1174f970-279b-4a87-a173-8d28c7c59c6a | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T02:54:24.498869+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
1174f970-279b-4a87-a173-8d28c7c59c6acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T02:54:24.498869+00:00
0e6e58ba-7bf7-4d06-87ed-041c6e837c23coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T02:54:24.297164+00:00
aa81e33a-cd68-45ee-a457-fde89ca84d35coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T02:54:24.174484+00:00
b57f709c-0822-429e-b6bf-cae501b86e71coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T02:54:24.023872+00:00
62c64ab8-f04a-414b-bccc-d586e69c52d3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T02:54:23.894831+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1630
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
1174f970-279b-4a87-a173-8d28c7c59c6apython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T02:54:24.498869+00:00
0e6e58ba-7bf7-4d06-87ed-041c6e837c23typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T02:54:24.297164+00:00
aa81e33a-cd68-45ee-a457-fde89ca84d35python-config-easy-001wrong-logic0.740$0.00102026-05-09T02:54:24.174484+00:00
b57f709c-0822-429e-b6bf-cae501b86e71typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T02:54:24.023872+00:00
62c64ab8-f04a-414b-bccc-d586e69c52d3python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.894831+00:00
9529d639-cf36-433f-9767-e0c713236983typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.792791+00:00
e259597e-020d-4a56-9e1f-ca3450aa837bpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.641647+00:00
964ccfe2-776a-49ed-8ffc-de83f760a147typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.489231+00:00
618743e6-5cde-4fc2-9f73-5c1ac8a3aff0python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.341231+00:00
5ba2a4c7-4837-4525-be00-0611a59bfef4typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T02:54:23.166966+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0043  (coder)