Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d9130911-8dde-4f5a-87b1-2b446b77344e | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:10:17.291476+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d9130911-8dde-4f5a-87b1-2b446b77344ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:17.291476+00:00
a97934df-c177-4370-af9b-60aea2d7f397coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:17.211827+00:00
658c57d6-1e1c-4199-8f2c-52cecd529f92coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:17.133850+00:00
4ea232d8-5fea-4b40-9d4d-2ff55e8d253acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:17.052578+00:00
948ec968-eca7-4ab0-ba22-4eb4793eba6ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:16.973263+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2914
##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d9130911-8dde-4f5a-87b1-2b446b77344epython-recovery-easy-001wrong-logic0.740$0.00102026-05-23T19:10:17.291476+00:00
a97934df-c177-4370-af9b-60aea2d7f397typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T19:10:17.211827+00:00
658c57d6-1e1c-4199-8f2c-52cecd529f92python-config-easy-001wrong-logic0.740$0.00102026-05-23T19:10:17.133850+00:00
4ea232d8-5fea-4b40-9d4d-2ff55e8d253atypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:10:17.052578+00:00
948ec968-eca7-4ab0-ba22-4eb4793eba6cpython-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.973263+00:00
e5287f33-4373-4dd0-bc13-1687a440e943typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.909827+00:00
e577b444-de8b-43fc-a3ff-38348ec46cbbpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.829808+00:00
a56cd1bf-ac23-4b39-a5fd-3bbaa4bb49d3typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.758568+00:00
b9809bf3-4689-4e20-af0a-39d295cdc3depython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.686600+00:00
4cfe08de-7384-4424-a271-0ee1e68ad42ctypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T19:10:16.619259+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0037  (coder)