Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 3c784697-ce09-4c3f-8ae7-5dca87e1ba0d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:43:50.018885+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
3c784697-ce09-4c3f-8ae7-5dca87e1ba0dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:43:50.018885+00:00
d893e0e2-3ce3-4a83-89e6-1d5668d8b301coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:43:49.907587+00:00
f12058d5-ff33-4507-a32c-b4130b182edbcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:43:49.802137+00:00
d75eb974-b64a-4654-8401-e2c2c3b57818coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:43:49.686212+00:00
f6ae3e52-46c5-4fc3-8e47-d42b64709568coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:43:49.574673+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2726
######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
3c784697-ce09-4c3f-8ae7-5dca87e1ba0dpython-recovery-easy-001wrong-logic0.740$0.00102026-05-23T18:43:50.018885+00:00
d893e0e2-3ce3-4a83-89e6-1d5668d8b301typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.907587+00:00
f12058d5-ff33-4507-a32c-b4130b182edbpython-config-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.802137+00:00
d75eb974-b64a-4654-8401-e2c2c3b57818typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.686212+00:00
f6ae3e52-46c5-4fc3-8e47-d42b64709568python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.574673+00:00
110db665-2eca-4c62-a8af-31b4aabb198ctypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.467561+00:00
3a0d2e76-61c2-4100-a808-6a7d58b0d35dpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.361314+00:00
f21afddc-2b60-4939-ac86-e715239f6adctypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.240011+00:00
69b74f16-a2c2-48f2-aec2-196e81d90616python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.144925+00:00
1664d051-098f-4c6a-beb9-83e693f025a7typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:43:49.032895+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0038  (coder)