Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: ff381bbc-6e80-49d6-9b3d-92b374d506b8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:41:04.685503+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
ff381bbc-6e80-49d6-9b3d-92b374d506b8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:04.685503+00:00
4eee26e3-9cf5-49ea-9a2c-0756229ccc3dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:04.605669+00:00
9e6cbc96-6522-4574-8aab-63257d1147dacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:04.547290+00:00
33f7bc12-ccf0-45c4-884f-a1200f42b18ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:04.488669+00:00
4358ad57-82b4-4687-b41d-7635b1f57cd4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:41:04.426000+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2177
#################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
ff381bbc-6e80-49d6-9b3d-92b374d506b8python-recovery-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.685503+00:00
4eee26e3-9cf5-49ea-9a2c-0756229ccc3dtypescript-config-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.605669+00:00
9e6cbc96-6522-4574-8aab-63257d1147dapython-config-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.547290+00:00
33f7bc12-ccf0-45c4-884f-a1200f42b18ctypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.488669+00:00
4358ad57-82b4-4687-b41d-7635b1f57cd4python-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.426000+00:00
add3f840-0979-47a3-8dd6-6cf30e13a2e0typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.376148+00:00
a9b9c3d2-d680-4072-8ca9-19a51aa902b3python-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.329518+00:00
79477fbd-e8fb-4972-b2bf-aaf319713a39typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.263043+00:00
9518e793-cdc1-441a-b58f-06e6d761ef3cpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.221826+00:00
13eff8cd-ebaf-47ff-840b-85105b665013typescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:41:04.176957+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)