Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: b1aad9f2-adde-4e00-b8f5-46c7271a3e0e | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T01:15:04.685071+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
b1aad9f2-adde-4e00-b8f5-46c7271a3e0ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.685071+00:00
7646bf74-1bc7-4ecf-9ece-f6370754a269coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.575139+00:00
154b507b-c55d-4148-8cc1-e10cf7b9f5fbcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.467277+00:00
366720af-a260-40f1-b374-378d3e2e3db6coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.327265+00:00
16bfcaa4-1a95-4a48-af48-b4331f94a39fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.216968+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1519
###############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
b1aad9f2-adde-4e00-b8f5-46c7271a3e0epython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.685071+00:00
7646bf74-1bc7-4ecf-9ece-f6370754a269typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.575139+00:00
154b507b-c55d-4148-8cc1-e10cf7b9f5fbpython-config-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.467277+00:00
366720af-a260-40f1-b374-378d3e2e3db6typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.327265+00:00
16bfcaa4-1a95-4a48-af48-b4331f94a39fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.216968+00:00
bf825f3b-d51b-4b2e-a35d-cb5c2e0f4acdtypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.124420+00:00
9f3a8597-4bd7-411f-82a5-f3a63c215eafpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.951899+00:00
71a2a1ff-b5b2-4ed5-9794-dd1db945508etypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.817133+00:00
b775aaac-7cb1-4e9a-8461-7a1905d26ecepython-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.692074+00:00
222cfc8f-f730-4141-abcf-5758903ae185typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.578459+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0044  (coder)