Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 95023bbb-92a0-4c8c-8335-8dfa8a1982c9 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T01:15:05.480583+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
95023bbb-92a0-4c8c-8335-8dfa8a1982c9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:05.480583+00:00
7191bd2f-9d43-4628-a159-e9160e847851coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:05.350967+00:00
b1aad9f2-adde-4e00-b8f5-46c7271a3e0ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.685071+00:00
7646bf74-1bc7-4ecf-9ece-f6370754a269coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.575139+00:00
154b507b-c55d-4148-8cc1-e10cf7b9f5fbcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T01:15:04.467277+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1521
#################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
95023bbb-92a0-4c8c-8335-8dfa8a1982c9typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T01:15:05.480583+00:00
7191bd2f-9d43-4628-a159-e9160e847851python-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T01:15:05.350967+00:00
b1aad9f2-adde-4e00-b8f5-46c7271a3e0epython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.685071+00:00
7646bf74-1bc7-4ecf-9ece-f6370754a269typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.575139+00:00
154b507b-c55d-4148-8cc1-e10cf7b9f5fbpython-config-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.467277+00:00
366720af-a260-40f1-b374-378d3e2e3db6typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.327265+00:00
16bfcaa4-1a95-4a48-af48-b4331f94a39fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.216968+00:00
bf825f3b-d51b-4b2e-a35d-cb5c2e0f4acdtypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T01:15:04.124420+00:00
9f3a8597-4bd7-411f-82a5-f3a63c215eafpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.951899+00:00
71a2a1ff-b5b2-4ed5-9794-dd1db945508etypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T01:15:03.817133+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0044  (coder)