Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: e4a310f8-7de2-4591-b208-c5cf66e9ebb1 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-07T22:53:24.526065+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
e4a310f8-7de2-4591-b208-c5cf66e9ebb1coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T22:53:24.526065+00:00
6d098b0b-18c0-482e-9208-18ef156e94a6coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T22:53:24.432178+00:00
c2b8a261-9a9d-4596-8bc5-3e019e03d77ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T22:53:24.359898+00:00
7ea18dbd-fadf-466c-b7a0-31ebea6f48bccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T22:53:24.259233+00:00
14e3b3c1-ddb5-4301-8093-e4d7b65ddb1ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T22:53:24.186417+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1066
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
e4a310f8-7de2-4591-b208-c5cf66e9ebb1python-recovery-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.526065+00:00
6d098b0b-18c0-482e-9208-18ef156e94a6typescript-config-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.432178+00:00
c2b8a261-9a9d-4596-8bc5-3e019e03d77epython-config-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.359898+00:00
7ea18dbd-fadf-466c-b7a0-31ebea6f48bctypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.259233+00:00
14e3b3c1-ddb5-4301-8093-e4d7b65ddb1cpython-refactor-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.186417+00:00
86afedf2-037a-4753-8278-b19313c5d1d7typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.107468+00:00
676154d3-6d2a-4853-bb5e-193bb2e4bb62python-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T22:53:24.039498+00:00
728ee070-a8d8-43ba-b5f5-9f13f6e868a3typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T22:53:23.964052+00:00
8f6e49f2-8b03-4558-870a-7a55a6638bf3python-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T22:53:23.882431+00:00
31824cc3-80c2-468a-a06f-7d502410b7b6typescript-performance-easy-001wrong-logic0.740$0.00102026-05-07T22:53:23.792041+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0047  (coder)