Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 864dcd00-0841-4cc0-9e72-2f6ff0eb7f18 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T09:40:55.925549+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
864dcd00-0841-4cc0-9e72-2f6ff0eb7f18coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:40:55.925549+00:00
aab80706-5998-4352-9511-50e859037b87coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:40:55.866907+00:00
7fe0a033-377a-4beb-b198-51d789f34d05coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:40:55.796547+00:00
c6193e4f-2e2c-47d8-b281-157b4608bbb7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:40:55.740977+00:00
fdc2cfff-6bba-45cd-b161-8b7ce9cc1188coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:40:55.686117+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1754
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
864dcd00-0841-4cc0-9e72-2f6ff0eb7f18python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.925549+00:00
aab80706-5998-4352-9511-50e859037b87typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.866907+00:00
7fe0a033-377a-4beb-b198-51d789f34d05python-config-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.796547+00:00
c6193e4f-2e2c-47d8-b281-157b4608bbb7typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.740977+00:00
fdc2cfff-6bba-45cd-b161-8b7ce9cc1188python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.686117+00:00
29ba9ef9-8162-48eb-923b-7c1cf10e0ea7typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.610821+00:00
3c5b8e37-dce2-481d-b154-4b614e8c2a24python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.547637+00:00
d8f06bdb-489b-40d7-8590-71107aef5322typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.475809+00:00
910aec4d-c754-4723-b5ec-9792f79320f6python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.411932+00:00
3c1e0053-5bbe-4908-8f5b-5aaeb83688a4typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T09:40:55.342085+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0042  (coder)