Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: db51786d-f6de-48d9-be9d-4ecad2631490 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:13:35.595470+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
db51786d-f6de-48d9-be9d-4ecad2631490coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:13:35.595470+00:00
3b2f5ab7-5729-4810-8707-002030167854coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:13:35.532121+00:00
f84d8162-ab24-49f5-b600-c440e6af6ed9coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:13:35.452392+00:00
159f4c3c-c607-412d-b107-37b329e7a704coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:13:35.388604+00:00
90593b68-80a0-4801-8c50-babd256e9b09coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:13:35.324552+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3134
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
db51786d-f6de-48d9-be9d-4ecad2631490python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.595470+00:00
3b2f5ab7-5729-4810-8707-002030167854typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.532121+00:00
f84d8162-ab24-49f5-b600-c440e6af6ed9python-config-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.452392+00:00
159f4c3c-c607-412d-b107-37b329e7a704typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.388604+00:00
90593b68-80a0-4801-8c50-babd256e9b09python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.324552+00:00
33162390-afa6-4c44-b47d-ae06ae4d08e2typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.260728+00:00
ac20259c-ad3d-4827-ab0d-99021b4de46apython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.197219+00:00
12b2084b-3fdc-464a-846e-d0c86bd7ddc3typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.136605+00:00
4136038f-f153-4b56-8015-349c957ccd44python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:13:35.064659+00:00
e81bde79-b11c-4106-a16b-1e23e7147db7typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:13:34.975666+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0036  (coder)