Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 7d3d8fce-ca79-4eae-87e5-9ceab7bfe823 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T00:28:15.176944+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
7d3d8fce-ca79-4eae-87e5-9ceab7bfe823coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T00:28:15.176944+00:00
f3fff114-e027-4fec-a1df-33a58dba998bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T00:28:15.135933+00:00
8c43b42a-20fc-4679-a122-d78729a62c8ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T00:28:15.098098+00:00
9bdf60ab-c89c-4cc2-a633-71dd9fbce8a9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T00:28:14.953876+00:00
5c22329f-d418-4b99-841e-291ffbc2c956coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T00:28:14.896601+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1489
#################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
7d3d8fce-ca79-4eae-87e5-9ceab7bfe823python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T00:28:15.176944+00:00
f3fff114-e027-4fec-a1df-33a58dba998btypescript-config-easy-001wrong-logic0.740$0.00102026-05-09T00:28:15.135933+00:00
8c43b42a-20fc-4679-a122-d78729a62c8cpython-config-easy-001wrong-logic0.740$0.00102026-05-09T00:28:15.098098+00:00
9bdf60ab-c89c-4cc2-a633-71dd9fbce8a9typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.953876+00:00
5c22329f-d418-4b99-841e-291ffbc2c956python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.896601+00:00
7f4790c7-77a5-446c-ab81-66428a050f49typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.839799+00:00
8461f0fb-9a8c-4eba-9e51-6fc654891f5cpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.800096+00:00
730a3ddb-13fe-4a4e-ad97-f80a28a5c56ftypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.766705+00:00
8871ce00-1bf2-4e94-a37d-11e68527dc2fpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.704734+00:00
e149ae55-0ee4-4b74-8e5d-fa66f372853btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T00:28:14.633289+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0044  (coder)