Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 2fc5aab8-d67f-4e9e-8dc4-d87e4177b340 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:38:10.921323+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
2fc5aab8-d67f-4e9e-8dc4-d87e4177b340coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:10.921323+00:00
c26ec144-8c49-41d5-970e-8568d0a2520bcoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:10.863414+00:00
037878a2-1de3-42d9-8573-53dc5273c45ccoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:10.805857+00:00
e07421d3-1a67-47f8-8dc5-5047cdb1f0f7coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:10.748475+00:00
560ce837-5f85-4e96-9927-b0ecd44f86aacoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:10.689995+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3416
########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
2fc5aab8-d67f-4e9e-8dc4-d87e4177b340python-recovery-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.921323+00:00
c26ec144-8c49-41d5-970e-8568d0a2520btypescript-config-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.863414+00:00
037878a2-1de3-42d9-8573-53dc5273c45cpython-config-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.805857+00:00
e07421d3-1a67-47f8-8dc5-5047cdb1f0f7typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.748475+00:00
560ce837-5f85-4e96-9927-b0ecd44f86aapython-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.689995+00:00
96f79ab5-b672-480f-a72f-b71b09cedd85typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.624066+00:00
87a806fd-35af-4c48-bd34-adef740314d4python-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.558036+00:00
476e5ff6-ecd5-4018-bc7a-424816d3f0c7typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.500189+00:00
15643e77-6b7b-4f82-a172-f39b341df4c4python-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.434051+00:00
4dd74841-33a2-4ef4-9a13-f6102e8d204btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-26T10:38:10.384648+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)