Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 04584fd9-0b38-4fbc-a8f6-17edb01c9bb6 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:38:17.292268+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
04584fd9-0b38-4fbc-a8f6-17edb01c9bb6coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:17.292268+00:00
38598f5e-d9e9-4d6e-bddb-910c69b5d511coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:17.210090+00:00
61f37c3f-c5ca-49f5-b33b-1414f5a4b743coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:17.135895+00:00
943b8a26-d074-45bd-8aff-a594ceb9f1e3coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:17.062453+00:00
481de9fd-6bd1-4633-911c-a2ee0eab351ccoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:38:16.997153+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3431
#######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
04584fd9-0b38-4fbc-a8f6-17edb01c9bb6python-recovery-easy-001wrong-logic0.740$0.00102026-05-26T10:38:17.292268+00:00
38598f5e-d9e9-4d6e-bddb-910c69b5d511typescript-config-easy-001wrong-logic0.740$0.00102026-05-26T10:38:17.210090+00:00
61f37c3f-c5ca-49f5-b33b-1414f5a4b743python-config-easy-001wrong-logic0.740$0.00102026-05-26T10:38:17.135895+00:00
943b8a26-d074-45bd-8aff-a594ceb9f1e3typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:38:17.062453+00:00
481de9fd-6bd1-4633-911c-a2ee0eab351cpython-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.997153+00:00
a328f393-7be0-44d5-8243-a2f2f1d712fatypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.914924+00:00
6a1354e0-2665-4f63-b5bf-7d0db524d1aapython-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.841120+00:00
4b144002-ed09-4b87-9e0c-517aace6c55dtypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.766887+00:00
94d111d4-ebd7-4559-841d-31f8533612c9python-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.701273+00:00
874c1261-8583-499d-aedd-daacfcf26503typescript-performance-easy-001wrong-logic0.740$0.00102026-05-26T10:38:16.635455+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)