Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 7991dfd8-ee60-4342-ae56-7dbc8928bce8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T00:43:40.658755+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
7991dfd8-ee60-4342-ae56-7dbc8928bce8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.658755+00:00
c3aaa489-d135-4512-8978-177379bcfffdcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.597600+00:00
4c98efa7-dfb1-4d53-9583-55a8a0ea74eacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.532446+00:00
57bf7a5b-d822-41f6-80cc-8a7cdaed7692coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.466057+00:00
c93c8588-81ad-4321-a731-f6c770072308coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.398924+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1237
#####################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
7991dfd8-ee60-4342-ae56-7dbc8928bce8python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.658755+00:00
c3aaa489-d135-4512-8978-177379bcfffdtypescript-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.597600+00:00
4c98efa7-dfb1-4d53-9583-55a8a0ea74eapython-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.532446+00:00
57bf7a5b-d822-41f6-80cc-8a7cdaed7692typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.466057+00:00
c93c8588-81ad-4321-a731-f6c770072308python-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.398924+00:00
6ccfecf8-9810-41a1-bb09-266012633fb8typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.339655+00:00
05f17fef-6778-4702-ae7d-bf8136176371python-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.285884+00:00
4a25e192-016c-4138-96db-df001df7003ftypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.225106+00:00
41982e08-e966-489c-b5c9-3238ffff10capython-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.150935+00:00
a3fdcbc7-b44b-409d-9934-d38ee3564e08typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.086841+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)