Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: f7822562-39b4-42cd-8a5c-3f01ec755a06 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T00:43:41.130630+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
f7822562-39b4-42cd-8a5c-3f01ec755a06coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:41.130630+00:00
caa0aa6b-8911-4fae-b50b-011200fe66accoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:41.067263+00:00
7991dfd8-ee60-4342-ae56-7dbc8928bce8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.658755+00:00
c3aaa489-d135-4512-8978-177379bcfffdcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.597600+00:00
4c98efa7-dfb1-4d53-9583-55a8a0ea74eacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:40.532446+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1239
#######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
f7822562-39b4-42cd-8a5c-3f01ec755a06typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.130630+00:00
caa0aa6b-8911-4fae-b50b-011200fe66acpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.067263+00:00
7991dfd8-ee60-4342-ae56-7dbc8928bce8python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.658755+00:00
c3aaa489-d135-4512-8978-177379bcfffdtypescript-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.597600+00:00
4c98efa7-dfb1-4d53-9583-55a8a0ea74eapython-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.532446+00:00
57bf7a5b-d822-41f6-80cc-8a7cdaed7692typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.466057+00:00
c93c8588-81ad-4321-a731-f6c770072308python-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.398924+00:00
6ccfecf8-9810-41a1-bb09-266012633fb8typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.339655+00:00
05f17fef-6778-4702-ae7d-bf8136176371python-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.285884+00:00
4a25e192-016c-4138-96db-df001df7003ftypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:40.225106+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)