Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 4718f924-7a94-43ac-8f68-6bdc05a4408d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:48:20.856365+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
4718f924-7a94-43ac-8f68-6bdc05a4408dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:20.856365+00:00
b2a4f49d-c198-4ba6-a5d8-e268725a9081coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:20.704454+00:00
fccdbc4f-ea02-4223-a9ca-a01795a4c6f7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.581983+00:00
cfd5de69-4df3-4a8e-833e-13b3cc9049c4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.411640+00:00
ea626fa0-5d8c-4b6a-96e5-f66563fe7dcacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.228983+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2273
#################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
4718f924-7a94-43ac-8f68-6bdc05a4408dtypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:48:20.856365+00:00
b2a4f49d-c198-4ba6-a5d8-e268725a9081python-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:48:20.704454+00:00
fccdbc4f-ea02-4223-a9ca-a01795a4c6f7python-recovery-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.581983+00:00
cfd5de69-4df3-4a8e-833e-13b3cc9049c4typescript-config-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.411640+00:00
ea626fa0-5d8c-4b6a-96e5-f66563fe7dcapython-config-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.228983+00:00
eb589884-7387-44f6-b14c-d95ab0e6da4etypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.076309+00:00
2c1378ec-bbba-4300-9e28-07ed3a726c7bpython-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.907259+00:00
7ca23783-ffaf-4dd1-8daa-1d460a744553typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.758755+00:00
13f0ff0d-13da-40f1-84f4-2fbc8661a07fpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.609743+00:00
ec675b33-83ec-4b63-a148-3d2a84dfaf0btypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.472579+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)