Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: fccdbc4f-ea02-4223-a9ca-a01795a4c6f7 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:48:19.581983+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
fccdbc4f-ea02-4223-a9ca-a01795a4c6f7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.581983+00:00
cfd5de69-4df3-4a8e-833e-13b3cc9049c4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.411640+00:00
ea626fa0-5d8c-4b6a-96e5-f66563fe7dcacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.228983+00:00
eb589884-7387-44f6-b14c-d95ab0e6da4ecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:19.076309+00:00
2c1378ec-bbba-4300-9e28-07ed3a726c7bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:48:18.907259+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2271
###############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
fccdbc4f-ea02-4223-a9ca-a01795a4c6f7python-recovery-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.581983+00:00
cfd5de69-4df3-4a8e-833e-13b3cc9049c4typescript-config-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.411640+00:00
ea626fa0-5d8c-4b6a-96e5-f66563fe7dcapython-config-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.228983+00:00
eb589884-7387-44f6-b14c-d95ab0e6da4etypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:48:19.076309+00:00
2c1378ec-bbba-4300-9e28-07ed3a726c7bpython-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.907259+00:00
7ca23783-ffaf-4dd1-8daa-1d460a744553typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.758755+00:00
13f0ff0d-13da-40f1-84f4-2fbc8661a07fpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.609743+00:00
ec675b33-83ec-4b63-a148-3d2a84dfaf0btypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.472579+00:00
3a6f9329-a8a5-47c7-9aee-be84eeeed716python-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.330633+00:00
3f0b2fda-2ffc-49d5-b0bf-f2b83d6f4b8btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:48:18.176553+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)