Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: e270dca8-bdb5-43a1-9428-564ec15a5778 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T14:36:52.684660+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
e270dca8-bdb5-43a1-9428-564ec15a5778coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T14:36:52.684660+00:00
81fab778-b7ba-400d-9c8c-d6eaf48ffd5acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T14:36:52.567618+00:00
e41cdf18-7f54-495c-bb5c-0d8fc07b7b41coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T14:36:52.440812+00:00
cfa4e083-4691-43b5-9b3e-71b9410fdafecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T14:36:52.290495+00:00
5af957d2-15e6-42ed-8718-746502f461c3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T14:36:52.071571+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1959
#######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
e270dca8-bdb5-43a1-9428-564ec15a5778python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T14:36:52.684660+00:00
81fab778-b7ba-400d-9c8c-d6eaf48ffd5atypescript-config-easy-001wrong-logic0.740$0.00102026-05-09T14:36:52.567618+00:00
e41cdf18-7f54-495c-bb5c-0d8fc07b7b41python-config-easy-001wrong-logic0.740$0.00102026-05-09T14:36:52.440812+00:00
cfa4e083-4691-43b5-9b3e-71b9410fdafetypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T14:36:52.290495+00:00
5af957d2-15e6-42ed-8718-746502f461c3python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T14:36:52.071571+00:00
1c960b7c-4296-4f65-a47d-9fad63718b5ctypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T14:36:51.922743+00:00
fc9e336e-c81c-47c8-ac54-cab2a2f61435python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T14:36:51.796000+00:00
84502f7e-1278-4771-a720-059740b5ada5typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T14:36:51.661353+00:00
14b28088-5fbc-4f09-8152-08c620e1c1e2python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T14:36:51.535235+00:00
d35096a5-0bf3-4319-a0fa-2d05f71056dbtypescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T14:36:51.410524+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0041  (coder)