Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 6e32ab5f-749c-46b1-b3e4-3cdc655b50a2 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T22:25:45.660382+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
6e32ab5f-749c-46b1-b3e4-3cdc655b50a2coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:45.660382+00:00
210e679c-1807-4e75-985a-4c03dcaf5b09coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:45.388206+00:00
8b674494-515c-4ac9-bb41-39765d60cb27coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:44.522684+00:00
78cfa06d-8996-425a-8f38-63f793bf2c41coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:44.297852+00:00
689f1e89-ed5c-4cf8-a516-d452ee75a183coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:43.955085+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1380
####################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
6e32ab5f-749c-46b1-b3e4-3cdc655b50a2typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T22:25:45.660382+00:00
210e679c-1807-4e75-985a-4c03dcaf5b09python-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T22:25:45.388206+00:00
8b674494-515c-4ac9-bb41-39765d60cb27python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T22:25:44.522684+00:00
78cfa06d-8996-425a-8f38-63f793bf2c41typescript-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:44.297852+00:00
689f1e89-ed5c-4cf8-a516-d452ee75a183python-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.955085+00:00
15bf7cb9-4880-4989-bb4b-7cff4c53650atypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.762228+00:00
cedd125a-cda8-4808-ad18-034871a96c7bpython-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.527826+00:00
679b317b-e482-498a-a15b-d282fbf1c5e8typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.301946+00:00
11b29a6a-8b1a-4078-b888-a8efab5b357fpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.125859+00:00
b0389100-32da-4ec6-b633-f5c776517099typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:25:42.898059+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0045  (coder)