Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 8b674494-515c-4ac9-bb41-39765d60cb27 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T22:25:44.522684+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
8b674494-515c-4ac9-bb41-39765d60cb27coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:44.522684+00:00
78cfa06d-8996-425a-8f38-63f793bf2c41coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:44.297852+00:00
689f1e89-ed5c-4cf8-a516-d452ee75a183coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:43.955085+00:00
15bf7cb9-4880-4989-bb4b-7cff4c53650acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:43.762228+00:00
cedd125a-cda8-4808-ad18-034871a96c7bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:43.527826+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1378
##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
8b674494-515c-4ac9-bb41-39765d60cb27python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T22:25:44.522684+00:00
78cfa06d-8996-425a-8f38-63f793bf2c41typescript-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:44.297852+00:00
689f1e89-ed5c-4cf8-a516-d452ee75a183python-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.955085+00:00
15bf7cb9-4880-4989-bb4b-7cff4c53650atypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.762228+00:00
cedd125a-cda8-4808-ad18-034871a96c7bpython-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.527826+00:00
679b317b-e482-498a-a15b-d282fbf1c5e8typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.301946+00:00
11b29a6a-8b1a-4078-b888-a8efab5b357fpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:43.125859+00:00
b0389100-32da-4ec6-b633-f5c776517099typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:25:42.898059+00:00
4042fd49-a1e2-4369-9186-085adcf86135python-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:25:42.549898+00:00
a6e2343c-d603-4837-85a1-bc38680e3f02typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T22:25:42.297376+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0045  (coder)