Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: e9b727c9-4ffa-47da-8045-4ce387bd93a4 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T09:41:03.877021+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
e9b727c9-4ffa-47da-8045-4ce387bd93a4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:41:03.877021+00:00
1b181767-8ebd-4d36-91aa-7607d8fdd9c4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:41:03.811935+00:00
2695f82f-74b5-44e7-9e76-561b00fd52f7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:41:03.755549+00:00
0a4157b4-d529-42f4-9740-f9968e749c73coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:41:03.680902+00:00
3464e843-2f60-4ad4-b6cb-78b087bfe817coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T09:41:03.611133+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1786
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
e9b727c9-4ffa-47da-8045-4ce387bd93a4python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.877021+00:00
1b181767-8ebd-4d36-91aa-7607d8fdd9c4typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.811935+00:00
2695f82f-74b5-44e7-9e76-561b00fd52f7python-config-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.755549+00:00
0a4157b4-d529-42f4-9740-f9968e749c73typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.680902+00:00
3464e843-2f60-4ad4-b6cb-78b087bfe817python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.611133+00:00
24bb2111-e759-4be1-82a6-ad824e0e80e7typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.553966+00:00
9fcfeec0-6047-4daa-a0fd-b591cde9da75python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.482881+00:00
fe76c794-c7c6-4e48-8fb8-15e6dd059590typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.417518+00:00
182993cb-93f5-40e9-a352-89f545c94e64python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.355947+00:00
1973ab5e-1b74-477a-85ac-38d0c82250a0typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T09:41:03.292863+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0042  (coder)