Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: e9454e59-e165-4ccd-b221-4fef7f8866e8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:10:10.319813+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
e9454e59-e165-4ccd-b221-4fef7f8866e8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:10.319813+00:00
ae801e4c-e7ee-4690-9756-17ba2cb1076fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:10.232359+00:00
d18831d0-73ff-4b82-9bf5-180c880d76a2coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:10.168521+00:00
6676ff23-7921-4acd-9d14-fff459776d68coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:10.088781+00:00
7c8a06e0-c4d5-4b4b-84df-fee6933be698coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:10:10.009578+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2899
###################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
e9454e59-e165-4ccd-b221-4fef7f8866e8python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T19:10:10.319813+00:00
ae801e4c-e7ee-4690-9756-17ba2cb1076ftypescript-config-easy-001wrong-logic0.740$0.00102026-05-23T19:10:10.232359+00:00
d18831d0-73ff-4b82-9bf5-180c880d76a2python-config-easy-001wrong-logic0.740$0.00102026-05-23T19:10:10.168521+00:00
6676ff23-7921-4acd-9d14-fff459776d68typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:10:10.088781+00:00
7c8a06e0-c4d5-4b4b-84df-fee6933be698python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:10:10.009578+00:00
dde989a2-4e3f-41fc-baff-b8e2eb6f96cetypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:10:09.914237+00:00
b663c9f8-883f-46a3-a6c8-05618347d451python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:10:09.857291+00:00
73af5524-fae2-45ee-bf99-d0e5fae3e322typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:10:09.771142+00:00
a2502b96-d6e6-43b5-a66a-489b85aac496python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:10:09.691815+00:00
b736686e-c539-41fa-a80c-5558641d5bb0typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T19:10:09.602186+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0037  (coder)