Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 43f96eb6-5ad4-450a-ad4d-86f4142cae50 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T21:29:35.666166+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
43f96eb6-5ad4-450a-ad4d-86f4142cae50coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:35.666166+00:00
caa1fd68-100d-4680-8d8d-3f8890749745coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:35.606953+00:00
4ca521af-7dc9-4b24-b97d-af8f354a971fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:34.231815+00:00
5e7c51ee-d100-4216-8892-bbfbcc087a1ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:34.162700+00:00
da3c6f87-e04c-4efb-8939-6a791df317d1coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:34.097269+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1286
######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
43f96eb6-5ad4-450a-ad4d-86f4142cae50typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:35.666166+00:00
caa1fd68-100d-4680-8d8d-3f8890749745python-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:35.606953+00:00
4ca521af-7dc9-4b24-b97d-af8f354a971fpython-recovery-easy-001wrong-logic0.740$0.00102026-05-08T21:29:34.231815+00:00
5e7c51ee-d100-4216-8892-bbfbcc087a1ctypescript-config-easy-001wrong-logic0.740$0.00102026-05-08T21:29:34.162700+00:00
da3c6f87-e04c-4efb-8939-6a791df317d1python-config-easy-001wrong-logic0.740$0.00102026-05-08T21:29:34.097269+00:00
54b9d1ab-9849-4c17-96b8-203c9d3f12cdtypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T21:29:34.031170+00:00
8bafed63-3072-4b3c-955b-00ac8f11e8c9python-refactor-easy-001wrong-logic0.740$0.00102026-05-08T21:29:33.944175+00:00
30997546-9057-4b80-bbc4-770a957fa9eetypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T21:29:33.859910+00:00
6fa3087d-2f61-4eaa-a531-441bb7dfe32epython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T21:29:33.804177+00:00
fa50ce91-52ae-423f-930b-d74937de3120typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T21:29:33.730765+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0045  (coder)