Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 50e67695-d746-468a-ace3-b7397decd488 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-07T23:44:54.976233+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
50e67695-d746-468a-ace3-b7397decd488coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:54.976233+00:00
eac4407c-9cb9-4ac6-9bcd-d63cda2d740ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:54.857241+00:00
3a72b760-cf90-45d8-8a20-553142033409coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:54.163641+00:00
72bcb51e-fea2-48c9-be5d-388052127908coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:54.055592+00:00
0b8c8716-6759-458b-ad89-92075f2d7ef3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:53.943894+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1192
########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
50e67695-d746-468a-ace3-b7397decd488typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-07T23:44:54.976233+00:00
eac4407c-9cb9-4ac6-9bcd-d63cda2d740cpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-07T23:44:54.857241+00:00
3a72b760-cf90-45d8-8a20-553142033409python-recovery-easy-001wrong-logic0.740$0.00102026-05-07T23:44:54.163641+00:00
72bcb51e-fea2-48c9-be5d-388052127908typescript-config-easy-001wrong-logic0.740$0.00102026-05-07T23:44:54.055592+00:00
0b8c8716-6759-458b-ad89-92075f2d7ef3python-config-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.943894+00:00
31425962-7158-494b-b6ed-c0b1ec4f2db7typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.836664+00:00
7a9581c6-6de4-4346-9364-546c1a40a5fbpython-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.724766+00:00
d0d3ca6b-6ce1-4d2b-a957-a91d22166137typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.617867+00:00
5697e27a-0555-4044-bd55-ee4ac7ce83d4python-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.507377+00:00
744677b1-c1c8-4ed2-8685-eb589567536etypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T23:44:53.394314+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)