Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 376b271d-c255-4d59-a70d-51faf04d6fbf | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:42:25.373693+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
376b271d-c255-4d59-a70d-51faf04d6fbfcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:25.373693+00:00
eb6d02e2-91ec-47d8-94ab-eb74989b56e1coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:25.291782+00:00
9de42517-d647-4fd8-9535-c301d65f1731coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:24.692879+00:00
55e30911-2347-4c12-8b9d-8494e3b7adaecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:24.619800+00:00
7684373c-6f7b-4a69-b69f-20cc28823682coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:24.530493+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2226
##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
376b271d-c255-4d59-a70d-51faf04d6fbftypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:25.373693+00:00
eb6d02e2-91ec-47d8-94ab-eb74989b56e1python-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:25.291782+00:00
9de42517-d647-4fd8-9535-c301d65f1731python-recovery-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.692879+00:00
55e30911-2347-4c12-8b9d-8494e3b7adaetypescript-config-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.619800+00:00
7684373c-6f7b-4a69-b69f-20cc28823682python-config-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.530493+00:00
62fcfe3f-e141-413d-b08c-320e11e5c25atypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.466744+00:00
5a8d7e8b-eb8c-4250-b93d-a6f0074ef41fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.394578+00:00
47688f9f-93f5-4a46-86af-ed5912a2ea8ctypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.331506+00:00
d87ec0e6-25ea-4f33-91cb-3899b8928a4dpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.243370+00:00
794b2b77-9f7e-4365-a354-1d589fc9cbb7typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:42:24.127070+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)