Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 5210beb9-031f-4549-a911-e029b509ba8a | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T03:49:24.562190+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
5210beb9-031f-4549-a911-e029b509ba8acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:24.562190+00:00
07920511-1ef9-407f-8fe5-43ecd12c52cecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:24.504629+00:00
36b327d2-9aad-4bfa-8db1-2f12297f6f3dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:24.436108+00:00
475e488c-1507-43c7-b8f5-878efbbd2fa3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:24.376095+00:00
0231cbe3-1070-4514-b12e-eab6cb31c5b9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:24.313875+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1724
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
5210beb9-031f-4549-a911-e029b509ba8apython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.562190+00:00
07920511-1ef9-407f-8fe5-43ecd12c52cetypescript-config-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.504629+00:00
36b327d2-9aad-4bfa-8db1-2f12297f6f3dpython-config-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.436108+00:00
475e488c-1507-43c7-b8f5-878efbbd2fa3typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.376095+00:00
0231cbe3-1070-4514-b12e-eab6cb31c5b9python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.313875+00:00
02d780d3-189a-48ec-a301-a2c8ccf1a3e4typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.254302+00:00
31cc3487-6b0e-4cbf-9f95-48475d1150d5python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.185770+00:00
52c7652d-157d-481e-9c6a-17b48797dc9btypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.118863+00:00
beb21a9e-4fe3-4eb6-b46e-6c4ba08b8d1bpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:49:24.043147+00:00
25ec3067-6780-46aa-9368-0f6064144ff7typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T03:49:23.972192+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0043  (coder)