Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 068e9dfd-2904-46ce-b3a1-e4a9971e6386 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-07T23:10:08.231706+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
068e9dfd-2904-46ce-b3a1-e4a9971e6386coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:10:08.231706+00:00
242ca145-74da-40ae-b126-c48d53e7ada0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:10:08.108340+00:00
e46b3e4e-aa8e-46ba-b433-4f86b5d68a51coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:10:07.441872+00:00
7a4239fb-6a3e-4e5e-a4ec-a6d6ff45ac19coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:10:07.339470+00:00
9cbc2e16-bc0e-4ddb-b364-de061e1eac59coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:10:07.238896+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1098
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
068e9dfd-2904-46ce-b3a1-e4a9971e6386typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-07T23:10:08.231706+00:00
242ca145-74da-40ae-b126-c48d53e7ada0python-security-fix-easy-001wrong-logic0.740$0.00102026-05-07T23:10:08.108340+00:00
e46b3e4e-aa8e-46ba-b433-4f86b5d68a51python-recovery-easy-001wrong-logic0.740$0.00102026-05-07T23:10:07.441872+00:00
7a4239fb-6a3e-4e5e-a4ec-a6d6ff45ac19typescript-config-easy-001wrong-logic0.740$0.00102026-05-07T23:10:07.339470+00:00
9cbc2e16-bc0e-4ddb-b364-de061e1eac59python-config-easy-001wrong-logic0.740$0.00102026-05-07T23:10:07.238896+00:00
51cc9e95-0d11-42f5-ba08-c75b73d1d338typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:10:07.128175+00:00
edf0bda1-10db-47cf-b0ec-877ca18287e6python-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:10:07.021043+00:00
6d83fd70-2288-48f0-b345-1a951ebeec0etypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:10:06.909083+00:00
42cf854a-54b0-4a91-977f-446f909636a6python-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:10:06.806018+00:00
93a09463-d73c-4352-b2a4-6be1383e7d25typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T23:10:06.703984+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0047  (coder)