Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: bfff4aeb-a3f3-4675-8087-e4705e468cc9 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T00:43:42.400784+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
bfff4aeb-a3f3-4675-8087-e4705e468cc9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:42.400784+00:00
3de1aa01-7695-47cb-92d1-feffa3676f80coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:42.340023+00:00
5181e3da-6182-4c89-96dc-4d9d9804e6e4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:42.270321+00:00
f92ce131-491c-439a-849f-7e58b8c58d06coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:42.167951+00:00
87cfe1a5-37e5-4790-b29c-eed31609748fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T00:43:42.111715+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1254
######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
bfff4aeb-a3f3-4675-8087-e4705e468cc9python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.400784+00:00
3de1aa01-7695-47cb-92d1-feffa3676f80typescript-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.340023+00:00
5181e3da-6182-4c89-96dc-4d9d9804e6e4python-config-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.270321+00:00
f92ce131-491c-439a-849f-7e58b8c58d06typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.167951+00:00
87cfe1a5-37e5-4790-b29c-eed31609748fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.111715+00:00
e318f334-0001-4f24-be2f-64204926bfdatypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:42.037311+00:00
bff2abc2-256d-4a33-864a-360de57e4f4dpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.965029+00:00
4ef05cea-84ec-45c7-b0f3-ed8cf4ca605atypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.896100+00:00
febf68be-4966-4be4-a627-27837de6ccc4python-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.829436+00:00
9f3d3744-038b-4918-80ab-64530a88802ctypescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T00:43:41.788285+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)