Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d304bda9-5313-4a5e-a2c6-91bf68bc2eab | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:33:44.666700+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d304bda9-5313-4a5e-a2c6-91bf68bc2eabcoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:33:44.666700+00:00
e8579ecf-12f9-4284-9af5-bb88648834e2coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:33:44.583939+00:00
782d8594-7269-44d1-810d-810e2c7d0e23coder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:33:44.484177+00:00
97440c50-1c66-477c-b9a8-a1b1a1f3b36ccoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:33:44.392989+00:00
e88429da-29c0-4258-8ffe-1b0f872b959fcoder59417e3b6834192b1ea96a6a9010dee3105efd780.7402026-05-26T10:33:44.309084+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3369
#########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d304bda9-5313-4a5e-a2c6-91bf68bc2eabpython-recovery-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.666700+00:00
e8579ecf-12f9-4284-9af5-bb88648834e2typescript-config-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.583939+00:00
782d8594-7269-44d1-810d-810e2c7d0e23python-config-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.484177+00:00
97440c50-1c66-477c-b9a8-a1b1a1f3b36ctypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.392989+00:00
e88429da-29c0-4258-8ffe-1b0f872b959fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.309084+00:00
db9257d2-7b8b-45f7-b4a1-4896f095657etypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.212792+00:00
e402d487-539f-4c59-9e83-0d4e986f6afbpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.141457+00:00
a4dfd3a8-436b-4aa4-8a88-f80b8649e737typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:33:44.052817+00:00
542f9e2e-5f3f-4a81-a24e-01c775aefb0fpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-26T10:33:43.965561+00:00
093bc0cf-046c-4ef4-8b97-5d84f3bf257atypescript-performance-easy-001wrong-logic0.740$0.00102026-05-26T10:33:43.892582+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)