Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 76e7b6fe-2679-4ea9-abe3-26db13c94ea9 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T12:01:28.884015+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
76e7b6fe-2679-4ea9-abe3-26db13c94ea9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:28.884015+00:00
8d2463bd-eddf-45c2-b49a-a9bcb6182fffcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:28.862105+00:00
b0d274b9-31ef-4c04-a7cc-53c734f112e3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:28.799670+00:00
b9302a26-32a4-4d36-bd78-ca7e43decdf3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:28.762164+00:00
fe6ee862-dbfe-408b-82be-a4b114269a68coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T12:01:28.713951+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1818
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
76e7b6fe-2679-4ea9-abe3-26db13c94ea9python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.884015+00:00
8d2463bd-eddf-45c2-b49a-a9bcb6182ffftypescript-config-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.862105+00:00
b0d274b9-31ef-4c04-a7cc-53c734f112e3python-config-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.799670+00:00
b9302a26-32a4-4d36-bd78-ca7e43decdf3typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.762164+00:00
fe6ee862-dbfe-408b-82be-a4b114269a68python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.713951+00:00
759e3203-18c0-4c8b-b01b-8143baed924atypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.658588+00:00
a99e00f3-4b3a-478b-8e07-017413579e19python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.611691+00:00
7fc1337e-0819-4632-bac4-19752d435327typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.577391+00:00
8220b950-0cb7-46e6-9e2a-2735dbcc1c3apython-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.537483+00:00
4f91d263-7ce7-4dc4-bbb3-82ab8ae57553typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T12:01:28.485169+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0042  (coder)