Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d2cf873d-ff06-4e16-8b8c-f1f14112b4c8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T03:49:30.026673+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d2cf873d-ff06-4e16-8b8c-f1f14112b4c8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:30.026673+00:00
1505ae31-4be5-409a-9d1c-41eeaaa27d74coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:29.961578+00:00
3107c7af-986c-4e8c-bf47-03d9ccd632d1coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:29.907051+00:00
aa44fa56-7dde-48d6-902c-00e03f75a524coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:29.845979+00:00
c4f19078-083a-42b0-b330-e4e6195b0e6fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:49:29.776868+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1739
###########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d2cf873d-ff06-4e16-8b8c-f1f14112b4c8python-recovery-easy-001wrong-logic0.740$0.00102026-05-09T03:49:30.026673+00:00
1505ae31-4be5-409a-9d1c-41eeaaa27d74typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.961578+00:00
3107c7af-986c-4e8c-bf47-03d9ccd632d1python-config-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.907051+00:00
aa44fa56-7dde-48d6-902c-00e03f75a524typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.845979+00:00
c4f19078-083a-42b0-b330-e4e6195b0e6fpython-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.776868+00:00
f289d11a-1e9b-4ffa-b588-5e8e0376f650typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.715364+00:00
f2fa3a23-b89a-458b-a0d2-f153cfeb26e6python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.643857+00:00
13a0abb9-89bb-4079-9623-8a16d8d41bc8typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.578078+00:00
2aa1ffbc-14fb-4960-9b3f-db852d549759python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.511912+00:00
5edf8619-7e3f-4a2e-b03f-24efb3173c91typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T03:49:29.457221+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0043  (coder)