Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 5dd16a7f-10e7-44df-9c6b-aa5cbdc11d9f | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:42:31.829882+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
5dd16a7f-10e7-44df-9c6b-aa5cbdc11d9fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:31.829882+00:00
9363163a-d159-4049-88a1-8535d7758161coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:31.748699+00:00
cccb8d81-1861-4d28-a884-2b41d7c383eecoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:31.677333+00:00
5e78e21d-62ba-42e3-a912-46073d580d0bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:31.591142+00:00
4deecba3-85ea-4a0e-a068-e87feb0be1c4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:42:31.517642+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic4750
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
5dd16a7f-10e7-44df-9c6b-aa5cbdc11d9ftypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.829882+00:00
9363163a-d159-4049-88a1-8535d7758161python-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.748699+00:00
cccb8d81-1861-4d28-a884-2b41d7c383eetypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.677333+00:00
5e78e21d-62ba-42e3-a912-46073d580d0bpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.591142+00:00
4deecba3-85ea-4a0e-a068-e87feb0be1c4typescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.517642+00:00
eac6f122-f6f0-4a68-8a90-7633d8143fdbpython-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.456928+00:00
c0409149-d84b-47af-b22b-f156d9e0ca19typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.352568+00:00
6c93eb95-0bbd-442c-8a3e-eb7a74fc07b8python-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.276270+00:00
3c316b11-37fa-496d-8cd5-b46320654e2ftypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.195485+00:00
d869bea0-db98-4425-bc94-4993ee068e71python-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:42:31.112889+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0041  (coder)