Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 9e778fb4-f253-4295-ae5c-7eaa3b49f641 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-10T00:42:15.635833+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
9e778fb4-f253-4295-ae5c-7eaa3b49f641coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-10T00:42:15.635833+00:00
880cbbe3-bf04-4824-80a2-e692acd34676coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-10T00:42:15.587280+00:00
8620bd94-6eaf-4060-bcb0-f0ab62f21586coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-10T00:42:15.554066+00:00
c5a91796-6dab-4223-ab4a-d90d9404eb38coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-10T00:42:15.504679+00:00
7fb3db93-91b6-4d34-90b6-bc72227fda65coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-10T00:42:15.462957+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic4450
##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
9e778fb4-f253-4295-ae5c-7eaa3b49f641typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.635833+00:00
880cbbe3-bf04-4824-80a2-e692acd34676python-multi-file-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.587280+00:00
8620bd94-6eaf-4060-bcb0-f0ab62f21586typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.554066+00:00
c5a91796-6dab-4223-ab4a-d90d9404eb38python-test-writing-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.504679+00:00
7fb3db93-91b6-4d34-90b6-bc72227fda65typescript-performance-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.462957+00:00
104f4b48-7228-4502-bb17-96f7593428dcpython-performance-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.422153+00:00
014cd272-9f3d-47e4-9857-8dddab2db1d0typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.378572+00:00
6acb8aa4-1f98-4d5e-88ad-c4aa92ae94e2python-bugfix-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.346070+00:00
dba0e337-69d8-45cd-8fff-27179b84a91atypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.298044+00:00
67247d52-3936-4343-8c64-a753108b3c86python-security-fix-easy-001wrong-logic0.740$0.00102026-05-10T00:42:15.266119+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0042  (coder)