Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 5d77d854-80e7-4eaa-b7a3-0b293e58f92f | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:49:44.317281+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
5d77d854-80e7-4eaa-b7a3-0b293e58f92fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:49:44.317281+00:00
5b240b7c-ba87-41b3-a915-068b0c93f62ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:49:44.270452+00:00
75bc655c-98c3-4516-a963-99d8fc21e6efcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:49:44.194420+00:00
60ea5342-f898-4e63-9c49-b070cac7f928coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:49:44.118405+00:00
1d270574-7e95-4a8a-bc43-254136c424a0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:49:44.045509+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5000
########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
5d77d854-80e7-4eaa-b7a3-0b293e58f92ftypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:49:44.317281+00:00
5b240b7c-ba87-41b3-a915-068b0c93f62cpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:49:44.270452+00:00
75bc655c-98c3-4516-a963-99d8fc21e6eftypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:49:44.194420+00:00
60ea5342-f898-4e63-9c49-b070cac7f928python-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:49:44.118405+00:00
1d270574-7e95-4a8a-bc43-254136c424a0typescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:49:44.045509+00:00
c878d16a-5cda-4f95-beb7-2e6259e65927python-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:49:43.984845+00:00
faf5bd55-63ae-41d8-b471-6371bd0b9f5atypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:49:43.919717+00:00
327aa0e9-7f52-48d2-bbb2-0b13b5756d75python-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:49:43.845976+00:00
db35415b-71e8-44c9-a97e-2414dad36227typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:49:43.746687+00:00
11f7ccea-1a52-46ed-addf-3c6549ef23fcpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:49:43.690686+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)