Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 1a3f33f6-2ad5-466c-8751-a6575976a820 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:56:26.240177+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
1a3f33f6-2ad5-466c-8751-a6575976a820coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:26.240177+00:00
a0782779-e314-4c07-84f8-cf6e36fa566bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:26.140731+00:00
ceabe32a-f8fa-44e4-a2f4-d9f5be8d42b4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:26.061597+00:00
6709a26c-4fba-4c4e-948a-18851c83e00acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:25.982361+00:00
47f42c7f-9cc7-48be-88c7-6354fdd1da11coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:25.896268+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5100
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
1a3f33f6-2ad5-466c-8751-a6575976a820typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:56:26.240177+00:00
a0782779-e314-4c07-84f8-cf6e36fa566bpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:56:26.140731+00:00
ceabe32a-f8fa-44e4-a2f4-d9f5be8d42b4typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:56:26.061597+00:00
6709a26c-4fba-4c4e-948a-18851c83e00apython-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.982361+00:00
47f42c7f-9cc7-48be-88c7-6354fdd1da11typescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.896268+00:00
4e4f13d5-ef39-424f-95a2-b645b041cfc1python-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.808109+00:00
d057caac-8d1c-4275-b276-d001c156a7d4typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.719082+00:00
1ef85219-8389-4735-a70c-627dfd86bee8python-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.634959+00:00
647c3f9f-1aec-4203-9d78-018de8466f10typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.551466+00:00
5965299f-bfdf-40aa-b4fe-4709850c4573python-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:25.458860+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)