Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 104bc765-ce5a-4a56-962d-cee3169e4693 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:43:38.191898+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
104bc765-ce5a-4a56-962d-cee3169e4693coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:43:38.191898+00:00
ae5195f9-f14d-457d-abed-cc3b0f3057abcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:43:38.076758+00:00
b85dacb0-c5f7-4ff4-8be6-083e7c957602coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:43:37.980421+00:00
00c4eddd-b947-4f63-b92a-11060e72760acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:43:37.879138+00:00
05b58b01-9308-476c-8efe-14775cfc009bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:43:37.770636+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic6380
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
104bc765-ce5a-4a56-962d-cee3169e4693typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:43:38.191898+00:00
ae5195f9-f14d-457d-abed-cc3b0f3057abpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:43:38.076758+00:00
b85dacb0-c5f7-4ff4-8be6-083e7c957602typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.980421+00:00
00c4eddd-b947-4f63-b92a-11060e72760apython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.879138+00:00
05b58b01-9308-476c-8efe-14775cfc009btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.770636+00:00
69fef263-02db-40a2-a780-28b8c9c7f9e5python-performance-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.680596+00:00
b94d35c7-59df-4357-bae6-3a1ff323dd88typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.581875+00:00
bcfa0799-b6ce-4282-a5cd-ea6c030e780bpython-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.486848+00:00
8ca464a9-5360-45fb-af60-4e6f4e71e71ftypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.399827+00:00
f108187c-62ba-414a-898d-6806921e0fefpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T19:43:37.296571+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0037  (coder)