Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: e905901f-4b68-47bc-88e7-8f4359b1dd68 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T21:29:51.073385+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
e905901f-4b68-47bc-88e7-8f4359b1dd68coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:51.073385+00:00
2fafa6d9-4437-4b46-829f-bf93a238885ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:50.924759+00:00
f1096fb3-f0b7-4d72-8768-62a835c9b386coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:50.692462+00:00
4a9eaa8d-5da1-4b5a-b496-0def2784406dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:50.294516+00:00
d2545f8d-571e-4bfd-a778-d0fdc3138fe8coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T21:29:50.041173+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2800
################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
e905901f-4b68-47bc-88e7-8f4359b1dd68typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T21:29:51.073385+00:00
2fafa6d9-4437-4b46-829f-bf93a238885cpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T21:29:50.924759+00:00
f1096fb3-f0b7-4d72-8768-62a835c9b386typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T21:29:50.692462+00:00
4a9eaa8d-5da1-4b5a-b496-0def2784406dpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T21:29:50.294516+00:00
d2545f8d-571e-4bfd-a778-d0fdc3138fe8typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T21:29:50.041173+00:00
0c4453c9-80fb-47a5-b3cc-31eff8cf783epython-performance-easy-001wrong-logic0.740$0.00102026-05-08T21:29:49.923080+00:00
8c914429-5f2d-47c7-9725-007047c1f9cetypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:49.802524+00:00
7f9be0d6-beeb-4dab-adee-e481076e3abcpython-bugfix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:49.714865+00:00
b454f1f3-3602-48a6-b1fe-949f14c9abaetypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:49.596847+00:00
77ae9fb6-932a-428e-bdc7-32338d166a1fpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-08T21:29:49.467107+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)