Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 588f1af3-b147-48dd-92dc-6f57c71ff812 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:51:47.632973+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
588f1af3-b147-48dd-92dc-6f57c71ff812coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:51:47.632973+00:00
5f87f5ad-a8bb-49bd-a8c4-a7ddb7513956coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:51:47.529765+00:00
7353d03a-130b-4b48-8281-8cd410087451coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:51:47.411150+00:00
c8ba122a-b6a4-47d9-bbee-e2b30d3085b3coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:51:47.315259+00:00
91032a2e-8f02-4125-adf7-f5990dc69e8fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:51:47.204186+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5930
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
588f1af3-b147-48dd-92dc-6f57c71ff812typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.632973+00:00
5f87f5ad-a8bb-49bd-a8c4-a7ddb7513956python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.529765+00:00
7353d03a-130b-4b48-8281-8cd410087451typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.411150+00:00
c8ba122a-b6a4-47d9-bbee-e2b30d3085b3python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.315259+00:00
91032a2e-8f02-4125-adf7-f5990dc69e8ftypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.204186+00:00
97cbcb74-5da9-4b09-b57a-baf235373ae5python-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:51:47.092222+00:00
99f37c36-f28d-4ac3-b98d-797017c617f6typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:51:46.997379+00:00
7bdf19d6-b922-426e-99c1-92bbf8ba8d61python-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:51:46.886446+00:00
f7cbfa18-d164-453a-9403-cbcc3ee84bfftypescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:51:46.775362+00:00
ddb7edf1-a13c-43bd-a493-b601ef601e7bpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:51:46.663873+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0038  (coder)