Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 633a12e3-6835-4cd9-9714-0eed0f7924c9 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T19:40:57.283823+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
633a12e3-6835-4cd9-9714-0eed0f7924c9coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T19:40:57.283823+00:00
a61e6372-0d69-4b94-b4f1-3a8c99deb9e0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T19:40:57.183019+00:00
615762f1-27db-457f-b9b2-8a58a6ef09decoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T19:40:57.096601+00:00
72390ab6-552e-443d-811a-da74468903e0coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T19:40:57.003189+00:00
504c6621-506a-43a4-9e44-773f3336e1c5coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T19:40:56.929002+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic4350
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
633a12e3-6835-4cd9-9714-0eed0f7924c9typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T19:40:57.283823+00:00
a61e6372-0d69-4b94-b4f1-3a8c99deb9e0python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T19:40:57.183019+00:00
615762f1-27db-457f-b9b2-8a58a6ef09detypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T19:40:57.096601+00:00
72390ab6-552e-443d-811a-da74468903e0python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T19:40:57.003189+00:00
504c6621-506a-43a4-9e44-773f3336e1c5typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.929002+00:00
8abc4ece-ec2c-45de-bcab-f75e920bdf39python-performance-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.850067+00:00
20bd2b34-78bd-44e8-a523-8af137ec659dtypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.767686+00:00
b05380df-8c87-4d30-aece-71eba7d7e481python-bugfix-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.685351+00:00
ea5142de-9c08-4568-bc85-0c8964291b47typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.536249+00:00
7f2160a5-e813-4277-ad57-e886617af39dpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-09T19:40:56.457091+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0042  (coder)