Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 4cf4533e-f062-40b3-9aea-9a285be4353b | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:56:18.499005+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
4cf4533e-f062-40b3-9aea-9a285be4353bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:18.499005+00:00
03e8418e-11c6-4d75-8eba-52194fe1bcabcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:18.411065+00:00
87aec0f4-974d-4580-b5c9-2c953d566232coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:18.323429+00:00
6fde053a-779a-47b7-ad0b-2a422d916a44coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:18.237725+00:00
d0c99f93-d51f-4888-9427-f09cc305fc4bcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T13:56:18.139561+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic5050
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
4cf4533e-f062-40b3-9aea-9a285be4353btypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.499005+00:00
03e8418e-11c6-4d75-8eba-52194fe1bcabpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.411065+00:00
87aec0f4-974d-4580-b5c9-2c953d566232typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.323429+00:00
6fde053a-779a-47b7-ad0b-2a422d916a44python-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.237725+00:00
d0c99f93-d51f-4888-9427-f09cc305fc4btypescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.139561+00:00
66e6d1b4-5f2a-4001-8bbe-4a40471f8793python-performance-easy-001wrong-logic0.740$0.00102026-05-22T13:56:18.060625+00:00
8a778636-b096-4bb8-ab71-5ea0ed40601ftypescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:17.964682+00:00
7a15b427-1d3d-4d73-b2ad-1a65ccdf8e76python-bugfix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:17.875968+00:00
42621da5-75f0-4f37-99db-28bc3ff8e0b8typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:17.791073+00:00
4e56066a-bce4-4a52-b1e4-435bf07166cdpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-22T13:56:17.690750+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0040  (coder)