Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 9f754014-51e3-4cd5-a5a8-b17b7e8afed6 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:56:32.462481+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
9f754014-51e3-4cd5-a5a8-b17b7e8afed6coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:32.462481+00:00
2d1494f4-99c4-49c7-b6b9-f95e530ccc98coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:32.382905+00:00
314eadb7-faac-49a4-89a8-8766092f8674coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:32.319379+00:00
36b51ce2-bc8c-433d-8c75-5922ebf587d5coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:32.245425+00:00
b9bcf3f9-884b-4c31-b262-df77afdfe5bacoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:56:32.176614+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic6030
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
9f754014-51e3-4cd5-a5a8-b17b7e8afed6typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.462481+00:00
2d1494f4-99c4-49c7-b6b9-f95e530ccc98python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.382905+00:00
314eadb7-faac-49a4-89a8-8766092f8674typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.319379+00:00
36b51ce2-bc8c-433d-8c75-5922ebf587d5python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.245425+00:00
b9bcf3f9-884b-4c31-b262-df77afdfe5batypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.176614+00:00
b26471a9-e9ab-4caf-90ba-f9f945160c5epython-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.097816+00:00
704dd0b0-f7f4-4e31-a6ba-3e2e593b8109typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:32.034590+00:00
c4410883-7f39-4149-aca3-21049859063bpython-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:31.955196+00:00
0c96dc00-b4f3-4a35-8c86-e51be3fa7582typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:31.894523+00:00
12924c5c-d6de-43a4-9ee9-5c31cd676a45python-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T18:56:31.828499+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0038  (coder)