Eval Report: ci-post-merge

Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010
typescript-recovery-easy-001easy0.740$0.0010
python-dependency-easy-001easy0.740$0.0010
typescript-dependency-easy-001easy0.740$0.0010
python-explain-easy-001easy0.740$0.0010
typescript-explain-easy-001easy0.740$0.0010
python-security-fix-medium-001medium0.740$0.0010
shell-security-fix-medium-001medium0.740$0.0010
python-bugfix-medium-001medium0.740$0.0010
shell-bugfix-medium-001medium0.740$0.0010
python-performance-medium-001medium0.740$0.0010
shell-performance-medium-001medium0.740$0.0010
python-test-writing-medium-001medium0.740$0.0010
shell-test-writing-medium-001medium0.740$0.0010
python-multi-file-medium-001medium0.740$0.0010
shell-multi-file-medium-001medium0.740$0.0010
python-refactor-medium-001medium0.740$0.0010
shell-refactor-medium-001medium0.740$0.0010
python-config-medium-001medium0.740$0.0010
shell-config-medium-001medium0.740$0.0010
python-recovery-medium-001medium0.740$0.0010
shell-recovery-medium-001medium0.740$0.0010
python-dependency-medium-001medium0.740$0.0010
shell-dependency-medium-001medium0.740$0.0010
python-explain-medium-001medium0.740$0.0010
shell-explain-medium-001medium0.740$0.0010
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: b13321f3-fb3a-46b1-952c-3a877a606140 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:24:55.799777+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
b13321f3-fb3a-46b1-952c-3a877a606140coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:24:55.799777+00:00
6ba52761-55ba-434c-8afb-c9769228d771coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:24:55.738087+00:00
f8bf54c1-2e40-451a-9bbe-cdb1875c95c2coder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:24:55.656694+00:00
76599fc2-f366-43ad-89c9-919332ced9cfcoder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:24:55.577020+00:00
756f1826-ab62-47e5-8f7c-6417f2665d8ccoder3a1cb59613c43efee035337a7eb0f518754b79e10.7402026-05-23T20:24:55.513709+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic6830
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
b13321f3-fb3a-46b1-952c-3a877a606140typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.799777+00:00
6ba52761-55ba-434c-8afb-c9769228d771python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.738087+00:00
f8bf54c1-2e40-451a-9bbe-cdb1875c95c2typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.656694+00:00
76599fc2-f366-43ad-89c9-919332ced9cfpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.577020+00:00
756f1826-ab62-47e5-8f7c-6417f2665d8ctypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.513709+00:00
4dd28d76-d1ad-47a8-bc3a-5b7c86f40a76python-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.450284+00:00
7b582c59-c4be-4123-907e-9f96f6332244typescript-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.386794+00:00
1a1c4aeb-b1dd-42f6-ac5b-9dc90745cf99python-bugfix-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.323008+00:00
a6bf73d2-f111-41c5-95ff-bac2db3b0553typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.243710+00:00
a16fee48-20cf-41da-986e-8032206ccf5bpython-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:24:55.183588+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0037  (coder)