Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: df9e0ab4-a0df-4952-bf03-4117a5690e8f | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:07:15.673932+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
df9e0ab4-a0df-4952-bf03-4117a5690e8fcoder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:15.673932+00:00
3e8a1dcf-f25c-4ca3-9d15-0edcd6379a10coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:15.626177+00:00
ff1632b0-3a66-4741-bdda-b2a4214bfd62coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:15.562593+00:00
6257e2c7-237b-4a2b-967e-72a9b809427ccoder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:15.499201+00:00
ca6d0f0d-5f84-41d1-85f5-9b6c5fc67e06coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:15.460492+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3087
###############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
df9e0ab4-a0df-4952-bf03-4117a5690e8fpython-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.673932+00:00
3e8a1dcf-f25c-4ca3-9d15-0edcd6379a10typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.626177+00:00
ff1632b0-3a66-4741-bdda-b2a4214bfd62python-config-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.562593+00:00
6257e2c7-237b-4a2b-967e-72a9b809427ctypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.499201+00:00
ca6d0f0d-5f84-41d1-85f5-9b6c5fc67e06python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.460492+00:00
e0261045-835a-426a-975e-fee961818553typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.403216+00:00
c4319cc7-74a8-4f07-a0dc-de563f2b1230python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.339701+00:00
c48bd468-63fc-4266-be62-5d1c7bf20234typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.291977+00:00
07194aca-7539-4d61-9532-181913d23aa3python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.228382+00:00
188b4c98-b0c3-48df-b7c0-5d650f5d2bf1typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:07:15.148368+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0036  (coder)