Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 3f0964df-7526-4e9b-a158-5fc94f526476 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:07:21.002107+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
3f0964df-7526-4e9b-a158-5fc94f526476coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:21.002107+00:00
63480246-e685-4089-b1a3-6510d1e99f70coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:20.938779+00:00
126dea1c-472b-4dce-9ea2-34e2ddc98a3bcoder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:20.891052+00:00
fc6c3b59-5d8d-442a-a6cf-ddf6ad0cf8a4coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:20.827109+00:00
28277617-7272-4409-9e80-a1a30906a4a6coder89f0f5456c5b8670ca70d1a941ab0d7272df13100.7402026-05-23T20:07:20.771812+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3102
##############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
3f0964df-7526-4e9b-a158-5fc94f526476python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:07:21.002107+00:00
63480246-e685-4089-b1a3-6510d1e99f70typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.938779+00:00
126dea1c-472b-4dce-9ea2-34e2ddc98a3bpython-config-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.891052+00:00
fc6c3b59-5d8d-442a-a6cf-ddf6ad0cf8a4typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.827109+00:00
28277617-7272-4409-9e80-a1a30906a4a6python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.771812+00:00
cb1e8c16-620c-435c-9aca-01276d5fcf8ftypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.684123+00:00
fbefea02-1a52-4f3d-89c6-27cf0225164epython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.635858+00:00
bc0f6f41-e051-4d96-86ef-8b63ac34d924typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.582558+00:00
b55878e5-c389-4f99-b168-ae29208afdd4python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.525259+00:00
daf24f07-19b3-48ea-92c8-ed7ffc79e608typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:07:20.462221+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0036  (coder)