Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 3fc4318b-5dba-4e8c-b9b7-c11625b64e60 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:30.601773+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
3fc4318b-5dba-4e8c-b9b7-c11625b64e60coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.601773+00:00
2376343c-441f-4439-ac03-8a774c206e61coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.490376+00:00
0036c441-bcc7-42cd-8d01-0d34c211e10acoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.386059+00:00
709ea1f0-04af-4964-83c9-d100fa74ff65coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.281383+00:00
f1ce4cc6-d405-4ce5-ad6a-5a63251fbc90coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.177862+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3305
#########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
3fc4318b-5dba-4e8c-b9b7-c11625b64e60python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.601773+00:00
2376343c-441f-4439-ac03-8a774c206e61typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.490376+00:00
0036c441-bcc7-42cd-8d01-0d34c211e10apython-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.386059+00:00
709ea1f0-04af-4964-83c9-d100fa74ff65typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.281383+00:00
f1ce4cc6-d405-4ce5-ad6a-5a63251fbc90python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.177862+00:00
f3b9363c-99b3-4f3c-854f-fa8ee048899atypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.062377+00:00
34d1a0f5-3c71-4fbf-ae49-947a79c8c5d0python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.964495+00:00
c668d358-e93f-4395-98d1-982291a9a197typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.863457+00:00
a237dd75-f4cb-451a-a9f4-1772cea4b246python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.751620+00:00
c8e62e37-d940-4c5c-891c-00ce871223bbtypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.639806+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)