Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: ec8b887c-faef-4b1e-bdc2-428e91e12470 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:31.599281+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
ec8b887c-faef-4b1e-bdc2-428e91e12470coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:31.599281+00:00
e890d165-811c-4746-9236-a29c8bfdb078coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:31.488676+00:00
3fc4318b-5dba-4e8c-b9b7-c11625b64e60coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.601773+00:00
2376343c-441f-4439-ac03-8a774c206e61coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.490376+00:00
0036c441-bcc7-42cd-8d01-0d34c211e10acoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:30.386059+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3307
###########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
ec8b887c-faef-4b1e-bdc2-428e91e12470typescript-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:43:31.599281+00:00
e890d165-811c-4746-9236-a29c8bfdb078python-security-fix-easy-001wrong-logic0.740$0.00102026-05-23T20:43:31.488676+00:00
3fc4318b-5dba-4e8c-b9b7-c11625b64e60python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.601773+00:00
2376343c-441f-4439-ac03-8a774c206e61typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.490376+00:00
0036c441-bcc7-42cd-8d01-0d34c211e10apython-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.386059+00:00
709ea1f0-04af-4964-83c9-d100fa74ff65typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.281383+00:00
f1ce4cc6-d405-4ce5-ad6a-5a63251fbc90python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.177862+00:00
f3b9363c-99b3-4f3c-854f-fa8ee048899atypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:30.062377+00:00
34d1a0f5-3c71-4fbf-ae49-947a79c8c5d0python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.964495+00:00
c668d358-e93f-4395-98d1-982291a9a197typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:29.863457+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)