Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: ab4ebb34-bcc8-4613-b785-2062ddc75d73 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:27:36.702090+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
ab4ebb34-bcc8-4613-b785-2062ddc75d73coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:27:36.702090+00:00
c1554e89-4acd-4d09-ab0b-a6ea93b18848coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:27:36.627772+00:00
6226c01c-f3a7-47d6-b7c4-07475838298acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:27:36.561878+00:00
553f0784-2a72-49a8-94b2-16a8b65d22d5coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:27:36.504854+00:00
77b7a97b-844f-475c-ab92-0dba1c6d588dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T18:27:36.439335+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2664
########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
ab4ebb34-bcc8-4613-b785-2062ddc75d73python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.702090+00:00
c1554e89-4acd-4d09-ab0b-a6ea93b18848typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.627772+00:00
6226c01c-f3a7-47d6-b7c4-07475838298apython-config-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.561878+00:00
553f0784-2a72-49a8-94b2-16a8b65d22d5typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.504854+00:00
77b7a97b-844f-475c-ab92-0dba1c6d588dpython-refactor-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.439335+00:00
a7e4b80c-0c02-4e11-aa7a-72aaf66613c6typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.373800+00:00
24ec6d21-544e-420d-a187-454d90e677c3python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.310114+00:00
27db02b2-e9b3-421d-8245-0dafa817fc83typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.250700+00:00
b08708b3-ce2a-4936-9fb5-cf3030f30871python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.177330+00:00
5314c2b6-b8ca-4a34-9253-f23842b907c6typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T18:27:36.120201+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0038  (coder)