Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: c2eb7769-8488-48d0-a6b8-6b82636d0e7d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:33.979782+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
c2eb7769-8488-48d0-a6b8-6b82636d0e7dcoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:33.979782+00:00
521830a3-f869-4a34-8b95-123a3fe0dd25coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:33.852374+00:00
20a09c83-6997-45bf-802c-e10e3f554437coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:33.757733+00:00
8711c410-a03d-4285-a59e-cd3fb8b36a89coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:33.658766+00:00
da5621e0-d46c-4b2c-8886-0f0fcd27e84dcoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:33.535214+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3322
##########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
c2eb7769-8488-48d0-a6b8-6b82636d0e7dpython-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.979782+00:00
521830a3-f869-4a34-8b95-123a3fe0dd25typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.852374+00:00
20a09c83-6997-45bf-802c-e10e3f554437python-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.757733+00:00
8711c410-a03d-4285-a59e-cd3fb8b36a89typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.658766+00:00
da5621e0-d46c-4b2c-8886-0f0fcd27e84dpython-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.535214+00:00
358d9da0-6a80-4e70-b39a-5f1d62b1e465typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.424868+00:00
93061a5f-8210-4316-93b3-8747af6e9074python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.313339+00:00
3e69332f-eaa8-4752-8f4f-173f28e17d7btypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.202270+00:00
1237c979-0a43-465b-9b40-61db11ffa00fpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:33.101844+00:00
26118f51-0a00-431f-85f7-984bf98ac969typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:43:32.986398+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)