Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 51d3825b-0f50-44d5-ae3a-6b9d863044cf | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:37:55.461761+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
51d3825b-0f50-44d5-ae3a-6b9d863044cfcoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:37:55.461761+00:00
e5758762-c5bf-4577-a861-5a2d4b15be61coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:37:55.340678+00:00
85434b49-5841-454b-9e97-08e98bf4bee2coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:37:55.227594+00:00
3adf0cc3-593b-4caf-92c4-5d4f3f1e82efcoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:37:55.122624+00:00
28129fd5-bf99-46e6-b7ee-63b556c20b87coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:37:55.005644+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3275
###########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
51d3825b-0f50-44d5-ae3a-6b9d863044cfpython-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:37:55.461761+00:00
e5758762-c5bf-4577-a861-5a2d4b15be61typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:37:55.340678+00:00
85434b49-5841-454b-9e97-08e98bf4bee2python-config-easy-001wrong-logic0.740$0.00102026-05-23T20:37:55.227594+00:00
3adf0cc3-593b-4caf-92c4-5d4f3f1e82eftypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:37:55.122624+00:00
28129fd5-bf99-46e6-b7ee-63b556c20b87python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:37:55.005644+00:00
27209271-3696-4f39-bfe1-6bb75d98ebc9typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:37:54.894425+00:00
95511519-ab9f-487a-ba48-855afa26e091python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:37:54.767995+00:00
716bd542-f8db-4dd0-bc56-0cecde1b7bc7typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:37:54.660348+00:00
868bb825-bb89-47c0-b557-bdeef8556bb2python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:37:54.566001+00:00
45af4363-e581-4d1a-8bf1-142ac61f0a24typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:37:54.453184+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0036  (coder)