Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: abf03841-28d7-4369-81d5-4c268b3c2a80 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T22:15:35.719340+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
abf03841-28d7-4369-81d5-4c268b3c2a80coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:15:35.719340+00:00
f6daaa71-c7d7-49f1-9c9c-172fd356508dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:15:35.441973+00:00
6d09f2ef-82a6-4112-aa81-478fb68f2f15coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:15:35.168162+00:00
9878a500-af09-4bb3-b7cd-d53b8c3fee33coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:15:34.956452+00:00
69ffe590-33ee-4720-a4eb-5a1ea97e92cdcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:15:34.666030+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1348
####################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
abf03841-28d7-4369-81d5-4c268b3c2a80python-recovery-easy-001wrong-logic0.740$0.00102026-05-08T22:15:35.719340+00:00
f6daaa71-c7d7-49f1-9c9c-172fd356508dtypescript-config-easy-001wrong-logic0.740$0.00102026-05-08T22:15:35.441973+00:00
6d09f2ef-82a6-4112-aa81-478fb68f2f15python-config-easy-001wrong-logic0.740$0.00102026-05-08T22:15:35.168162+00:00
9878a500-af09-4bb3-b7cd-d53b8c3fee33typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:15:34.956452+00:00
69ffe590-33ee-4720-a4eb-5a1ea97e92cdpython-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:15:34.666030+00:00
57d7d934-eea8-4db5-be19-3d359704e25dtypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:15:34.470221+00:00
5d8417a6-f9ae-4cb8-9df7-a95c247a13e6python-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:15:34.252432+00:00
16c253d3-5bf5-4469-aa84-83dc3884cb35typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:15:34.082810+00:00
46b46dc6-374c-4d53-86a5-33426a3934d7python-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:15:33.965685+00:00
15291d56-6395-4873-8898-5c84182dfa17typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T22:15:33.876147+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0045  (coder)