Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 1e012103-64af-46c1-9b35-8df0d071222d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-08T22:25:50.141756+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
1e012103-64af-46c1-9b35-8df0d071222dcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:50.141756+00:00
b529a619-6a2b-464b-bb6f-c36721fedb59coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:49.963599+00:00
09f28bd8-5dd1-43ca-844c-98b71b93a57fcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:49.666811+00:00
d2cb8905-57e1-4a0a-bb8b-c61ab41997f4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:49.423454+00:00
58703176-8d13-4ada-8251-caa782cd4e3acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-08T22:25:49.116879+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1395
###################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
1e012103-64af-46c1-9b35-8df0d071222dpython-recovery-easy-001wrong-logic0.740$0.00102026-05-08T22:25:50.141756+00:00
b529a619-6a2b-464b-bb6f-c36721fedb59typescript-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:49.963599+00:00
09f28bd8-5dd1-43ca-844c-98b71b93a57fpython-config-easy-001wrong-logic0.740$0.00102026-05-08T22:25:49.666811+00:00
d2cb8905-57e1-4a0a-bb8b-c61ab41997f4typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:49.423454+00:00
58703176-8d13-4ada-8251-caa782cd4e3apython-refactor-easy-001wrong-logic0.740$0.00102026-05-08T22:25:49.116879+00:00
b86f29a8-d159-4dfa-81cc-59b288cde6a5typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:48.872538+00:00
c9ba7ae8-a3b2-4357-a3c9-e7f3633a3ec2python-multi-file-easy-001wrong-logic0.740$0.00102026-05-08T22:25:48.620181+00:00
019d9c0e-45fd-4f49-a0bc-d4dea943b0cdtypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:25:48.435353+00:00
eaf8643e-0b94-4454-a72d-6e0612431d31python-test-writing-easy-001wrong-logic0.740$0.00102026-05-08T22:25:48.133534+00:00
cffa5b07-c7f6-4a5a-a9a5-72fa31e0b1b3typescript-performance-easy-001wrong-logic0.740$0.00102026-05-08T22:25:47.955151+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0045  (coder)