Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 52502e32-3a49-4119-a870-6a574fa304c0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:43.032928+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
52502e32-3a49-4119-a870-6a574fa304c0coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:43.032928+00:00
e41a8a35-e262-4187-998e-56d91bee8b0acoder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:42.937279+00:00
a7c94041-3e66-4f79-9f71-c1a3a0664156coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:42.832596+00:00
37887e3b-a5a5-41a2-b413-f9e95b82fde4coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:42.715294+00:00
1f4139e7-e003-4f9c-8963-b15dc9c6d419coder07ca25bc2d511f5aee15446c60081c184e9c91220.7402026-05-23T20:43:42.603705+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3337
#########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
52502e32-3a49-4119-a870-6a574fa304c0python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T20:43:43.032928+00:00
e41a8a35-e262-4187-998e-56d91bee8b0atypescript-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.937279+00:00
a7c94041-3e66-4f79-9f71-c1a3a0664156python-config-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.832596+00:00
37887e3b-a5a5-41a2-b413-f9e95b82fde4typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.715294+00:00
1f4139e7-e003-4f9c-8963-b15dc9c6d419python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.603705+00:00
e99c4b57-166b-44fb-8627-309928105fb2typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.492455+00:00
d6a46ede-f171-411f-b077-13bb1e7d6807python-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.381543+00:00
15d805af-eb67-42c5-b1e1-0d5a4040300btypescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.271161+00:00
dcb81f75-10f4-44e5-9e0e-620f4e727e9epython-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.173456+00:00
95a5da84-13f6-4ba4-a31b-1b9fa590acd6typescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T20:43:42.047930+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0035  (coder)