Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:47:55.780680+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:47:55.780680+00:00
677849e3-b53c-46bd-9122-dd30474e5ae7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:47:55.704112+00:00
e5eba03b-4a89-4f65-adca-e4e6fddfedf6coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:47:55.625320+00:00
380d8b7d-29e2-4cf9-88b0-d1f9c7bb3d06coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:47:55.547919+00:00
73499984-3a50-4ce2-8cf7-238d23adb4e4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-23T19:47:55.469809+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic3040
################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20python-recovery-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.780680+00:00
677849e3-b53c-46bd-9122-dd30474e5ae7typescript-config-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.704112+00:00
e5eba03b-4a89-4f65-adca-e4e6fddfedf6python-config-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.625320+00:00
380d8b7d-29e2-4cf9-88b0-d1f9c7bb3d06typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.547919+00:00
73499984-3a50-4ce2-8cf7-238d23adb4e4python-refactor-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.469809+00:00
22379eef-24d5-4535-a299-b14f39b05cf2typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.383623+00:00
239d9b81-4170-4679-8d14-3852445c9ffbpython-multi-file-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.308431+00:00
57f09ede-5706-4335-bdd6-4d3c19fd8753typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.229695+00:00
d5c87fa1-114b-4b8d-beea-f5c20c7c6918python-test-writing-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.157389+00:00
131cccf1-28fc-43e4-b1f8-9b792bd9123atypescript-performance-easy-001wrong-logic0.740$0.00102026-05-23T19:47:55.089743+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0036  (coder)