Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 84a169cf-1a65-4b75-bcb4-fc39689baad7 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T14:01:12.496054+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
84a169cf-1a65-4b75-bcb4-fc39689baad7coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T14:01:12.496054+00:00
4556b871-e1bd-412c-b053-db79cd432ae4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T14:01:12.356507+00:00
f8f97545-28c4-4985-a3f7-40f6526ad089coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T14:01:12.233599+00:00
c95b511d-5d06-4940-9492-022683d3d161coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T14:01:12.135068+00:00
7170a323-1ab6-4de7-9c96-902d4e7fb738coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-22T14:01:12.015211+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2444
############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
84a169cf-1a65-4b75-bcb4-fc39689baad7python-recovery-easy-001wrong-logic0.740$0.00102026-05-22T14:01:12.496054+00:00
4556b871-e1bd-412c-b053-db79cd432ae4typescript-config-easy-001wrong-logic0.740$0.00102026-05-22T14:01:12.356507+00:00
f8f97545-28c4-4985-a3f7-40f6526ad089python-config-easy-001wrong-logic0.740$0.00102026-05-22T14:01:12.233599+00:00
c95b511d-5d06-4940-9492-022683d3d161typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-22T14:01:12.135068+00:00
7170a323-1ab6-4de7-9c96-902d4e7fb738python-refactor-easy-001wrong-logic0.740$0.00102026-05-22T14:01:12.015211+00:00
fc9d236c-f8df-4e89-a9f8-f2c6e70fd425typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T14:01:11.920703+00:00
a60d6186-3bcc-40dc-8806-30b9aa85fc1apython-multi-file-easy-001wrong-logic0.740$0.00102026-05-22T14:01:11.790980+00:00
e5168c24-a1bf-446c-951c-d57a8aa82231typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T14:01:11.683601+00:00
66a9a763-62f3-4851-ac79-b7363a7c8dcfpython-test-writing-easy-001wrong-logic0.740$0.00102026-05-22T14:01:11.595993+00:00
c62c16e6-b48c-4e08-ac87-1d8c2e686f5etypescript-performance-easy-001wrong-logic0.740$0.00102026-05-22T14:01:11.508348+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0039  (coder)