Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: d732fc32-1d06-428b-9424-bba031ba754c | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-07T23:44:57.260740+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
d732fc32-1d06-428b-9424-bba031ba754ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:57.260740+00:00
d90b4eba-ef17-4d21-b830-7d05be140f36coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:57.143877+00:00
c5ee4eb3-d298-4f38-b11c-1599678281d4coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:57.035227+00:00
fea88dd4-448d-439c-9dc0-35ccf6dec276coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:56.916954+00:00
d21175d9-24f1-4be2-874e-108ea13a1a29coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-07T23:44:56.801390+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1207
#######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
d732fc32-1d06-428b-9424-bba031ba754cpython-recovery-easy-001wrong-logic0.740$0.00102026-05-07T23:44:57.260740+00:00
d90b4eba-ef17-4d21-b830-7d05be140f36typescript-config-easy-001wrong-logic0.740$0.00102026-05-07T23:44:57.143877+00:00
c5ee4eb3-d298-4f38-b11c-1599678281d4python-config-easy-001wrong-logic0.740$0.00102026-05-07T23:44:57.035227+00:00
fea88dd4-448d-439c-9dc0-35ccf6dec276typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.916954+00:00
d21175d9-24f1-4be2-874e-108ea13a1a29python-refactor-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.801390+00:00
bebe27a3-e8a6-456e-94e3-87a2e2dd1deetypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.693843+00:00
056ef363-b977-403e-a00b-44fa2b0f9661python-multi-file-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.587045+00:00
b21c9477-59fb-4811-b59e-d69e4efe4e26typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.475118+00:00
1a24f5c7-b49d-4a49-80c7-8599b78c55a3python-test-writing-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.367050+00:00
37fccfe1-b938-42f4-b7d0-4f3fc35e1d6dtypescript-performance-easy-001wrong-logic0.740$0.00102026-05-07T23:44:56.256171+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0046  (coder)