Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 6e9d5e28-c6f8-4b80-b97d-a6192c96d53c | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T18:32:46.295706+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
6e9d5e28-c6f8-4b80-b97d-a6192c96d53ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T18:32:46.295706+00:00
5be5f6e5-9744-4a56-9bd7-c729c04f3b52coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T18:32:46.246267+00:00
caf8c736-5c2f-4b13-b866-d66b9614edbdcoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T18:32:46.207002+00:00
66c2869b-439c-4dd4-9589-034d21a90250coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T18:32:46.172206+00:00
633501a3-7e3f-4afa-a26e-651b023fc236coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T18:32:46.141812+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic2021
#####################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
6e9d5e28-c6f8-4b80-b97d-a6192c96d53cpython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.295706+00:00
5be5f6e5-9744-4a56-9bd7-c729c04f3b52typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.246267+00:00
caf8c736-5c2f-4b13-b866-d66b9614edbdpython-config-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.207002+00:00
66c2869b-439c-4dd4-9589-034d21a90250typescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.172206+00:00
633501a3-7e3f-4afa-a26e-651b023fc236python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.141812+00:00
f5b4da76-0e3e-4c7d-a542-66c5119d6603typescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.090695+00:00
e743183c-4453-40bb-8900-b4f87d461a66python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.050709+00:00
ff1862b5-ce5d-4a28-a6a5-4d3fd0aa2190typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T18:32:46.014244+00:00
dcc0b6c5-8163-4957-a8f6-52e554800dd6python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T18:32:45.971253+00:00
c5994abc-cf88-4687-a20a-8d6444bcfe01typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T18:32:45.951361+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0041  (coder)