Eval Report: ci-pr-smoke

Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150

Task IDBandScorePassedCost
python-security-fix-easy-001easy0.740$0.0010
typescript-security-fix-easy-001easy0.740$0.0010
python-bugfix-easy-001easy0.740$0.0010
typescript-bugfix-easy-001easy0.740$0.0010
python-performance-easy-001easy0.740$0.0010
typescript-performance-easy-001easy0.740$0.0010
python-test-writing-easy-001easy0.740$0.0010
typescript-test-writing-easy-001easy0.740$0.0010
python-multi-file-easy-001easy0.740$0.0010
typescript-multi-file-easy-001easy0.740$0.0010
python-refactor-easy-001easy0.740$0.0010
typescript-refactor-easy-001easy0.740$0.0010
python-config-easy-001easy0.740$0.0010
typescript-config-easy-001easy0.740$0.0010
python-recovery-easy-001easy0.740$0.0010

Leaderboard Snapshot

Latest run: 767e110b-cd1c-4e4b-aaec-1d775a77ab4c | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T03:00:55.554520+00:00

Recent Trend

Run IDModelGit SHAScoreCreated
767e110b-cd1c-4e4b-aaec-1d775a77ab4ccoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:00:55.554520+00:00
610db220-ff31-45df-ac57-95f06fe22496coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:00:55.434730+00:00
c748e7ef-ea66-4f44-b45a-08b53d427757coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:00:55.277928+00:00
f2626b2a-6cc2-4479-9801-b97d2a4a372acoder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:00:55.147563+00:00
19b05ecb-00a2-4bca-b3c6-9be4e083c131coder4669773b4fbe9d507f1396f38777a1b36998faf30.7402026-05-09T03:00:55.014710+00:00

Failure Breakdown

TaxonomyFailuresBar
wrong-logic1677
#############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################

Recent Failures

Run IDTask IDTaxonomyScoreCostCreated
767e110b-cd1c-4e4b-aaec-1d775a77ab4cpython-recovery-easy-001wrong-logic0.740$0.00102026-05-09T03:00:55.554520+00:00
610db220-ff31-45df-ac57-95f06fe22496typescript-config-easy-001wrong-logic0.740$0.00102026-05-09T03:00:55.434730+00:00
c748e7ef-ea66-4f44-b45a-08b53d427757python-config-easy-001wrong-logic0.740$0.00102026-05-09T03:00:55.277928+00:00
f2626b2a-6cc2-4479-9801-b97d2a4a372atypescript-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:00:55.147563+00:00
19b05ecb-00a2-4bca-b3c6-9be4e083c131python-refactor-easy-001wrong-logic0.740$0.00102026-05-09T03:00:55.014710+00:00
32904308-2e4e-4b10-bc99-455be9ae35abtypescript-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:00:54.863032+00:00
c4406e12-f2a0-4048-8c8a-a074df168758python-multi-file-easy-001wrong-logic0.740$0.00102026-05-09T03:00:54.764698+00:00
8473e78a-705a-4d7a-8095-5225a6e8c282typescript-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:00:54.640814+00:00
08dd2f66-3f1b-4db4-a0fa-d8622dd53da4python-test-writing-easy-001wrong-logic0.740$0.00102026-05-09T03:00:54.501455+00:00
627970e5-065c-4ad0-8f0f-159459cec6b9typescript-performance-easy-001wrong-logic0.740$0.00102026-05-09T03:00:54.408658+00:00

Cost Frontier

pass_rate vs cost_usd (Pareto frontier marked with *)
* [####################] 100.0% @ $0.0043  (coder)