Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 294ba3fb-428d-4679-bf07-fea8f834f390 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T09:40:56.475515+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 294ba3fb-428d-4679-bf07-fea8f834f390 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T09:40:56.475515+00:00 |
| d6f7d72b-e50e-4978-b766-ab2e1f927935 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T09:40:56.403617+00:00 |
| 864dcd00-0841-4cc0-9e72-2f6ff0eb7f18 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T09:40:55.925549+00:00 |
| aab80706-5998-4352-9511-50e859037b87 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T09:40:55.866907+00:00 |
| 7fe0a033-377a-4beb-b198-51d789f34d05 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T09:40:55.796547+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 1756 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 294ba3fb-428d-4679-bf07-fea8f834f390 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:56.475515+00:00 |
| d6f7d72b-e50e-4978-b766-ab2e1f927935 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:56.403617+00:00 |
| 864dcd00-0841-4cc0-9e72-2f6ff0eb7f18 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.925549+00:00 |
| aab80706-5998-4352-9511-50e859037b87 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.866907+00:00 |
| 7fe0a033-377a-4beb-b198-51d789f34d05 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.796547+00:00 |
| c6193e4f-2e2c-47d8-b281-157b4608bbb7 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.740977+00:00 |
| fdc2cfff-6bba-45cd-b161-8b7ce9cc1188 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.686117+00:00 |
| 29ba9ef9-8162-48eb-923b-7c1cf10e0ea7 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.610821+00:00 |
| 3c5b8e37-dce2-481d-b154-4b614e8c2a24 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.547637+00:00 |
| d8f06bdb-489b-40d7-8590-71107aef5322 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T09:40:55.475809+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0042 (coder)