Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: f18a81ac-5888-4a4d-b4df-89f4b8cf27c5 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:49:25.282858+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| f18a81ac-5888-4a4d-b4df-89f4b8cf27c5 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:49:25.282858+00:00 |
| dc304c73-067a-461c-8b52-7800160a1240 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:49:25.102348+00:00 |
| d8e0079f-f335-448e-9b28-07a027179037 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:49:24.944467+00:00 |
| c306da61-ac3c-44c0-9985-6d07d12ab87b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:49:24.794291+00:00 |
| 79e00afb-7b99-47ef-b2fa-cebc05c836af | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:49:24.619448+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2335 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| f18a81ac-5888-4a4d-b4df-89f4b8cf27c5 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:25.282858+00:00 |
| dc304c73-067a-461c-8b52-7800160a1240 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:25.102348+00:00 |
| d8e0079f-f335-448e-9b28-07a027179037 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.944467+00:00 |
| c306da61-ac3c-44c0-9985-6d07d12ab87b | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.794291+00:00 |
| 79e00afb-7b99-47ef-b2fa-cebc05c836af | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.619448+00:00 |
| 36afc305-ffd6-46d5-82ea-9f839b0cb2db | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.379518+00:00 |
| f48e2e4c-6f98-4b86-aef5-466f96d164eb | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.213086+00:00 |
| bfc5a487-af61-47ce-b91f-1c552e0e5052 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:24.073913+00:00 |
| 5d939752-2da1-475b-acd8-043736ae29a9 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:23.917343+00:00 |
| 5ec4ec28-3213-4b51-a797-c3d46334048e | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:49:23.731868+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)