Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 626d0e82-bcbe-4240-ab92-cb4c5e2cf5f0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:51:41.473478+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 626d0e82-bcbe-4240-ab92-cb4c5e2cf5f0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:51:41.473478+00:00 |
| 8381363a-59cc-4019-ac91-58559f54aa6c | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:51:41.372030+00:00 |
| b85cc57b-28c6-4d8a-abfd-0182c2894109 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:51:41.261281+00:00 |
| ee3e9535-0be4-4d32-b512-6fae11181265 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:51:41.154570+00:00 |
| 2c3c3be7-53fa-4dd9-a4e8-3240ea9adaf7 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:51:41.055837+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2805 | ##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 626d0e82-bcbe-4240-ab92-cb4c5e2cf5f0 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:41.473478+00:00 |
| 8381363a-59cc-4019-ac91-58559f54aa6c | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:41.372030+00:00 |
| b85cc57b-28c6-4d8a-abfd-0182c2894109 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:41.261281+00:00 |
| ee3e9535-0be4-4d32-b512-6fae11181265 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:41.154570+00:00 |
| 2c3c3be7-53fa-4dd9-a4e8-3240ea9adaf7 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:41.055837+00:00 |
| c6a350db-d33e-4a0b-8218-f3d0ce15559c | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:40.944379+00:00 |
| 0a8a594e-913c-45f5-9c64-f926649e16f7 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:40.848701+00:00 |
| 0275ee73-0367-4a18-bea6-d37ef1cb389e | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:40.737690+00:00 |
| 345d4a9c-ab71-4894-a8ca-7397a2020663 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:40.630053+00:00 |
| 3d125e7d-65ee-4c82-ac40-97857479b7b4 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:51:40.529811+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0037 (coder)