Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 1a3f33f6-2ad5-466c-8751-a6575976a820 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:56:26.240177+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 1a3f33f6-2ad5-466c-8751-a6575976a820 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:56:26.240177+00:00 |
| a0782779-e314-4c07-84f8-cf6e36fa566b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:56:26.140731+00:00 |
| ceabe32a-f8fa-44e4-a2f4-d9f5be8d42b4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:56:26.061597+00:00 |
| 6709a26c-4fba-4c4e-948a-18851c83e00a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:56:25.982361+00:00 |
| 47f42c7f-9cc7-48be-88c7-6354fdd1da11 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:56:25.896268+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 5100 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 1a3f33f6-2ad5-466c-8751-a6575976a820 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:26.240177+00:00 |
| a0782779-e314-4c07-84f8-cf6e36fa566b | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:26.140731+00:00 |
| ceabe32a-f8fa-44e4-a2f4-d9f5be8d42b4 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:26.061597+00:00 |
| 6709a26c-4fba-4c4e-948a-18851c83e00a | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.982361+00:00 |
| 47f42c7f-9cc7-48be-88c7-6354fdd1da11 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.896268+00:00 |
| 4e4f13d5-ef39-424f-95a2-b645b041cfc1 | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.808109+00:00 |
| d057caac-8d1c-4275-b276-d001c156a7d4 | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.719082+00:00 |
| 1ef85219-8389-4735-a70c-627dfd86bee8 | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.634959+00:00 |
| 647c3f9f-1aec-4203-9d78-018de8466f10 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.551466+00:00 |
| 5965299f-bfdf-40aa-b4fe-4709850c4573 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:56:25.458860+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0040 (coder)