Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: b81f64c9-cb87-4e4d-b34c-178d66aaca93 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:33:57.632929+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| b81f64c9-cb87-4e4d-b34c-178d66aaca93 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:57.632929+00:00 |
| 99d3b1eb-f0e0-4fc3-a2ff-e44331758383 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:57.574598+00:00 |
| 99bfb69e-504e-4fb1-9391-d8549dd63869 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:57.506827+00:00 |
| 76dd404b-4496-4764-bf08-e890548a87be | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:57.442528+00:00 |
| 972be245-c253-4b00-9070-68a1e3d5c650 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:57.372944+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 7230 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| b81f64c9-cb87-4e4d-b34c-178d66aaca93 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.632929+00:00 |
| 99d3b1eb-f0e0-4fc3-a2ff-e44331758383 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.574598+00:00 |
| 99bfb69e-504e-4fb1-9391-d8549dd63869 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.506827+00:00 |
| 76dd404b-4496-4764-bf08-e890548a87be | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.442528+00:00 |
| 972be245-c253-4b00-9070-68a1e3d5c650 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.372944+00:00 |
| 7bd579db-d897-461a-bb4e-de4b86c65268 | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.293896+00:00 |
| acd8bfe3-c6dc-4f21-803a-e6fb63e47b12 | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.225949+00:00 |
| 7d0a1fd7-7ff6-4238-82f8-c933fdfb16a7 | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.147081+00:00 |
| f3c6d2d7-deca-433e-92a4-eca490c4068b | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:57.059368+00:00 |
| 1af9f709-f3d1-45be-a440-eeeda409f2c5 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:56.986928+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)