Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 14e17490-de55-423c-9612-6a5a2477a525 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:42:39.962534+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 14e17490-de55-423c-9612-6a5a2477a525 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:39.962534+00:00 |
| e8b24fab-bee1-46e4-9e5f-82b1cb18f00d | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:39.870903+00:00 |
| ac3a8190-11ad-43eb-b609-0772ea8963e9 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:39.766114+00:00 |
| d859e1c4-1d82-4374-8c78-28cb104c6c05 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:39.682885+00:00 |
| 0d7aaefb-d6ee-44f1-8f5d-e77f0365cc89 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:39.588673+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 4800 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 14e17490-de55-423c-9612-6a5a2477a525 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.962534+00:00 |
| e8b24fab-bee1-46e4-9e5f-82b1cb18f00d | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.870903+00:00 |
| ac3a8190-11ad-43eb-b609-0772ea8963e9 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.766114+00:00 |
| d859e1c4-1d82-4374-8c78-28cb104c6c05 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.682885+00:00 |
| 0d7aaefb-d6ee-44f1-8f5d-e77f0365cc89 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.588673+00:00 |
| 55203880-3b7d-4e8e-a847-246699c1600c | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.444711+00:00 |
| d19776f5-2947-4a04-b0f0-f38f32b9464d | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.281214+00:00 |
| 2f0c7924-8255-42a8-8257-b7fc0bae552f | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.143377+00:00 |
| 6ee83ab8-8219-4345-9efb-0dd29c8d6e39 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:39.010639+00:00 |
| ece708f7-5e58-4163-98c4-a61e95915500 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:38.904495+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0041 (coder)