Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 3ce8cf99-e47a-4f39-b676-01b4486b5dfc | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T14:37:12.793169+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 3ce8cf99-e47a-4f39-b676-01b4486b5dfc | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:37:12.793169+00:00 |
| dfc93155-98f7-4b73-a023-95ded4f0c1a5 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:37:12.669931+00:00 |
| 257f0a6f-738f-405b-8237-4916ca9e4e84 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:37:12.521941+00:00 |
| ee77e682-53cb-420a-9c65-c9efa91bb698 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:37:12.388914+00:00 |
| f3986f50-a850-4fa0-b681-10b96dfd3a72 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:37:12.157504+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 4200 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 3ce8cf99-e47a-4f39-b676-01b4486b5dfc | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.793169+00:00 |
| dfc93155-98f7-4b73-a023-95ded4f0c1a5 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.669931+00:00 |
| 257f0a6f-738f-405b-8237-4916ca9e4e84 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.521941+00:00 |
| ee77e682-53cb-420a-9c65-c9efa91bb698 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.388914+00:00 |
| f3986f50-a850-4fa0-b681-10b96dfd3a72 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.157504+00:00 |
| 5f88e0cb-bfb8-46c2-afc8-c228cebeef12 | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:12.031519+00:00 |
| 15362b5e-98af-47c9-868b-04d66a6a32f5 | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:11.906323+00:00 |
| 53d2445f-d0cf-4514-aaa1-b18fcddb06ef | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:11.779606+00:00 |
| 16e59df0-ab94-4902-8535-ba69bbf2e7f4 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:11.662211+00:00 |
| 5fc26362-e529-4048-8009-d77175de0c1a | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:37:11.528314+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0042 (coder)