Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: db51786d-f6de-48d9-be9d-4ecad2631490 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:13:35.595470+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| db51786d-f6de-48d9-be9d-4ecad2631490 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:35.595470+00:00 |
| 3b2f5ab7-5729-4810-8707-002030167854 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:35.532121+00:00 |
| f84d8162-ab24-49f5-b600-c440e6af6ed9 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:35.452392+00:00 |
| 159f4c3c-c607-412d-b107-37b329e7a704 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:35.388604+00:00 |
| 90593b68-80a0-4801-8c50-babd256e9b09 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:35.324552+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3134 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| db51786d-f6de-48d9-be9d-4ecad2631490 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.595470+00:00 |
| 3b2f5ab7-5729-4810-8707-002030167854 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.532121+00:00 |
| f84d8162-ab24-49f5-b600-c440e6af6ed9 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.452392+00:00 |
| 159f4c3c-c607-412d-b107-37b329e7a704 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.388604+00:00 |
| 90593b68-80a0-4801-8c50-babd256e9b09 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.324552+00:00 |
| 33162390-afa6-4c44-b47d-ae06ae4d08e2 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.260728+00:00 |
| ac20259c-ad3d-4827-ab0d-99021b4de46a | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.197219+00:00 |
| 12b2084b-3fdc-464a-846e-d0c86bd7ddc3 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.136605+00:00 |
| 4136038f-f153-4b56-8015-349c957ccd44 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:35.064659+00:00 |
| e81bde79-b11c-4106-a16b-1e23e7147db7 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:34.975666+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)