Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: a05d19ed-bb04-4109-9a5c-6385723c4d56 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:13:45.158515+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| a05d19ed-bb04-4109-9a5c-6385723c4d56 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:45.158515+00:00 |
| 587821da-4b87-4721-9ef0-e2c03651c4e6 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:45.095297+00:00 |
| d605fc39-f85a-426e-8dc4-9a747efa6b9b | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:45.031285+00:00 |
| 03719dfc-36a9-4d92-a291-56f76de79ac2 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:44.967740+00:00 |
| 9c154726-b5cf-45e6-930f-b0c09db57737 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:13:44.903895+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 6680 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| a05d19ed-bb04-4109-9a5c-6385723c4d56 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:45.158515+00:00 |
| 587821da-4b87-4721-9ef0-e2c03651c4e6 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:45.095297+00:00 |
| d605fc39-f85a-426e-8dc4-9a747efa6b9b | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:45.031285+00:00 |
| 03719dfc-36a9-4d92-a291-56f76de79ac2 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.967740+00:00 |
| 9c154726-b5cf-45e6-930f-b0c09db57737 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.903895+00:00 |
| 8f9bf5cd-b9aa-4f4d-8bcb-4b6223b7a3cf | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.824543+00:00 |
| 401e2231-876f-449b-9452-11e8c76d06f9 | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.761072+00:00 |
| f9cd466c-b384-4148-ae3c-430b827ede65 | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.697335+00:00 |
| d628d4eb-0ebf-4da3-a2dd-72c597e030e9 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.649802+00:00 |
| 0c05be99-56fa-472f-ba52-f537132f176d | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:13:44.569948+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0037 (coder)