Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 6462dd76-3ba8-4e50-9c68-79662876fa28 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:24:51.592288+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 6462dd76-3ba8-4e50-9c68-79662876fa28 | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:51.592288+00:00 |
| e5808c98-3b8e-4dfd-b1df-1fc3813baa49 | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:51.528506+00:00 |
| 6b4837da-2eee-4552-8658-9e87c9bfab2e | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:51.456665+00:00 |
| 6b52a7a9-a902-4b2a-af0c-35fbc37bf919 | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:51.393106+00:00 |
| 0935dc10-c46f-4043-bf6d-035b9730bd58 | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:51.275193+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3228 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 6462dd76-3ba8-4e50-9c68-79662876fa28 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.592288+00:00 |
| e5808c98-3b8e-4dfd-b1df-1fc3813baa49 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.528506+00:00 |
| 6b4837da-2eee-4552-8658-9e87c9bfab2e | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.456665+00:00 |
| 6b52a7a9-a902-4b2a-af0c-35fbc37bf919 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.393106+00:00 |
| 0935dc10-c46f-4043-bf6d-035b9730bd58 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.275193+00:00 |
| a978484e-6d3c-4944-9da0-a989f9327b43 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.214777+00:00 |
| 8e60e5e1-6ed1-4c23-a4ac-dbaa5c426f69 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.123744+00:00 |
| 0bba7243-030a-4c15-bed6-e2db198d312d | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:51.006229+00:00 |
| 708f8857-f071-4d70-9ed0-da86a72a595d | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:50.942645+00:00 |
| 31fa4b37-c869-4b28-8d4b-29635dc2c5b1 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:50.874134+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)