Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 1c8158ff-16bf-4697-95d9-3f6a0e16daca | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T17:55:14.615498+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 1c8158ff-16bf-4697-95d9-3f6a0e16daca | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T17:55:14.615498+00:00 |
| 9e0775aa-0910-4afc-8f07-8d10d073e6fe | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T17:55:14.550505+00:00 |
| aee221d6-5334-4c65-9815-012b9337fe29 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T17:55:14.487433+00:00 |
| 9f1fe5fa-815e-4c51-8e9b-ea7dcd6751bc | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T17:55:14.413887+00:00 |
| 87e8069b-5867-4dd2-afe3-a89f750825dd | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T17:55:14.344054+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2491 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 1c8158ff-16bf-4697-95d9-3f6a0e16daca | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.615498+00:00 |
| 9e0775aa-0910-4afc-8f07-8d10d073e6fe | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.550505+00:00 |
| aee221d6-5334-4c65-9815-012b9337fe29 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.487433+00:00 |
| 9f1fe5fa-815e-4c51-8e9b-ea7dcd6751bc | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.413887+00:00 |
| 87e8069b-5867-4dd2-afe3-a89f750825dd | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.344054+00:00 |
| 36f0954e-2f7e-421b-8330-144071e1170c | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.261257+00:00 |
| b19c948e-36b5-4d57-a317-3d39cc126f8d | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.190449+00:00 |
| 4cc8e839-b1c6-43d3-bac9-157d598491fa | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.115684+00:00 |
| 1cb1164e-5e7f-4bcf-a735-776bd57b87a9 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:14.044845+00:00 |
| 8c7389fb-7ee5-4286-8f5b-0651268730d8 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T17:55:13.966564+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)