Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 04584fd9-0b38-4fbc-a8f6-17edb01c9bb6 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:38:17.292268+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 04584fd9-0b38-4fbc-a8f6-17edb01c9bb6 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:17.292268+00:00 |
| 38598f5e-d9e9-4d6e-bddb-910c69b5d511 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:17.210090+00:00 |
| 61f37c3f-c5ca-49f5-b33b-1414f5a4b743 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:17.135895+00:00 |
| 943b8a26-d074-45bd-8aff-a594ceb9f1e3 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:17.062453+00:00 |
| 481de9fd-6bd1-4633-911c-a2ee0eab351c | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:16.997153+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3431 | ####################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 04584fd9-0b38-4fbc-a8f6-17edb01c9bb6 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:17.292268+00:00 |
| 38598f5e-d9e9-4d6e-bddb-910c69b5d511 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:17.210090+00:00 |
| 61f37c3f-c5ca-49f5-b33b-1414f5a4b743 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:17.135895+00:00 |
| 943b8a26-d074-45bd-8aff-a594ceb9f1e3 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:17.062453+00:00 |
| 481de9fd-6bd1-4633-911c-a2ee0eab351c | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.997153+00:00 |
| a328f393-7be0-44d5-8243-a2f2f1d712fa | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.914924+00:00 |
| 6a1354e0-2665-4f63-b5bf-7d0db524d1aa | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.841120+00:00 |
| 4b144002-ed09-4b87-9e0c-517aace6c55d | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.766887+00:00 |
| 94d111d4-ebd7-4559-841d-31f8533612c9 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.701273+00:00 |
| 874c1261-8583-499d-aedd-daacfcf26503 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:16.635455+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)