Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 57255c72-4f2f-482c-aee2-52c12911abe3 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:33:52.682915+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 57255c72-4f2f-482c-aee2-52c12911abe3 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:52.682915+00:00 |
| c6bc00cb-77dc-409a-aad1-81b5dc67cf37 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:52.583002+00:00 |
| 9389b209-3e37-40ff-9c25-de9b80e8bec6 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:52.432826+00:00 |
| 10e9988e-aaf3-45e4-8ea4-b89df096401c | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:52.332941+00:00 |
| 8e59b54a-a149-4169-b1e2-6af6d077224c | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:52.246644+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3384 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 57255c72-4f2f-482c-aee2-52c12911abe3 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.682915+00:00 |
| c6bc00cb-77dc-409a-aad1-81b5dc67cf37 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.583002+00:00 |
| 9389b209-3e37-40ff-9c25-de9b80e8bec6 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.432826+00:00 |
| 10e9988e-aaf3-45e4-8ea4-b89df096401c | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.332941+00:00 |
| 8e59b54a-a149-4169-b1e2-6af6d077224c | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.246644+00:00 |
| a669695c-69eb-4728-a96d-9540fcf8e584 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.156954+00:00 |
| 6f4f9cac-3368-4f5d-9081-42348a68a67e | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:52.055058+00:00 |
| 0eae0e4e-20f2-4352-a984-5f6896510feb | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:51.962641+00:00 |
| 05034852-e953-4637-a371-a8660b723cde | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:51.866297+00:00 |
| 87e567d1-1763-461a-9f31-7feb388b7a2c | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:51.782666+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)