Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 6c1ef733-3901-4689-b1c0-7ab0a49153a9 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T14:01:04.407286+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 6c1ef733-3901-4689-b1c0-7ab0a49153a9 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:04.407286+00:00 |
| 2a9a7728-af27-4afd-8ba7-69f5dbba0eb3 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:04.312346+00:00 |
| 3454346c-7af0-4fda-a277-ab0de132e80b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:04.216726+00:00 |
| 885c4f27-baf7-4e61-88d8-c483b6676533 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:04.147281+00:00 |
| c3f6327d-8346-4d26-8d07-e3f8a0430215 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:04.056604+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2429 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################# |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 6c1ef733-3901-4689-b1c0-7ab0a49153a9 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:04.407286+00:00 |
| 2a9a7728-af27-4afd-8ba7-69f5dbba0eb3 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:04.312346+00:00 |
| 3454346c-7af0-4fda-a277-ab0de132e80b | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:04.216726+00:00 |
| 885c4f27-baf7-4e61-88d8-c483b6676533 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:04.147281+00:00 |
| c3f6327d-8346-4d26-8d07-e3f8a0430215 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:04.056604+00:00 |
| ca91c9e9-d894-467a-92c4-3bf174e723ea | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:03.977606+00:00 |
| 8866f8ab-8d38-4d77-82ed-42c502cc2b6f | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:03.882906+00:00 |
| 6bfbd4ad-e8bd-497a-b73b-c3cb42cf661d | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:03.803207+00:00 |
| b48cdf1b-e482-4369-9762-dfbebd5eac38 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:03.713086+00:00 |
| 82447674-439e-429b-95da-b7836a48172a | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:03.616735+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)