Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 2efdf806-573a-4cea-8373-f831089f7dbc | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:56:34.712239+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 2efdf806-573a-4cea-8373-f831089f7dbc | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:56:34.712239+00:00 |
| 4eea22a8-a511-44c7-8a37-2c6d5068128a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:56:34.648771+00:00 |
| ff1b4269-de9b-4bc1-98c0-05fc5cb866fe | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:56:34.585024+00:00 |
| 7bc7339d-c55c-4a46-88c7-a2db7cc12926 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:56:34.521569+00:00 |
| 92907ec7-0b44-4ae9-83ad-dd12a4e379a2 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:56:34.458844+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2867 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 2efdf806-573a-4cea-8373-f831089f7dbc | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.712239+00:00 |
| 4eea22a8-a511-44c7-8a37-2c6d5068128a | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.648771+00:00 |
| ff1b4269-de9b-4bc1-98c0-05fc5cb866fe | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.585024+00:00 |
| 7bc7339d-c55c-4a46-88c7-a2db7cc12926 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.521569+00:00 |
| 92907ec7-0b44-4ae9-83ad-dd12a4e379a2 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.458844+00:00 |
| 559b826a-a658-4f86-aa03-4a2e5df8b3cf | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.395442+00:00 |
| b8f5000e-c19e-4fbf-91e5-7e3402d6cf34 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.316557+00:00 |
| adb03dc2-656c-4659-9e58-d5bc58dcc336 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.260622+00:00 |
| 4dc87bad-7be0-4802-9616-ade7110cafb2 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.173144+00:00 |
| 2f846305-fb5d-4c1e-bca9-bc1c2ff2712f | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:56:34.115108+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0037 (coder)