Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 16321316-248c-462f-b714-e199428a16ae | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:37:52.036788+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 16321316-248c-462f-b714-e199428a16ae | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:52.036788+00:00 |
| 09f6bbdc-5fc0-4b82-9a94-b0081e1089c0 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.925486+00:00 |
| fac0a6b7-fb25-42dc-96ce-ea1cc03dca0a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.817802+00:00 |
| 9de3b718-9b6b-42c1-8ea5-37419bef0172 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.703173+00:00 |
| 45dc7b69-3b4e-4a1c-94c9-f20844fcbd92 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.594900+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3258 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 16321316-248c-462f-b714-e199428a16ae | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:52.036788+00:00 |
| 09f6bbdc-5fc0-4b82-9a94-b0081e1089c0 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.925486+00:00 |
| fac0a6b7-fb25-42dc-96ce-ea1cc03dca0a | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.817802+00:00 |
| 9de3b718-9b6b-42c1-8ea5-37419bef0172 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.703173+00:00 |
| 45dc7b69-3b4e-4a1c-94c9-f20844fcbd92 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.594900+00:00 |
| 50d34244-d00a-4cf7-813b-bd4dbd7768ea | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.483587+00:00 |
| b9becec0-4ceb-4a5e-85fb-634d31dbf9e7 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.376702+00:00 |
| 4a34a6f7-cbbf-4504-9f4a-4c1b590571b9 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.270045+00:00 |
| d279b367-c2fc-4f6d-9da7-f53474b40137 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.160128+00:00 |
| fda56b6a-0f5b-40a1-84d8-044b3c00049c | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.040318+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)