Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 9b3de240-6573-48ab-ac19-2be2932eb9bc | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:37:53.036625+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 9b3de240-6573-48ab-ac19-2be2932eb9bc | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:53.036625+00:00 |
| 638f7fcc-b19a-4496-87c7-26579b905f1a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:52.925420+00:00 |
| 16321316-248c-462f-b714-e199428a16ae | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:52.036788+00:00 |
| 09f6bbdc-5fc0-4b82-9a94-b0081e1089c0 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.925486+00:00 |
| fac0a6b7-fb25-42dc-96ce-ea1cc03dca0a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:51.817802+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3260 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 9b3de240-6573-48ab-ac19-2be2932eb9bc | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:53.036625+00:00 |
| 638f7fcc-b19a-4496-87c7-26579b905f1a | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:52.925420+00:00 |
| 16321316-248c-462f-b714-e199428a16ae | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:52.036788+00:00 |
| 09f6bbdc-5fc0-4b82-9a94-b0081e1089c0 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.925486+00:00 |
| fac0a6b7-fb25-42dc-96ce-ea1cc03dca0a | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.817802+00:00 |
| 9de3b718-9b6b-42c1-8ea5-37419bef0172 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.703173+00:00 |
| 45dc7b69-3b4e-4a1c-94c9-f20844fcbd92 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.594900+00:00 |
| 50d34244-d00a-4cf7-813b-bd4dbd7768ea | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.483587+00:00 |
| b9becec0-4ceb-4a5e-85fb-634d31dbf9e7 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.376702+00:00 |
| 4a34a6f7-cbbf-4504-9f4a-4c1b590571b9 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:51.270045+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)