Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: e357d6a8-f88e-469d-b818-987a5db736c8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T12:01:28.057935+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| e357d6a8-f88e-469d-b818-987a5db736c8 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T12:01:28.057935+00:00 |
| 6eefd6f6-bedc-49a9-b372-67982bb2a715 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T12:01:28.017322+00:00 |
| 7b153312-681c-4a44-8bc3-920f3c8bebcf | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T12:01:26.632574+00:00 |
| 6b02ade2-94c0-4dd6-955c-fc3bd5f29920 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T12:01:26.582557+00:00 |
| aa19c789-2fbb-4b25-9efa-b1177fa2b3cd | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T12:01:26.535564+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 1803 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| e357d6a8-f88e-469d-b818-987a5db736c8 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:28.057935+00:00 |
| 6eefd6f6-bedc-49a9-b372-67982bb2a715 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:28.017322+00:00 |
| 7b153312-681c-4a44-8bc3-920f3c8bebcf | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.632574+00:00 |
| 6b02ade2-94c0-4dd6-955c-fc3bd5f29920 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.582557+00:00 |
| aa19c789-2fbb-4b25-9efa-b1177fa2b3cd | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.535564+00:00 |
| 8bed2437-e4fe-46f8-96c9-1ef00dc9de3f | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.473944+00:00 |
| 20357cca-e286-4a1e-849e-cfc2ea2f9927 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.419570+00:00 |
| 3c1d2c69-82c5-460c-82a2-fe276957e067 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.360518+00:00 |
| 91cfe6ff-7949-4da8-938d-0a5042d6dbaf | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.314176+00:00 |
| 14f5b8fb-3fb9-4a91-bed1-026af0065bcd | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T12:01:26.269890+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0042 (coder)