Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 28c85091-5567-48c3-809a-447933b8e32c | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-10T02:43:05.799414+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 28c85091-5567-48c3-809a-447933b8e32c | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-10T02:43:05.799414+00:00 |
| 3f70699d-51c7-42a8-a7df-5ba41c016047 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-10T02:43:05.753014+00:00 |
| 214bb958-54fc-47ba-ba73-e1033fd7f585 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-10T02:43:05.301595+00:00 |
| 638f4e98-7711-4d2e-8327-cbdaea00e442 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-10T02:43:05.253264+00:00 |
| 4450a148-8176-4a6e-aa84-e0d1192e9677 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-10T02:43:05.202942+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2132 | #################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 28c85091-5567-48c3-809a-447933b8e32c | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.799414+00:00 |
| 3f70699d-51c7-42a8-a7df-5ba41c016047 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.753014+00:00 |
| 214bb958-54fc-47ba-ba73-e1033fd7f585 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.301595+00:00 |
| 638f4e98-7711-4d2e-8327-cbdaea00e442 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.253264+00:00 |
| 4450a148-8176-4a6e-aa84-e0d1192e9677 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.202942+00:00 |
| 3e69cf24-1dd0-4ba4-9d49-406355a53815 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.155575+00:00 |
| 01b12fcf-ffc0-49d5-b319-fdfc1ff6cdfe | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.113328+00:00 |
| 28adf51b-5b01-4ec4-84fc-a3c5842856c8 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.069668+00:00 |
| 718a0f18-e3b4-4868-9705-76957321f84c | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:05.002660+00:00 |
| f8beeb8a-9bde-4476-97cc-3cf84fabcc19 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-10T02:43:04.942597+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0040 (coder)