Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 00d15342-1612-4b3a-b8c8-641dc58f78e8 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T14:01:02.295455+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 00d15342-1612-4b3a-b8c8-641dc58f78e8 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:02.295455+00:00 |
| bdf591a2-97a2-4f4e-a1e8-9dcdecef206a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:02.200143+00:00 |
| 4affd2df-8256-498a-af7e-78d60f1040b5 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:01.375923+00:00 |
| 0322cd24-a73b-49fa-9307-c4bd12afd67c | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:01.231866+00:00 |
| 9d66b90e-351d-496a-b901-8cac3e6e52d0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:01.072271+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2414 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 00d15342-1612-4b3a-b8c8-641dc58f78e8 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:02.295455+00:00 |
| bdf591a2-97a2-4f4e-a1e8-9dcdecef206a | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:02.200143+00:00 |
| 4affd2df-8256-498a-af7e-78d60f1040b5 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:01.375923+00:00 |
| 0322cd24-a73b-49fa-9307-c4bd12afd67c | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:01.231866+00:00 |
| 9d66b90e-351d-496a-b901-8cac3e6e52d0 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:01.072271+00:00 |
| ba82f9f7-3a77-462b-a366-10d01228281e | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:00.944929+00:00 |
| 16a9078e-d9fb-4d92-a215-ad47f325e6aa | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:00.854883+00:00 |
| f438f57e-cc7f-41b2-ae24-5a34770dc283 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:00.752017+00:00 |
| 0c6b6965-913c-4d0f-a542-a2617d3cf2f5 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:00.653275+00:00 |
| b9c7462d-b2ac-438f-9e25-9146717e791d | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:00.557449+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)