Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: e4f9a7be-70c6-4daf-9433-b6f85549c74b | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:07:14.195105+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| e4f9a7be-70c6-4daf-9433-b6f85549c74b | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:14.195105+00:00 |
| 6aaff787-2dff-4da8-ad44-db3902d0d366 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:14.131717+00:00 |
| a3e52ee4-db12-424a-9e5b-1605ca8fe06b | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:13.479490+00:00 |
| 6d5e0fa0-b846-4d50-a0f2-2d6837e95504 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:13.416071+00:00 |
| 91df6bda-0251-474f-877a-2ba52cb4d08e | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:13.354937+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3072 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| e4f9a7be-70c6-4daf-9433-b6f85549c74b | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:14.195105+00:00 |
| 6aaff787-2dff-4da8-ad44-db3902d0d366 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:14.131717+00:00 |
| a3e52ee4-db12-424a-9e5b-1605ca8fe06b | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.479490+00:00 |
| 6d5e0fa0-b846-4d50-a0f2-2d6837e95504 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.416071+00:00 |
| 91df6bda-0251-474f-877a-2ba52cb4d08e | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.354937+00:00 |
| 663ff80f-f734-42e3-8730-c8712454741e | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.294457+00:00 |
| cdcbb5d2-ea43-4fc9-b25c-4bf6ce4570cf | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.227205+00:00 |
| 57de3d16-c699-42ab-a8aa-381fbe677dd3 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.161236+00:00 |
| 72f91d0f-59c6-444d-ae71-6e32010af55a | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.121738+00:00 |
| 9afd25ec-c7e9-4f9c-ada4-4771bbb4d66a | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:13.051214+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)