Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 376b271d-c255-4d59-a70d-51faf04d6fbf | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:42:25.373693+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 376b271d-c255-4d59-a70d-51faf04d6fbf | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:25.373693+00:00 |
| eb6d02e2-91ec-47d8-94ab-eb74989b56e1 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:25.291782+00:00 |
| 9de42517-d647-4fd8-9535-c301d65f1731 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:24.692879+00:00 |
| 55e30911-2347-4c12-8b9d-8494e3b7adae | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:24.619800+00:00 |
| 7684373c-6f7b-4a69-b69f-20cc28823682 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:42:24.530493+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2226 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 376b271d-c255-4d59-a70d-51faf04d6fbf | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:25.373693+00:00 |
| eb6d02e2-91ec-47d8-94ab-eb74989b56e1 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:25.291782+00:00 |
| 9de42517-d647-4fd8-9535-c301d65f1731 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.692879+00:00 |
| 55e30911-2347-4c12-8b9d-8494e3b7adae | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.619800+00:00 |
| 7684373c-6f7b-4a69-b69f-20cc28823682 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.530493+00:00 |
| 62fcfe3f-e141-413d-b08c-320e11e5c25a | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.466744+00:00 |
| 5a8d7e8b-eb8c-4250-b93d-a6f0074ef41f | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.394578+00:00 |
| 47688f9f-93f5-4a46-86af-ed5912a2ea8c | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.331506+00:00 |
| d87ec0e6-25ea-4f33-91cb-3899b8928a4d | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.243370+00:00 |
| 794b2b77-9f7e-4365-a354-1d589fc9cbb7 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:42:24.127070+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0040 (coder)