Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 3c784697-ce09-4c3f-8ae7-5dca87e1ba0d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:43:50.018885+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 3c784697-ce09-4c3f-8ae7-5dca87e1ba0d | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:43:50.018885+00:00 |
| d893e0e2-3ce3-4a83-89e6-1d5668d8b301 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:43:49.907587+00:00 |
| f12058d5-ff33-4507-a32c-b4130b182edb | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:43:49.802137+00:00 |
| d75eb974-b64a-4654-8401-e2c2c3b57818 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:43:49.686212+00:00 |
| f6ae3e52-46c5-4fc3-8e47-d42b64709568 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:43:49.574673+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2726 | ###################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 3c784697-ce09-4c3f-8ae7-5dca87e1ba0d | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:50.018885+00:00 |
| d893e0e2-3ce3-4a83-89e6-1d5668d8b301 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.907587+00:00 |
| f12058d5-ff33-4507-a32c-b4130b182edb | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.802137+00:00 |
| d75eb974-b64a-4654-8401-e2c2c3b57818 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.686212+00:00 |
| f6ae3e52-46c5-4fc3-8e47-d42b64709568 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.574673+00:00 |
| 110db665-2eca-4c62-a8af-31b4aabb198c | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.467561+00:00 |
| 3a0d2e76-61c2-4100-a808-6a7d58b0d35d | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.361314+00:00 |
| f21afddc-2b60-4939-ac86-e715239f6adc | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.240011+00:00 |
| 69b74f16-a2c2-48f2-aec2-196e81d90616 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.144925+00:00 |
| 1664d051-098f-4c6a-beb9-83e693f025a7 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:43:49.032895+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)