Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 92e1192d-0506-423d-91bb-ecf01eb15df0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:50:07.686588+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 92e1192d-0506-423d-91bb-ecf01eb15df0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:50:07.686588+00:00 |
| 00d5b522-3e5e-4cca-853c-a9ae78be7b1c | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:50:07.576227+00:00 |
| ba43ced1-6448-4138-ba26-9d8ac16b5eff | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:50:07.461119+00:00 |
| af4a61fc-39d4-4794-9b22-28f8c92e9444 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:50:07.349957+00:00 |
| 222e277f-d1ee-4974-b84f-b59e593043f5 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:50:07.238328+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2773 | ##################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 92e1192d-0506-423d-91bb-ecf01eb15df0 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.686588+00:00 |
| 00d5b522-3e5e-4cca-853c-a9ae78be7b1c | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.576227+00:00 |
| ba43ced1-6448-4138-ba26-9d8ac16b5eff | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.461119+00:00 |
| af4a61fc-39d4-4794-9b22-28f8c92e9444 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.349957+00:00 |
| 222e277f-d1ee-4974-b84f-b59e593043f5 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.238328+00:00 |
| 85dcdb61-ea10-4bdf-a048-75d037336a37 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.117216+00:00 |
| 1952d18c-4ba9-486c-8cf0-ee22fee5152a | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:07.002627+00:00 |
| 7607ea13-8033-4115-88bc-03c064089a28 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:06.892974+00:00 |
| 7ae1b5d3-6caf-40ab-8435-a4bd8fb86dec | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:06.756880+00:00 |
| bd61737d-bdf6-4a29-b16d-929324749bca | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:50:06.622414+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0037 (coder)