Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: e3c26b04-b82c-45db-934a-b2b69b32a551 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:01:02.438850+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| e3c26b04-b82c-45db-934a-b2b69b32a551 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:01:02.438850+00:00 |
| ca5851ba-fe85-4c96-b3c9-1956dc42b0a1 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:01:02.378466+00:00 |
| 845b0843-469a-4396-8418-ee7f5b15c259 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:01:02.314005+00:00 |
| 0b3c12fc-3ff7-4671-9981-905b1fe669dc | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:01:02.247398+00:00 |
| 2312eb3d-8de4-4f04-8103-7a1e9f8fc315 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:01:02.181073+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2523 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| e3c26b04-b82c-45db-934a-b2b69b32a551 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.438850+00:00 |
| ca5851ba-fe85-4c96-b3c9-1956dc42b0a1 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.378466+00:00 |
| 845b0843-469a-4396-8418-ee7f5b15c259 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.314005+00:00 |
| 0b3c12fc-3ff7-4671-9981-905b1fe669dc | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.247398+00:00 |
| 2312eb3d-8de4-4f04-8103-7a1e9f8fc315 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.181073+00:00 |
| 274d927b-6bfa-4b8b-9b6d-0be1a20bc672 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.122825+00:00 |
| 8279f546-65a9-4695-93c5-d7bd10b9d664 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.064611+00:00 |
| dbe99e2f-81d4-46fa-9e43-b2bb9e594401 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:02.006383+00:00 |
| adedf827-be36-4de5-afb5-65792c0298eb | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:01.946160+00:00 |
| 801daa0c-a9d3-417a-81c0-aab725861170 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:01:01.891477+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)