Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: afee45d3-6d7c-417d-a92e-0cbeb90dda7b | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:49:57.774624+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| afee45d3-6d7c-417d-a92e-0cbeb90dda7b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:49:57.774624+00:00 |
| 41e5eab1-0f7d-4099-8571-d6fd46259d8f | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:49:57.664606+00:00 |
| 8e4c3da0-e44e-49d4-9344-c5d884fd4242 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:49:57.559470+00:00 |
| c3c0486b-80b1-4060-bb68-d8d118f77bab | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:49:57.450581+00:00 |
| d3ab3a2f-7492-47cd-9858-39db54cbe4f9 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:49:57.323372+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2758 | ###################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| afee45d3-6d7c-417d-a92e-0cbeb90dda7b | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.774624+00:00 |
| 41e5eab1-0f7d-4099-8571-d6fd46259d8f | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.664606+00:00 |
| 8e4c3da0-e44e-49d4-9344-c5d884fd4242 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.559470+00:00 |
| c3c0486b-80b1-4060-bb68-d8d118f77bab | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.450581+00:00 |
| d3ab3a2f-7492-47cd-9858-39db54cbe4f9 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.323372+00:00 |
| f0c85488-81b4-474b-99ec-ae05f6e5555a | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.196691+00:00 |
| 8110784e-8b57-466a-9f50-17257af4030e | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:57.087893+00:00 |
| b918e9a6-2d8f-4e4c-a55b-287a49c96902 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:56.961586+00:00 |
| 301dbcd4-35d2-47fe-9983-f658c5103f5f | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:56.849815+00:00 |
| ba9fa309-ee2a-459d-8f68-d88daa488619 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:49:56.720773+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)