Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 39269b26-95c8-45bb-8f1e-dc4107273fea | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:24:59.579337+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 39269b26-95c8-45bb-8f1e-dc4107273fea | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:59.579337+00:00 |
| 1091caff-0712-4dbe-91e3-2baa113dfa9f | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:59.478312+00:00 |
| c78a8a7f-d362-4532-99ce-cda30e57da6c | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:59.256990+00:00 |
| 57fd046b-a8f2-4cff-99b3-df3f520a008c | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:59.161737+00:00 |
| b12cb114-1252-474f-913e-04f64cf9e1a4 | coder | 3a1cb59613c43efee035337a7eb0f518754b79e1 | 0.740 | 2026-05-23T20:24:59.066669+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3243 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 39269b26-95c8-45bb-8f1e-dc4107273fea | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:59.579337+00:00 |
| 1091caff-0712-4dbe-91e3-2baa113dfa9f | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:59.478312+00:00 |
| c78a8a7f-d362-4532-99ce-cda30e57da6c | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:59.256990+00:00 |
| 57fd046b-a8f2-4cff-99b3-df3f520a008c | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:59.161737+00:00 |
| b12cb114-1252-474f-913e-04f64cf9e1a4 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:59.066669+00:00 |
| c1334b5e-714a-4c51-baba-c8fb3a8da8fa | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:57.902905+00:00 |
| 4fc15939-d9ed-498b-a6a6-fb9ea22875ad | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:57.728451+00:00 |
| 4c2c1baf-7516-492c-b016-559fef15efe4 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:57.559925+00:00 |
| 8f3450ec-d4fb-43af-9213-9b49debb302e | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:57.451222+00:00 |
| afb833e6-a4d5-4e36-b717-a94585238ecf | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:24:57.390584+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)