Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: d304bda9-5313-4a5e-a2c6-91bf68bc2eab | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:33:44.666700+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| d304bda9-5313-4a5e-a2c6-91bf68bc2eab | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:44.666700+00:00 |
| e8579ecf-12f9-4284-9af5-bb88648834e2 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:44.583939+00:00 |
| 782d8594-7269-44d1-810d-810e2c7d0e23 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:44.484177+00:00 |
| 97440c50-1c66-477c-b9a8-a1b1a1f3b36c | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:44.392989+00:00 |
| e88429da-29c0-4258-8ffe-1b0f872b959f | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:33:44.309084+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3369 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| d304bda9-5313-4a5e-a2c6-91bf68bc2eab | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.666700+00:00 |
| e8579ecf-12f9-4284-9af5-bb88648834e2 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.583939+00:00 |
| 782d8594-7269-44d1-810d-810e2c7d0e23 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.484177+00:00 |
| 97440c50-1c66-477c-b9a8-a1b1a1f3b36c | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.392989+00:00 |
| e88429da-29c0-4258-8ffe-1b0f872b959f | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.309084+00:00 |
| db9257d2-7b8b-45f7-b4a1-4896f095657e | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.212792+00:00 |
| e402d487-539f-4c59-9e83-0d4e986f6afb | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.141457+00:00 |
| a4dfd3a8-436b-4aa4-8a88-f80b8649e737 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:44.052817+00:00 |
| 542f9e2e-5f3f-4a81-a24e-01c775aefb0f | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:43.965561+00:00 |
| 093bc0cf-046c-4ef4-8b97-5d84f3bf257a | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:33:43.892582+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)