Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: ca4799db-1b56-45de-836a-d4e4d34b38d0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:23:00.485769+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| ca4799db-1b56-45de-836a-d4e4d34b38d0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:23:00.485769+00:00 |
| 94af2cbf-76dd-4f2a-a539-882524ecee96 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:23:00.435616+00:00 |
| f1ae00a4-62b8-414a-982c-64f72d66fe19 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:23:00.379638+00:00 |
| a35587cf-10e3-409c-83df-0b05c0b8ac29 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:23:00.313550+00:00 |
| 47003e66-19da-42ad-a8b9-a4ee2178ecf6 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:23:00.263312+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2617 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| ca4799db-1b56-45de-836a-d4e4d34b38d0 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.485769+00:00 |
| 94af2cbf-76dd-4f2a-a539-882524ecee96 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.435616+00:00 |
| f1ae00a4-62b8-414a-982c-64f72d66fe19 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.379638+00:00 |
| a35587cf-10e3-409c-83df-0b05c0b8ac29 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.313550+00:00 |
| 47003e66-19da-42ad-a8b9-a4ee2178ecf6 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.263312+00:00 |
| b89fd43e-c86a-47a7-bf7f-307dffd43b19 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.191031+00:00 |
| db38e578-031b-4e7b-83cc-c966593ca817 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.117738+00:00 |
| 8c3de4e6-cba9-4838-9606-ec12ed5e7c9e | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:23:00.052078+00:00 |
| fc324bc6-45cf-44b6-98b8-bf1e890cc4e6 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:22:59.986761+00:00 |
| f327c057-5684-47f8-bc3a-cfdce85fdf52 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:22:59.930459+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)