Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 3fc4318b-5dba-4e8c-b9b7-c11625b64e60 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:30.601773+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 3fc4318b-5dba-4e8c-b9b7-c11625b64e60 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:30.601773+00:00 |
| 2376343c-441f-4439-ac03-8a774c206e61 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:30.490376+00:00 |
| 0036c441-bcc7-42cd-8d01-0d34c211e10a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:30.386059+00:00 |
| 709ea1f0-04af-4964-83c9-d100fa74ff65 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:30.281383+00:00 |
| f1ce4cc6-d405-4ce5-ad6a-5a63251fbc90 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:30.177862+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3305 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 3fc4318b-5dba-4e8c-b9b7-c11625b64e60 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.601773+00:00 |
| 2376343c-441f-4439-ac03-8a774c206e61 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.490376+00:00 |
| 0036c441-bcc7-42cd-8d01-0d34c211e10a | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.386059+00:00 |
| 709ea1f0-04af-4964-83c9-d100fa74ff65 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.281383+00:00 |
| f1ce4cc6-d405-4ce5-ad6a-5a63251fbc90 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.177862+00:00 |
| f3b9363c-99b3-4f3c-854f-fa8ee048899a | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:30.062377+00:00 |
| 34d1a0f5-3c71-4fbf-ae49-947a79c8c5d0 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:29.964495+00:00 |
| c668d358-e93f-4395-98d1-982291a9a197 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:29.863457+00:00 |
| a237dd75-f4cb-451a-a9f4-1772cea4b246 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:29.751620+00:00 |
| c8e62e37-d940-4c5c-891c-00ce871223bb | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:29.639806+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)