Profile: gdm-swebench-lite-v1 | Tasks: 50 | Pass rate: 100.0% | Cost: $0.0500
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-dependency-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-explain-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-security-fix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-bugfix-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-performance-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-test-writing-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-multi-file-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-refactor-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-config-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-recovery-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-dependency-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| shell-explain-medium-001 | medium | 0.740 | ✓ | $0.0010 |
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 5aded8ef-e588-4464-9216-b7f15a9d98cc | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:38:01.787703+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 5aded8ef-e588-4464-9216-b7f15a9d98cc | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:01.787703+00:00 |
| 9488a3cd-0be1-4a61-8b3d-89ab12d268a6 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:01.684258+00:00 |
| e193cd2c-3597-4720-a2e5-147da4fff8bb | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:01.575705+00:00 |
| 56742998-08aa-4825-9916-75b697c3eb07 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:01.468224+00:00 |
| 58a24cda-57e2-471d-ae5a-54fc045a0ab4 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:01.366847+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 6930 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 5aded8ef-e588-4464-9216-b7f15a9d98cc | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.787703+00:00 |
| 9488a3cd-0be1-4a61-8b3d-89ab12d268a6 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.684258+00:00 |
| e193cd2c-3597-4720-a2e5-147da4fff8bb | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.575705+00:00 |
| 56742998-08aa-4825-9916-75b697c3eb07 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.468224+00:00 |
| 58a24cda-57e2-471d-ae5a-54fc045a0ab4 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.366847+00:00 |
| 838e47fb-42ee-49b2-8dfd-f27034b97319 | python-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.255707+00:00 |
| f8f3d77a-0a05-42b1-8894-6c261dbe9b12 | typescript-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.146397+00:00 |
| 5102699f-c6dc-491e-8c99-5196789d6801 | python-bugfix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:01.042675+00:00 |
| df607e16-0bd0-443d-b417-0f19a2d1fc08 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:00.923137+00:00 |
| 3ca13046-66f9-4c5c-8482-dc2ef944f35e | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:00.829559+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)