Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: df9e0ab4-a0df-4952-bf03-4117a5690e8f | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:07:15.673932+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| df9e0ab4-a0df-4952-bf03-4117a5690e8f | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:15.673932+00:00 |
| 3e8a1dcf-f25c-4ca3-9d15-0edcd6379a10 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:15.626177+00:00 |
| ff1632b0-3a66-4741-bdda-b2a4214bfd62 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:15.562593+00:00 |
| 6257e2c7-237b-4a2b-967e-72a9b809427c | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:15.499201+00:00 |
| ca6d0f0d-5f84-41d1-85f5-9b6c5fc67e06 | coder | 89f0f5456c5b8670ca70d1a941ab0d7272df1310 | 0.740 | 2026-05-23T20:07:15.460492+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3087 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| df9e0ab4-a0df-4952-bf03-4117a5690e8f | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.673932+00:00 |
| 3e8a1dcf-f25c-4ca3-9d15-0edcd6379a10 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.626177+00:00 |
| ff1632b0-3a66-4741-bdda-b2a4214bfd62 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.562593+00:00 |
| 6257e2c7-237b-4a2b-967e-72a9b809427c | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.499201+00:00 |
| ca6d0f0d-5f84-41d1-85f5-9b6c5fc67e06 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.460492+00:00 |
| e0261045-835a-426a-975e-fee961818553 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.403216+00:00 |
| c4319cc7-74a8-4f07-a0dc-de563f2b1230 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.339701+00:00 |
| c48bd468-63fc-4266-be62-5d1c7bf20234 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.291977+00:00 |
| 07194aca-7539-4d61-9532-181913d23aa3 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.228382+00:00 |
| 188b4c98-b0c3-48df-b7c0-5d650f5d2bf1 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:07:15.148368+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)