Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 2fc5aab8-d67f-4e9e-8dc4-d87e4177b340 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-26T10:38:10.921323+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 2fc5aab8-d67f-4e9e-8dc4-d87e4177b340 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:10.921323+00:00 |
| c26ec144-8c49-41d5-970e-8568d0a2520b | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:10.863414+00:00 |
| 037878a2-1de3-42d9-8573-53dc5273c45c | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:10.805857+00:00 |
| e07421d3-1a67-47f8-8dc5-5047cdb1f0f7 | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:10.748475+00:00 |
| 560ce837-5f85-4e96-9927-b0ecd44f86aa | coder | 59417e3b6834192b1ea96a6a9010dee3105efd78 | 0.740 | 2026-05-26T10:38:10.689995+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3416 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 2fc5aab8-d67f-4e9e-8dc4-d87e4177b340 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.921323+00:00 |
| c26ec144-8c49-41d5-970e-8568d0a2520b | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.863414+00:00 |
| 037878a2-1de3-42d9-8573-53dc5273c45c | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.805857+00:00 |
| e07421d3-1a67-47f8-8dc5-5047cdb1f0f7 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.748475+00:00 |
| 560ce837-5f85-4e96-9927-b0ecd44f86aa | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.689995+00:00 |
| 96f79ab5-b672-480f-a72f-b71b09cedd85 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.624066+00:00 |
| 87a806fd-35af-4c48-bd34-adef740314d4 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.558036+00:00 |
| 476e5ff6-ecd5-4018-bc7a-424816d3f0c7 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.500189+00:00 |
| 15643e77-6b7b-4f82-a172-f39b341df4c4 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.434051+00:00 |
| 4dd74841-33a2-4ef4-9a13-f6102e8d204b | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-26T10:38:10.384648+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)