Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: e589aa2d-d560-4e5a-a085-8517499c6bd1 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:05:52.393453+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| e589aa2d-d560-4e5a-a085-8517499c6bd1 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:52.393453+00:00 |
| 169488d9-54e9-4162-bf4d-7f59fa828fe4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:52.327768+00:00 |
| af4c76de-e37f-4b3c-beb4-ea2f87e13dab | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:52.271139+00:00 |
| 8d9545ea-59b8-443f-9378-f9d90c1698b0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:52.205326+00:00 |
| d39756ba-0a07-406c-94bf-30d65b27ee32 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:52.140296+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2585 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| e589aa2d-d560-4e5a-a085-8517499c6bd1 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.393453+00:00 |
| 169488d9-54e9-4162-bf4d-7f59fa828fe4 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.327768+00:00 |
| af4c76de-e37f-4b3c-beb4-ea2f87e13dab | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.271139+00:00 |
| 8d9545ea-59b8-443f-9378-f9d90c1698b0 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.205326+00:00 |
| d39756ba-0a07-406c-94bf-30d65b27ee32 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.140296+00:00 |
| ebc53dfe-76f5-4f9e-b30c-47594323a9fb | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.082121+00:00 |
| 0c495307-8437-40bb-bd19-b9bd3b33ddeb | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:52.015006+00:00 |
| 1b404fdc-3706-48d6-b0f0-3e7586226f13 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:51.957579+00:00 |
| b017223c-f8dc-495b-bee2-63888cbd11a6 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:51.891140+00:00 |
| ccaa4e51-e144-462b-9178-ef3cb02b4686 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:51.839436+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)