Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 18c1a968-57be-4e8d-9a7e-d6d1afef989a | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T03:49:23.128057+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 18c1a968-57be-4e8d-9a7e-d6d1afef989a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T03:49:23.128057+00:00 |
| da620d59-2289-47cc-aaa0-da18cf19ae73 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T03:49:23.069570+00:00 |
| 2a1be2d6-9bce-4cdb-9552-f59cde4a421a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T03:49:22.635124+00:00 |
| b143fdbe-8db8-46d7-a6ea-b2c3b21444ea | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T03:49:22.570216+00:00 |
| a9216130-154c-4de6-be58-83092f94c858 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T03:49:22.493197+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 1709 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################# |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 18c1a968-57be-4e8d-9a7e-d6d1afef989a | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:23.128057+00:00 |
| da620d59-2289-47cc-aaa0-da18cf19ae73 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:23.069570+00:00 |
| 2a1be2d6-9bce-4cdb-9552-f59cde4a421a | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.635124+00:00 |
| b143fdbe-8db8-46d7-a6ea-b2c3b21444ea | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.570216+00:00 |
| a9216130-154c-4de6-be58-83092f94c858 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.493197+00:00 |
| 7079d820-6a7f-4912-ace1-48721917f6ea | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.441244+00:00 |
| dd406991-35b1-473c-809d-95483caf775d | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.363293+00:00 |
| b1592f9d-1b24-451a-af32-905788070335 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.303201+00:00 |
| d486b61c-1b42-4beb-8995-7f990e26f483 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.222690+00:00 |
| b0f2ecd2-82ea-42d1-a025-eeb53056b348 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T03:49:22.116267+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0043 (coder)