Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 4ce8b1a7-d516-4548-9e59-4b403541debe | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T13:26:49.724387+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 4ce8b1a7-d516-4548-9e59-4b403541debe | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T13:26:49.724387+00:00 |
| f416be3c-c1de-46a8-8786-dfd4e9d79daa | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T13:26:49.652118+00:00 |
| 61b69672-55dc-43ca-b80b-1f627a92b5bd | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T13:26:46.474834+00:00 |
| 5b656575-e273-4344-9430-bf6dde0d8f5b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T13:26:46.362839+00:00 |
| da5d009c-33b4-4eb1-abed-6a5c34589995 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T13:26:46.232212+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 1850 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 4ce8b1a7-d516-4548-9e59-4b403541debe | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:49.724387+00:00 |
| f416be3c-c1de-46a8-8786-dfd4e9d79daa | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:49.652118+00:00 |
| 61b69672-55dc-43ca-b80b-1f627a92b5bd | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:46.474834+00:00 |
| 5b656575-e273-4344-9430-bf6dde0d8f5b | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:46.362839+00:00 |
| da5d009c-33b4-4eb1-abed-6a5c34589995 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:46.232212+00:00 |
| 6e8df05e-3400-482c-87fb-b0742495db0a | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:46.116959+00:00 |
| 4dd71279-b841-45c6-91e2-eed15b140757 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:45.994969+00:00 |
| 78eb950a-bcb5-4c2e-a070-473143ede7aa | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:45.885653+00:00 |
| 5d264f40-023a-4aeb-9f02-a408b48c9784 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:45.787220+00:00 |
| a898f009-12ce-444d-8bf9-e14f4c1891c2 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T13:26:45.662471+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0042 (coder)