Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: f2984be2-08bb-463b-bc29-fbb0e6196915 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-09T14:36:49.726964+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| f2984be2-08bb-463b-bc29-fbb0e6196915 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:36:49.726964+00:00 |
| 8acdfaa2-7623-4b68-aacc-dcad24fb8497 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:36:49.542658+00:00 |
| 909f9e81-69ab-482d-8fb9-76e5a7754eb4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:36:48.443136+00:00 |
| 51d07388-cf4a-4b6a-8227-1ccf1b8d4194 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:36:48.315028+00:00 |
| 9ae1b790-3c46-4150-bf92-74e5fc95e8c1 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-09T14:36:48.205729+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 1944 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| f2984be2-08bb-463b-bc29-fbb0e6196915 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:49.726964+00:00 |
| 8acdfaa2-7623-4b68-aacc-dcad24fb8497 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:49.542658+00:00 |
| 909f9e81-69ab-482d-8fb9-76e5a7754eb4 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:48.443136+00:00 |
| 51d07388-cf4a-4b6a-8227-1ccf1b8d4194 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:48.315028+00:00 |
| 9ae1b790-3c46-4150-bf92-74e5fc95e8c1 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:48.205729+00:00 |
| c6472211-56f1-41e2-96e8-c570277ed0bb | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:48.053095+00:00 |
| f7c9c431-ae6d-48e3-bc47-693b94a3a5ec | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:47.877481+00:00 |
| 0339bc02-20ff-4615-945e-bcfb5fad05ae | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:47.480311+00:00 |
| baea9d75-317c-4721-9918-9b6da4fa0b1d | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:46.944553+00:00 |
| db55e098-9557-48cb-9e68-c2b5b7e75cbd | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-09T14:36:46.301535+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0041 (coder)