Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 880dbb68-94b4-423b-b888-57dbca99d635 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T13:41:06.850097+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 880dbb68-94b4-423b-b888-57dbca99d635 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:41:06.850097+00:00 |
| 17df6773-bd28-450c-8dc4-fd310a1c9e74 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:41:06.758496+00:00 |
| ff381bbc-6e80-49d6-9b3d-92b374d506b8 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:41:04.685503+00:00 |
| 4eee26e3-9cf5-49ea-9a2c-0756229ccc3d | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:41:04.605669+00:00 |
| 9e6cbc96-6522-4574-8aab-63257d1147da | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T13:41:04.547290+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2179 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 880dbb68-94b4-423b-b888-57dbca99d635 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:06.850097+00:00 |
| 17df6773-bd28-450c-8dc4-fd310a1c9e74 | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:06.758496+00:00 |
| ff381bbc-6e80-49d6-9b3d-92b374d506b8 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.685503+00:00 |
| 4eee26e3-9cf5-49ea-9a2c-0756229ccc3d | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.605669+00:00 |
| 9e6cbc96-6522-4574-8aab-63257d1147da | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.547290+00:00 |
| 33f7bc12-ccf0-45c4-884f-a1200f42b18c | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.488669+00:00 |
| 4358ad57-82b4-4687-b41d-7635b1f57cd4 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.426000+00:00 |
| add3f840-0979-47a3-8dd6-6cf30e13a2e0 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.376148+00:00 |
| a9b9c3d2-d680-4072-8ca9-19a51aa902b3 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.329518+00:00 |
| 79477fbd-e8fb-4972-b2bf-aaf319713a39 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T13:41:04.263043+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0040 (coder)