Profile: gdm-swebench-lite-v1 | Tasks: 2 | Pass rate: 100.0% | Cost: $0.0020
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: b729a94f-af2c-4f2e-a74b-af7973c01ef7 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:47:54.021362+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| b729a94f-af2c-4f2e-a74b-af7973c01ef7 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:54.021362+00:00 |
| 9ad3a4f5-d001-4134-a716-832b2202679b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:53.936119+00:00 |
| ee29db10-c394-47b9-8769-c56145ac4156 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:53.258441+00:00 |
| 8c2e92a7-05a6-4d19-a9e8-85054043f3d0 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:53.184063+00:00 |
| 77e344c6-3977-4741-92b3-133d6fb92574 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:53.110233+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3025 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################# |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| b729a94f-af2c-4f2e-a74b-af7973c01ef7 | typescript-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:54.021362+00:00 |
| 9ad3a4f5-d001-4134-a716-832b2202679b | python-security-fix-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:53.936119+00:00 |
| ee29db10-c394-47b9-8769-c56145ac4156 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:53.258441+00:00 |
| 8c2e92a7-05a6-4d19-a9e8-85054043f3d0 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:53.184063+00:00 |
| 77e344c6-3977-4741-92b3-133d6fb92574 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:53.110233+00:00 |
| c128f5de-5f19-40b2-8cdc-b0371079d777 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:53.024986+00:00 |
| d0e9536f-7592-4a4b-a252-bf50ba17876d | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:52.965638+00:00 |
| f6b15e50-4293-40b6-952c-d0e0d50482c1 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:52.881942+00:00 |
| b6594e06-2d9b-4751-9273-0c252cc32948 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:52.818515+00:00 |
| a2cd15e0-162c-4e18-8d5e-0d53c876522a | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:52.739429+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)