Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: c2eb7769-8488-48d0-a6b8-6b82636d0e7d | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:33.979782+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| c2eb7769-8488-48d0-a6b8-6b82636d0e7d | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:33.979782+00:00 |
| 521830a3-f869-4a34-8b95-123a3fe0dd25 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:33.852374+00:00 |
| 20a09c83-6997-45bf-802c-e10e3f554437 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:33.757733+00:00 |
| 8711c410-a03d-4285-a59e-cd3fb8b36a89 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:33.658766+00:00 |
| da5621e0-d46c-4b2c-8886-0f0fcd27e84d | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:33.535214+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3322 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| c2eb7769-8488-48d0-a6b8-6b82636d0e7d | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.979782+00:00 |
| 521830a3-f869-4a34-8b95-123a3fe0dd25 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.852374+00:00 |
| 20a09c83-6997-45bf-802c-e10e3f554437 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.757733+00:00 |
| 8711c410-a03d-4285-a59e-cd3fb8b36a89 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.658766+00:00 |
| da5621e0-d46c-4b2c-8886-0f0fcd27e84d | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.535214+00:00 |
| 358d9da0-6a80-4e70-b39a-5f1d62b1e465 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.424868+00:00 |
| 93061a5f-8210-4316-93b3-8747af6e9074 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.313339+00:00 |
| 3e69332f-eaa8-4752-8f4f-173f28e17d7b | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.202270+00:00 |
| 1237c979-0a43-465b-9b40-61db11ffa00f | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:33.101844+00:00 |
| 26118f51-0a00-431f-85f7-984bf98ac969 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:32.986398+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)