Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 66dabc04-92eb-474d-b854-8a0ae041da77 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:38:04.719358+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 66dabc04-92eb-474d-b854-8a0ae041da77 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:04.719358+00:00 |
| 7fba4734-6168-4374-90cc-bec866a6375e | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:04.599085+00:00 |
| 3eb3be34-c4b5-43bf-a087-7fd3ad54c24a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:04.487966+00:00 |
| 52936db9-1da2-469f-8375-12ccc100bcc4 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:04.378856+00:00 |
| 3856acd2-0514-4462-9131-35d773c9316b | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:38:04.259487+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3290 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 66dabc04-92eb-474d-b854-8a0ae041da77 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.719358+00:00 |
| 7fba4734-6168-4374-90cc-bec866a6375e | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.599085+00:00 |
| 3eb3be34-c4b5-43bf-a087-7fd3ad54c24a | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.487966+00:00 |
| 52936db9-1da2-469f-8375-12ccc100bcc4 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.378856+00:00 |
| 3856acd2-0514-4462-9131-35d773c9316b | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.259487+00:00 |
| e44cfe6c-d2ed-4dde-b1d2-8a3fda7cbb3a | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.149081+00:00 |
| b08f06e4-7ec1-4aaf-8854-5b06a1bb85c4 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:04.039028+00:00 |
| a40924bc-9645-4f1b-91f5-f26f4ac65a8a | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:03.927846+00:00 |
| ef277251-f578-44fb-9de0-4526f7584cf5 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:03.817083+00:00 |
| 1eadc675-29b2-4106-95ae-aab84bdab557 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:38:03.717245+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)