Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: ab4ebb34-bcc8-4613-b785-2062ddc75d73 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:27:36.702090+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| ab4ebb34-bcc8-4613-b785-2062ddc75d73 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:27:36.702090+00:00 |
| c1554e89-4acd-4d09-ab0b-a6ea93b18848 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:27:36.627772+00:00 |
| 6226c01c-f3a7-47d6-b7c4-07475838298a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:27:36.561878+00:00 |
| 553f0784-2a72-49a8-94b2-16a8b65d22d5 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:27:36.504854+00:00 |
| 77b7a97b-844f-475c-ab92-0dba1c6d588d | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:27:36.439335+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2664 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| ab4ebb34-bcc8-4613-b785-2062ddc75d73 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.702090+00:00 |
| c1554e89-4acd-4d09-ab0b-a6ea93b18848 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.627772+00:00 |
| 6226c01c-f3a7-47d6-b7c4-07475838298a | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.561878+00:00 |
| 553f0784-2a72-49a8-94b2-16a8b65d22d5 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.504854+00:00 |
| 77b7a97b-844f-475c-ab92-0dba1c6d588d | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.439335+00:00 |
| a7e4b80c-0c02-4e11-aa7a-72aaf66613c6 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.373800+00:00 |
| 24ec6d21-544e-420d-a187-454d90e677c3 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.310114+00:00 |
| 27db02b2-e9b3-421d-8245-0dafa817fc83 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.250700+00:00 |
| b08708b3-ce2a-4936-9fb5-cf3030f30871 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.177330+00:00 |
| 5314c2b6-b8ca-4a34-9253-f23842b907c6 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:27:36.120201+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)