Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: b15405f7-2ba7-49a9-aa73-7407f986bd79 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T18:05:46.278388+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| b15405f7-2ba7-49a9-aa73-7407f986bd79 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:46.278388+00:00 |
| 6087e5c2-67d0-4eb7-ac7c-991cb3bb6cf4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:46.205808+00:00 |
| 05c38b72-3b4d-4fb2-b834-99db1dac6962 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:46.141663+00:00 |
| d2b10ed6-3a78-4e75-8303-febf328c1e8e | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:46.081386+00:00 |
| 6dccce2c-2100-4762-acbb-17b052c5fb90 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T18:05:46.023325+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2570 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################## |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| b15405f7-2ba7-49a9-aa73-7407f986bd79 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:46.278388+00:00 |
| 6087e5c2-67d0-4eb7-ac7c-991cb3bb6cf4 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:46.205808+00:00 |
| 05c38b72-3b4d-4fb2-b834-99db1dac6962 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:46.141663+00:00 |
| d2b10ed6-3a78-4e75-8303-febf328c1e8e | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:46.081386+00:00 |
| 6dccce2c-2100-4762-acbb-17b052c5fb90 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:46.023325+00:00 |
| 97aed1df-dace-4d08-8ed3-35f8f0d3cc32 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:45.956691+00:00 |
| b6dcb11f-e51d-4a40-b7d5-05ae9ff85abe | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:45.891283+00:00 |
| 97ea71a0-91a9-455c-a352-767c13c11c97 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:45.834067+00:00 |
| 6d17c588-89c8-4e56-8911-076c425e663a | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:45.760814+00:00 |
| febccefd-abaa-4645-a4c4-25804ece1978 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T18:05:45.703389+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0038 (coder)