Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 52502e32-3a49-4119-a870-6a574fa304c0 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:43:43.032928+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 52502e32-3a49-4119-a870-6a574fa304c0 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:43.032928+00:00 |
| e41a8a35-e262-4187-998e-56d91bee8b0a | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:42.937279+00:00 |
| a7c94041-3e66-4f79-9f71-c1a3a0664156 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:42.832596+00:00 |
| 37887e3b-a5a5-41a2-b413-f9e95b82fde4 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:42.715294+00:00 |
| 1f4139e7-e003-4f9c-8963-b15dc9c6d419 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:43:42.603705+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3337 | ######################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 52502e32-3a49-4119-a870-6a574fa304c0 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:43.032928+00:00 |
| e41a8a35-e262-4187-998e-56d91bee8b0a | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.937279+00:00 |
| a7c94041-3e66-4f79-9f71-c1a3a0664156 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.832596+00:00 |
| 37887e3b-a5a5-41a2-b413-f9e95b82fde4 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.715294+00:00 |
| 1f4139e7-e003-4f9c-8963-b15dc9c6d419 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.603705+00:00 |
| e99c4b57-166b-44fb-8627-309928105fb2 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.492455+00:00 |
| d6a46ede-f171-411f-b077-13bb1e7d6807 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.381543+00:00 |
| 15d805af-eb67-42c5-b1e1-0d5a4040300b | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.271161+00:00 |
| dcb81f75-10f4-44e5-9e0e-620f4e727e9e | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.173456+00:00 |
| 95a5da84-13f6-4ba4-a31b-1b9fa590acd6 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:43:42.047930+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0035 (coder)