Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 84a169cf-1a65-4b75-bcb4-fc39689baad7 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-22T14:01:12.496054+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 84a169cf-1a65-4b75-bcb4-fc39689baad7 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:12.496054+00:00 |
| 4556b871-e1bd-412c-b053-db79cd432ae4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:12.356507+00:00 |
| f8f97545-28c4-4985-a3f7-40f6526ad089 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:12.233599+00:00 |
| c95b511d-5d06-4940-9492-022683d3d161 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:12.135068+00:00 |
| 7170a323-1ab6-4de7-9c96-902d4e7fb738 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-22T14:01:12.015211+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2444 | ############################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 84a169cf-1a65-4b75-bcb4-fc39689baad7 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:12.496054+00:00 |
| 4556b871-e1bd-412c-b053-db79cd432ae4 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:12.356507+00:00 |
| f8f97545-28c4-4985-a3f7-40f6526ad089 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:12.233599+00:00 |
| c95b511d-5d06-4940-9492-022683d3d161 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:12.135068+00:00 |
| 7170a323-1ab6-4de7-9c96-902d4e7fb738 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:12.015211+00:00 |
| fc9d236c-f8df-4e89-a9f8-f2c6e70fd425 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:11.920703+00:00 |
| a60d6186-3bcc-40dc-8806-30b9aa85fc1a | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:11.790980+00:00 |
| e5168c24-a1bf-446c-951c-d57a8aa82231 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:11.683601+00:00 |
| 66a9a763-62f3-4851-ac79-b7363a7c8dcf | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:11.595993+00:00 |
| c62c16e6-b48c-4e08-ac87-1d8c2e686f5e | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-22T14:01:11.508348+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0039 (coder)