Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 4358e928-3b02-43e6-b69f-aa19d805de9a | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:14:41.975932+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 4358e928-3b02-43e6-b69f-aa19d805de9a | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:14:41.975932+00:00 |
| 795a4e50-6e94-444a-b584-81b28465413e | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:14:41.897076+00:00 |
| 3c6cdf03-90ce-4527-949a-f4f8aca1b42b | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:14:41.827388+00:00 |
| e1197620-7879-4a9a-b0cd-a998aed6f4c4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:14:41.753718+00:00 |
| 6f9d48f7-17c0-4115-bd74-c8415de58c92 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:14:41.696788+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 2961 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################# |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 4358e928-3b02-43e6-b69f-aa19d805de9a | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.975932+00:00 |
| 795a4e50-6e94-444a-b584-81b28465413e | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.897076+00:00 |
| 3c6cdf03-90ce-4527-949a-f4f8aca1b42b | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.827388+00:00 |
| e1197620-7879-4a9a-b0cd-a998aed6f4c4 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.753718+00:00 |
| 6f9d48f7-17c0-4115-bd74-c8415de58c92 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.696788+00:00 |
| 1a418a93-7a7b-4ad8-9dfa-c08cb39e50d6 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.627219+00:00 |
| ed8167d0-c677-413c-a5b0-ad7a0b76e1c0 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.559341+00:00 |
| 0e492da4-98be-4972-8df8-0fa2d58e6a5d | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.485804+00:00 |
| d1b129c4-e9ef-404e-9e69-e99b0726c650 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.423167+00:00 |
| 36843e33-c644-41fe-82ad-44bcd0e7c1b2 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:14:41.370143+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0037 (coder)