Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20 | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T19:47:55.780680+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:55.780680+00:00 |
| 677849e3-b53c-46bd-9122-dd30474e5ae7 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:55.704112+00:00 |
| e5eba03b-4a89-4f65-adca-e4e6fddfedf6 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:55.625320+00:00 |
| 380d8b7d-29e2-4cf9-88b0-d1f9c7bb3d06 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:55.547919+00:00 |
| 73499984-3a50-4ce2-8cf7-238d23adb4e4 | coder | 4669773b4fbe9d507f1396f38777a1b36998faf3 | 0.740 | 2026-05-23T19:47:55.469809+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3040 | ################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################ |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 0aa7dbb1-6267-4fe9-a5a4-0a71f138ba20 | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.780680+00:00 |
| 677849e3-b53c-46bd-9122-dd30474e5ae7 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.704112+00:00 |
| e5eba03b-4a89-4f65-adca-e4e6fddfedf6 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.625320+00:00 |
| 380d8b7d-29e2-4cf9-88b0-d1f9c7bb3d06 | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.547919+00:00 |
| 73499984-3a50-4ce2-8cf7-238d23adb4e4 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.469809+00:00 |
| 22379eef-24d5-4535-a299-b14f39b05cf2 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.383623+00:00 |
| 239d9b81-4170-4679-8d14-3852445c9ffb | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.308431+00:00 |
| 57f09ede-5706-4335-bdd6-4d3c19fd8753 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.229695+00:00 |
| d5c87fa1-114b-4b8d-beea-f5c20c7c6918 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.157389+00:00 |
| 131cccf1-28fc-43e4-b1f8-9b792bd9123a | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T19:47:55.089743+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)