Profile: gdm-swebench-lite-v1 | Tasks: 15 | Pass rate: 100.0% | Cost: $0.0150
| Task ID | Band | Score | Passed | Cost |
|---|---|---|---|---|
| python-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-security-fix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-bugfix-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-performance-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-test-writing-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-multi-file-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-refactor-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| typescript-config-easy-001 | easy | 0.740 | ✓ | $0.0010 |
| python-recovery-easy-001 | easy | 0.740 | ✓ | $0.0010 |
Latest run: 51d3825b-0f50-44d5-ae3a-6b9d863044cf | Latest model: coder | Latest score: 0.740 | Recorded at: 2026-05-23T20:37:55.461761+00:00
| Run ID | Model | Git SHA | Score | Created |
|---|---|---|---|---|
| 51d3825b-0f50-44d5-ae3a-6b9d863044cf | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:55.461761+00:00 |
| e5758762-c5bf-4577-a861-5a2d4b15be61 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:55.340678+00:00 |
| 85434b49-5841-454b-9e97-08e98bf4bee2 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:55.227594+00:00 |
| 3adf0cc3-593b-4caf-92c4-5d4f3f1e82ef | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:55.122624+00:00 |
| 28129fd5-bf99-46e6-b7ee-63b556c20b87 | coder | 07ca25bc2d511f5aee15446c60081c184e9c9122 | 0.740 | 2026-05-23T20:37:55.005644+00:00 |
| Taxonomy | Failures | Bar |
|---|---|---|
| wrong-logic | 3275 | ########################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################################### |
| Run ID | Task ID | Taxonomy | Score | Cost | Created |
|---|---|---|---|---|---|
| 51d3825b-0f50-44d5-ae3a-6b9d863044cf | python-recovery-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:55.461761+00:00 |
| e5758762-c5bf-4577-a861-5a2d4b15be61 | typescript-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:55.340678+00:00 |
| 85434b49-5841-454b-9e97-08e98bf4bee2 | python-config-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:55.227594+00:00 |
| 3adf0cc3-593b-4caf-92c4-5d4f3f1e82ef | typescript-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:55.122624+00:00 |
| 28129fd5-bf99-46e6-b7ee-63b556c20b87 | python-refactor-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:55.005644+00:00 |
| 27209271-3696-4f39-bfe1-6bb75d98ebc9 | typescript-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:54.894425+00:00 |
| 95511519-ab9f-487a-ba48-855afa26e091 | python-multi-file-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:54.767995+00:00 |
| 716bd542-f8db-4dd0-bc56-0cecde1b7bc7 | typescript-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:54.660348+00:00 |
| 868bb825-bb89-47c0-b557-bdeef8556bb2 | python-test-writing-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:54.566001+00:00 |
| 45af4363-e581-4d1a-8bf1-142ac61f0a24 | typescript-performance-easy-001 | wrong-logic | 0.740 | $0.0010 | 2026-05-23T20:37:54.453184+00:00 |
pass_rate vs cost_usd (Pareto frontier marked with *) * [####################] 100.0% @ $0.0036 (coder)