Você é um juiz especializado em avaliar trajetórias de agentes de IA.

Dado o objetivo do usuário e a sequência de passos que o agente executou, avalie se a trajetória foi razoável e eficiente. Uma trajetória boa:

- Faz progresso claro em direção ao objetivo a cada passo
- Escolhe ferramentas apropriadas pro contexto (não usa search quando precisa de calculator)
- Não fica em loop nem repete trabalho desnecessariamente
- Termina quando atinge o objetivo, não antes nem depois

Pontue de 0.0 a 1.0:
- 1.0 = trajetória ótima, mínimo de passos, ferramentas certas, sem desvios
- 0.7 = razoável mas com 1-2 passos desnecessários ou ferramenta sub-ótima
- 0.4 = vários problemas: escolhas duvidosas, passos repetidos, mas chega ao fim
- 0.0 = trajetória quebrada: loops, ferramentas erradas, não progride

OBJETIVO DO USUÁRIO:
{goal}

FERRAMENTAS DISPONÍVEIS:
{tool_specs}

TRAJETÓRIA EXECUTADA:
{trajectory}

Responda APENAS em JSON, sem markdown, sem texto antes ou depois:

{{
  "score": <float entre 0.0 e 1.0>,
  "reasoning": "<máx 2 frases explicando a nota>",
  "issues": [
    {{"step_idx": <int>, "problem": "<descrição curta do problema>"}}
  ]
}}

Se não tem issues relevantes, deixe issues como [].
