Metadata-Version: 2.4
Name: tecjustica-ocr
Version: 0.1.0
Summary: Extração OCR de processos judiciais — PDF para Markdown
License-Expression: MIT
Requires-Python: >=3.10
Requires-Dist: paddleocr[all]>=3.4.0
Requires-Dist: pypdfium2>=4.0
Requires-Dist: rich>=13.0
Requires-Dist: typer>=0.9
Provides-Extra: cpu
Requires-Dist: paddlepaddle>=3.2.0; extra == 'cpu'
Provides-Extra: dev
Requires-Dist: pytest>=8.0; extra == 'dev'
Requires-Dist: ruff>=0.4; extra == 'dev'
Provides-Extra: gpu
Requires-Dist: paddlepaddle-gpu>=3.2.0; extra == 'gpu'
Description-Content-Type: text/markdown

# tecjustica-ocr

Extração OCR de processos judiciais — PDF para Markdown.

Usa PaddleOCR 3.x (PP-OCRv5 / PP-StructureV3) com auto-detecção GPU/CPU.

## Instalação

```bash
# Com GPU (CUDA 11.8)
pip install tecjustica-ocr[gpu] --extra-index-url https://www.paddlepaddle.org.cn/packages/stable/cu118/

# Somente CPU
pip install tecjustica-ocr[cpu]
```

## Uso

```bash
# Processar um PDF
tecjustica-ocr processo.pdf

# Processar pasta inteira
tecjustica-ocr pasta-processos/ -o resultado/

# Modo estrutural (tabelas, layout)
tecjustica-ocr processo.pdf --mode structure

# Modelo server (maior qualidade)
tecjustica-ocr processo.pdf -m server
```

## Opções

| Opção | Default | Descrição |
|-------|---------|-----------|
| `-o, --output` | `./output` | Diretório de saída |
| `-m, --model` | `mobile` | `mobile` (rápido) ou `server` (qualidade) |
| `-d, --device` | `auto` | `auto`, `gpu` ou `cpu` |
| `-s, --scale` | `2` | Escala de render: 1, 2 ou 3 |
| `-w, --workers` | `auto` | Workers para render paralelo |
| `--mode` | `text` | `text` (PP-OCRv5) ou `structure` (PP-StructureV3) |
| `--min-score` | `0.5` | Score mínimo |
| `-v, --verbose` | `false` | Output detalhado |

## API Python

```python
from tecjustica_ocr import extract_text, extract_structure

texto = extract_text("processo.pdf")
markdown = extract_structure("processo.pdf")
```
