Metadata-Version: 2.4
Name: docreader-ocr
Version: 0.2.5
Summary: Document OCR pipeline: classify → detect fields → recognize text
Project-URL: Homepage, https://github.com/mishanyacorleone/docreader
Project-URL: Repository, https://github.com/mishanyacorleone/docreader
Project-URL: Issues, https://github.com/mishanyacorleone/docreader/issues
Author-email: Mikhail Kardash <mishutqac@mail.ru>, Ruslan Abzelilov <ruslanr26@mail.ru>, Ekaterina Karmanova <monitor81@mail.ru>
License: MIT
License-File: LICENSE
Keywords: document,ocr,recognition,yolo
Classifier: Development Status :: 3 - Alpha
Classifier: Intended Audience :: Developers
Classifier: License :: OSI Approved :: MIT License
Classifier: Programming Language :: Python :: 3
Classifier: Topic :: Scientific/Engineering :: Image Recognition
Requires-Python: >=3.9
Requires-Dist: easyocr>=1.7
Requires-Dist: numpy>=1.24
Requires-Dist: opencv-python>=4.8
Requires-Dist: rapidfuzz>=3.14.0
Requires-Dist: requests>=2.28
Requires-Dist: torch>=2.0
Requires-Dist: torchvision>=0.15
Requires-Dist: tqdm>=4.65
Requires-Dist: ultralytics>=8.0
Provides-Extra: dev
Requires-Dist: mypy; extra == 'dev'
Requires-Dist: pytest-cov; extra == 'dev'
Requires-Dist: pytest>=7.0; extra == 'dev'
Requires-Dist: ruff; extra == 'dev'
Description-Content-Type: text/markdown

# docreader-ocr

Python-библиотека для автоматического распознавания российских документов.

```python
from docreader import DocReader

result = DocReader().process("passport.jpg")
print(result.documents[0].fields)
# {"surname": "Иванов", "firstname": "Иван", "passport_num": "1234 567890", ...}
```

## Установка

```bash
pip install docreader-ocr
```

Модели скачиваются автоматически при первом запуске.

## Поддерживаемые документы

- Паспорт РФ
- СНИЛС
- Аттестат об образовании
- Диплом о высшем образовании

## Как работает

Трёхэтапный конвейер: **классификатор** (YOLO OBB, accuracy 97.5%) определяет тип документа → **детектор зон** (YOLO OBB, mAP@50 = 90%) находит поля → **OCR** (EasyOCR, word accuracy 87.3%) распознаёт текст.

Данные обрабатываются локально — никаких внешних серверов, полное соответствие 152-ФЗ.

## Документация

Полный README, примеры и API — на [GitHub](https://github.com/mishanyacorleone/docreader).