Metadata-Version: 2.4
Name: sanskrit_tagger
Version: 0.2.9
Summary: Pos tagger tools to use with pas taggers models
Home-page: https://github.com/koleslena/sanskrit_pos_tagger
Author: koleslena
Author-email: 
License: GNU GENERAL PUBLIC LICENSE
Keywords: sanskrit samskritam pos tagger pos-tagger nlp
Classifier: Development Status :: 3 - Alpha
Classifier: Intended Audience :: Education
Classifier: Intended Audience :: Science/Research
Classifier: Intended Audience :: Developers
Classifier: Topic :: Text Processing :: Linguistic
Classifier: License :: OSI Approved :: GNU General Public License (GPL)
Classifier: Programming Language :: Python :: 3
Classifier: Operating System :: OS Independent
Description-Content-Type: text/markdown
License-File: LICENSE
Requires-Dist: torch
Requires-Dist: numpy
Requires-Dist: tqdm
Requires-Dist: indic_transliteration
Provides-Extra: test
Requires-Dist: pytest; extra == "test"
Dynamic: author
Dynamic: classifier
Dynamic: description
Dynamic: description-content-type
Dynamic: home-page
Dynamic: keywords
Dynamic: license
Dynamic: license-file
Dynamic: provides-extra
Dynamic: requires-dist
Dynamic: summary


# 🕉️ Sanskrit Tagger

Вспомогательная библиотека для морфологического теггинга предложений на санскрите с использованием предобученных моделей классификации.

## Основные возможности:

- **Морфологический анализ:** Определение части речи (POS), падежа, рода, числа и глагольных форм.

- **Factory-интерфейс:** Удобное создание теггера одной функцией.

- **Поддержка IAST:**  Работает с латинской транслитерацией санскрита.

## 🚀 Быстрый старт (Quick Start)

```bash
pip install sanskrit_tagger
```

### 📥 Загрузка моделей

Модели обучались на корпусе санскритских текстов и доступны напрямую через `torch.hub`. Вы можете выбрать одну из архитектур:

```python
import torch

# Загрузка CNN модели (устаревшая)
model = torch.hub.load('koleslena/sanskrit_nlp_models', 'cnn_full_pos_tagger_model')

# загрузка BiLSTM модели (более точная на длинных контекстах)
model = torch.hub.load('koleslena/sanskrit_nlp_models', 'bilstm_full_pos_tagger_model')
```

```python
from sanskrit_tagger.tagger_factory import get_pos_tagger

# Создание теггера с имеющимися параметрами (модель и словари символов/тегов)
pos_tagger = get_pos_tagger(model)

# Текст должен быть разбит на слова
sentences = [
    'atha kanyā pradāne sa tam eva arthaṁ vicintayan',
]

# Получение результата
for sent_tags in pos_tagger(sentences):
    print(sent_tags)
```

## 📊 Пример вывода (Output Example)

Библиотека возвращает детальные теги для каждого токена:
```
atha-ADV kanyā-NOUN Gen Fem Sing pradāne-NOUN Loc Neut Sing...
```

## 🛠 Технические подробности

Библиотека инкапсулирует логику предобработки и пост-обработки векторов предсказаний моделей, позволяя сосредоточиться на лингвистическом анализе, а не на тензорах.

