Metadata-Version: 2.1
Name: kairos-asr
Version: 0.6.7
Summary: High-performance Russian speech recognition library based on GigaAM-style RNN-T and ONNX.
Author: Alexey Shimokhin / Alenkar
License: MIT
Project-URL: Homepage, https://github.com/Alenkar/kairos-asr
Project-URL: Repository, https://github.com/Alenkar/kairos-asr
Project-URL: Issues, https://github.com/Alenkar/kairos-asr/issues
Keywords: asr,speech-recognition,russian,onnx,rnnt,gigaam,rnnt-asr
Classifier: License :: OSI Approved :: MIT License
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Classifier: Operating System :: Microsoft :: Windows
Classifier: Operating System :: POSIX :: Linux
Classifier: Intended Audience :: Science/Research
Classifier: Intended Audience :: Developers
Classifier: Topic :: Scientific/Engineering
Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
Classifier: Topic :: Scientific/Engineering :: Human Machine Interfaces
Classifier: Topic :: Multimedia :: Sound/Audio :: Speech
Classifier: Topic :: Multimedia :: Sound/Audio :: Analysis
Classifier: Topic :: Text Processing :: Linguistic
Classifier: Topic :: Software Development :: Libraries :: Python Modules
Requires-Python: >=3.10
Description-Content-Type: text/markdown
License-File: LICENSE
License-File: docs/THIRD_PARTY_LICENSES.md
Requires-Dist: huggingface-hub>=1.2.3
Requires-Dist: numpy>=1.23.5
Requires-Dist: torch>=2.5.1
Requires-Dist: torchaudio>=2.5.1
Requires-Dist: sentencepiece>=0.2.1
Requires-Dist: scipy>=1.15.3
Provides-Extra: cpu
Requires-Dist: onnxruntime>=1.19.2; extra == "cpu"
Provides-Extra: gpu
Requires-Dist: onnxruntime-gpu>=1.19.2; extra == "gpu"

 # Kairos Automatic Speech Recognition

## 📄 Описание

**Kairos ASR** — высокопроизводительная библиотека распознавания русской речи на базе [GigaAM-style RNN-T](https://github.com/salute-developers/GigaAM) и **ONNX**. Фокус: скорость, точность и простая интеграция в микросервисы и десктопы.

Основные возможности:
- Оптимизированный ONNX-инференс
- **CPU** и **GPU (CUDA, extra `[gpu]`)**
- Временные метки (**word-level**, **sentence-level**)
- Итеративная обработка с прогрессом и ETA
- Встроенный **Voice-Activity-Detection (VAD)**
- Поддержка длинных аудио
- Поддержка **Windows** и **Linux**

## ⚡ Быстрый старт

```bash
pip install kairos-asr[cpu]
# для GPU: pip install kairos-asr[gpu]
```

Если нужна конкретная сборка Torch под вашу CUDA:

```bash
# пример под CUDA 12.1/12.2 (cu121)
pip install torch==2.5.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu121 --upgrade
```

## 🚀 Использование (Python)

Минимальный пример:

```python
from kairos_asr import KairosASR

asr = KairosASR()  # авто-загрузка весов с HF
result = asr.transcribe(wav_file="audio.wav")
print(result.full_text)
```

Требования к аудио:
- Любые форматы, поддерживаемые `ffmpeg`; ресемплинг до 16 kHz.
- WAV PCM 16-bit mono (рекомендуется); стерео приводится к моно.
- Длинные записи режутся Silero VAD на ~15–25 c (жёсткий лимит ~30 c) и объединяются.

## 🖥️ Использование (CLI)

Установите пакет, затем:

```bash
# Проверить окружение
kairos-asr doctor

# Список локальных/доступных моделей
kairos-asr list

# Скачать все модели заранее
kairos-asr download

# Перевести файл в текст
kairos-asr transcribe <wav_file>
```

## ⚙️ Системные требования
- `ffmpeg` должен быть доступен в `PATH` (загрузка и ресемплинг аудио).
- Доступ в интернет. При первом запуске скачиваются веса моделей. Для ускорения и избежания лимитов задайте `HF_TOKEN` (`huggingface-cli login` или экспорт переменной окружения).
