Metadata-Version: 2.4
Name: lectura-tokeniseur
Version: 2.3.0
Summary: Normalisateur et tokeniseur complet pour le français — détection de formules (nombres, sigles, dates, téléphones, etc.)
Author-email: Max Carriere <contact@lec-tu-ra.com>
License: AGPL-3.0-or-later
Project-URL: Homepage, https://www.lec-tu-ra.com/solutions/outils/modules/
Project-URL: Repository, https://github.com/maxcarriere/lectura-modules/tree/main/Tokeniseur
Project-URL: Issues, https://github.com/maxcarriere/lectura-modules/issues
Keywords: tokeniseur,french,nlp,normalisation,formules
Classifier: Development Status :: 5 - Production/Stable
Classifier: Intended Audience :: Developers
Classifier: Intended Audience :: Science/Research
Classifier: License :: OSI Approved :: GNU Affero General Public License v3 or later (AGPLv3+)
Classifier: Natural Language :: French
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Classifier: Topic :: Text Processing :: Linguistic
Requires-Python: >=3.10
Description-Content-Type: text/markdown
License-File: LICENCE.txt
Dynamic: license-file

# Lectura Tokeniseur

**Normalisateur et tokeniseur complet pour le français**

Module autonome, zéro dépendance externe. Détecte et classifie les formules
(nombres, sigles, dates, téléphones, numéros, ordinaux, fractions, notations
scientifiques, expressions mathématiques).

## Installation

```bash
pip install lectura-tokeniseur
```

## Utilisation

```python
from lectura_tokeniseur import tokenise

resultat = tokenise("Le 25 décembre 2024, il faisait -3°C à Paris.")

for phrase in resultat.phrases:
    for token in phrase:
        print(f"{token.texte:20s}  {token.type.name}")
```

```
Le                    MOT
25 décembre 2024      FORMULE
,                     PONCTUATION
il                    MOT
faisait               MOT
-3°C                  FORMULE
à                     MOT
Paris                 MOT
.                     PONCTUATION
```

## Fonctionnalités

- **Normalisation** : typographie, espaces, Unicode
- **Tokenisation** : mots, ponctuation, séparateurs
- **Détection de formules** : nombres (entiers, décimaux, négatifs), dates,
  heures, téléphones, sigles, ordinaux, fractions, pourcentages, monnaies,
  unités de mesure, expressions mathématiques, chiffres romains
- **API simple** : `tokenise(texte)` renvoie un objet structuré

## Licence

Ce module est distribue sous licence **AGPL-3.0** (non commerciale) — voir [LICENCE.txt](LICENCE.txt).

Pour un usage commercial, contacter [contact@lec-tu-ra.com](mailto:contact@lec-tu-ra.com).
