Metadata-Version: 2.1
Name: soiz
Version: 0.1.8
Summary: soiz is awesome 🤘
Author: namtao
Author-email: vannam.pxb@gmail.com
Requires-Python: >=3.10,<4.0
Classifier: Programming Language :: Python :: 3
Classifier: Programming Language :: Python :: 3.10
Classifier: Programming Language :: Python :: 3.11
Classifier: Programming Language :: Python :: 3.12
Requires-Dist: colorlog (>=6.9.0,<7.0.0)
Requires-Dist: coqpit (>=0.0.17,<0.0.18)
Requires-Dist: dataframe-image (>=0.2.6,<0.3.0)
Requires-Dist: fastapi (>=0.115.6,<0.116.0)
Requires-Dist: google-generativeai (>=0.8.3,<0.9.0)
Requires-Dist: halo (>=0.0.31,<0.0.32)
Requires-Dist: img2pdf (>=0.5.1,<0.6.0)
Requires-Dist: ollama (>=0.4.4,<0.5.0)
Requires-Dist: opencv-python (>=4.10.0.84,<5.0.0.0)
Requires-Dist: pandas (>=2.2.3,<3.0.0)
Requires-Dist: pymupdf (>=1.25.0,<2.0.0)
Requires-Dist: pypdf2 (>=3.0.1,<4.0.0)
Requires-Dist: pypdfium2 (>=4.30.0,<5.0.0)
Requires-Dist: python-dotenv (>=1.0.1,<2.0.0)
Requires-Dist: python-multipart (>=0.0.19,<0.0.20)
Requires-Dist: surya-ocr (>=0.7.0,<0.8.0)
Requires-Dist: torch (>=2.5.1,<3.0.0)
Requires-Dist: torchaudio (>=2.5.1,<3.0.0)
Requires-Dist: torchvision (>=0.20.1,<0.21.0)
Requires-Dist: uvicorn (>=0.32.1,<0.33.0)
Requires-Dist: vinorm (>=2.0.7,<3.0.0)
Requires-Dist: watchdog (>=6.0.0,<7.0.0)
Description-Content-Type: text/markdown

# Thư Viện Xử Lý File Python

Thư viện Python hỗ trợ xử lý và chuyển đổi file với nhiều tính năng.

## Cấu Trúc Thư Mục

```:
├── modules/
│   ├── __init__.py
│   ├── convert.py      - Chuyển đổi định dạng file
│   ├── file.py         - Xử lý file cơ bản
│   ├── image.py        - Xử lý hình ảnh
│   ├── llm.py          - Tích hợp mô hình ngôn ngữ
│   ├── ocr.py          - Nhận dạng ký tự quang học
│   └── pdf.py          - Xử lý file PDF
├── autoentry.py        - Dự án trích xuất dữ liệu
├── tests/              - Thư mục chứa các file test
├── poetry.lock         - File khóa phiên bản package
├── pyproject.toml      - Cấu hình project
└── README.md           - Tài liệu hướng dẫn
```

## Mô Tả Các Module

### convert.py

Module hỗ trợ chuyển đổi qua lại giữa các định dạng file khác nhau.

- Chuyển đổi hình ảnh sang PDF
- Chuyển đổi giữa các định dạng hình ảnh
- Kiểm tra tính tương thích của các định dạng

### file.py

Module xử lý các thao tác cơ bản với file.

- Đọc và ghi file
- Quản lý thông tin file
- Các thao tác với hệ thống file

### image.py

Module chuyên về xử lý hình ảnh.

- Chỉnh sửa kích thước ảnh
- Tối ưu hóa hình ảnh
- Xử lý metadata của ảnh
- Các thao tác cơ bản với hình ảnh

### llm.py

Module tích hợp mô hình ngôn ngữ.

- Xử lý văn bản
- Phân tích ngôn ngữ
- Chuyển đổi văn bản

### ocr.py

Module nhận dạng ký tự từ hình ảnh.

- Trích xuất text từ ảnh
- Quét và xử lý văn bản
- Hỗ trợ nhiều ngôn ngữ

### pdf.py

Module làm việc với file PDF.

- Tạo và chỉnh sửa PDF
- Ghép và tách file PDF
- Trích xuất text từ PDF
- Quản lý thông tin PDF

### autoentry.py

Dự án trích xuất dữ liệu.

## Thêm thư viện

```bash
poetry add <package-name>
```

## Build file

```bash
poetry build

```

## Cài Đặt

Dự án sử dụng Poetry để quản lý package. Để cài đặt:

```bash
poetry install
```

## Thay đổi phiên bản cũ

```bash
poetry update torch torchvision torchaudio
```

## Yêu Cầu Hệ Thống

- Python 3.10 trở lên
- Poetry
- Các thư viện phụ thuộc được liệt kê trong pyproject.toml

## Phát Triển

1. Clone repository về máy
2. Cài đặt Poetry
3. Chạy `poetry install` để cài đặt dependencies
4. Chạy `poetry shell` để kích hoạt môi trường ảo

## Kiểm Thử

```bash
poetry run pytest
```

## Bảo Mật

- Kiểm tra đầu vào cho mọi thao tác file
- Xử lý file an toàn
- Không thực thi mã không đáng tin cậy
- Xử lý đường dẫn file an toàn

## Giấy Phép

Dự án được phân phối dưới Giấy phép MIT.

