Metadata-Version: 2.1
Name: ipars
Version: 3.1.6
Summary: Библиотека для работы с файлами во время парсинга
Author: Ilia Miheev
Author-email: statute-wasp-frisk@duck.com
License: MIT
Description-Content-Type: text/markdown
License-File: LICENSE.txt
Requires-Dist: requests
Requires-Dist: selenium
Requires-Dist: lxml
Requires-Dist: bs4

# Библиотека для работы с файлами во время парсинга

Во время парсинга часто приходится скачивать html-страницы, работать с json- и csv-файлами. Эта библиотека призвана облегчить написание кода для такого рода задач. Библиотека создавалась для удобства работы во время парсинга, но ничто не мешает использовать её просто для работы с json и csv.

В библиотеке есть три класса для отдельных работ: Pars для получения данных из Интернета, JsonManager для работы с json и CsvManager для работы с csv.

Установить библиотеку:

```bash
pip install ipars
```

Рассмотрим каждый класс детальнее.

## Работа с Pars

Класс Pars не принимает никаких данных для конструкторов.

```python
# Импортируем класс
from ipars import Pars
# Создаём объект класса
p = Pars()
```

### Коротко о методах

1. Функция **getStaticPage** принимает url страницы, путь, по которому сохранится страница, метод записи и заголовки запроса. Метод записи «wb» используется для сохранения картинок, по умолчанию writeMethod установлен как «w», что используется для html-страниц. Если заголовки запросов не указаны, то будут использоваться встроенные, но при желании можно указать свои. Функция возвращает статус ответа сайта, что должно использоваться для введения проверок

2. Функция **getDynamicPage** с помощью библиотеки Selenium получает динамически обновляемую страницу. Это помогает, когда контент на странице подгружается динамически. Принимает url страницы, путь сохранения, closeWindow и timeSleep. По умолчанию браузер Selenium открывается в фоновом режиме, и работу браузера не видно, но если closeWindow указать как False, то будет виден процесс выполнения кода. С помощью timeSleep можно увеличить время загрузки страницы если контент на ней долго подгружается

3. Функция **returnBs4Object** возвращает объект beautifulsoup4. Принимает путь до html-страницы, содержимое которой преобразует в объект beautifulsoup, кодировку открытия файла (по умолчанию UTF-8) и тип парсера (по умолчанию lxml).

Пример скачивания html-страницы:

```py
from ipars import Pars
p = Pars()
# Заголовки для запроса
headers ={
    "Accept": "*/*",
    "User-Agent": "Mozilla/5.0 (iPad; CPU OS 11_0 like Mac OS X) AppleWebKit/604.1.34 (KHTML, like Gecko) Version/11.0 Mobile/15A5341f Safari/604.1"
    }
p.get_static_page('./index.html', 'https://google.com', headers=headers)
# Получаем объект beautifulsoup из полученной страницы
soup = p.returnBs4Object('./index.html')
# Используем методы beautifulsoup
allImage = soup.find_all('img')
for image in allImage:
    print(image.get('src'))
```

Пример скачивания фотографии:

```py
from ipars import Pars
p = Pars()

# Получаем картинку
p.get_static_page(
    pathToSaveFile="./logo.png",
    # Возможно в будущем, эта картинка переместится на другое место и пример перестанет работать 👉👈
    url="https://cdn.sstatic.net/Sites/stackoverflow/Img/icon-48.png?v=b7e36f88ff92",
    writeMethod='wb'
)
```

## Работа с JsonManager

JsonManager принимает принимает только один аргумент — кодировку в которой будут читаться файлы. По умолчанию это UTF-8

```py
from ipars import JsonManager

j = JsonManager()
```

### Коротко о методах

1. Метод **load** используется для получения данных из json-файла по указанному пути

2. Метод **dump** используется для записи данных в json-файл. Принимает путь до файла и данные для записи

3. Метод **pprint** используется для вывода значений переменных у которых большая вложеность. Например, если у Вас есть массив объектов, где в качестве значения ключа используется другой массив объектов

```py
from ipars import JsonManager
j = JsonManager()
# Записываем данные
j.dump('./data.json', [1, 2, 3, 4, 5, 6, 7])
# Получаем данные
data = j.load('./data.json')
j.pprint(data) # [1, 2, 3, 4, 5, 6, 7]
```

## Работа с CsvManager

Класс CsvManager принимает три аргумента: символ переноса на новую строку "newline" (по умолчанию — это пустая строка), кодировку открываемых файлов "encoding" (по умолчанию UTF-8) и разделитель который используется в csv файле "delimiter" (по умолчанию ";")

```py

from ipars import CsvManager

c = CsvManager()
```

### Коротко о методах

1. Метод **writerow** записывает строку с csv файл. Метод принимает путь до csv файла, метод записи и список данных которые будут записанн в строку файла

2. Метод **writerows** принимает теже самые аргументы что и writerow, только row должен быть двойным списком с данными для записи. Разница между этими методами в том что writerow записывает одну, а writerows столько сколько есть в двойном списке

3. Метод **getRows** используется для получения списка строк в csv файле. Метод принимает путь до файла откуда будут получены строки

4. Метод **pprint** такой же как и у JsonManager

```py
from ipars import CsvManager

c = CsvManager()
# записываем заголовки
writer = c.writerow('./data.csv', 'w', ['Количество', 'Цена', 'Итог'])

# записываем данные
writer = c.writerows('./data.csv', 'a', [
    ["5", "5", "25"],
    ["6", "6", "36"],
    ["7", "7", "49"],
])

# получаем строки из таблицы
rows = c.getRows('./data.csv')
# выводим строки таблицы
c.pprint(rows)
```

## License

This project is licensed under the MIT License - see the LICENSE file for details.
