Этот проект представляет собой скрипт для парсинга данных с указанных URL-адресов и сохранения результатов в базу данных SQLite.
- Склонируйте репозиторий себе на компьютер: git clone git@github.com:RomanBespalov/parsing.git
- Перейдите в директорию проекта (parsing) и создайте виртуальное окружение: python3 -m venv venv
- Активируйте виртаульное окружение: source venv/bin/activate
- Установите зависимости из файла requirements.txt: pip install -r requirements.txt
- Запустите файл со скриптом: python3 script.py
- После успешного выполнения скрипта, в директории будет создана БД со всеми данными - parse.db
Скрипт script.py читает URL-адреса из файла gplay_urls.txt, выполняет парсинг данных с указанных страниц Google Play и сохраняет результаты в базу данных parse.db. Файл test_task.pdf содержит ТЗ к проекту.
Файл gplay_urls.txt: текстовый файл, содержащий список доменов и ссылок на страницы Google Play.
База данных parse.db: SQLite база данных, содержащая результаты парсинга данных.
Плюсы:
- Хорошо сделано описание проекта в гитхабе
- Продумано виртуальное окружение
Минусы:
- В БД весь результат парсинга хранится одной строкой, а не числами - это неправильно как с точки зрения обработки данных (аналитических операций с данными), так и с точки зрения эффективности хранения (числовые типы занимают меньше места)
- Нет индексов в БД
- Нет даты получения данных в БД