Скрипт для массового парсинга ссылок с сайта и скачивания по ним роликов на примере сайта Витте.
Video-Parser-Yadisk - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их сначала на диск компьютера, а затем на Яндекс.Диск.
Video-Parser-Offline - этот скрипт автоматизирует процесс скачивания видеороликов с веб-сайта и грузит их локально на диск компьютера без дальнейшей передачи на Яндекс.Диск.
Описание для Video-Parser-Yadisk: Если вы хотите использовать скрипт для загрузки всех роликов на свой Яндекс.Диск, то потребуется получить свой собственный токен доступа к Яндекс.Диску. Вот как это сделать:
- Зарегиструйте скрипт как свое приложения в Яндекс.OAuth:
- Перейдите на страницу Яндекс.OAuth по ссылке - https://oauth.yandex.ru/client/new/ ;
- Нажмите "Зарегистрировать новое приложение";
- Введите любое название приложения и выбирите "Веб-сервисы";
- В разделе "Яндекс.Диск REST API" напишите необходимые права доступа: "Доступ к информации о Диске", "Чтение всего Диска", "Запись на весь Диск";
- Завершите регистрацию приложения.
Получение Токена:
- После регистрации приложения вы получите ID (Client ID) и пароль (Client Secret);
- Следуйте инструкциям Яндекса для получения токена;
- Токен обычно представляет собой очень длинную строку символов.
Внесения необходимых данных для работы скрипта:
- Внесите свой токен в поле "token" вместо '**********';
- Внесите свой логин в поле "username" вместо '**********';
- Внесите свой пароль в поле "password" вместо '**********';
- Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
- Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests yadisk
Затем можно настроить пути сохранения для Яндекс Диска: "from_dir" - откуда качать с компьютера и "to_dir" - куда качать на Яндекс Диск. Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".
Пошаговое описание работы Video-Parser-Yadisk:
- Настройка доступа к Яндекс Диску: Скрипт использует токен для аутентификации и работы с Яндекс Диском;
- Проверка и создание папки на Яндекс Диске: Скрипт проверяет наличие целевой папки на Яндекс Диске и если папка отсутствует, он создает ее;
- Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
- Создает папку для сохранения роликов, если она не создана;
- Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
- Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
- Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на Яндекс Диске. Если существует, то он переходит к следующему ролику;
- Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
- Загрузка видео на Яндекс Диск: После скачивания скрипт загружает видеоролик на Яндекс Диск;
- Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
- Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.
Описание для Video-Parser-Offline: Здесь те же настройки что и для прошлого скрипта, но без настроек для Яндекс Диска.
Внесения необходимых данных для работы скрипта:
- Внесите свой логин в поле "username" вместо '**********';
- Внесите свой пароль в поле "password" вместо '**********';
- Можете изменить адрес страницы. Для этого внесите свой адрес в поле "url" вместо ссылки. По умолчанию он скачивает все ролики с вкладки "Вебинары".
- Загрузить библиотеки: pip install tqdm beautifulsoup4 selenium heartrate requests
Можете также указать свой путь для сохранения роликов локально в поле "save_path". По умалчанию это "C:/Video".
Пошаговое описание работы Video-Parser-Offline:
- Проверка занятости сетевого порта и вклбючение heartrate: Скрипт проверяет, занят ли порт 9999, который необходим для работы heartrate - проверка работы выполнения скрипта, по-умолчанию он закоменчен и если хотите отслеживать работу скрипта, то надо убрать комменатрии в виде "#" перед скриптом;
- Создает папку для сохранения роликов если она не создана;
- Автоматизированный вход на сайт: Скрипт использует данные пользователя (логин и пароль) для входа на сайт с помощью Selenium WebDriver;
- Получение списка видеороликов: С помощью BeautifulSoup скрипт парсит HTML-код страницы и извлекает с нее ссылки на видеоролики;
- Обработка каждого видеоролика: Для каждой ссылки скрипт проверяет, существует ли уже видео на диске компьютера. Если существует, то он переходит к следующему ролику;
- Скачивание видео: Скрипт скачивает видеоролик по ссылке, если он еще не скачан;
- Обработка ошибок: В случае возникновения ошибок во время выполнения скрипт выводит соответствующее сообщение;
- Завершение работы: По завершении обработки всех видеороликов скрипт закрывает фоновый браузер.