Skip to content

sanonesan/t_bank_sirius_recsys_2024

Repository files navigation

t_bank_sirius_recsys_2024

Комментарий к ноутбуку t_bank_recsys

Модели, и необходимые данные будут помещены в архивы candidates_*.zip, models_knn_pop.zip, model_ranker.zip.

Архивы с данными по выборкам, а так же candidates_full, model_lfm.zip не прилагается в github, т.к. его размер много больше 50 мб (git giant files issue). Их можно будет найти по следующим ссылкам:

Данные по выборкам: https://github.com/0x0000dead/sirius-tbank-recsys-task-2024 распаковать в папку data/ в корневой директории проекта, либо изменить путь до данных в ноутбуке

Ссылка на гугл диск со всеми данными по этому репозиторию: https://drive.google.com/drive/folders/12WS-cT-jWI7aschIoPzquMcWTTmSbIum?usp=sharing модели распаковать в директорию models/, данные с кандидатами распаковать в в директорию models/models_data/

Если ноутбук будет прогоняться и потребуется пропустить часть с обучением моделей, то указанные архивы необходимо разархивировать в соответствующие папки и прогнать ячейки с их импортами.

Отборочное задание на смену в Сириус 2024

Для выполнения задания вам предстоит работать с датасетом от Кино.Триколор, который содержит информацию о просмотрах фильмов пользователями. Датасет включает 2.5 млн событий, связанных с взаимодействием пользователей (200 тысяч пользователей) с различными фильмами (10 тысяч фильмов). Основная задача состоит в предсказании следующих фильмов для просмотра пользователями на основе их истории взаимодействий.

Вы можете использовать любые методы и подходы для работы с тренировочной выборкой, в том числе парсинг интернета для получения дополнительных фичей. Важно подробно описать, какие фичи вы использовали и откуда их получили. Тестовую выборку изменять запрещается!

Датасет состоит из следующих файлов:

train_data.csv — данные для обучения, содержащие информацию о просмотрах фильмов пользователями.
test_data.csv — данные для тестирования, на которых необходимо будет проверить вашу модель.
users_df.csv — описание пользователей, которое может содержать дополнительную информацию о них.
items_df.csv — описание фильмов, содержащее их характеристики и другие полезные фичи.
countries.csv, genres.csv, staff.csv - вспомогательные данные (см intro_task.ipynb).

Цель задания — построить модель, которая на основе данных о предыдущих просмотрах пользователей сможет предсказать, какие фильмы им могут быть интересны в будущем.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published