Модели, и необходимые данные будут помещены в архивы candidates_*.zip, models_knn_pop.zip, model_ranker.zip.
Архивы с данными по выборкам, а так же candidates_full, model_lfm.zip не прилагается в github, т.к. его размер много больше 50 мб (git giant files issue). Их можно будет найти по следующим ссылкам:
Данные по выборкам: https://github.com/0x0000dead/sirius-tbank-recsys-task-2024 распаковать в папку data/ в корневой директории проекта, либо изменить путь до данных в ноутбуке
Ссылка на гугл диск со всеми данными по этому репозиторию: https://drive.google.com/drive/folders/12WS-cT-jWI7aschIoPzquMcWTTmSbIum?usp=sharing модели распаковать в директорию models/, данные с кандидатами распаковать в в директорию models/models_data/
Если ноутбук будет прогоняться и потребуется пропустить часть с обучением моделей, то указанные архивы необходимо разархивировать в соответствующие папки и прогнать ячейки с их импортами.
Для выполнения задания вам предстоит работать с датасетом от Кино.Триколор, который содержит информацию о просмотрах фильмов пользователями. Датасет включает 2.5 млн событий, связанных с взаимодействием пользователей (200 тысяч пользователей) с различными фильмами (10 тысяч фильмов). Основная задача состоит в предсказании следующих фильмов для просмотра пользователями на основе их истории взаимодействий.
Вы можете использовать любые методы и подходы для работы с тренировочной выборкой, в том числе парсинг интернета для получения дополнительных фичей. Важно подробно описать, какие фичи вы использовали и откуда их получили. Тестовую выборку изменять запрещается!
Датасет состоит из следующих файлов:
train_data.csv
— данные для обучения, содержащие информацию о просмотрах фильмов пользователями.
test_data.csv
— данные для тестирования, на которых необходимо будет проверить вашу модель.
users_df.csv
— описание пользователей, которое может содержать дополнительную информацию о них.
items_df.csv
— описание фильмов, содержащее их характеристики и другие полезные фичи.
countries.csv
, genres.csv
, staff.csv
- вспомогательные данные (см intro_task.ipynb).