Первая работа с данными и машинным обучением на основе модели RandomForestRegressor.
Работа проводилась в первую очередь для закрепления навыков обработки данных с помощью pandas, генерации Фичей и анализа данных.
Код требует доработки в части улучшения результата, направления для работы указаны в коде.
Также необходимо сделать парсинг данных.
Работа производится с датасетом, содержащим сведения о ресторанах Европы, а модель, которую вы будете обучать, должна будет предсказывать рейтинг ресторана по данным сайта TripAdvisor на основе имеющихся в датасете данных.
Restaurant_id — идентификационный номер ресторана;
City — город, в котором находится ресторан;
Cuisine Style — стиль или стили, к которым можно отнести блюда, предлагаемые в ресторане;
Ranking — место, которое занимает данный ресторан среди всех ресторанов своего города;
Rating — рейтинг ресторана по данным TripAdvisor (именно это значение должна будет предсказывать модель);
Price Range — диапазон цен в ресторане;
Number of Reviews — количество отзывов о ресторане;
Reviews — данные о двух отзывах, которые отображаются на сайте ресторана;
URL_TA — URL страницы ресторана на TripAdvosor;
ID_TA — идентификатор ресторана в базе данных TripAdvisor.
Данные: main_task.csv - основные тренировочные данные; kaggle_task.csv - тестовые данные; sample_submission.csv - валидационные данные (для внутреннего соревнования на площадке Kaggle)
Data_Cuisines.ipynb - основной ноутбук для обработки данных.
Parsing_Data_from_TA.ipynb - дополнительный ноутбук, создан для парсинга доп. данных с сайта.
Дополнительные данные при расчетах взяты из Demographia World Urban Areas 15 th Annual Edition: 201904. Сейчас доступен Demographia World Urban Areas 16 th Annual Edition: 202006 на сайте http://www.demographia.com/db-worldua.pdf