- Используем python 3.6, инструкция по установке и созданию виртуального окружения в репозитории общего потока 2018 года
- Следует использовать requirements.txt из этого репозитория
Лекции и задания будут размещены здесь незадолго перед началом соответствующего занятия. Расписание предварительное и может изменяться в процессе. В таблице дедлайны по заданиям указаны приблизительно, точные даты и время дедлайнов смотрите в заданиях.
Дата | Занятие | Материалы | Задание | Дедлайны | Отзывы |
---|---|---|---|---|---|
02.02 | Выложено вступительное задание | Вступительный тест и вступительное соревнование (passwords) | |||
09.02 | Запуск DMIA | Вступительный тест и вступительное соревнование (passwords) | |||
16.02 | Введение в соревнования. Идеология соревнований, отличие от индустриальных задач. Соревновательные платформы. Участие в командах, как объединять усилия и синхронизировать результат. Software, hardware. | Опрос про лекцию и семинар | |||
24.02 | Соревнование с boosters | ||||
02.03 | Первичное исследование данных на предмет скрытых закономерностей, особенностей формирования обучающей и тестовой выборок. Кратко про ошибки в составлении соревнований (утечки/лики). Анализ анонимизированных признаков. Визуализация как основной инструмент EDA. | Ноутбук с семинара | Соревнование airbnb | ||
09.03 | Метрики в задачах классификации и регрессии. Константные предсказания. Оптимизация метрик на уровне обучения моделей и уровне готовых предсказаний. Валидация. Основные типы разбиения на обучение и контроль. Проблемы, проявляющиеся на локальной валидации и в сабмитах на лидерборд, способы борьбы с ними. Различные распределения в обучении и тесте. Случаи непредсказуемости результатов на скрытой части тестовых данных и их причины (leaderboard shuffle). | Ноутбук с семинара | Задание | ||
16.03 | Признаки, их предобработка и генерация новых признаков. Связь между преобразованием признаков и качеством моделей на них. Генерация признаков на основе предварительных знаний о данных. Числовые и категориальные признаки, время и координаты. Пропущенные значения. Извлечение признаков из текстов и картинок. | Задание | |||
23.03 | Обзор основных моделей машинного обучения - наивный байес, линейная модель, KNN, лес, бустинг, нейросети. Обсуждение параметров и тюнинга. Обсуждение особенностей и ограничений моделей. Про blackbox optimization. | ||||
30.03 | Генерация усложненных признаков. Генерация статистик и признаков основанных на близости других объектов. | Ноутбук с семинара | |||
6.04 | Кодирование признаков целевой переменной. Категориальные признаки. Борьба с переобучением и различные способы регуляризации. Обобщение на случай задачи регрессии, мультиклассовой классификации. Временные ряды. Кодирование взаимодействий и числовых признаков. Валидация. | ноутбук с семинара | |||
13.04 | Ансамбли моделей. Линейная смесь. Блендинг. Стекинг. Валидация при использовании кодирования средним и ансамблей. | ноутбук с семинара | Соревнование с boosters | ||
20.04 | Виды хакатонов, критерии определения победителей. Как придумывать идеи для хакатонов на идеи, как придумывать применение данным, как делать MVP, как его демонстрировать, как делать презентацию. Как собирать команду, как распределять роли и работать в команде. Разработка презентаций, бизнес-решения. |