Skip to content

Репозиторий спортивного направления DMIA, весна 2019

Notifications You must be signed in to change notification settings

data-mining-in-action/DMIA_Sport_2019_Spring

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

73 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DMIA, Спортивное направление. Весна 2019

Course requirements

План лекций

Лекции и задания будут размещены здесь незадолго перед началом соответствующего занятия. Расписание предварительное и может изменяться в процессе. В таблице дедлайны по заданиям указаны приблизительно, точные даты и время дедлайнов смотрите в заданиях.

Дата Занятие Материалы Задание Дедлайны Отзывы
02.02 Выложено вступительное задание Вступительный тест и вступительное соревнование (passwords)
09.02 Запуск DMIA Вступительный тест и вступительное соревнование (passwords)
16.02 Введение в соревнования. Идеология соревнований, отличие от индустриальных задач. Соревновательные платформы. Участие в командах, как объединять усилия и синхронизировать результат. Software, hardware. Опрос про лекцию и семинар
24.02 Соревнование с boosters
02.03 Первичное исследование данных на предмет скрытых закономерностей, особенностей формирования обучающей и тестовой выборок. Кратко про ошибки в составлении соревнований (утечки/лики). Анализ анонимизированных признаков. Визуализация как основной инструмент EDA. Ноутбук с семинара Соревнование airbnb
09.03 Метрики в задачах классификации и регрессии. Константные предсказания. Оптимизация метрик на уровне обучения моделей и уровне готовых предсказаний. Валидация. Основные типы разбиения на обучение и контроль. Проблемы, проявляющиеся на локальной валидации и в сабмитах на лидерборд, способы борьбы с ними. Различные распределения в обучении и тесте. Случаи непредсказуемости результатов на скрытой части тестовых данных и их причины (leaderboard shuffle). Ноутбук с семинара Задание
16.03 Признаки, их предобработка и генерация новых признаков. Связь между преобразованием признаков и качеством моделей на них. Генерация признаков на основе предварительных знаний о данных. Числовые и категориальные признаки, время и координаты. Пропущенные значения. Извлечение признаков из текстов и картинок. Задание
23.03 Обзор основных моделей машинного обучения - наивный байес, линейная модель, KNN, лес, бустинг, нейросети. Обсуждение параметров и тюнинга. Обсуждение особенностей и ограничений моделей. Про blackbox optimization.
30.03 Генерация усложненных признаков. Генерация статистик и признаков основанных на близости других объектов. Ноутбук с семинара
6.04 Кодирование признаков целевой переменной. Категориальные признаки. Борьба с переобучением и различные способы регуляризации. Обобщение на случай задачи регрессии, мультиклассовой классификации. Временные ряды. Кодирование взаимодействий и числовых признаков. Валидация. ноутбук с семинара
13.04 Ансамбли моделей. Линейная смесь. Блендинг. Стекинг. Валидация при использовании кодирования средним и ансамблей. ноутбук с семинара Соревнование с boosters
20.04 Виды хакатонов, критерии определения победителей. Как придумывать идеи для хакатонов на идеи, как придумывать применение данным, как делать MVP, как его демонстрировать, как делать презентацию. Как собирать команду, как распределять роли и работать в команде. Разработка презентаций, бизнес-решения.

About

Репозиторий спортивного направления DMIA, весна 2019

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published