Машинное обучение 2 осень 2017 — различия между версиями

Текущая версия на 04:58, 28 января 2018

Содержание

1 Семинар
2 План лекций:
3 Презентации:
4 Вопросы к экзамену

Семинар

Преподаватель: Кураленок И. Е.

План лекций:

Введение в область
Анализ задачи
1. Сэмплирование и размерность задачи
2. Уменьшение размерности: feature selection
3. Уменьшение размерности: feature extraction
4. Embedded модели на линейном примере (LASSO, LARS, etc.)
Практическая оценка методов машинного обучения
Теоретическая оценка
Основные принципы построения целевых функций
Необычные факторы в обучении
1. Обучение на последовательностях
2. Рекомендательные системы
Построение целевых функций
Введение в online обучение
Несколько подходов к построению решающей функции
1. Сэмплирование пространства решений и NFLT
2. Введение в байесовское моделирование
3. Сегментация пространства задачи (деревья, кластеризация, :))
4. Ансамбли (BOC->Boosting)
История решения одной практической задачи (MLR)

Презентации:

Лекция №1. Введение в область.

Лекция №2. Сэмплирование.

Лекция №3. Уменьшение размерности.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
  Можно не ограничиваться только теми методами, что были рассказаны.
- Кусок википедии: документы, для которых нужно определить истинную размерность пространства.

Лекция №4. Feature selection (последние слайдов 20).

Лекция №5. Уменьшение размерности.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
  Score определяется через RMSE от целевого значения.
  Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи.
- Данные для обучения.
- Данные для теста.

Вопросы к экзамену

Задача машинного обучения, его виды и их формальные постановки
Виды и типы сэмплирования и особенности их применения
Истинная размерность задачи, ограничения (JL-лемма) и способы определения
Анализ feature selection как статистической задачи
Особенности применения feature selection для оценки обучения GBDT
PCA и Kernel PCA
Общая схема ICA, эквивалентность независимости и нормальности
Projection pursuit, FastICA.
Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
LASSO + LARS.
Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
VC оценка обучения: размерность, механизм, критика
PAC обучаемость
KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
Постановка задачи обучения на последовательностях. HMM.
CRF. LSTM.
Collaborative filtering: самые простые модели и факторизация.
Категориальные факторы и их байесовское моделирование.
Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
Использование сэмплирования в ML. No free lunch theorem.
Варианты покоординатного спуска: EM, Gibbs sampling
Bayesian optimal classifier и его реализация в bagging
Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
Gradient Boosting. Тонкие места в построении деревьев решений
MLR: метрики, точечные попарные и списочные методы.
Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.

@@ Строка 26: / Строка 26: @@
 == Презентации: ==
-[[Медиа:Ml-1.pdf|Лекция №1. Введение в область.]]
-[[Медиа:Ml-5.pdf|Лекция №2. Сэмплирование.]]
+* [[Медиа:Ml-1.pdf|Лекция №1. Введение в область.]]
+* [[Медиа:Ml-5.pdf|Лекция №2. Сэмплирование.]]
+* [[Медиа:Ml-15.pdf|Лекция №3. Уменьшение размерности.]]
+** '''Задание:'''  определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".  <br> Можно не ограничиваться только теми методами, что были рассказаны.
+**[[Медиа:Wikipedia_2000_dump.xml.gz|Кусок википедии]]: документы, для которых нужно определить истинную размерность пространства.
+* [[Медиа:Ml-15-2.pdf|Лекция №4. Feature selection (последние слайдов 20).]]
+* [[Медиа:Ml-16.pdf|Лекция №5. Уменьшение размерности.]]
+** '''Задание:''' Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному. <br> Score определяется через RMSE от целевого значения. <br> Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи.
+**[[Медиа:Features.txt.gz| Данные для обучения.]]
+**[[Медиа:FeaturesTest.txt.gz| Данные для теста.]]
+* [[Медиа:Ml-8.pdf|Лекция №6. Автоматический feature selection.]]
+* [[Медиа:Ml-3.pdf|Лекция №7. Оценка методов обучения с учителем.]]
+* [[Медиа:Ml-23.pdf|Лекция №8. Генеративный подход к обучению на последовательностях.]]
+* [[Медиа:Ml-5-2.pdf|Лекция №9. И снова сэмплирование.]]
+== Вопросы к экзамену ==
+# Задача машинного обучения, его виды и их формальные постановки
+# Виды и типы сэмплирования и особенности их применения
+# Истинная размерность задачи, ограничения (JL-лемма) и способы определения
+# Анализ feature selection как статистической задачи
+# Особенности применения feature selection для оценки обучения GBDT
+# PCA и Kernel PCA
+# Общая схема ICA, эквивалентность независимости и нормальности
+# Projection pursuit, FastICA.
+# Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
+# LASSO + LARS.
+# Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
+# Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
+# VC оценка обучения: размерность, механизм, критика
+# PAC обучаемость
+# KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
+# Постановка задачи обучения на последовательностях. HMM.
+# CRF. LSTM.
+# Collaborative filtering: самые простые модели и факторизация.
+# Категориальные факторы и их байесовское моделирование.
+# Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
+# Использование сэмплирования в ML. No free lunch theorem.
+# Варианты покоординатного спуска: EM, Gibbs sampling
+# Bayesian optimal classifier и его реализация в bagging
+# Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
+# Gradient Boosting. Тонкие места в построении деревьев решений
+# MLR: метрики, точечные попарные и списочные методы.
+# Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.

Машинное обучение 2 осень 2017 — различия между версиями

Текущая версия на 04:58, 28 января 2018

Содержание

Семинар

План лекций:

Презентации:

Вопросы к экзамену

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты