Машинное обучение 2 осень 2017 — различия между версиями

Материал из SEWiki
Перейти к: навигация, поиск
(Презентации:)
 
(не показано 5 промежуточных версий 3 участников)
Строка 36: Строка 36:
  
 
* [[Медиа:Ml-15-2.pdf|Лекция №4. Feature selection (последние слайдов 20).]]
 
* [[Медиа:Ml-15-2.pdf|Лекция №4. Feature selection (последние слайдов 20).]]
 +
 +
* [[Медиа:Ml-16.pdf|Лекция №5. Уменьшение размерности.]]
 +
** '''Задание:''' Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному. <br> Score определяется через RMSE от целевого значения. <br> Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи.
 +
**[[Медиа:Features.txt.gz| Данные для обучения.]]
 +
**[[Медиа:FeaturesTest.txt.gz| Данные для теста.]]
 +
 +
* [[Медиа:Ml-8.pdf|Лекция №6. Автоматический feature selection.]]
 +
* [[Медиа:Ml-3.pdf|Лекция №7. Оценка методов обучения с учителем.]]
 +
* [[Медиа:Ml-23.pdf|Лекция №8. Генеративный подход к обучению на последовательностях.]]
 +
* [[Медиа:Ml-5-2.pdf|Лекция №9. И снова сэмплирование.]]
 +
 +
 +
== Вопросы к экзамену ==
 +
 +
# Задача машинного обучения, его виды и их формальные постановки
 +
# Виды и типы сэмплирования и особенности их применения
 +
# Истинная размерность задачи, ограничения (JL-лемма) и способы определения
 +
# Анализ feature selection как статистической задачи
 +
# Особенности применения feature selection для оценки обучения GBDT
 +
# PCA и Kernel PCA
 +
# Общая схема ICA, эквивалентность независимости и нормальности
 +
# Projection pursuit, FastICA.
 +
# Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
 +
# LASSO + LARS.
 +
# Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
 +
# Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
 +
# VC оценка обучения: размерность, механизм, критика
 +
# PAC обучаемость
 +
# KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
 +
# Постановка задачи обучения на последовательностях. HMM.
 +
# CRF. LSTM.
 +
# Collaborative filtering: самые простые модели и факторизация.
 +
# Категориальные факторы и их байесовское моделирование.
 +
# Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
 +
# Использование сэмплирования в ML. No free lunch theorem.
 +
# Варианты покоординатного спуска: EM, Gibbs sampling
 +
# Bayesian optimal classifier и его реализация в bagging
 +
# Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
 +
# Gradient Boosting. Тонкие места в построении деревьев решений
 +
# MLR: метрики, точечные попарные и списочные методы.
 +
# Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.

Текущая версия на 04:58, 28 января 2018

Семинар

Преподаватель: Кураленок И. Е.

План лекций:

  1. Введение в область
  2. Анализ задачи
    1. Сэмплирование и размерность задачи
    2. Уменьшение размерности: feature selection
    3. Уменьшение размерности: feature extraction
    4. Embedded модели на линейном примере (LASSO, LARS, etc.)
  3. Практическая оценка методов машинного обучения
  4. Теоретическая оценка
  5. Основные принципы построения целевых функций
  6. Необычные факторы в обучении
    1. Обучение на последовательностях
    2. Рекомендательные системы
  7. Построение целевых функций
  8. Введение в online обучение
  9. Несколько подходов к построению решающей функции
    1. Сэмплирование пространства решений и NFLT
    2. Введение в байесовское моделирование
    3. Сегментация пространства задачи (деревья, кластеризация,  :))
    4. Ансамбли (BOC->Boosting)
  10. История решения одной практической задачи (MLR)

Презентации:

  • Лекция №3. Уменьшение размерности.
    • Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
      Можно не ограничиваться только теми методами, что были рассказаны.
    • Кусок википедии: документы, для которых нужно определить истинную размерность пространства.


Вопросы к экзамену

  1. Задача машинного обучения, его виды и их формальные постановки
  2. Виды и типы сэмплирования и особенности их применения
  3. Истинная размерность задачи, ограничения (JL-лемма) и способы определения
  4. Анализ feature selection как статистической задачи
  5. Особенности применения feature selection для оценки обучения GBDT
  6. PCA и Kernel PCA
  7. Общая схема ICA, эквивалентность независимости и нормальности
  8. Projection pursuit, FastICA.
  9. Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
  10. LASSO + LARS.
  11. Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
  12. Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
  13. VC оценка обучения: размерность, механизм, критика
  14. PAC обучаемость
  15. KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
  16. Постановка задачи обучения на последовательностях. HMM.
  17. CRF. LSTM.
  18. Collaborative filtering: самые простые модели и факторизация.
  19. Категориальные факторы и их байесовское моделирование.
  20. Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
  21. Использование сэмплирования в ML. No free lunch theorem.
  22. Варианты покоординатного спуска: EM, Gibbs sampling
  23. Bayesian optimal classifier и его реализация в bagging
  24. Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
  25. Gradient Boosting. Тонкие места в построении деревьев решений
  26. MLR: метрики, точечные попарные и списочные методы.
  27. Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.