Машинное обучение 2 осень 2017

Материал из SEWiki
Перейти к: навигация, поиск

Семинар

Преподаватель: Кураленок И. Е.

План лекций:

  1. Введение в область
  2. Анализ задачи
    1. Сэмплирование и размерность задачи
    2. Уменьшение размерности: feature selection
    3. Уменьшение размерности: feature extraction
    4. Embedded модели на линейном примере (LASSO, LARS, etc.)
  3. Практическая оценка методов машинного обучения
  4. Теоретическая оценка
  5. Основные принципы построения целевых функций
  6. Необычные факторы в обучении
    1. Обучение на последовательностях
    2. Рекомендательные системы
  7. Построение целевых функций
  8. Введение в online обучение
  9. Несколько подходов к построению решающей функции
    1. Сэмплирование пространства решений и NFLT
    2. Введение в байесовское моделирование
    3. Сегментация пространства задачи (деревья, кластеризация,  :))
    4. Ансамбли (BOC->Boosting)
  10. История решения одной практической задачи (MLR)

Презентации:

  • Лекция №3. Уменьшение размерности.
    • Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
      Можно не ограничиваться только теми методами, что были рассказаны.
    • Кусок википедии: документы, для которых нужно определить истинную размерность пространства.


Вопросы к экзамену

  1. Задача машинного обучения, его виды и их формальные постановки
  2. Виды и типы сэмплирования и особенности их применения
  3. Истинная размерность задачи, ограничения (JL-лемма) и способы определения
  4. Анализ feature selection как статистической задачи
  5. Особенности применения feature selection для оценки обучения GBDT
  6. PCA и Kernel PCA
  7. Общая схема ICA, эквивалентность независимости и нормальности
  8. Projection pursuit, FastICA.
  9. Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
  10. LASSO + LARS.
  11. Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
  12. Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
  13. VC оценка обучения: размерность, механизм, критика
  14. PAC обучаемость
  15. KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
  16. Постановка задачи обучения на последовательностях. HMM.
  17. CRF. LSTM.
  18. Collaborative filtering: самые простые модели и факторизация.
  19. Категориальные факторы и их байесовское моделирование.
  20. Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
  21. Использование сэмплирования в ML. No free lunch theorem.
  22. Варианты покоординатного спуска: EM, Gibbs sampling
  23. Bayesian optimal classifier и его реализация в bagging
  24. Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
  25. Gradient Boosting. Тонкие места в построении деревьев решений
  26. MLR: метрики, точечные попарные и списочные методы.
  27. Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.