Машинное обучение 2 осень 2017
Материал из SEWiki
Семинар
Преподаватель: Кураленок И. Е.
План лекций:
- Введение в область
- Анализ задачи
- Сэмплирование и размерность задачи
- Уменьшение размерности: feature selection
- Уменьшение размерности: feature extraction
- Embedded модели на линейном примере (LASSO, LARS, etc.)
- Практическая оценка методов машинного обучения
- Теоретическая оценка
- Основные принципы построения целевых функций
- Необычные факторы в обучении
- Обучение на последовательностях
- Рекомендательные системы
- Построение целевых функций
- Введение в online обучение
- Несколько подходов к построению решающей функции
- Сэмплирование пространства решений и NFLT
- Введение в байесовское моделирование
- Сегментация пространства задачи (деревья, кластеризация, :))
- Ансамбли (BOC->Boosting)
- История решения одной практической задачи (MLR)
Презентации:
- Лекция №3. Уменьшение размерности.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
Можно не ограничиваться только теми методами, что были рассказаны. - Кусок википедии: документы, для которых нужно определить истинную размерность пространства.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
- Лекция №5. Уменьшение размерности.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
Score определяется через RMSE от целевого значения.
Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи. - Данные для обучения.
- Данные для теста.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
- Лекция №6. Автоматический feature selection.
- Лекция №7. Оценка методов обучения с учителем.
- Лекция №8. Генеративный подход к обучению на последовательностях.
- Лекция №9. И снова сэмплирование.
Вопросы к экзамену
- Задача машинного обучения, его виды и их формальные постановки
- Виды и типы сэмплирования и особенности их применения
- Истинная размерность задачи, ограничения (JL-лемма) и способы определения
- Анализ feature selection как статистической задачи
- Особенности применения feature selection для оценки обучения GBDT
- PCA и Kernel PCA
- Общая схема ICA, эквивалентность независимости и нормальности
- Projection pursuit, FastICA.
- Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
- LASSO + LARS.
- Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
- Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
- VC оценка обучения: размерность, механизм, критика
- PAC обучаемость
- KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
- Постановка задачи обучения на последовательностях. HMM.
- CRF. LSTM.
- Collaborative filtering: самые простые модели и факторизация.
- Категориальные факторы и их байесовское моделирование.
- Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
- Использование сэмплирования в ML. No free lunch theorem.
- Варианты покоординатного спуска: EM, Gibbs sampling
- Bayesian optimal classifier и его реализация в bagging
- Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
- Gradient Boosting. Тонкие места в построении деревьев решений
- MLR: метрики, точечные попарные и списочные методы.
- Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.