Машинное обучение 2 осень 2017 — различия между версиями
Материал из SEWiki
(не показано 9 промежуточных версий 3 участников) | |||
Строка 26: | Строка 26: | ||
== Презентации: == | == Презентации: == | ||
− | |||
− | [[Медиа:Ml-5.pdf|Лекция №2. Сэмплирование.]] | + | * [[Медиа:Ml-1.pdf|Лекция №1. Введение в область.]] |
+ | |||
+ | * [[Медиа:Ml-5.pdf|Лекция №2. Сэмплирование.]] | ||
+ | |||
+ | * [[Медиа:Ml-15.pdf|Лекция №3. Уменьшение размерности.]] | ||
+ | ** '''Задание:''' определить истинную размерность пространства документов, если рассматривать их в модели "bag of words". <br> Можно не ограничиваться только теми методами, что были рассказаны. | ||
+ | **[[Медиа:Wikipedia_2000_dump.xml.gz|Кусок википедии]]: документы, для которых нужно определить истинную размерность пространства. | ||
+ | |||
+ | * [[Медиа:Ml-15-2.pdf|Лекция №4. Feature selection (последние слайдов 20).]] | ||
+ | |||
+ | * [[Медиа:Ml-16.pdf|Лекция №5. Уменьшение размерности.]] | ||
+ | ** '''Задание:''' Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному. <br> Score определяется через RMSE от целевого значения. <br> Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи. | ||
+ | **[[Медиа:Features.txt.gz| Данные для обучения.]] | ||
+ | **[[Медиа:FeaturesTest.txt.gz| Данные для теста.]] | ||
+ | |||
+ | * [[Медиа:Ml-8.pdf|Лекция №6. Автоматический feature selection.]] | ||
+ | * [[Медиа:Ml-3.pdf|Лекция №7. Оценка методов обучения с учителем.]] | ||
+ | * [[Медиа:Ml-23.pdf|Лекция №8. Генеративный подход к обучению на последовательностях.]] | ||
+ | * [[Медиа:Ml-5-2.pdf|Лекция №9. И снова сэмплирование.]] | ||
+ | |||
+ | |||
+ | == Вопросы к экзамену == | ||
+ | |||
+ | # Задача машинного обучения, его виды и их формальные постановки | ||
+ | # Виды и типы сэмплирования и особенности их применения | ||
+ | # Истинная размерность задачи, ограничения (JL-лемма) и способы определения | ||
+ | # Анализ feature selection как статистической задачи | ||
+ | # Особенности применения feature selection для оценки обучения GBDT | ||
+ | # PCA и Kernel PCA | ||
+ | # Общая схема ICA, эквивалентность независимости и нормальности | ||
+ | # Projection pursuit, FastICA. | ||
+ | # Вероятностная интерпретация MSE. Embedded методы в MDL постановке. | ||
+ | # LASSO + LARS. | ||
+ | # Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping | ||
+ | # Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO. | ||
+ | # VC оценка обучения: размерность, механизм, критика | ||
+ | # PAC обучаемость | ||
+ | # KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL. | ||
+ | # Постановка задачи обучения на последовательностях. HMM. | ||
+ | # CRF. LSTM. | ||
+ | # Collaborative filtering: самые простые модели и факторизация. | ||
+ | # Категориальные факторы и их байесовское моделирование. | ||
+ | # Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC | ||
+ | # Использование сэмплирования в ML. No free lunch theorem. | ||
+ | # Варианты покоординатного спуска: EM, Gibbs sampling | ||
+ | # Bayesian optimal classifier и его реализация в bagging | ||
+ | # Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost. | ||
+ | # Gradient Boosting. Тонкие места в построении деревьев решений | ||
+ | # MLR: метрики, точечные попарные и списочные методы. | ||
+ | # Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index. |
Текущая версия на 04:58, 28 января 2018
Семинар
Преподаватель: Кураленок И. Е.
План лекций:
- Введение в область
- Анализ задачи
- Сэмплирование и размерность задачи
- Уменьшение размерности: feature selection
- Уменьшение размерности: feature extraction
- Embedded модели на линейном примере (LASSO, LARS, etc.)
- Практическая оценка методов машинного обучения
- Теоретическая оценка
- Основные принципы построения целевых функций
- Необычные факторы в обучении
- Обучение на последовательностях
- Рекомендательные системы
- Построение целевых функций
- Введение в online обучение
- Несколько подходов к построению решающей функции
- Сэмплирование пространства решений и NFLT
- Введение в байесовское моделирование
- Сегментация пространства задачи (деревья, кластеризация, :))
- Ансамбли (BOC->Boosting)
- История решения одной практической задачи (MLR)
Презентации:
- Лекция №3. Уменьшение размерности.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
Можно не ограничиваться только теми методами, что были рассказаны. - Кусок википедии: документы, для которых нужно определить истинную размерность пространства.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
- Лекция №5. Уменьшение размерности.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
Score определяется через RMSE от целевого значения.
Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи. - Данные для обучения.
- Данные для теста.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
- Лекция №6. Автоматический feature selection.
- Лекция №7. Оценка методов обучения с учителем.
- Лекция №8. Генеративный подход к обучению на последовательностях.
- Лекция №9. И снова сэмплирование.
Вопросы к экзамену
- Задача машинного обучения, его виды и их формальные постановки
- Виды и типы сэмплирования и особенности их применения
- Истинная размерность задачи, ограничения (JL-лемма) и способы определения
- Анализ feature selection как статистической задачи
- Особенности применения feature selection для оценки обучения GBDT
- PCA и Kernel PCA
- Общая схема ICA, эквивалентность независимости и нормальности
- Projection pursuit, FastICA.
- Вероятностная интерпретация MSE. Embedded методы в MDL постановке.
- LASSO + LARS.
- Кроссвалидация, статистический подход к оценке jackknife оценки, bootstrapping
- Variance/Bias. Как определять, что делать. Объяснить переход от линейной модели к LASSO.
- VC оценка обучения: размерность, механизм, критика
- PAC обучаемость
- KL-divergence + ELB. Вывод, связь с другими величинами, примеры использования KL.
- Постановка задачи обучения на последовательностях. HMM.
- CRF. LSTM.
- Collaborative filtering: самые простые модели и факторизация.
- Категориальные факторы и их байесовское моделирование.
- Сэмплирование в \mathbb{R}^n по заданному распределению. MCMC
- Использование сэмплирования в ML. No free lunch theorem.
- Варианты покоординатного спуска: EM, Gibbs sampling
- Bayesian optimal classifier и его реализация в bagging
- Boosting на примере AdaBoost, отличия от bagging, теоретическая оценка сходимости AdaBoost.
- Gradient Boosting. Тонкие места в построении деревьев решений
- MLR: метрики, точечные попарные и списочные методы.
- Постановка задачи online обучения, бандиты. UCB, Thompson Sampling, Gittins index.