Машинное обучение 2 осень 2017 — различия между версиями
Материал из SEWiki
(→Презентации:) |
|||
Строка 41: | Строка 41: | ||
**[[Медиа:Features.txt.gz| Данные для обучения.]] | **[[Медиа:Features.txt.gz| Данные для обучения.]] | ||
**[[Медиа:FeaturesTest.txt.gz| Данные для теста.]] | **[[Медиа:FeaturesTest.txt.gz| Данные для теста.]] | ||
+ | |||
+ | * [[Медиа:Ml-8.pdf|Лекция №6. Автоматический feature selection.]] |
Версия 18:26, 15 октября 2017
Семинар
Преподаватель: Кураленок И. Е.
План лекций:
- Введение в область
- Анализ задачи
- Сэмплирование и размерность задачи
- Уменьшение размерности: feature selection
- Уменьшение размерности: feature extraction
- Embedded модели на линейном примере (LASSO, LARS, etc.)
- Практическая оценка методов машинного обучения
- Теоретическая оценка
- Основные принципы построения целевых функций
- Необычные факторы в обучении
- Обучение на последовательностях
- Рекомендательные системы
- Построение целевых функций
- Введение в online обучение
- Несколько подходов к построению решающей функции
- Сэмплирование пространства решений и NFLT
- Введение в байесовское моделирование
- Сегментация пространства задачи (деревья, кластеризация, :))
- Ансамбли (BOC->Boosting)
- История решения одной практической задачи (MLR)
Презентации:
- Лекция №3. Уменьшение размерности.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
Можно не ограничиваться только теми методами, что были рассказаны. - Кусок википедии: документы, для которых нужно определить истинную размерность пространства.
- Задание: определить истинную размерность пространства документов, если рассматривать их в модели "bag of words".
- Лекция №5. Уменьшение размерности.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.
Score определяется через RMSE от целевого значения.
Формат файлов такой: во второй колонке целевой сигнал, начиная с пятой - фичи. - Данные для обучения.
- Данные для теста.
- Задание: Из выданного датасета необходимо выделить 10 фичей на которых score будет ближе всего к оригинальному.