Машинное обучение и анализ данных

Темы лекций

1. Введение в машиное обучение

  • Обучение с учителем
  • Обучение без учителя
  • Обучение с подкреплением

2. Методы визуализации и анализа

  • Гистограммы: одномерные, двумерные
  • Ящик с усами (box-plot)
  • Диаграмма рассеяния (Scatter Plot)
  • Корреляция и корреляционные графики
  • Параллельные координаты (Parallel Coordinates)
  • Радарный график (Radar chart)

3. Линейная регрессия и регуляризация

4. Алгоритмы классификации

  • Логистическая регрессия
  • Нейронные сети и алгоритм обратного распространения ошибок
  • Метод опорных векторов

5. Рекомендации по использованию алгоритмов машинного обучения

  • Выбор модели
  • Компромисc смещения-дисперсии (bias-variance trade-off)
  • Кривая обучения
  • Информационные критерии (AIC)

6. Кластеризация

  • Метод к-средних (k-means)
  • Иерархические методы
  • EM-алгоритм
  • Рекомендации по использованию методов кластеризации

7. Методы понижения размерности данных

  • Метод главных компонент (PCA)
  • Многомерное шкалирование (MDS)

8. Методы поиска аномалий данных

9. Рекомендательные системы

  • Пример системы, рекомендующей фильмы пользователю
  • Пример системы, рекомендующей объекты для кэширования в системе хранения данных

10. Методы работы с большими объемами данных на примере градиентного спуска

  • Стохастический градиентный спуск
  • Использование Map-Reduce

Практика

1. Введение в Octave

2. Работа на регрессию: по предоставленным данным необходимо спрогнозировать значение целевого фактора и оценить качество прогноза.

3. Работа по алгоритмам классификации:

  • необходимо обучить классификатор (логистическая регрессия, нейронная сеть) так, чтобы он распознавал изображенные на картинках символы
  • необходимо построить и обучить спам-классификатор, используя алгоритм SVM

4. Работа по кластеризации: необходимо реализовать метод к-средних и использовать его для

  • сжатия изображений
  • понижения размерности с помощью PCA и анализа предоставленного набора данных

5. Работа по поиску аномальных данных: по представленным наборам данных необходимо выявить выделяющиеся данные. Например, даны логи сетевой активности, требуется выявить всплески сетевой активности с целью обнаружения DoS-атак.