Машинное обучение и анализ данных

Машинное обучение и анализ данных

Куратор направления

Направление рассчитано на подготовку специалистов по работе с "большими данными" (big data) и алгоритмами машинного обучения и искусственного интеллекта. В рамках данного направления учащиеся изучат методы работы с большими данными (например, показаниями датчиков, аудио- и видеозаписями, библиотеками изображений, сведениями о заказах, и так далее) и алгоритмы обучения различных систем. К задачам машинного обучения относятся: распознавание образов и речи, автоматический перевод, задача web ранжирования, оптимизации процессов и пр. Специалисты смогут научится решать задачи из совершенно разных областей, ориентируясь на описание и структуру данных.

Шпильман А.А.

 

На данном направлении необходимо сдать следующие курсы: 

Общедисциплинарные курсы
          Алгоритмы и структуры данных
          Теория вероятностей
          Математическая статистика
Обязательные специальные курсы
          Машинное обучение - теория и алгоритмы
          Распределённые вычисления (Hadoop, Mapreduce)
          Базы данных
          Параллельное программирование
Альтернативные (необязательные) курсы
          Машинное обучение и обработка данных на Python (pandas, sklearn)
          Машинное обучение на Java (Weka)
          Машинное обучение на R
          Deep learning
          Распознавание образов
          Информационный поиск
          Машинный перевод
          Методы оптимизации

 

Основные темы научно-исследовательскиx работ (НИР): 

Руководитель: Шпильман А.А.

  • NumCarPy
  • Определение характеристик клеток по микрофотографиям цитоскелета
  • Моделирование внутриклеточного броуновского движения
  • Анализ текста нескольких авторов
  • AutoPatch
  • Learning for learning (Stepik)

Узнать подробнее о данных темах Вы сможете здесь.


Руководитель: Куралёнок И. Е.

  • Выиграть соревнование по сжатию логов с помощью DictExpansion
  • Сделать term sharded поиск по wikipedia на оптимальных n-gramm’ах
  • Жадные регионы vs деревья
  • Оптимальное построение деревьев решений: log (n + 1) регуляризация, оценка дисперсии сверху, учет Stein paradox при вычислении среднего, линейные функции в листьях дерева, априорная дискретизация признаков
  • Категориальные признаки в построении деревьев: online features, другие свертки
  • Распределение как решающая функция: гаммы в листьях 
  • Факторизация матрицы dL/ds_{ij} для построения легкой решающей функции мультиклассификатора
  • Построение оптимального решающего конечного автомата с помощью нейронных сетей
  • Продуктовое моделирование задач BigData и динамическое построение оптимального плана исполнения

Узнать подробнее о данных темах Вы сможете здесь.