Машинное обучение и анализ данных

Машинное обучение и анализ данных

Куратор направления

Направление рассчитано на подготовку специалистов по работе с "большими данными" (big data) и алгоритмами машинного обучения и искусственного интеллекта. В рамках данного направления учащиеся изучат методы работы с большими данными (например, показаниями датчиков, аудио- и видеозаписями, библиотеками изображений, сведениями о заказах, и так далее) и алгоритмы обучения различных систем. К задачам машинного обучения относятся: распознавание образов и речи, автоматический перевод, задача web ранжирования, оптимизации процессов и пр. Специалисты смогут научится решать задачи из совершенно разных областей, ориентируясь на описание и структуру данных.

Шпильман А.А.

 

Список предметов на данном направлении:
(Посмотреть подробную схему с взаимосвязями между курсами Вы сможете здесь)

3 курс
          Теория оптимизации
          Статистика
          Введение в машинное обучение
          Обучение с подкреплением
4 курс
          Веб-поиск и ранжирование
          Глубинное обучение
          Продвинутые техники машинного обучения
          Обработка естественного языка
          Распознавание и генерация речи
          Анализ изображений
5 курс
          Графовые модели
          Большие данные
          Симуляторы и оптимизация моделей
          Представление знаний
          Многоагентные системы
          Вычислительная нейробиология
6 курс
          Моделирование пользователей
          Планирование
          Человеко-компьютерное взаимодействие
          Машинное обучения для программной инженерии
          Беспилотные автомобили

 

Основные темы научно-исследовательскиx работ (НИР): 

Руководитель: Шпильман А.А.

  • NumCarPy
  • Определение характеристик клеток по микрофотографиям цитоскелета
  • Моделирование внутриклеточного броуновского движения
  • Анализ текста нескольких авторов
  • AutoPatch
  • Learning for learning (Stepik)

Узнать подробнее о данных темах Вы сможете здесь.


Руководитель: Куралёнок И. Е.

  • Выиграть соревнование по сжатию логов с помощью DictExpansion
  • Сделать term sharded поиск по wikipedia на оптимальных n-gramm’ах
  • Жадные регионы vs деревья
  • Оптимальное построение деревьев решений: log (n + 1) регуляризация, оценка дисперсии сверху, учет Stein paradox при вычислении среднего, линейные функции в листьях дерева, априорная дискретизация признаков
  • Категориальные признаки в построении деревьев: online features, другие свертки
  • Распределение как решающая функция: гаммы в листьях 
  • Факторизация матрицы dL/ds_{ij} для построения легкой решающей функции мультиклассификатора
  • Построение оптимального решающего конечного автомата с помощью нейронных сетей
  • Продуктовое моделирование задач BigData и динамическое построение оптимального плана исполнения

Узнать подробнее о данных темах Вы сможете здесь.