StatisticalLearning 2014 — различия между версиями

Материал из SEWiki
Перейти к: навигация, поиск
м (Материалы с практик)
м
 
(не показано 30 промежуточных версий 4 участников)
Строка 7: Строка 7:
 
# Классификация. Линейные методы. Логистическая регрессия. ''(03.10)'' [[Файл:SL-04-Classification.pdf]]
 
# Классификация. Линейные методы. Логистическая регрессия. ''(03.10)'' [[Файл:SL-04-Classification.pdf]]
 
# Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. ''(10.10)'' [[Файл:SL-04-Classification.pdf]]
 
# Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. ''(10.10)'' [[Файл:SL-04-Classification.pdf]]
 +
# Resampling: Кросс-валидация. Бутстреп. ''(17.10)'' [[Файл:SL-05-CVBoot.pdf]]
 +
# Feature extraction: Principal Component Analysis. ''(24.10)'' [[Файл:SL-06-PCA.pdf]]
 +
# Кластеризация (k-means, иерархическая, model based clustering) ''(31.10)'' [[Файл:SL-07-Clustering.pdf]]
 +
# Снова о подборе линейной модели. Best subset selection. Forward / backward selection. AIC, BIC, Adjusted RSS, Mallow's C_p. Регуляризация (ridge regression, LASSO). ''(21.11)'' [[Файл:SL-08-ModelSelection.pdf]]
 +
# Support vector machines ''(28.11)'' [[Файл:SL-09-SVM.pdf]]
 +
# Деревья. ''(05.12, 12.12)'' [[Файл:SL-10-Trees.pdf]]
 +
# Нелинейности [[Файл:SL-11-Nonlinear.pdf]]
  
 
== Возможные темы будущих лекций ==
 
== Возможные темы будущих лекций ==
  
 
# Регрессия. Выбросы, гетероскедастичность, high leverage points.
 
# Регрессия. Выбросы, гетероскедастичность, high leverage points.
# Resampling: Кросс-валидация. Бутстреп.
+
# Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO). Робастная регрессия.
# Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO, elastic net). Робастная регрессия.
+
 
# Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.
 
# Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.
# Деревья. Bagging. Boosting.
+
 
# Support vector machines
+
# Unsupervised learning: PCA, кластеризация (k-means, иерархическая), model based clustering.
+
  
 
= Материалы с практик =
 
= Материалы с практик =
Строка 27: Строка 31:
 
# Задание с 3 октября [[Файл:Task2.pdf]], данные для задания [[Файл:data3oct.tar.gz]]
 
# Задание с 3 октября [[Файл:Task2.pdf]], данные для задания [[Файл:data3oct.tar.gz]]
 
# Задание с 10 октября [[Файл:Task3.pdf]], данные для задания [[Файл:data10oct.tar.gz]]
 
# Задание с 10 октября [[Файл:Task3.pdf]], данные для задания [[Файл:data10oct.tar.gz]]
 +
# Задание с 17 октября (обновил файл, добавил комментарий) [[Файл:Task4.pdf]], данные из демонстрации [[Файл:data17oct.tar.gz]]
 +
# Задание с 24 октября [[Файл:Task5.pdf]]
 +
# Задание с 28 ноября [[Файл:Task6.pdf]], данные [[Файл:data28nov.tar.gz]]
  
 
= Дедлайны =
 
= Дедлайны =
Строка 34: Строка 41:
  
 
= Группы по проектам =
 
= Группы по проектам =
* Герман Демидов
+
* Герман Демидов *
* Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег
+
* Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег *
* Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова.
+
* Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова *
 +
* Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат *
 +
----
 
* Павел Авдеев, Татьяна Малыгина, Анна Лиознова, Надия Ситдыкова *
 
* Павел Авдеев, Татьяна Малыгина, Анна Лиознова, Надия Ситдыкова *
* Комаров Александр, Крыщенко Антон, Тураев Тимур, Устюжанина Екатерина
+
* Андроник Ордиян, Аркадий Калакуцкий, Богдан Бугаев, Денис Жарков *
* Андроник Ордиян, Аркадий Калакуцкий, Богдан Бугаев, Денис Жарков
+
* Аманов, Крыщенко Антон, Тураев Тимур, Устюжанина Екатерина *
* Антон Иванов, Гончарова Ирина
+
* Атамась, Обедин, Лучихин, Афанасьев *
* Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат
+
* Коваленко, Ворончихин, Овчинников, Цветков *
  * --- тема проекта выбрана и согласована
+
----
 +
* Антон Иванов, Гончарова Ирина, Жирков Игорь *
  
 
= Результаты и итоги =
 
= Результаты и итоги =
Строка 60: Строка 70:
 
# Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [http://amzn.com/0387981403?tag=ggplot2-20] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
 
# Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [http://amzn.com/0387981403?tag=ggplot2-20] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
 
#  Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [http://shop.oreilly.com/product/0636920021421.do] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)
 
#  Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [http://shop.oreilly.com/product/0636920021421.do] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)
 +
 +
 +
[[Category:6 курс. Осень 2014]]

Текущая версия на 12:49, 15 февраля 2015

Программа

Прочитанные лекции

  1. Введение. Что такое statistical learning. Примеры. (05.09) Файл:SL-01-SLIntro.pdf
  2. И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. (19.09) Файл:SL-02-Regression.pdf
  3. Категориальные переменные в регрессии. Выбор информативных признаков (немного). (26.09) Файл:SL-03-Regression.pdf Файл:SL-Advertising.zip
  4. Классификация. Линейные методы. Логистическая регрессия. (03.10) Файл:SL-04-Classification.pdf
  5. Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. (10.10) Файл:SL-04-Classification.pdf
  6. Resampling: Кросс-валидация. Бутстреп. (17.10) Файл:SL-05-CVBoot.pdf
  7. Feature extraction: Principal Component Analysis. (24.10) Файл:SL-06-PCA.pdf
  8. Кластеризация (k-means, иерархическая, model based clustering) (31.10) Файл:SL-07-Clustering.pdf
  9. Снова о подборе линейной модели. Best subset selection. Forward / backward selection. AIC, BIC, Adjusted RSS, Mallow's C_p. Регуляризация (ridge regression, LASSO). (21.11) Файл:SL-08-ModelSelection.pdf
  10. Support vector machines (28.11) Файл:SL-09-SVM.pdf
  11. Деревья. (05.12, 12.12) Файл:SL-10-Trees.pdf
  12. Нелинейности Файл:SL-11-Nonlinear.pdf

Возможные темы будущих лекций

  1. Регрессия. Выбросы, гетероскедастичность, high leverage points.
  2. Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO). Робастная регрессия.
  3. Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.


Материалы с практик

Конспект Файл:Rcourse.pdf (черновик). Будет обновляться. Внутри все листинги и результат выполнения + какие-то комментарии.

Результаты проверки заочных домашних заданий: Dropbox

  1. Сырая версия history от 5 и 19 сентября (выложил в виде отформатированного конспекта) Файл:Hist5sep.R.gz Файл:Hist19sep.R.gz. Домашнее задание Файл:Task 19sep.pdf
  2. Листинг для несостоявшегося занятия 26 сентября (будем с ним работать + еще немного) Файл:Hist26sep.R.gz
  3. Задание с 3 октября Файл:Task2.pdf, данные для задания Файл:Data3oct.tar.gz
  4. Задание с 10 октября Файл:Task3.pdf, данные для задания Файл:Data10oct.tar.gz
  5. Задание с 17 октября (обновил файл, добавил комментарий) Файл:Task4.pdf, данные из демонстрации Файл:Data17oct.tar.gz
  6. Задание с 24 октября Файл:Task5.pdf
  7. Задание с 28 ноября Файл:Task6.pdf, данные Файл:Data28nov.tar.gz

Дедлайны

  • 10 октября - деление на группы по проектам
  • 24 октября - финализация темы проекта
  • TBA - презентации проектов

Группы по проектам

  • Герман Демидов *
  • Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег *
  • Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова *
  • Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат *

  • Павел Авдеев, Татьяна Малыгина, Анна Лиознова, Надия Ситдыкова *
  • Андроник Ордиян, Аркадий Калакуцкий, Богдан Бугаев, Денис Жарков *
  • Аманов, Крыщенко Антон, Тураев Тимур, Устюжанина Екатерина *
  • Атамась, Обедин, Лучихин, Афанасьев *
  • Коваленко, Ворончихин, Овчинников, Цветков *

  • Антон Иванов, Гончарова Ирина, Жирков Игорь *

Результаты и итоги

Литература

Основная

  1. Hadley Wickham: "Advanced R" [1] - Достаточно краткое, но исчерпывающее руководство от очень известного R-гуру, автора множества пакетов
  2. Patrick Burns: "The R Inferno" [2] - "Ад R", потенциальные ошибки при программировании на R и способы их избежать. Рекомендуется к чтению после некоторого опыта в R
  3. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: "An Introduction to Statistical Learning (with Applications in R)" [3] - ISL, введение в SL с примерами, основное пособие курса
  4. Trevor Hastie, Robert Tibshirani, Jerome Friedman: "The Elements of Statistical Learning"[4] - ESL, для тех, кому предыдущая книга покажется недостаточно подробной и глубокой. Больше теории и шире охват, но гораздо сложнее и нет примеров кода

Дополнительная

  1. [5] - Сайт lattice
  2. Sarkar, Deepayan: "Lattice. Multivariate Data Visualization with R" [6] - Исчерпывающий обзор графической системы "lattice" с примерами использования
  3. [7] - Сайт ggplot2
  4. Winston Chang: "R Graphics Cookbook" [8] - Введение в ggplot и рецепты
  5. Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [9] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
  6. Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [10] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)