StatisticalLearning 2014 — различия между версиями

Материал из SEWiki
Перейти к: навигация, поиск
(Группы по проектам)
(Материалы с практик)
Строка 19: Строка 19:
  
 
= Материалы с практик =
 
= Материалы с практик =
Сырая версия history от 5 и 19 сентября (скоро выложу в виде отформатированного конспекта) [[Файл:hist5sep.R.gz]] [[Файл:hist19sep.R.gz]]
+
Конспект [[Файл:Rcourse.pdf]] (черновик). Будет обновляться. Внутри все листинги и результат выполнения + какие-то комментарии.
Листинг для несостоявшегося занятия 26 сентября (будем с ним работать + еще немного) [[Файл:hist26sep.R.gz]]
+
 
 +
1. Сырая версия history от 5 и 19 сентября (выложил в виде отформатированного конспекта) [[Файл:hist5sep.R.gz]] [[Файл:hist19sep.R.gz]]
 +
2. Листинг для несостоявшегося занятия 26 сентября (будем с ним работать + еще немного) [[Файл:hist26sep.R.gz]]
 +
3. Задание с 3 октября [[Файл:Task2.pdf]], данные для задания [[Файл:data3oct.tar.gz]]
  
 
= Дедлайны =
 
= Дедлайны =

Версия 15:27, 4 октября 2014

Программа

Прочитанные лекции

  1. Введение. Что такое statistical learning. Примеры. (05.09) Файл:SL-01-SLIntro.pdf
  2. И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. (19.09) Файл:SL-02-Regression.pdf Домашнее задание Файл:Task 19sep.pdf (j(обновил файл, добавил новое задание-вопрос с лекции)
  3. Категориальные переменные в регрессии. Выбор информативных признаков (немного). (26.09) Файл:SL-03-Regression.pdf Файл:SL-Advertising.zip
  4. Классификация. Линейные методы. Логистическая регрессия. (03.10)

Возможные темы будущих лекций

  1. Регрессия. Выбросы, гетероскедастичность, high leverage points.
  2. Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes.
  3. Resampling: Кросс-валидация. Бутстреп.
  4. Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO, elastic net). Робастная регрессия.
  5. Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.
  6. Деревья. Bagging. Boosting.
  7. Support vector machines
  8. Unsupervised learning: PCA, кластеризация (k-means, иерархическая), model based clustering.

Материалы с практик

Конспект Файл:Rcourse.pdf (черновик). Будет обновляться. Внутри все листинги и результат выполнения + какие-то комментарии.

1. Сырая версия history от 5 и 19 сентября (выложил в виде отформатированного конспекта) Файл:Hist5sep.R.gz Файл:Hist19sep.R.gz 2. Листинг для несостоявшегося занятия 26 сентября (будем с ним работать + еще немного) Файл:Hist26sep.R.gz 3. Задание с 3 октября Файл:Task2.pdf, данные для задания Файл:Data3oct.tar.gz

Дедлайны

  • 10 октября - деление на группы по проектам
  • 24 октября - финализация темы проекта
  • TBA - презентации проектов

Группы по проектам

  • Герман Демидов
  • Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег
  • ...

Результаты и итоги

Литература

Основная

  1. Hadley Wickham: "Advanced R" [1] - Достаточно краткое, но исчерпывающее руководство от очень известного R-гуру, автора множества пакетов
  2. Patrick Burns: "The R Inferno" [2] - "Ад R", потенциальные ошибки при программировании на R и способы их избежать. Рекомендуется к чтению после некоторого опыта в R
  3. Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: "An Introduction to Statistical Learning (with Applications in R)" [3] - ISL, введение в SL с примерами, основное пособие курса
  4. Trevor Hastie, Robert Tibshirani, Jerome Friedman: "The Elements of Statistical Learning"[4] - ESL, для тех, кому предыдущая книга покажется недостаточно подробной и глубокой. Больше теории и шире охват, но гораздо сложнее и нет примеров кода

Дополнительная

  1. [5] - Сайт lattice
  2. Sarkar, Deepayan: "Lattice. Multivariate Data Visualization with R" [6] - Исчерпывающий обзор графической системы "lattice" с примерами использования
  3. [7] - Сайт ggplot2
  4. Winston Chang: "R Graphics Cookbook" [8] - Введение в ggplot и рецепты
  5. Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [9] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
  6. Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [10] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)