StatisticalLearning 2014 — различия между версиями
Материал из SEWiki
(→Прочитанные лекции) |
|||
Строка 4: | Строка 4: | ||
# Введение. Что такое statistical learning. Примеры. ''(05.09)'' [[Файл:SL-01-SLIntro.pdf]] | # Введение. Что такое statistical learning. Примеры. ''(05.09)'' [[Файл:SL-01-SLIntro.pdf]] | ||
# И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. ''(19.09)'' [[Файл:SL-02-Regression.pdf]] Домашнее задание [[Файл:task_19sep.pdf]] (j(обновил файл, добавил новое задание-вопрос с лекции) | # И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. ''(19.09)'' [[Файл:SL-02-Regression.pdf]] Домашнее задание [[Файл:task_19sep.pdf]] (j(обновил файл, добавил новое задание-вопрос с лекции) | ||
+ | # Категориальные переменные в регрессии. Выбор информативных признаков (немного). ''(26.09)'' [[Файл:SL-03-Regression.pdf]] [[Файл:SL-Advertising.zip]] | ||
== Возможные темы будущих лекций == | == Возможные темы будущих лекций == | ||
− | # | + | # Регрессия. Выбросы, гетероскедастичность, high leverage points. |
# Классификация. Линейные методы. Логистическая регрессия. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. | # Классификация. Линейные методы. Логистическая регрессия. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. | ||
# Resampling: Кросс-валидация. Бутстреп. | # Resampling: Кросс-валидация. Бутстреп. |
Версия 19:50, 29 сентября 2014
Содержание
Программа
Прочитанные лекции
- Введение. Что такое statistical learning. Примеры. (05.09) Файл:SL-01-SLIntro.pdf
- И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. (19.09) Файл:SL-02-Regression.pdf Домашнее задание Файл:Task 19sep.pdf (j(обновил файл, добавил новое задание-вопрос с лекции)
- Категориальные переменные в регрессии. Выбор информативных признаков (немного). (26.09) Файл:SL-03-Regression.pdf Файл:SL-Advertising.zip
Возможные темы будущих лекций
- Регрессия. Выбросы, гетероскедастичность, high leverage points.
- Классификация. Линейные методы. Логистическая регрессия. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes.
- Resampling: Кросс-валидация. Бутстреп.
- Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO, elastic net). Робастная регрессия.
- Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.
- Деревья. Bagging. Boosting.
- Support vector machines
- Unsupervised learning: PCA, кластеризация (k-means, иерархическая), model based clustering.
Материалы с практик
Сырая версия history от 5 и 19 сентября (скоро выложу в виде отформатированного конспекта) Файл:Hist5sep.R.gz Файл:Hist19sep.R.gz
Результаты и итоги
Литература
Основная
- Hadley Wickham: "Advanced R" [1] - Достаточно краткое, но исчерпывающее руководство от очень известного R-гуру, автора множества пакетов
- Patrick Burns: "The R Inferno" [2] - "Ад R", потенциальные ошибки при программировании на R и способы их избежать. Рекомендуется к чтению после некоторого опыта в R
- Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: "An Introduction to Statistical Learning (with Applications in R)" [3] - ISL, введение в SL с примерами, основное пособие курса
- Trevor Hastie, Robert Tibshirani, Jerome Friedman: "The Elements of Statistical Learning"[4] - ESL, для тех, кому предыдущая книга покажется недостаточно подробной и глубокой. Больше теории и шире охват, но гораздо сложнее и нет примеров кода
Дополнительная
- [5] - Сайт lattice
- Sarkar, Deepayan: "Lattice. Multivariate Data Visualization with R" [6] - Исчерпывающий обзор графической системы "lattice" с примерами использования
- [7] - Сайт ggplot2
- Winston Chang: "R Graphics Cookbook" [8] - Введение в ggplot и рецепты
- Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [9] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
- Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [10] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)