StatisticalLearning 2014 — различия между версиями
Материал из SEWiki
(→Материалы с практик) |
м |
||
(не показаны 24 промежуточные версии 4 участников) | |||
Строка 7: | Строка 7: | ||
# Классификация. Линейные методы. Логистическая регрессия. ''(03.10)'' [[Файл:SL-04-Classification.pdf]] | # Классификация. Линейные методы. Логистическая регрессия. ''(03.10)'' [[Файл:SL-04-Classification.pdf]] | ||
# Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. ''(10.10)'' [[Файл:SL-04-Classification.pdf]] | # Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. ''(10.10)'' [[Файл:SL-04-Classification.pdf]] | ||
+ | # Resampling: Кросс-валидация. Бутстреп. ''(17.10)'' [[Файл:SL-05-CVBoot.pdf]] | ||
+ | # Feature extraction: Principal Component Analysis. ''(24.10)'' [[Файл:SL-06-PCA.pdf]] | ||
+ | # Кластеризация (k-means, иерархическая, model based clustering) ''(31.10)'' [[Файл:SL-07-Clustering.pdf]] | ||
+ | # Снова о подборе линейной модели. Best subset selection. Forward / backward selection. AIC, BIC, Adjusted RSS, Mallow's C_p. Регуляризация (ridge regression, LASSO). ''(21.11)'' [[Файл:SL-08-ModelSelection.pdf]] | ||
+ | # Support vector machines ''(28.11)'' [[Файл:SL-09-SVM.pdf]] | ||
+ | # Деревья. ''(05.12, 12.12)'' [[Файл:SL-10-Trees.pdf]] | ||
+ | # Нелинейности [[Файл:SL-11-Nonlinear.pdf]] | ||
== Возможные темы будущих лекций == | == Возможные темы будущих лекций == | ||
# Регрессия. Выбросы, гетероскедастичность, high leverage points. | # Регрессия. Выбросы, гетероскедастичность, high leverage points. | ||
− | + | # Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO). Робастная регрессия. | |
− | # Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO | + | |
# Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM. | # Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM. | ||
− | + | ||
− | + | ||
− | + | ||
= Материалы с практик = | = Материалы с практик = | ||
Строка 28: | Строка 32: | ||
# Задание с 10 октября [[Файл:Task3.pdf]], данные для задания [[Файл:data10oct.tar.gz]] | # Задание с 10 октября [[Файл:Task3.pdf]], данные для задания [[Файл:data10oct.tar.gz]] | ||
# Задание с 17 октября (обновил файл, добавил комментарий) [[Файл:Task4.pdf]], данные из демонстрации [[Файл:data17oct.tar.gz]] | # Задание с 17 октября (обновил файл, добавил комментарий) [[Файл:Task4.pdf]], данные из демонстрации [[Файл:data17oct.tar.gz]] | ||
+ | # Задание с 24 октября [[Файл:Task5.pdf]] | ||
+ | # Задание с 28 ноября [[Файл:Task6.pdf]], данные [[Файл:data28nov.tar.gz]] | ||
= Дедлайны = | = Дедлайны = | ||
Строка 35: | Строка 41: | ||
= Группы по проектам = | = Группы по проектам = | ||
− | * Герман Демидов | + | * Герман Демидов * |
− | * Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег | + | * Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег * |
− | * Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова | + | * Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова * |
− | * | + | |
− | + | ||
− | + | ||
− | + | ||
* Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат * | * Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат * | ||
− | |||
---- | ---- | ||
− | * | + | * Павел Авдеев, Татьяна Малыгина, Анна Лиознова, Надия Ситдыкова * |
− | * | + | * Андроник Ордиян, Аркадий Калакуцкий, Богдан Бугаев, Денис Жарков * |
− | * Атамась, Обедин, Лучихин | + | * Аманов, Крыщенко Антон, Тураев Тимур, Устюжанина Екатерина * |
− | + | * Атамась, Обедин, Лучихин, Афанасьев * | |
+ | * Коваленко, Ворончихин, Овчинников, Цветков * | ||
+ | ---- | ||
+ | * Антон Иванов, Гончарова Ирина, Жирков Игорь * | ||
= Результаты и итоги = | = Результаты и итоги = | ||
Строка 66: | Строка 70: | ||
# Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [http://amzn.com/0387981403?tag=ggplot2-20] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики | # Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [http://amzn.com/0387981403?tag=ggplot2-20] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики | ||
# Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [http://shop.oreilly.com/product/0636920021421.do] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака) | # Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [http://shop.oreilly.com/product/0636920021421.do] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака) | ||
+ | |||
+ | |||
+ | [[Category:6 курс. Осень 2014]] |
Текущая версия на 12:49, 15 февраля 2015
Содержание
Программа
Прочитанные лекции
- Введение. Что такое statistical learning. Примеры. (05.09) Файл:SL-01-SLIntro.pdf
- И снова линейная регрессия. Оценивание. Проверка гипотез относительно коэффициентов. Доверительные интервалы для коэффициентов. (19.09) Файл:SL-02-Regression.pdf
- Категориальные переменные в регрессии. Выбор информативных признаков (немного). (26.09) Файл:SL-03-Regression.pdf Файл:SL-Advertising.zip
- Классификация. Линейные методы. Логистическая регрессия. (03.10) Файл:SL-04-Classification.pdf
- Классификация. Дискриминантный анализ. Понятие ROC-кривой, AUC. Naive Bayes. (10.10) Файл:SL-04-Classification.pdf
- Resampling: Кросс-валидация. Бутстреп. (17.10) Файл:SL-05-CVBoot.pdf
- Feature extraction: Principal Component Analysis. (24.10) Файл:SL-06-PCA.pdf
- Кластеризация (k-means, иерархическая, model based clustering) (31.10) Файл:SL-07-Clustering.pdf
- Снова о подборе линейной модели. Best subset selection. Forward / backward selection. AIC, BIC, Adjusted RSS, Mallow's C_p. Регуляризация (ridge regression, LASSO). (21.11) Файл:SL-08-ModelSelection.pdf
- Support vector machines (28.11) Файл:SL-09-SVM.pdf
- Деревья. (05.12, 12.12) Файл:SL-10-Trees.pdf
- Нелинейности Файл:SL-11-Nonlinear.pdf
Возможные темы будущих лекций
- Регрессия. Выбросы, гетероскедастичность, high leverage points.
- Снова о подборе линейной модели. Регуляризация (ridge regression, LASSO). Робастная регрессия.
- Нелинейности. Полиномиальная регрессия. Сплайны. Локальная регрессия. GAM.
Материалы с практик
Конспект Файл:Rcourse.pdf (черновик). Будет обновляться. Внутри все листинги и результат выполнения + какие-то комментарии.
Результаты проверки заочных домашних заданий: Dropbox
- Сырая версия history от 5 и 19 сентября (выложил в виде отформатированного конспекта) Файл:Hist5sep.R.gz Файл:Hist19sep.R.gz. Домашнее задание Файл:Task 19sep.pdf
- Листинг для несостоявшегося занятия 26 сентября (будем с ним работать + еще немного) Файл:Hist26sep.R.gz
- Задание с 3 октября Файл:Task2.pdf, данные для задания Файл:Data3oct.tar.gz
- Задание с 10 октября Файл:Task3.pdf, данные для задания Файл:Data10oct.tar.gz
- Задание с 17 октября (обновил файл, добавил комментарий) Файл:Task4.pdf, данные из демонстрации Файл:Data17oct.tar.gz
- Задание с 24 октября Файл:Task5.pdf
- Задание с 28 ноября Файл:Task6.pdf, данные Файл:Data28nov.tar.gz
Дедлайны
- 10 октября - деление на группы по проектам
- 24 октября - финализация темы проекта
- TBA - презентации проектов
Группы по проектам
- Герман Демидов *
- Бондарев Тимофей, Демидов Герман, Сидоров Святослав, Яснев Олег *
- Екатерина Старостина, Дмитрий Мелешко, Маргарита Аксешина, Елена Бушманова *
- Гайдай Игорь, Карташов Никита, Новокрещенов Константин, Хабибуллин Марат *
- Павел Авдеев, Татьяна Малыгина, Анна Лиознова, Надия Ситдыкова *
- Андроник Ордиян, Аркадий Калакуцкий, Богдан Бугаев, Денис Жарков *
- Аманов, Крыщенко Антон, Тураев Тимур, Устюжанина Екатерина *
- Атамась, Обедин, Лучихин, Афанасьев *
- Коваленко, Ворончихин, Овчинников, Цветков *
- Антон Иванов, Гончарова Ирина, Жирков Игорь *
Результаты и итоги
Литература
Основная
- Hadley Wickham: "Advanced R" [1] - Достаточно краткое, но исчерпывающее руководство от очень известного R-гуру, автора множества пакетов
- Patrick Burns: "The R Inferno" [2] - "Ад R", потенциальные ошибки при программировании на R и способы их избежать. Рекомендуется к чтению после некоторого опыта в R
- Gareth James, Daniela Witten, Trevor Hastie and Robert Tibshirani: "An Introduction to Statistical Learning (with Applications in R)" [3] - ISL, введение в SL с примерами, основное пособие курса
- Trevor Hastie, Robert Tibshirani, Jerome Friedman: "The Elements of Statistical Learning"[4] - ESL, для тех, кому предыдущая книга покажется недостаточно подробной и глубокой. Больше теории и шире охват, но гораздо сложнее и нет примеров кода
Дополнительная
- [5] - Сайт lattice
- Sarkar, Deepayan: "Lattice. Multivariate Data Visualization with R" [6] - Исчерпывающий обзор графической системы "lattice" с примерами использования
- [7] - Сайт ggplot2
- Winston Chang: "R Graphics Cookbook" [8] - Введение в ggplot и рецепты
- Hadley Wickham: "ggplot2: Elegant Graphics for Data Analysis" [9] - Книга от создателя ggplot, для тех, кто хочет разобраться с внутренним устройством пакета и проектировать собственные графики
- Q. Ethan McCallum, Stephen Weston: "Parallel R. Data Analysis in the Distributed World " [10] - Книга содержит исчерпывающую информацию о параллельном программировании на R (включая кластеры и облака)