Data Science 2013 — различия между версиями
(→Ссылки) |
(→Ссылки) |
||
Строка 48: | Строка 48: | ||
== Ссылки == | == Ссылки == | ||
[http://www.youtube.com/watch?v=bRzOBGLCRbc Recommender Systems - The Art and Science of Matching Items to Users] | [http://www.youtube.com/watch?v=bRzOBGLCRbc Recommender Systems - The Art and Science of Matching Items to Users] | ||
+ | |||
[http://www.youtube.com/watch?v=RzdyNC2Ut5A Content recommendation on Yahoo! sites ] | [http://www.youtube.com/watch?v=RzdyNC2Ut5A Content recommendation on Yahoo! sites ] |
Версия 20:39, 7 ноября 2013
Лектор - Суворов Владимир Алексеевич (vladimir.suvorov@emc.com)
Содержание
Лекции
Домашние задания
Домашнее задание 1
Скачать более 10 тыс записей с форума SQL.ru "просто треп" из ветки "ну что танковые задроты"
Продумать и реализовать механизм хранения этих записей в любой реляционной СУБД. (и собстно заполнить базу) Мин набор информации:
- дата
- автор
- текст
- цитирования
Мин. информация не является описанием названий полей а лишь предполагает что вы должны ее как то хранить.
Также примите во внимание особенности реализации цитирования на форуме. Еще примите во внимание что так как будет делаться аналитика хранить можно приближенно (допускается некий процент ошибок парсинга)
При этом примите во внимание что при сдаче задания будут формулироваться запросы из реальной жизни, которые выливаются для вас в SQL запросы и может немножко кода
Примеры заданий:
Например: Тред - набор из исх сообщения и всего что его цитирует
- Найти Среднее время жизни треда
- Найти топ 10 активных пользователей
- Определить ИС7 хороший или плохой танк
- Определить самые частые слова в тредах
- Построить график суточной активности
итд... (список четко не определен)
Смотреть буду на реализацию структуры базы и сам код парсера.
Также буду смотреть сколько заданий вы сможете исполнить на вашей базе. Поэтому пожалуйста не пихайте все в одну табличку и подумайте над возможными проблемами прежде чем писать.
Домашнее задание 2
Список литературы
Ссылки
Recommender Systems - The Art and Science of Matching Items to Users