Data Science 2013

Материал из SEWiki
Перейти к: навигация, поиск

Лектор - Суворов Владимир Алексеевич (vladimir.suvorov@emc.com)

Лекции

Домашние задания

Домашнее задание 1

Скачать более 10 тыс записей с форума SQL.ru "просто треп" из ветки "ну что танковые задроты"

Продумать и реализовать механизм хранения этих записей в любой реляционной СУБД. (и собстно заполнить базу) Мин набор информации:

  • дата
  • автор
  • текст
  • цитирования


Мин. информация не является описанием названий полей а лишь предполагает что вы должны ее как то хранить. Также примите во внимание особенности реализации цитирования на форуме. Еще примите во внимание что так как будет делаться аналитика хранить можно приближенно (допускается некий процент ошибок парсинга)


При этом примите во внимание что при сдаче задания будут формулироваться запросы из реальной жизни, которые выливаются для вас в SQL запросы и может немножко кода


Примеры заданий:

Например: Тред - набор из исх сообщения и всего что его цитирует

  • Найти Среднее время жизни треда
  • Найти топ 10 активных пользователей
  • Определить ИС7 хороший или плохой танк
  • Определить самые частые слова в тредах
  • Построить график суточной активности

итд... (список четко не определен)


Смотреть буду на реализацию структуры базы и сам код парсера.

Также буду смотреть сколько заданий вы сможете исполнить на вашей базе. Поэтому пожалуйста не пихайте все в одну табличку и подумайте над возможными проблемами прежде чем писать.

Домашнее задание 2

Дамп доски


Список литературы

Ссылки

Recommender Systems - The Art and Science of Matching Items to Users Content recommendation on Yahoo! sites