Data Science 2013

Материал из SEWiki
Версия от 22:22, 7 ноября 2013; SemenMartynov (обсуждение | вклад) (Домашнее задание 2)

Перейти к: навигация, поиск

Лектор - Суворов Владимир Алексеевич (vladimir.suvorov@emc.com)

Лекции

Домашние задания

Домашнее задание 1

Скачать более 10 тыс записей с форума SQL.ru "просто треп" из ветки "ну что танковые задроты"

Продумать и реализовать механизм хранения этих записей в любой реляционной СУБД. (и собстно заполнить базу) Мин набор информации:

  • дата
  • автор
  • текст
  • цитирования


Мин. информация не является описанием названий полей а лишь предполагает что вы должны ее как то хранить. Также примите во внимание особенности реализации цитирования на форуме. Еще примите во внимание что так как будет делаться аналитика хранить можно приближенно (допускается некий процент ошибок парсинга)


При этом примите во внимание что при сдаче задания будут формулироваться запросы из реальной жизни, которые выливаются для вас в SQL запросы и может немножко кода


Примеры заданий:

Например: Тред - набор из исх сообщения и всего что его цитирует

  • Найти Среднее время жизни треда
  • Найти топ 10 активных пользователей
  • Определить ИС7 хороший или плохой танк
  • Определить самые частые слова в тредах
  • Построить график суточной активности

итд... (список четко не определен)


Смотреть буду на реализацию структуры базы и сам код парсера.

Также буду смотреть сколько заданий вы сможете исполнить на вашей базе. Поэтому пожалуйста не пихайте все в одну табличку и подумайте над возможными проблемами прежде чем писать.

Домашнее задание 2

Биржа Eve-online

  1. Ознакомится с принципом биржи ( https://wiki.eveonline.com/en/wiki/Market_guide)
  2. Скачать данные по бирже отсюда - http://eve-central.com/dumps/ (Качать лучше за продолжительный период - год например)
  3. Спарсить и Загрузить их куда захотите. Выбор того куда загрузите хорошо бы обосновать. ( пример куда можно грузить - реляц БД, R, Hive, что еще захотите)
  4. Построить базовые статистические метрики выбранного участка базы. Участок можно выбирать любой (Пример - торговля внутри дня, внутри недели, внутри месяца, по выходным..., торговля минералами, торговля пушками и.т.д) Базовые метрики - как минимум графики распределений и оценка параметров распределений. Выбранные метрики обосновать. Если что то очень нужное не выбрали то буду карать при сдаче =)
  5. Построить не менее 4 разумных не совсем тривиальных гипотез на тему свойств биржи или предложения по торговле (тривиальность это мой мягкий субъективный критерий - сорри) и статистически обосновать. Проверить на отдельном датасете.

Если сомневаетесь в тривиальности гипотезы пишите мне - я отвечу

P.S. Не забывайте про репрезентативность выборки - для анализа внутридневной торговли брать только один день НИЗЯ!!!!!

Дамп доски

Список литературы

Ссылки

Recommender Systems - The Art and Science of Matching Items to Users

Content recommendation on Yahoo! sites