Genome Query — различия между версиями

Версия 11:51, 15 марта 2011

   * Студент: Андрей Пржибельский
   * Руководитель: Николай Вяххи 
   * Страничка проекта: http://confluence.jetbrains.net/display/GQRY/Genome+Query
   * Note: проект является командным, но в данной страничке описана в основном моя часть.

Описание: Основной задачей является создание веб-сервиса для поиска различных данных по геному человека. Основная функциональность включает поиск последовательностей нуклеотидов в геноме с различными опциями (поиск в хромосомах, генах, интронах/экзона, в заданных позициях), возможность просмотра различных генов и информации о них. Моей частью в данном проекте является разработка и реализация быстрых алгоритмов поиска.

Проделанная работа: За осенний семестр был разработан и реализован алгоритм, использующий индексацию блоков нуклеотидов в геноме.

Приемущества разработанного алгоритма: - Превосходство по времени поиска над реализованными в этом же проекте алгоритмом

Кнута-Морриса-Пратта и алгоритмами, использующими суффиксное дерево и суффиксный массив

- Превосходство по времени препроцессинга данных - Возможность поиска оптимального параметра -- размер индексируемого блока (остальные алгоритмы параметров не имеют) - Предложенная структура индексов занимает примерно 34-36 бит на нуклеотид, то есть около 13Гб для всего генома человека. Поэтому, так же как и суффиксный массив, данная структура не загружается в оперативную память, а читается с диска. Но в отличии от суффиксного массива, чтение из данной структуры производится последовательно, а не в произвольном порядке, что может существенно сказаться на производительности.

Возможные дальнейшие задачи: - Реализация неточного поиска с различными системами штрафов - Реализация алгоритмов определения - Реализация алгоритмов поиска по сжатым суффиксным массивам (CSA)

Genome Query — различия между версиями

Версия 11:51, 15 марта 2011

Навигация

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты

@@ Строка 10: / Строка 10: @@
 Приемущества разработанного алгоритма:
-    - Превосходство по времени поиска над реализованными в этом же проекте алгоритмом
+- Превосходство по времени поиска над реализованными в этом же проекте алгоритмом
   Кнута-Морриса-Пратта и алгоритмами, использующими суффиксное дерево и суффиксный массив
-    - Превосходство по времени препроцессинга данных
+- Превосходство по времени препроцессинга данных
-    - Возможность поиска оптимального параметра -- размер индексируемого блока
+- Возможность поиска оптимального параметра -- размер индексируемого блока
 (остальные алгоритмы параметров не имеют)
-    - Предложенная структура индексов занимает примерно 34-36 бит на нуклеотид, то есть
+- Предложенная структура индексов занимает примерно 34-36 бит на нуклеотид, то есть
 около 13Гб для всего генома человека. Поэтому, так же как и суффиксный массив, данная
 структура не загружается в оперативную память, а читается с диска. Но в отличии от
@@ Строка 23: / Строка 23: @@
 Возможные дальнейшие задачи:
-    - Реализация неточного поиска с различными системами штрафов
+- Реализация неточного поиска с различными системами штрафов
-    - Реализация алгоритмов определения
+- Реализация алгоритмов определения
-    - Реализация алгоритмов поиска по сжатым суффиксным массивам (CSA)
+- Реализация алгоритмов поиска по сжатым суффиксным массивам (CSA)