Анализ данных NGS

В рамках этого курса студенты узнают о различных применениях Next Generation Sequencing и анализе больших объемов данных секвенирования. В курсе будут рассмотрены несколько алгоритмов, специфичных для анализа данных NGS, которые не включены в базовый курс “Алгоритмы в биоинформатике”. В домашних заданиях студентам будет предложен самостоятельный анализ реальных данных. Студенты должны будут научиться работать на сервере, запускать существующие популярные биоинформатические утилиты, писать собственные скрипты для анализа данных и, главное, понимать и интерпретировать получаемые результаты.

Программа курса:

1. Введение в NGS

Краткая история секвенирования; современные применения NGS; биоинформатические задачи, решаемые при анализе данных NGS; платформы секвенирования; форматы данных; простейшие скрипты для анализа данных; анализ данных с помощью FastQC.

2. Выравнивание ридов

Задача выравнивания коротких ридов на референсный геном; Bowtie; SAM файлы; преобразование Барроуза-Вилера; анализ ридов технологии Illumina.

3. Выравнивание ридов - 2

Bowtie2; BWA-SW; Выравнивание более длинных ридов (IonTorrent, Roche 454).

4. Исправление ошибок в ридах

Исправление ошибок в ридах технологии Illumina; утилита Quake; альтернативные методы исправления ошибок.

5. Сборка генома

Задача сборки генома; граф де Брюйна; геномный ассемблер Velvet.

6. Оценка качества сборки генома

Nucmer; QUAST; BLAST и NCBI; анализ длинных геномных последовательностей; Genmark.

7. Секвенирование РНК

Сборка транскриптома с нуля; Trinity; оценка экспрессии генов по референсному геному; Cufflinks.


Материалы курса