генома Немного о сборке - lektorium.tv · "de novo assembly and genotyping...
TRANSCRIPT
![Page 1: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/1.jpg)
Немного о сборке генома
Антон Банкевич Сергей Нурк
Лаборатория вычислительной биологии АУ РАН
http://bioinf.spbau.ru
![Page 2: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/2.jpg)
Введение
![Page 3: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/3.jpg)
Секвенирование ДНК
![Page 4: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/4.jpg)
Секвенирование ДНК
![Page 5: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/5.jpg)
Задача сборки
Получить последовательности нуклеотидов (контиги), которые:○ являются фрагментами генома○ подлиннее○ имеют поменьше перекрытий○ получше покрывают геном
![Page 6: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/6.jpg)
Как написать ассемблер за выходные
![Page 7: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/7.jpg)
Граф де Брёйна
![Page 8: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/8.jpg)
Граф де Брёйна
○ k-мер: последовательность из k нуклеотидов
○ Вершины графа де Брёйна: все k-меры○ Рёбра графа де Брёйна: все (k+1)-меры○ Ребро e соединяет префикс и суффикс e
![Page 9: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/9.jpg)
Граф де Брёйна
AAGACTCGACTCCGTCCGACTGACTGGGTGGGACTGGACTTT
K=3
![Page 10: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/10.jpg)
K имеет значение!
![Page 11: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/11.jpg)
ALUдлина: 300кратность: 1000000
Проблема повторов
![Page 12: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/12.jpg)
Парные риды
![Page 13: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/13.jpg)
Разрешение повторов
![Page 14: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/14.jpg)
Парный граф де Брёйна
![Page 15: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/15.jpg)
○ Вершины парного графа де Брёйна: все пары k-меров на фиксированном расстоянии
○ Рёбра парного графа де Брёйна: все пары (k+1)-меров на фиксированном расстоянии
○ Ребро e соединяет пару префиксов e и пару суффиксов e
Парный граф де Брёйна
![Page 16: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/16.jpg)
Граф де Брюина
Парный граф де Брюина
![Page 17: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/17.jpg)
![Page 18: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/18.jpg)
○ Разброс расстояния○ Разрывы в покрытии ○ Ошибки секвенирования○ Проблемы с ресурсами
○ память○ время
Некоторые проблемы
![Page 19: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/19.jpg)
Разброс расстояния
![Page 20: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/20.jpg)
Разброс расстояния
![Page 21: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/21.jpg)
Разрывы в покрытии
Покрытие конкретого (k+1)-мера — случайная величина.
Обычно приходится использовать k значительно меньше 100.
![Page 22: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/22.jpg)
Ошибки секвенирования
○ Тип и частота зависят от технологий ○ Предобработка ридов: Quake,
BayesHammer○ Неисправленные ошибки превращаются в
лишние ребра в графе
![Page 23: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/23.jpg)
![Page 24: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/24.jpg)
tip
bulge
chimeric connection
![Page 25: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/25.jpg)
Можно потратить больше времени...
○ Velvet○ IDBA○ SOAP-denovo ○ Ray ○ ABySS○ Allpaths○ EULER○ Minia
![Page 26: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/26.jpg)
SPAdes
![Page 27: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/27.jpg)
Single-cell секвенирование
○ Для секвенирования бактерии необходимо иметь значительное количество её клонов
○ Большинство бактерий невозможно клонировать в лабораторных условиях
○ Single-cell секвенирование позволяет увеличить количество ДНК не прибегая к клонированию
![Page 28: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/28.jpg)
MDA
![Page 29: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/29.jpg)
Покрытие генома ридами
![Page 30: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/30.jpg)
Борьба с разрывами
![Page 31: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/31.jpg)
Борьба с разрывами
![Page 32: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/32.jpg)
![Page 33: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/33.jpg)
Chimeric connections
![Page 34: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/34.jpg)
Chimeric connections
![Page 35: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/35.jpg)
Представление графа
○ Память○ Время
![Page 36: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/36.jpg)
Что нужно для построения графа де Брюина?
○ Возможность перебрать все k-меры○ Возможность найти соседей k-мера
Пример: Множество всех (k+1)-меров
![Page 37: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/37.jpg)
Фильтр Блума
![Page 38: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/38.jpg)
Вероятостный граф де Брюина
![Page 39: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/39.jpg)
Точное представление
![Page 40: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/40.jpg)
Хэширование без коллизий
![Page 41: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/41.jpg)
Хэширование без коллизий
Позволяет:○ Хранить информацию в массиве ○ Не хранить ключиНе позволяет:○ Проверять наличие элемента в
множествеТребует:○ Предварительного нахождения
уникальных k-меров
![Page 42: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/42.jpg)
Реализация графа де Брюйна
○ В хэш таблице хранятся все k-меры○ Для каждого k-мера хранятся все его
соседи (8 бит)
![Page 43: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/43.jpg)
Распределенное хранение
● Позволяет собрать что-то на кластере● На порядок медленнее● ABySS, Ray● K-меры распределяются по нодам в
соответствии с некоторым хэшем.
![Page 44: генома Немного о сборке - lektorium.tv · "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al. 3. "Scaling metagenome](https://reader035.vdocuments.us/reader035/viewer/2022062603/5f02672d7e708231d4041abc/html5/thumbnails/44.jpg)
1. "Genome Reconstruction: A Puzzle with a Billion Pieces", P. Compeau, P Pevzner
2. "De novo assembly and genotyping of variants using colored de Bruijn graphs", Zamin Iqubal et al.
3. "Scaling metagenome sequence assembly with probabilistic de Bruijn graphs", Jason Pell et al.
4. "Space-efficient and exact de Bruijn graph representation based on a Bloom filter", Rayan Chikhi, Guillaume Rizk
5. "External Perfect Hashing for Very Large Key Sets", Fabiano C. Botelho, Nivio Ziviani
6. http://bioinf.spbau.ru/en/spades
Ссылки