ngs: the basics · next generation sequencing massively parallel sequencing ... immobilized pcr on...
TRANSCRIPT
NGS: the basics
Human genome sequence
June 26th 2000: official announcement of the completion of the draft of the human genome sequence (truly finished in 2004)
Costs:HGP:
3 billion $15 years
Celera:200 million $
2 years
Craig VenterFrancis Collins
Next-Generation Sequencing (NGS): Slashing costs
Next generation sequencing Massively parallel sequencing
Key: direct sequencing of DNA without the bacterial cloning step:
1. From colonies to poloniesImmobilized PCR on solid support
Flow cell or beads (emPCR)
2. Single molecule sequencingVoir Claude Thermes
Library preparation
LM-PCR to allow single molecule amplification
Clonal amplification of single molecules
Emulsion PCR on beads(454, Ion Torrent)
Ion Torrent: Natural Chemistry
Fast Direct Detection
Nucleotides flow sequentially over Ion semiconductor chipDirect detection of natural DNA extensionA few seconds per incorporation
Sensor Plate
Silicon SubstrateDrain SourceBulk
dNTP
To column receiver
∆ pH
∆ Q
∆ V
Sensing Layer
H+
Rothberg J.M. et al Nature doi:10.1038/nature10242
Scalable Semiconductor Technology
WaferSemiconductor Manufacturing
ChipSemiconductor Packaging
Chip Cross Section
Semiconductor Design
Illumina amplification step on a flow cell
Sequencing by synthesis
CRT: cyclic reversible termination
Illumina
Direct in situ sequencing of polonies
A C
TG
MiSeq : 300 nt reads (15x106 per run)
NextSeq : 150 nt reads (400x106 per run)
HiSeq2500/3000/4000 : 100 – 150 nt reads (≈2x109 per run)
Illumina sequencers
The 2016 winning technologies
IlluminaPoloniesSeveral 100 million readsA few 100 bp longError rate ~0.1%
Oxford nanoporesSingle moleculesA few 10,000 readsSeveral 10,000 bp longError rate ~10%
Impact of costs decreases
Collecte des échantillons et design de l’expérience
SéquençageGestion DonnéesRéduction Données Analyses des données
100%
0%
Pre-NGS (2000) 2010 2020
Plan d’expérienceStratégie de construction des banques
Grands types d’applications
Séquençage de novo de génomes Biologie de l’évolution Ouverture de l’éventail des modèles biologiques Diversité du vivant devient accessible à la biologie
moléculaire Caractérisation de la variabilité dans une
population Caractérisation de la diversité des espèces
dans l’environnement Caractérisation des mécanismes
d’interprétation de l’information génomique
DNA-seq Libraries
Genomic DNA
Size selection
Sonication
Illumina TruSeq technology
End repair
Phosphorylation
A - overhang
Primer 1: complementary to R
Primer 2: equivalent to R
Ligate Y-adaptors
PCR
AA
AT
TA
PCRamplification
Double StrandedY-adapter method library
Y adapterligation
3’ endadenylation
endpolishing
endPolishing
P adapterligation
3’ extension and nick repair
Double StrandedBlunt-End method library
Strand denaturationend dephosphorylation
starting DNA fragment
biotinylated single strand adapterligation
primer extension
double strandedadapter ligation
strand separationby denaturation
Single Strandedmethod library
endpolishing
PCRamplification
TA
AT
PCRamplification
Nextera “tagmentation”
Tagmentation
Dual barcode approach
up to 96 indexedsamples
Tagment Enzyme fragments DNA and attaches junction adapters (blueand green) to both ends of the tagmented molecule
rapid ( 2-4 hours) and requires small quantities (50 ng)
Transposomes / Tagment Enzyme
DNA-seq Libraries
RNA-seq Libraries
Paired end sequencing
1rst read 2d read1rst barcode 2d barcode
“Classical” Illumina mate pair library
Problems :• low coverage• few fragments, over-amplified
several kilobases
Circularisation
Fragmentation, purification, adaptor ligation
Paired end sequencing
A new method : Nextera Mate Pair
Tagment Enzyme fragments DNA and attaches a biotinylated junctionadapter (green) to both ends of the tagmented molecule
circularization
Fragmentation enrichment via the biotin tag
adapters ligation at both ends
More than 50 NGS applications
Caractérisation des mécanismes d’interprétation de l’information génomique
Conformation du chromosome, higher orderchromatin structure
Organisation nucléosomale Méthylation de l’ADN et autres modifications Liaison des facteurs de transcription Réplication de l’ADN Transcription nucléaire, conformation des ARN,
interaction ARN-protéines ARN sous toutes ses formes, petits, grands,
épissage alternatif, sens-antisens, codant-non codant, compartimentation cellulaire, transport, traduction, modification, dégradation
Une multiplicité d’approches pour analyser presque tous les niveaux d’organisation et d’expression du génome
Impact of costs decreases
Collecte des échantillons et design de l’expérience
SéquençageGestion DonnéesRéduction Données Analyses des données
100%
0%
Pre-NGS (2000) 2010 2020
Enjeu majeur
Quelques enjeux de l’analyse des données NGS
Va concerner des pans entiers de la biologie qui en seront transformés
Va concerner un très grand nombre de biologistes: problème de la formation et de l’interdisciplinarité
Il va falloir traiter des volumes de données dont l’expansion actuelle est énorme
Il va falloir intégrer des données hétérogènes
Quelques considérations clefs
Diversification et complexification des analyses bioinfo accompagnent la diversification des applications du NGS
L’analyse initiale (préliminaire) des données est plus homogène, et est maintenant bien intégrée dans des environnements conviviaux (Prêt à porter)
L’analyse plus poussée des données demandera pendant encore longtemps du « sur mesure ».
Plus vous maitriserez la compréhension des outils d’analyse, plus vous pourrez monter vos plans d’expérience de façon adaptée, et plus vous pourrez interagir de façon productive avec les bioinformaticiens pour avoir un « sur mesure » qui vous sied bien.