courssequenassemblagem1_2007
TRANSCRIPT
![Page 1: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/1.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille IICrédits: François Denizot, LCB-IBSM, CNRS
Séquençage – Assemblage
de Génomes…
![Page 2: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/2.jpg)
Projet de séquençage d’un génome
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Séquençage aléatoire Assemblage Annotation Data Release
Library construction
Colony picking
Template preparation
Sequencing reactions
Base calling
Sequence files
Library construction
Colony picking
Template preparation
Sequencing reactions
Base calling
Sequence files
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
Gene finding
Homology searches
Initial role assignments
Metabolic pathwaysGene families
Comparative genomics
Transcriptional/translational
regularory elementsRepetitive sequences
Gene finding
Homology searches
Initial role assignments
Metabolic pathwaysGene families
Comparative genomics
Transcriptional/translational
regularory elementsRepetitive sequences
Publication
Sample tracking
![Page 3: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/3.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Technologie de séquençage
Malgré de nombreuses tentatives de mise au pointde nouvelles méthodologies de séquençage d’ADN,c’est toujours la technique développée par F. Sangerqui est la plus utilisée:
Sanger F, Nicklen S, Coulson AR. (1977)DNA sequencing with chain-terminating inhibitors.Proc Natl Acad Sci U S A. 74: 5463-7.
![Page 4: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/4.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Principe:
Générer à partir d’une extrémité fixe tous les fragments d’ADN se terminant par une base donnée
Utilisation d’un oligonucléotide qui après hybridation à samatrice simple brin, sert d’amorce à une réaction de polymérisation enzymatique
![Page 5: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/5.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques rappels et illustrations
Cold Spring Harbor LaboratoryDolan DNA learning Centerhttp://www.dnalc.org/ddnalc/resources/sangerseq.html
![Page 6: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/6.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ddNTP fluorescents
Primers fluorescents
![Page 7: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/7.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Séparation et détection des fragments
![Page 8: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/8.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
![Page 9: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/9.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
![Page 10: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/10.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Permettant le séquençage d’ADN à haut débit
USINE
Eviter les goulots d’étranglementdans le processus
Intégration des éléments dans une chaîne de production
Préparation des matrices
Réactions de séquence
Séparation et détection des fragments
Analyse informatique…
Multiplier les éléments en parallèle
Automatisation de toutes les étapes
![Page 11: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/11.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
![Page 12: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/12.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Limitation importante de la technique!
Cependant !
![Page 13: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/13.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Nécessité de fragmenter le DNA génomique
Clonage des fragments en vue de leur amplification
Séquençage (souvent partiel) des fragments ou sous-fragments
Reconstitution de la séquence d’origine
Les contraintes
![Page 14: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/14.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
DNA
fragmentation (mécanique ou enzymatique)
« shotgun »
clonage des différents fragments dans un vecteur
![Page 15: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/15.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
pUC
(insert jusqu’à 10 Kb) (insert jusqu’à 100 Kb)
(insert ∼ 300 Kb) (insert jusqu’à 1 Mb, mais réarrangements fréquents)
(insert jusqu’à 45 Kb)
Constitution d’une ou plusieurs librairies de fragments dans différents vecteurs.
![Page 16: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/16.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Stratégies de séquençage des génomes…
![Page 17: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/17.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Petits génomes peu complexes
Grands génomesForte complexité
Mixage des deux approches
![Page 18: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/18.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
http://www.snv.jussieu.fr/vie/dossiers/genomes/index.htm
http://www.genoscope.fr/
http://www.takeda-foundation.jp/en/award/takeda/2001/fact/02.html
Quelques illustrations et idées empruntées à différents sites
http://www.nhgri.nih.gov/educationkit/video.html
http://www.ncbi.nlm.nih.gov/books/bv.fcgi?call=bv.View..ShowTOC&rid=hmg.TOC&depth=1Ce site fait référence à un livre: Human Molecular Genetic 2, Tom stachan and Andrew P. Read, Bios Scientific Publisher, Ltd
http://www.univ-lille1.fr/pdv/labo/figdea.pdf
![Page 19: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/19.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
![Page 20: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/20.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assemblage des génomes
![Page 21: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/21.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
- Théorie du contigage- Outils d’assemblage
- Etapes de finition- Difficultés et résolution
Assemblage
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
AssemblerGenome scaffold
Ordered contig set
Gap closuresequence editing
Re-assembly
ONE ASSEMBLY!
Combinatorial PCR
![Page 22: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/22.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ATCGATGCGTAGCAGACTACCGTTACGATGCCTT…TAGCTACGCATCGTCTGATGGCAATGCTACGGAA…
ATCGATGC
GTAGC TAGCAGACTACCGTTGTTACGATGCCTT
TAGCTACGCATCGT
Procédure
![Page 23: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/23.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Procédure
ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTTGCTACGCATCG CGATGCGTAGCA (sequence inv-compl)
ATCGATGCGTAGCTAGCAGACTACCGTTGTTACGATGCCTTCGATGCGTAGCA
Régions de chevauchements
……ATCGATGCGTAGCAGACTACCGTTACGATGCCTT……Contig ou Consensus
![Page 24: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/24.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Théorie du contigage
![Page 25: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/25.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1 2 3 4 5 6 C
ouve
rture
Contig
Reads
La couverture d’un contig: un exemple
Pour prévoir une assez bonne couverture de ces contigs lors de l’assemblage, il existe une méthode statistique (Lander-Waterman) permettant de determiner le nombre de clones à séquencer, le nombre de contigs prévisibles.
![Page 26: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/26.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
E(#ilôts) = Ne-cσ
E(taille des ilôts) = L(ecσ – 1) / c + 1 – σ
L = longueur de la lectureT = chevauchement minimumG = Taille du génomeN = Nombre de lecturesc = couverture (NL / G)σ = 1 – T/Lcontig = ilôts d’au moins 2 lectures
Théorie du contigage(Lander-Waterman statistics)
![Page 27: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/27.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Chromobacterium violaceum genome project
![Page 28: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/28.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Outils et programmes d’Assemblage
![Page 29: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/29.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Le Defi !!!!
La mission s’apparente à resoudre un puzzle unidimentionnelle avec des centaines de milliers (voire des millions) de pieces et sans l’image d’origine, bien sur !!!!!!
Image original
Pièces du puzzle
Reconstruction de l’image
![Page 30: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/30.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Comment s’y prendre ?
Chromatogramme Programmes d’assemblage Sequence complète
![Page 31: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/31.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequençage automatique
Analyse informatique des images du gel:- “lane tracking“ – identifier chaque ligne -“trace processing“ – Estimation de l‘intensité du signal (et bruit de fond)- “lane profiling“ – Creation du profile (trace) de chaque chromatogramme- “base-calling“ – Transformation des profiles de bases (sequence)Le programme Phred est devenu quasi-standard pour le “base calling“
![Page 32: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/32.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Base calling - Phred
Trace idéale consiste en: -pics espacés et non chevauchantes
Traces généralement obtenues different de l‘idéal à cause des:-imperfections des réactions de séquençage, de l‘électrophorèse, ou du “trace processing“
Extremités de la trace
Qualité supérieure– Aucune ambiguité
Qualité moyenne – quelques ambiguités
Qualité faible – confiance faible
Taux d’erreurs varient de 1-17%
![Page 33: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/33.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred quality values
q = - 10 × log10 (p)
avec:q - quality valuep - estimated probability error for a base call
Examples:
q = 20 means p = 10-2 (1 error in 100 bases)q = 40 means p = 10-4 (1 error in 10,000 bases)
![Page 34: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/34.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
PhredTaches effectués par Phred:
a. Lire les traces – compatible avec la plupart des formats de sequences: SCF (standard), ABI (373/377/3700), ESD (MegaBACE) and LI-COR.
b. “Base Calling”
c. Assigne une valeur qualité à chaque base.
d. Créer un fichier de séquence et un fichier qualité
e. Modifier les chromatogrammes (“vector trimming”)
![Page 35: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/35.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred
phred .phd.1
BEGIN_SEQUENCE a112e211b.bBEGIN_COMMENTCHROMAT_FILE: a112e211b.bABI_THUMBPRINT: 0PHRED_VERSION: 0.000925.cCALL_METHOD: phredQUALITY_LEVELS: 99TIME: Mon Jan 15 11:27:01 2001TRACE_ARRAY_MIN_INDEX: 0TRACE_ARRAY_MAX_INDEX: 10499TRIM: 96 494 0.0500CHEM: termDYE: bigEND_COMMENTBEGIN_DNAn 0 5t 4 24t 6 35g 6 44a 6 71g 6 92t 6 100t 15 114...
phd2fasta
>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
>a112a1.b ...10 12 15 12 17 2025 30 33 31 32 ...>a112a2.b7 8 5 11 15 19 20...
Projet.fasta
Projet.fasta.qual
![Page 36: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/36.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phred
Crossmatch
Séquencesde vecteurs
>a112a1.b ...XXXXXXXXXXXXGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
Projet.fasta.screen
>a112a1.b ...ACTGCTCGATGTGTGTGACTGCTAGCTAGCTAGTC...>a112a2.bACTGCATGTTCGATCGTAGC...
Projet.fasta
Projet.fasta.qual Projet.fasta.screen.qual
Assemblage
![Page 37: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/37.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Nommage des séquences – Format des sequences ABI, SCF– Les séquences du même clone ont le même prefix– L’orientation des séquences est matérialisée par g ou b / f ou r
• Longueur des clones sequencés doit etre définis
Taille du clone
KT000234.g.SCF KT000234.b.SCF
Si séquences provenant des BACs, on effectue également une codification de ces séquences
Formats et Codification des séquences
![Page 38: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/38.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Le système Phred-Phrap-Consed
• Lire tous les fichiers de séquences (10-10,000)• Reverse complemente toutes les séquences (double le # de séquences à aligner)• Alignement multiple de ces séquences afin
d’obtenir une séquence unique
![Page 39: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/39.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phrap
1)Rechercher les pairs de séquences chevauchantes
2)Construire l’alignement multiple
3)Améliorer l’alignement multiple
![Page 40: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/40.jpg)
Génomique 1 –M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
-Compare chaque séquence (et son reverse-complement) avec chacune des autres séquences
-Génère une liste des régions ayant certains critères de similarités de séquences.
Paramètres importants: minimum overlap length, stringency (% of bases identiques), and minimum repeat length.
1) Rechercher les paires de séquences chevauchantes
![Page 41: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/41.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Chevauchement entre deux séquences
…AGCCTAGACCTACAGGATGCGCGGACACGTAGCCAGGAC CAGTACTTGGATGCGCTGACACGTAGCTTATCCGGT…
overlap (19 bases) overhang (6 bases)
overhangoverlap - region of similarity between regionsoverhang - un-aligned ends of the sequences
Formation des paires de séquences chevauchantes basée sur: • length of overlap• % identity in overlap region• maximum overhang size.
% identity = 18/19 % = 94.7%
![Page 42: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/42.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Phrap
18
35
36
82
79
54
Une séquence peut avoir plusieurs régions chevauchantes
1) Rechercher les paires de séquences chevauchantes
![Page 43: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/43.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1 8 35
36 8
2
79
54
1) Rechercher les paires de séquences chevauchantes
![Page 44: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/44.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
18 3 5
36 8
2
7 95 4
18 2
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
2) Construire l’alignement multiple
![Page 45: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/45.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
35
36
79
54
18
2
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
![Page 46: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/46.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
35
36
79
54
18
2
536
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
![Page 47: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/47.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
54
18
2
536
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
![Page 48: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/48.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
54
18
2
53
6
4
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
![Page 49: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/49.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
79
18
2
53
6
4
2) Construire l’alignement multiple
Combinaison des paires de séquences chevauchantes pour construire des grands fragments de séquences
![Page 50: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/50.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Introduction de gaps dans les alignements de séquences si cela doit ameliorer les alignements.
• Paramètres:• gap creation penalty (default 2.0)• gap extension penalty (default (0.1)
3) Améliorer l’alignement multiple
![Page 51: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/51.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Au final
![Page 52: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/52.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ConsedMenus de navigation
Mismatch en rouge
Séquencedu contig
Outils de navigation
![Page 53: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/53.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Consed
![Page 54: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/54.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Création des Scaffolds(SuperContigs)
![Page 55: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/55.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Contraintes sur les lectures-Les extrémités des lectures doivent avoir une orientation en
miroir l’un par rapport à l’autre -La distance entre deux lectures est connue (avec une certaine erreur expérimentale)
clone length
sequenced ends
F R
![Page 56: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/56.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Création des scaffolds
Assembly
Scaffolding
“Ordonner et Orienter les contigs (non-chevauchants) le long du chromosome”
![Page 57: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/57.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Linking informations
• Overlaps
• Mate-pair links
• Similarity links
• Physical markers
• Gene synteny
reference genome
physical map
Clone/Bac reads
![Page 58: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/58.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
PCR combinatoire
A
B
DC
F
E
G
H
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
ABCDEFGH
B--D
C--F
E--H
![Page 59: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/59.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Assembly
Scaffolding
Reads 500-800 base-pairs
Contigs 5000-25000 bp
Scaffolds 50000-300000 bp
![Page 60: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/60.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
FinitionFermeture des gaps
![Page 61: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/61.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Shotgun
Finition
Temps
Shotgun
Finition
FINITION :-Correction des zones de basse qualité-Ordonnancement des contigs-Séquençage des parties manquantes
-gap de séquence-gap de clonage
-Réorganisation des séquences répétées
scaffold A scaffold B
physical gap
sequencing gaps
![Page 62: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/62.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Problèmes associés à l’assemblage
•Banques Biaisées === Assemblage foireuxL’ensemble des clones des différentes banques utilisées doivent couvrir la presque totalité du génome à séquencer
•Tailles incorrects des Inserts
•Faible couverture
•Orientation inconnue des reads. ACGT or TGCA???
•Erreurs de séquençage
•Séquences repétées
![Page 63: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/63.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Finishing repeats
RPT A RPT B
clones or PCR walks
STEP 1. Isolate repeat copiesSTEP 2. Assemble in isolationSTEP 3. Incorporate assembled repeats into rest of assembly
- TIGR Assembler can hold together previously assembled contigs
- Other assemblers: use repeat consensus as input to the assembler
![Page 64: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/64.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
MTETVEDKVSHSITGLDILKGIVAAGAVISGTVATQTKVFTNESAVLEKTVEKTDALATNDTVVLGTISTSNSASSTSLSASESASTSASESASTSASTSASTSASESASTSASTSISASSTVVGSQTAAATEATAKKVEEDRKKPASDYVASVTNVNLQSYAKRRKRSVDSIEQLLASIKNAAVFSGNTIVNGAPAINASLNIAKSETKVYTGEGVDSVYRVPIYYKLKVTNDGSKLTFTYTVTYVNPKTNDLGNISSMRPGYSIYNSGTSTQTMLTLGSDLGKPSGVKNYITDKNGRQVLSYNTSTMTTQGSGYTWGNGAQMNGFFAKKGYGLTSSWTVPITGTDTSFTFTPYAARTDRIGINYFNGGGKVVESSTTSQSLSQSKSLSVSASQSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASASTSASASASTSASASASTSASASASISASESASTSASASASASTSASASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASGSASTSTSASASTSASASASTSASASASISASESASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASVSASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASESASTSTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASVSASTSASESASTSASASASTSASASASTSASESASTSASASASTSASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASVSASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASISASESASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSASASASTSVSNSANHSNSQVGNTSGSTGKSQKELPNTGTESSIGSVLLGVLAAVTGIGLVAKRRKRDEEE
SASA repeat (4776 AA, 14Kb)from Streptococcus Pneumoniae - likely involved in cell adhesion
![Page 65: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/65.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Programmes d’Assemblage des Séquences • Phrap - sequence assembly program (UNIX) –Systeme Phred-Phrap-Consed
http://www.phrap.org/• TIGR Assembler - microbial genomes (UNIX) http://www.tigr.org/softlab/assembler/• The Staden Package (UNIX) http://www.mrc-lmb.cam.ac.uk/pubseq/• GeneTool/ChromaTool/Sequencher (PC/Mac)• Arachne www-genome.wi.mit.edu/wga/• Celera Assembler• Paracel Genome Assembler www.paracel.com/products/pga.html• Stroll http://genetics.med.harvard.edu/~tchen/STROLL• Amass (Pattern Matching) bio.informatics.indiana.edu/sunkim/AMASS/• Phusion (SSAHA) Assembler Genome Research 2003 vol 13 p81-90• www.sanger.ac.uk/Software/analysis/SSAHA/• Euler (Eulerian path)
www.cs.ucsd.edu/groups/bioinformatics/software.html#euler• AMI based Assembler (Stochastic process) Bioinformatics 2003 vol 19 p22-29
![Page 66: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/66.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
La séquence d’un génome doit être complète et de très haute qualité
La séquence du génome peut rester incomplète si une majorité des gènes a été trouvée
• C'est la stratégie initialement adoptée pour les microorganismes, y compris la levure.• Cependant, dans le cas de régions difficile à séquencer, cette exigence est très coûteuse en temps. Si quelques jours sont suffisants pour avoir un recouvrement de haute qualité de 90-95% d'un génome de procaryote, plusieurs semaines, voire plusieurs mois, seront nécessaires pour obtenir les 5-10% restants.
• C'est la stratégie adoptée pour les microorganismes par beaucoup d'industriels qui recherchent avant tout de nouvelles molécules. Ces données génomiques ne seront généralement pas publiées.• C'est la stratégie également adoptée pour les eucaryotes complexes dans le cas de l'hétérochromatine ou des régions trop répétées et apparemment vides de gènes. copies dites "de brouillon" (draft genome).
Approche de type recherche fondamentale
Approche de type recherche appliquée
Le problème de la qualité des génomes : deux écoles
![Page 67: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/67.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ABI3700
chromat_dir preTA phd_dirbase callingquality trimmingvector trimming
vector_dir
phd2fasta
.seq,.qual
phraprunTA
.asm
ta2ace.ace
ace2contig.contig
Consed
goBambus .mates
.stats .details .dot
.bases/.fasta/.contigs
repeatFinder
.repeats
preArachne
Arachne
.xml.links
.ps.reads
toArachne
arachne2gbrowse
Gbrowser
Exemple de pipeline de séquençage/assemblage
![Page 68: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/68.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Quelques Succès
![Page 69: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/69.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequencing SuccessesT7 bacteriophagecompleted in 198339,937 bp, 59 coded proteins
Escherichia colicompleted in 19984,639,221 bp, 4293 ORFs
Sacchoromyces cerevisaecompleted in 199612,069,252 bp, 5800 genes
![Page 70: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/70.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Sequencing SuccessesCaenorhabditis eleganscompleted in 199895,078,296 bp, 19,099 genes
Drosophila melanogastercompleted in 2000116,117,226 bp, 13,601 genes
Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes
![Page 71: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/71.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Homo sapiens1st draft completed in 20013,160,079,000 bp, 31,780 genes
![Page 72: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/72.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
The Genome Sequencing Era
1998 2000 1997 1999 1996 2001 2002
First microbial genomeH. influenzae
First eukaryote genomeYeast
E. coli
First multicellular animalC. elegans
Fruit fly
First higher plantArabidopsis
First mammalHomo sapiens
40 microbial genomes
malaria:mosquito
andparasite
First fishFugu
mouse
567 microbial genomes
18 microbial genomes
![Page 73: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/73.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• Génomes terminés• 521 Bactéries• 46 Archaea• 25 Eucaryotes
Situation au 31/08/2007 592
• Génomes en cours• 808 Bactéries• 33 Archaea• 397 Eucaryotes
1238
• Génomes attendus dans le (proche) futur• 1329 Bactéries• 79 Archaea• 422 Eucaryotes
1830
Avalanche de génomes
![Page 74: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/74.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• la variété dans la répétition :• souches différentes appartenant à la même espèce
• espèces différentes appartenant au même genre
8 Pseudomonas 3 Chlamydia 19 Streptococcus etc …
Mise en évidence d'une variabilité insoupçonnée
TendancesChez les procaryotes
7 souches differentes de E. coli 5 ……de Staphylococcus aureus etc …
![Page 75: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/75.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
TendancesChez les procaryotes
2. Une plus grande diversité biologique et phylogénétiqueA. moins de pathogènes
• La proportion relative est passée en 2003 de 90% à 50% (reste stable)
• Cependant, beaucoup de compagnies privées continuent à séquencer beaucoup de génomes mais sans les publier. Par example, on estime que 14 souches différentes de Bacillus anthracis auraient été séquencées en 2002 aux Etats-Unis.
B. représentants d’embranchements peu ou pas étudiés
C’est un thermophile qui fixe l’azote atmosphérique et qui réduit des composés soufrés comme source d’énergie pour
faire de la photosynthèse en conditions anaérobies
Example : Chlorobium tepidum, bactérie modèle du phylum Chlorobia
Intérêts : mieux comprendre
les grands cycles énergétiques à
l’échelle planétaire
comment est apparue la
photosynthèse
![Page 76: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/76.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
C. Plus de bactéries “utiles”
Tendances
dépollution
commensaux
intérêt agricole
intérêt industriel
• Shewanella oneidensis, Geobacter metallidurens métabolise l’uranium et de nombreux autres métaux lourds• Geobacter produit en plus de l'électricité
Bifidobacterium longum bactérie intestinale hydrolysant des polymères végétaux
Pseudomonas putida croît dans la rhizosphère et dépollue les sols
Nombreux organismes thermophiles, source d’enzymes faciles à purifier et très efficaces
![Page 77: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/77.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
1. la variété dans la répétition :• souches différentes appartenant à la même espèce• espèces différentes appartenant au même genre
2. une plus grande diversité biologique et phylogénétiqueA. moins de pathogènesB. représentants d’embranchements peu ou pas étudiésC. plus de bactéries « utiles » :
• des génomes de plus en plus gros (qui sont faits de plus en plus vite) :
Tendances
contiennent un plus grand nombre de gènes que beaucoup d’eucaryotes simples comme les levures (12 Mb mais moins de 6000 protéines)
Streptomyces coelicolor (9,05 Mb, 7769 protéines)
Bradyrhizobium japonicum(9,1 Mb, 8317 protéines)
Chez les procaryotes
![Page 78: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/78.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
TendancesChez les eucaryotes
1. Objectifs primaires• Grands organismes modèles et les organismes proches pouvant aider à
l’annotation de leurs génomes• Pathogènes, intérêt médical ou agronomique
Schizosaccharomyces pombe Arabidopsis thaliana Caenorhabditis elegans
Drosophila melanogaster
Saccharomyces cerevisiae
Fugu rubripes
Homo sapiens Tetrahodon
souris, rat chimpanzé
Anopheles gambiae Plasmodium falciparum Plasmodium yoelii yoelii
(Malaria)
Magnaporthe grisea
Oryza sativa
Candida albicans
Encephalitozoon cuniculi Microsporidie, pathogène des
voies respiratoires
![Page 79: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/79.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
• microsporidies, nématodes, nombreux protozoaires, algues, Chlamydomonas
• nombreux champignons (40)
• plusieurs insectes (abeille, bombyx, ), mollusques, oursin
• plusieurs poissons, Xenope, poulet, dinde, bœuf, porc, chien, chat, cheval, mouton, kangourou, etc…
• Chou, café, blé, maïs, sorgho, coton, tomate, pomme de terre, haricot, canne à sucre, etc…
• pins (3), eucalyptus, chêne
2. Une ambition incroyable (due à une accélération technologique impressionnante)
TendancesChez les eucaryotes
![Page 80: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/80.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
Une révolution majeure dans les techniques de séquençage
Progrès énormes dans les temps de calcul En 1995, pour H. influenzae, l’assemblage des contigs avait demandé 11 jours de temps de calculAujourd’hui, le même type de travail demande quelques minutes
Progrès impressionnant dans le temps nécessaire pour réaliser un projet :• au lieu de plusieurs semaines pour déterminer la séquence brute d'une bactérie, il ne faut plus que 2-3 jours• le séquençage du génome de la souris a été réalisé en un temps incroyablement court, et le chimpanzé vient d'être fini en moins d'un an
Les progrès technologiques
La génomique va plus vite que l’informatique En 1965, Moore avait prédit que la puissance des ordinateurs doublerait tous les deux ans. Jusqu’ici cette « loi » a été parfaitement respectée
Depuis 2 ans, la croissance de l’information contenue dans les séquences génomiques a pris une vitesse de doublement bien supérieure et semble même encore s’accélerer
![Page 81: CoursSequenAssemblageM1_2007](https://reader033.vdocuments.us/reader033/viewer/2022060112/5571f83449795991698ce228/html5/thumbnails/81.jpg)
Génomique 1 – M1 (2007-2008): Assemblage des Génomes – Emmanuel Talla, Aix Marseille II
ReferencesTIGR Assembler Sutton, G.G., et al., TIGR Assembler: A New Tool for Assembling Large
Shotgun Sequencing Projects. Genome Science and Technology, 1995. 1:9-19.phrap Green, P., PHRAP documentation: ALGORITHMS. 1994
http://www.phrap.org.phred Ewing B., Hillier L, Wendl M, Green P., Basecalling of automated
sequencer traces using phred. Genome Research, 1998, 8:175-194.consed Gordon, D., C. Abajian, P. Green. Consed: A graphical tool for sequence
finishing. Genome Research, 1998, 8:195-202.REPuter S. Kurtz, C. Schleiermacher, Fast Computation of Maximal Repeats in
Complete Genomes, Bioinformatics, 1999, 15(5):426-427Multiplex PCR Tettelin, H., et al., Optimized Multiplex PCR: Efficiently Closing a Whole-
Genome Shotgun Sequencing Project. Genomics, 1999. 62:500-507.Celera Assembler Myers, E.W. et al. 2000. A whole-genome assembly of Drosophila.
Science 287: 2196-2204.Arachne Batzoglou, S., et al. 2002. ARACHNE: a whole-genome shotgun
assembler. Genome Res 12: 177-189.Jaffe, D.B., et al. 2003. Whole-genome sequence assembly for
Mammalian genomes: arachne 2. Genome Res 13: 91-96.