principaux alignements multiples - inra
TRANSCRIPT
From: Methods in Molecular Biology, vol. 484: Functional Proteomics: Methods and Protocols (Do and Katoh)
Table 1 MSA Programs Tool URL CLUSTALW http://www.clustal.org/ DIALIGN http://bibiserv.techfak.uni-bielefeld.de/dialign/ MAFFT http://align.bmr.kyushu-u.ac.jp/mafft/software/ MUMMALS http://prodata.swmed.edu/mummals/ MUSCLE http://www.drive5.com/muscle/ PRALINE http://zeus.cs.vu.nl/programs/pralinewww/ PRIME http://prime.cbrc.jp/ ProbAlign http://probalign.njit.edu/standalone.html PROBCONS http://probcons.stanford.edu/ ProDA http://proda.stanford.edu/ PROMALS http://prodata.swmed.edu/promals/ SPEM http://sparks.informatics.iupui.edu/ T-Coffee, http://www.tcoffee.org/ M-Coffee, 3D-Coffee
Summary view of alignments of highly similar sequences containing gaps (dashes) at overlapping positions.
Golubchik T et al. Mol Biol Evol 2007;24:2433-2442
© The Author 2007. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]
Summary view of alignments of highly similar sequences (boxes) containing
deletions (horizontal lines) at non-overlapping positions.
Golubchik T et al. Mol Biol Evol 2007;24:2433-2442
© The Author 2007. Published by Oxford University Press on behalf of the Society for Molecular Biology and Evolution. All rights reserved. For permissions, please e-mail: [email protected]
Familles, domaines, motifs
➢ domaine protéique : unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) ➢ motifs protéiques : plus courts • site de modification post-traductionnelle • site de liaison (ADN, métal,...) • site actif d'enzyme ➢ famille protéique : ensemble de protéines évolutivement reliées un ou plusieurs domaines protéiques communs
Familles, domaines, motifs
➢ domaine protéique : unité structurale (et fonctionnelle) indépendante, évolutivement conservée (doigt de zinc, boucle,...) ➢ motifs protéiques : plus courts • site de modification post-traductionnelle • site de liaison (ADN, métal,...) • site actif d'enzyme ➢ famille protéique : ensemble de protéines évolutivement reliées un ou plusieurs domaines protéiques communs
Profil, HMM
Consenus Pattern Matrice poids
GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC GHE--G--------- GHE--G-----G---
GHE-x(2)-G-x(5)-[GA]
consensus à 100% consensus à 60%
Pattern ou signature (Prosite)
- Le consensus est très simpliste/restrictif - Pattern + souple mais pas de poids relatif des résidus
Alignement multiple => pattern
Pour les faire : Consensus PRATT
Pour les utiliser : ScanPROSITE Fuzznuc (EMBOSS) Fuzzpro Fuzztran Recherche d’expression régulière (PERL…)
- Facile et rapide à implémenter - Modèle indel simple - Beaucoup de FP sur les petits patterns - Grands patterns difficiles à produire - Pas prédictifs => retrouve à l’identique des séq. apprentissage - Pas de score
Alignement multiple => pattern
GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC
Alignement multiple => PSSM
GHEGVGKVVKLGAGA GHEKKGYFEDRGPSA GHEGYGGRSRGGGYS GHEFEGPKGCGALYI GHELRGTTFMPALEC
Alignement multiple => PSSM
Pseudo-counts
Utilisation d’une PSSM => identification d’un motif
-Facile et rapide à implémenter -Pas d’indel possible -Retourne un score
=> régions courtes (taille fixe), variables
Profils généralisés
- possibilité d’événement d’insertion/délétion => 1 colonne en plus - prise en compte de la similarité entre acide aminé => poids dérivés des matrices de substitution (BLOSUM, PAM)
∑=
=20
1),(Profil
kikij kjMf
Fréquence du kième l'acide amine à la position i ikf),( kjM Score de substitution entre les acides aminés j et k
Profile (PROSITE)
∑=
=20
1),(Profil
kikij kjMf
M(j,k) score de substitution de l’a.a. k par j (matrice PAM, BLOSUM…)
• PFtools : méthode des profils Prosite pfscan, pfsearch…
• HMMer
hmmbuild : construit une HMM hmmalign : compare une séquence à un modèle HMM hmmpfam : compare une séquence à une base de HMMs hmmsearch : compare une HMM à une banque de séquences hmmemit : génère une séquence basée sur HMM
• Banques d’alignements de domaines
- ProDom (Psi-BLAST avec Uniprot)
- Pfam, SMART : alignements + modèles HMM
• Banque de signatures protéiques :
- PROSITE patterns + matrices
on maximise le % de VP (donc minimise le % de FN) Inconvénient : augmentation du %FP = on privilégie la sensiblilité de la méthode on minimise le % de FP Inconvénient : cela conduit à ne pas détecter certaines séquences d'intérêts (donc plus grand %FN) = on privilégie la spécificité Sensibilité = VP/(VP+FN) [sensibility]
Spécificité = VP/(VP+FP) [specificity ] Précision = (VP+VN)/(VP+VN+FP+FN) [accuracy]
Objectif : prédire le maximum d'exemples (max VP) avec un minimum d'erreurs (min FP).
VP FP
FN VN
Evaluation des prédictions (2)
http://meme.sdsc.edu/meme/
• MEME - implements EM for motif discovery in DNA and proteins
• MAST – search sequences for motifs given a model
MEME (algorithme Expecting Maximisation)
Programmes Sites web Références
RSA-tools http://rsat.ulb.ac.be/rsat/ (van Helden et al., 2000a)
SMILE http://bioweb.pasteur.fr/seqanal/interfaces/smile2.html (Marsan and Sagot, 2000)
R’MES http://www-mig.versailles.inra.fr/ssb/rmes/welcome.html (Schbath, 1997)
MEME http://meme.sdsc.edu/meme/website/ (Bailey and Elkan, 1995)
CONSENSUS http://ural.wustl.edu/~jhc1/consensus/html/Html/main.html http://rsat.ulb.ac.be/rsat/ (Hertz and Stormo, 1999)
Gibbs sampling http://bayesweb.wadsworth.org/gibbs/gibbs.html http://rsat.ulb.ac.be/rsat/
(Lawrence et al., 1993) (Neuwald et al., 1995)
Motif Sampler http://www.esat.kuleuven.ac.be/~thijs/Work/MotifSampler.html (Thijs et al., 2001a) (Thijs et al., 2001b)
Improbizer http://www.cse.ucsc.edu/~kent/improbizer/
BioProspector http://bioprospector.standford.edu (Liu et al., 2001)