introduction à la bioinformatique · 2016. 3. 21. · introduction à la bioinformatique céline...
TRANSCRIPT
-
Introduction à la bioinformatique
Céline Brochier-Armanet
Université Claude Bernard, Lyon 1
Laboratoire de Biométrie et Biologie Evolutive (UMR 5558)
-
Lectures recommandées
• Bioinformatique – Cours et cas pratiques (Deléage & Gouy 2013) -
Dunod
-
Qu’est-ce que la Bioinformatique?
• Application des techniques de l’information à la gestion et l’analyse
des données biologiques
• Discipline de la biologie faisant appel à d’autres disciplines
scientifiques (statistiques, mathématiques, physique… informatique)
Bases de
données
Modèles/Méthodes
Logiciels
Expérimentation
biologique
Modélisation
Simulations
Développement
méthodologique
Traitements
bioinformatiques
Analyse
des données
Hypothèses
-
Les deux grands volets de la
bioinformatique
• Représentation, stockage, distribution des données
format de données, schéma des bases de données, outils d’interrogation, interfaces…
• Analyse des données collectées: Utilisation de l’information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le ‘fonctionnement d’un organisme’ à partir de l’information contenue dans son génome
Recherche de fonction de gènes par comparaison de séquences
Décomposition de structures 3D pour comprendre comment les protéines se replient
Modélisation des interactions entre molécules…
…
-
Recherche d’informations
• Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile…
• Moteurs de recherche pour les bases de données publiques : entrez, SRS…
• Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d’opérateurs logiques
– AND (et), OR (ou), NOT (sauf)
• Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches
– Utilisation de ( ) pour des requêtes plus complexes
• ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4
– Utilisation de « » ex. « structure protéique »
-
Systèmes d’interrogation des bases de
données publiques
• Chaque banque de séquences possède son propre
système d’interrogation: SRS, ENTREZ, ACNUC,
DBGET
• Chaque système utilise une syntaxe particulière pour les
requêtes
– Étiquettes
– Connecteurs logiques
– Caractères de substitution…
Consultez Les Notices Explicatives
-
NCBI : National Center for Biotechnology
Information
-
Organisation du NCBI
-
ENTREZ : Recherche d’information au NCBI
-
ENTREZ : Recherche générale
• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)
-
ENTREZ : Exemple d’application
• Recherchez tous les articles scientifiques traitant de
potentiel électrostatique pour des molécules protéiques
en ne ciblant que les références de deux auteurs: Barry
Honig et Andrew McCammon
-
ENTREZ: Choix de la base de données
• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)
-
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
=> 0 résultat
-
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
=> 0 résultat
-
ENTREZ: Saisie des mots clés
Recherche des articles scientifiques traitant de potentiel électrostatique
pour des molécules protéiques en ne ciblant que les références de deux
auteurs: Barry Honig et Andrew McCammon
-
Interprétation de la recherche
-
Une bonne recherche
-
Limitation de la recherche
-
Historique des recherches
-
Pôle BioInformatique Lyonnais
-
Pôle BioInformatique Lyonnais
-
Pôle BioInformatique Lyonnais
-
Banques/bases de données majeures en
biologie
• Hors série annuel de la
revue NAR (Nucleic
Acid Research
http://nar.oxfordjournal
s.org/)
Recense l’actualité
relative aux bases /
banques de données
(créations, mises à
jour, etc.)
http://nar.oxfordjournals.org/
-
Banques/bases de données
majeures en biologie
Sujet Source
Bibliographie PubMed
Séquences nucléiques Genbank (NCBI), EMBL (EBI),
refSEQ
Banques de génomes Entrez Génome (NCBI), TIGR
Séquences protéiques Swiss-prot, Genpep, Trembl, PIR,
refSEQ
Structures protéiques Protein Data Base (PDB)
Modifications post-traductionnelles RESID
Information biochimique et biophysique ENZYME, BIND
Voies métaboliques KEGG, PathDB, WIT
Microarray Gene Expression Links
2D-page SWISS-2DPAGE
-
Séquences biologiques
• La séquence est l’élément central autour duquel la plupart
des banques de données sont organisées
• Elles ont été compilées très tôt dans des banques de
données– 1965 : Margaret Dayhoff publie l’Atlas of Protein Sequences qui contient 50
entrées
– 1978 : Dernière impression de l’Atlas of Protein Sequences
– Après 1978 : disponibles sous forme électronique
-
Banques de séquences
généralistes spécialisées
• Banques de données généralistes : correspondent à une collecte
des données la plus exhaustive possible et offrent un ensemble
hétérogène d’informations
• Banques ou bases de données spécialistes : correspondent à des
données plus homogènes établies autour d’une thématique et qui
offrent une valeur ajoutée à partir d’une technique particulière ou
d’un intérêt suscité par un groupe d’individus
-
Banques de séquences généralistes
• Très riches
– Grand nombre de séquences accessibles
– Grande diversité des organismes représentés
• Peu/pas de contrôles sur la qualité des entrées
– Les auteurs sont responsables des entrées !
Nombreux Problèmes/Erreurs
• Qualité des informations non homogènes Variabilité des connaissances sur les séquences, de la minutie des auteurs.
• Erreurs dans les séquences (contaminations, séquençage, méthodologie).
• Biais d’échantillonnage taxonomique, des types de séquences, forte redondance.
-
Banques généralistes de séquences
nucléotidiques
• EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l’European MolecularBiology Organisation, diffusée par l’EBI
• Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI)
• DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics)
• Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes
« The DDBJ/EMBL/Genbank Feature Table Definition »
-
European Nucleotide Archive / European
Molecular Biology Lab
-
UniProt : Universal Protein Resource
-
Recherche d’une séquence dans Swiss-Prot
• Recherchez la séquence ayant comme identifiant P04118 dans la
banque Swiss-Prot
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Exemple d’entrée Swiss-Prot
-
Banques protéiques spécialisées
• Motifs
• Alignements
• Classification structurale
• Familles de protéines
• Interaction
• Enzymes
• Modifications protéiques post-traductionnelles
• Pathologies
• Gels bidimensionnels
• Bases protéiques sur l’interaction et la thermodynamique des
protéines
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
-
Interpro: protein sequence analysis & classification
-
Interpro: objectifs
-
Interpro: version 46.0
Familles Domaines SitesRepeats
-
Interpro: consortium
-
Interpro: construction
ProtBD
ProtBD
ProtBD
-
Interpro: contenu
-
Interpro: entrées
-
Interpro: informations annexes
-
Interpro: organisation hiérarchique des familles
-
Interpro: interrogation
Protéine déjà incluse dans interpro => réponse rapide
Protéine non incluse dans interpro => recherche de signatures avec interproscan
-
Interpro: exemple interrogation
-
Interpro: exemple interrogation
-
Interpro: exemple interrogation
-
Interpro: exemple interrogation
-
Interpro: exemple interrogation
-
Interpro: exemple interrogation
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
-
Ensembl : Base de données de génomes
complets de vertébrés (et autres eucaryotes)
-
Ensembl : L’exemple de la colipase humaine
-
Ensembl : l’exemple de la colipase humaine
-
Ensembl : Le gène de la colipase humaine
-
Ensembl : Transcrits & vairants de la
colipase humaine
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Quelle est sa distribution taxonomique?
-
Homologues de la colipase humaine
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Contient-elle des domaines fonctionnels?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-ilde transcrits connus?
• A-t-elle des homologues connus?
Quelle est sa distribution taxonomique?
-
Homologie ou similarité ?
• Deux séquences sont dites
homologues si elles possèdent
un ancêtre commun
• L’existence d’un ancêtre
commun est inférée (dans la
majorité des cas) à partir de la
similarité partagée par les
séquences
-
ATTENTION: Homologie Similarité
• L’homologie n’est pas quantifiable
– On est pas à 50% ou à 75% homologue
– On est homologue ou on ne l’est pas
Raisonnement binaire
• La similarité est quantifiable
– On peut dire de deux séquences qu’elles sont similaires à 50%
ou 75%
-
Séquences biologiques : Homologie ou
similarité ?
• Deux séquences sont dites homologues si elles possèdent un ancêtre commun
• L’existence d’un ancêtre commun est inférée à partir de la similarité
• Seuil pour les protéines :30 % d’identité sur une longueur de 100 AA homologie entre les séquences
©Guy Perrière
-
Similarité sans homologie (1)
• La similarité n’est pas toujours due à de l’homologie
– Convergence ou simple hasard pour de courtes séquences
(quelques résidus)
Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%)
Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60
[Bos taurus]
EI+ H +YTC CGK+ +++R + + CGSC
SprT family protein
[Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138
©Guy Perrière
-
Similarité sans homologie (2)
• Existence de régions de faible complexité (régions riches en quelques aa.,
cas de la fibroïne [GSGAGA]n) :
• Présentes dans 40 % des protéines.
• Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,
Ser, Glu et Gln).
>gi|8572061|gb|AAF76983.1|AF226688_1 fibroin heavy chain Fib-H [Bombyx mori]
MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV
EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG
AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA
GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG
AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA
GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG
PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG
SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA
… 25 LIGNES
AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG
AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP
AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY
GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG
SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG
PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR
RNVRKNCGIPRRQLVVKFRALPCVNC
©Guy Perrière
-
Homologie sans similarité
• Globine alpha humaine vs myoglobine humaine
Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%)
Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54
M LS + V WGKV A +G E L R+F P T F F D S
Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60
Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114
+K HG V AL + + L+ HA K ++ + +S C++ L +
Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120
Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142
P +F +++ K L + S Y+
Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148
-
Homologie: Orthologie
• Définition «gènes présents dans des organismes différents, ayant évolué à partir d’un même gène ancestral suite à des événements de spéciation»
=> La fonction est souventconservée au cours de l’évolution des orthologues
-
Homologie : Paralogie
• Définition « gènes issus
d’événements de duplication
au sein d’un génome»
=> La fonction d’un ou des
paralogues peut changer au
cours de l’évolution
(spécialisation, nouvelle
fonction)
-
Homologie : Xénologie
• Définition « gènes ayant été acquis par transfert horizontal »
-
Ancêtre
tem
ps
Evolution
spéciation
Oiseaux Mammifères
Poulet Homme
Evolution
@Daniel Gauteret
Evolution d’un gène au cours de l’évolution
-
Apparition de nouveaux gènes par
duplication
Ancêtre
tem
ps
Duplication
Evolution
Spéciation
Oiseaux Mammifères
Poulet Homme
Evolution
@Daniel Gauteret
-
???
Poulet Homme
???
@Daniel Gauteret
Application
-
Recherche d’homologues dans les banques
de séquences
• Recherche par similarité de séquence
Comparaison d’une séquence d’intérêt à chaque séquence contenue dans la base de données
BLAST
• Recherche à l’aide de profils
Construction d’un profil par comparaison de séquences homologues
Comparaison du profil à chaque séquence de la base de données
HMMer, PSI-BLAST
-
Séquence banque
Séquence requête
Longueur du mot = w
Score ≥ T
Mot
Extension du
segment similaire
Séquence banque
Séquence requête
HSP : High Scoring Pair
Score
Extension du segment
Extension stoppée quand :
- la fin d’une des deux séquences est atteinte
- score ≤ 0
- score ≤ score_max - xT
Score max.
x
BLAST : principe général
©Guy Perrière
-
S L A A L L N K C K T P Q G Q R L V N Q W
P Q G 18
P E G 15
P R G 14
P K G 14
P N G 13
P D G 13
P H G 13
P M G 13
P S G 13
P Q A 12
P Q N 12
...
Liste
de mots
voisins
Score seuil T = 13
Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345
+ L A + + L + T P G R + + + W
Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310
(P, P) = 7
(Q, R) = 1
(G, G) = 6x
T
Exemple
©Guy Perrière
-
Versions de BLAST
• blastp : protéine vs.protéine.
• blastn : utile pour le non-codant.
• blastx : séquences co-dantes non identifiées.
• tblastn : homologues dans un génome non complètement annoté.
Nucléique
Protéique
Nucléique
Protéiqueblastp
blastnT
Banque
tblastxT
T
Séquence
©Guy Perrière
-
Évaluation statistique
©Guy Perrière
• Similarités détectées :
– Relations significatives.
– Similarités dues au hasard.
• Fonction de score :
– Mesure sous la forme :
• D’une espérance mathématique (E-value).
• Valeur en bits.
– Basée sur une distribution calculée à partir séquences non homologues.
– Les scores dépendent de la taille de la banque.
-
E-value, bits et similarité
• Soit E, l’espérance mathématique d’avoir une similarité ≥ au score S observé :
E = Kmn e–S
Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente.
• Le score en bits S' est donné par :
S' = [S – log(K)] / log(2)
• La relation entre E et S' est donc donnée par :
E = mn 2–S'
©Guy Perrière
-
Informations relatives à séquence P04118
• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot
• De quel organisme provient-elle? Quelle est sa taille?
• Quand a-t-elle été déposée dans la banque de séquences?
• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?
• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?
• A-t-elle des homologues connus?
Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)
-
Recherche par Blast au NCBI
-
Choix des paramètres
-
Choix des paramètres
-
Choix des paramètres avancés
-
Résultats du BLAST : Entête
-
Résultats du BLAST : Reformater les
résultats
-
Résultats du BLAST : Domaines conservés
-
Résultats du BLAST : Vue graphique
-
Résultats du BLAST : Descriptions
-
Résultats du BLAST : Alignements locaux
-
Résultats du BLAST : Alignements locaux
-
Taxonomy report
-
Recherche par profil
• Refaire l’analyse en utilisant PSI-BLAST (NCBI)
• Refaire l’analyse en utilisant HMMER (http://hmmer.org/)
-
HMMer
-
HMMer
-
HMMer
-
HMMer
-
HMMer
-
HMMer
-
HMMer
-
Construction d’une phylogénie des
homologues de la colipase humaine
• Logiciel SeaView
• Ouvrir le fichier
-
Construction d’une phylogénie des
homologues de la colipase humaine
• Aligner les séquences avec Clustal0
• Éliminer les séquences partielles et les transcrits alternatifs
• Nettoyer l’alignement
• Reconstruire une phylogénie par la méthode du Maximum de Vraisemblance