introduction à la bioinformatique · 2016. 3. 21. · introduction à la bioinformatique céline...

Introduction à la bioinformatique

Céline Brochier-Armanet

Université Claude Bernard, Lyon 1

Laboratoire de Biométrie et Biologie Evolutive (UMR 5558)

[email protected]

Lectures recommandées

• Bioinformatique – Cours et cas pratiques (Deléage & Gouy 2013) -

Dunod

Qu’est-ce que la Bioinformatique?

• Application des techniques de l’information à la gestion et l’analyse

des données biologiques

• Discipline de la biologie faisant appel à d’autres disciplines

scientifiques (statistiques, mathématiques, physique… informatique)

Bases de

données

Modèles/Méthodes

Logiciels

Expérimentation

biologique

Modélisation

Simulations

Développement

méthodologique

Traitements

bioinformatiques

Analyse

des données

Hypothèses

Les deux grands volets de la

bioinformatique

• Représentation, stockage, distribution des données

format de données, schéma des bases de données, outils d’interrogation, interfaces…

• Analyse des données collectées: Utilisation de l’information biologique à différents niveaux développement de méthodes prédictives permettant de comprendre le ‘fonctionnement d’un organisme’ à partir de l’information contenue dans son génome

Recherche de fonction de gènes par comparaison de séquences

Décomposition de structures 3D pour comprendre comment les protéines se replient

Modélisation des interactions entre molécules…

…

Recherche d’informations

• Moteurs de recherches pour le web: Google, AltaVista, Lycos, HotBot, Northern Light, Dogpile…

• Moteurs de recherche pour les bases de données publiques : entrez, SRS…

• Utilisation de requêtes structurées pertinentes (mode booléen) combinaison de plusieurs termes au moyen d’opérateurs logiques

– AND (et), OR (ou), NOT (sauf)

• Le séparateur espace peut être considéré comme AND ou OR selon les moteurs de recherches

– Utilisation de ( ) pour des requêtes plus complexes

• ex. (mot_clé1 AND (mot_clé2 OR mot_clé3)) NOT mot_clé4

– Utilisation de « » ex. « structure protéique »

Systèmes d’interrogation des bases de

données publiques

• Chaque banque de séquences possède son propre

système d’interrogation: SRS, ENTREZ, ACNUC,

DBGET

• Chaque système utilise une syntaxe particulière pour les

requêtes

– Étiquettes

– Connecteurs logiques

– Caractères de substitution…

Consultez Les Notices Explicatives

NCBI : National Center for Biotechnology

Information

Organisation du NCBI

ENTREZ : Recherche d’information au NCBI

ENTREZ : Recherche générale

• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)

ENTREZ : Exemple d’application

• Recherchez tous les articles scientifiques traitant de

potentiel électrostatique pour des molécules protéiques

en ne ciblant que les références de deux auteurs: Barry

Honig et Andrew McCammon

ENTREZ: Choix de la base de données

• Permet d’interroger les banques du NCBI (http://www.ncbi.nlm.nih.gov/)

ENTREZ: Saisie des mots clés

Recherche des articles scientifiques traitant de potentiel électrostatique

pour des molécules protéiques en ne ciblant que les références de deux

auteurs: Barry Honig et Andrew McCammon

=> 0 résultat

ENTREZ: Saisie des mots clés

Recherche des articles scientifiques traitant de potentiel électrostatique

pour des molécules protéiques en ne ciblant que les références de deux

auteurs: Barry Honig et Andrew McCammon

Interprétation de la recherche

Une bonne recherche

Limitation de la recherche

Historique des recherches

Pôle BioInformatique Lyonnais

Banques/bases de données majeures en

biologie

• Hors série annuel de la

revue NAR (Nucleic

Acid Research

http://nar.oxfordjournal

s.org/)

Recense l’actualité

relative aux bases /

banques de données

(créations, mises à

jour, etc.)

http://nar.oxfordjournals.org/

Banques/bases de données

majeures en biologie

Sujet Source

Bibliographie PubMed

Séquences nucléiques Genbank (NCBI), EMBL (EBI),

refSEQ

Banques de génomes Entrez Génome (NCBI), TIGR

Séquences protéiques Swiss-prot, Genpep, Trembl, PIR,

refSEQ

Structures protéiques Protein Data Base (PDB)

Modifications post-traductionnelles RESID

Information biochimique et biophysique ENZYME, BIND

Voies métaboliques KEGG, PathDB, WIT

Microarray Gene Expression Links

2D-page SWISS-2DPAGE

Séquences biologiques

• La séquence est l’élément central autour duquel la plupart

des banques de données sont organisées

• Elles ont été compilées très tôt dans des banques de

données– 1965 : Margaret Dayhoff publie l’Atlas of Protein Sequences qui contient 50

entrées

– 1978 : Dernière impression de l’Atlas of Protein Sequences

– Après 1978 : disponibles sous forme électronique

Banques de séquences

généralistes spécialisées

• Banques de données généralistes : correspondent à une collecte

des données la plus exhaustive possible et offrent un ensemble

hétérogène d’informations

• Banques ou bases de données spécialistes : correspondent à des

données plus homogènes établies autour d’une thématique et qui

offrent une valeur ajoutée à partir d’une technique particulière ou

d’un intérêt suscité par un groupe d’individus

Banques de séquences généralistes

• Très riches

– Grand nombre de séquences accessibles

– Grande diversité des organismes représentés

• Peu/pas de contrôles sur la qualité des entrées

– Les auteurs sont responsables des entrées !

Nombreux Problèmes/Erreurs

• Qualité des informations non homogènes Variabilité des connaissances sur les séquences, de la minutie des auteurs.

• Erreurs dans les séquences (contaminations, séquençage, méthodologie).

• Biais d’échantillonnage taxonomique, des types de séquences, forte redondance.

Banques généralistes de séquences

nucléotidiques

• EMBL (European Molecular Biology Laboratory) : banque européenne créée en 1980 et financée par l’European MolecularBiology Organisation, diffusée par l’EBI

• Genbank : créée en 1982 par la société IntelliGenetics et diffusée par le National Center for Biotechnology Information (NCBI)

• DDBJ : créée en 1986 et diffusée par le NIG (National Institute of Genetics)

• Ces trois banques échangent systématiquement leur contenu depuis 1987 et ont adopté un système de conventions communes

« The DDBJ/EMBL/Genbank Feature Table Definition »

European Nucleotide Archive / European

Molecular Biology Lab

UniProt : Universal Protein Resource

Recherche d’une séquence dans Swiss-Prot

• Recherchez la séquence ayant comme identifiant P04118 dans la

banque Swiss-Prot

Informations relatives à séquence P04118

• Recherchez la séquence ayant comme identifiant P04118 dans la banque Swiss-Prot

• De quel organisme provient-elle? Quelle est sa taille?

• Quand a-t-elle été déposée dans la banque de séquences?

• Quelle est sa fonction? Où est-elle exprimée? Quelle est sa localisation cellulaire? Forme-t-elle un complexe protéique?

• Contient-elle des domaines fonctionnels?

• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-il de transcrits connus?

• A-t-elle des homologues connus?

Exemple d’entrée Swiss-Prot

Banques protéiques spécialisées

• Motifs

• Alignements

• Classification structurale

• Familles de protéines

• Interaction

• Enzymes

• Modifications protéiques post-traductionnelles

• Pathologies

• Gels bidimensionnels

• Bases protéiques sur l’interaction et la thermodynamique des

protéines

Interpro: protein sequence analysis & classification

Interpro: objectifs

Interpro: version 46.0

Familles Domaines SitesRepeats

Interpro: consortium

Interpro: construction

ProtBD

ProtBD

ProtBD

Interpro: contenu

Interpro: entrées

Interpro: informations annexes

Interpro: organisation hiérarchique des familles

Interpro: interrogation

Protéine déjà incluse dans interpro => réponse rapide

Protéine non incluse dans interpro => recherche de signatures avec interproscan

Interpro: exemple interrogation

Ensembl : Base de données de génomes

complets de vertébrés (et autres eucaryotes)

Ensembl : L’exemple de la colipase humaine

Ensembl : l’exemple de la colipase humaine

Ensembl : Le gène de la colipase humaine

Ensembl : Transcrits & vairants de la

colipase humaine








Quelle est sa distribution taxonomique?

Homologues de la colipase humaine







• Quelle est la localisation chromosomique du gène qui la code? Combien y a-t-ilde transcrits connus?


Quelle est sa distribution taxonomique?

Homologie ou similarité ?

• Deux séquences sont dites

homologues si elles possèdent

un ancêtre commun

• L’existence d’un ancêtre

commun est inférée (dans la

majorité des cas) à partir de la

similarité partagée par les

séquences

ATTENTION: Homologie Similarité

• L’homologie n’est pas quantifiable

– On est pas à 50% ou à 75% homologue

– On est homologue ou on ne l’est pas

Raisonnement binaire

• La similarité est quantifiable

– On peut dire de deux séquences qu’elles sont similaires à 50%

ou 75%

Séquences biologiques : Homologie ou

similarité ?

• Deux séquences sont dites homologues si elles possèdent un ancêtre commun

• L’existence d’un ancêtre commun est inférée à partir de la similarité

• Seuil pour les protéines :30 % d’identité sur une longueur de 100 AA homologie entre les séquences

©Guy Perrière

Similarité sans homologie (1)

• La similarité n’est pas toujours due à de l’homologie

– Convergence ou simple hasard pour de courtes séquences

(quelques résidus)

Identities = 14/33 (42%), Positives = 22/33 (66%), Gaps = 3/33 (9%)

Proteine ribosomale L37AE Query 30 EISQHAKYTCSFCGKTKMKRRAVGI--WHCGSC 60

[Bos taurus]

EI+ H +YTC CGK+ +++R + + CGSC

SprT family protein

[Listeria monocytogenes] Sbjct 107 EITMH-EYTCKSCGKSFLRQRRFNVNRYRCGSC 138

©Guy Perrière

Similarité sans homologie (2)

• Existence de régions de faible complexité (régions riches en quelques aa.,

cas de la fibroïne [GSGAGA]n) :

• Présentes dans 40 % des protéines.

• Peuvent représenter jusqu’à 15 % du total des résidus (Ala, Gly, Pro,

Ser, Glu et Gln).

>gi|8572061|gb|AAF76983.1|AF226688_1 fibroin heavy chain Fib-H [Bombyx mori]

MRVKTFVILCCALQYVAYTNANINDFDEDYFGSDVTVQSSNTTDEIIRDASGAVIEEQITTKKMQRKNKNHGILGKNEKMIKTFVITTDSDGNESIV

EEDVLMKTLSDGTVAQSYVAADAGAYSQSGPYVSNSGYSTHQGYTSDFSTSAAVGAGAGAGAAAGSGAGAGAGYGAASGAGAGAGAGAGAGYGTGAG

AGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAGAGAGAGAGYGAASGAGAGAGYGQGVGSGAASGAGAGAGA

GSAAGSGAGAGAGTGAGAGYGAGAGAGAGAGYGAASGTGAGYGAGAGAGYGGASGAGAGAGAGAGAGAGAGYGTGAGYGAGAGAGAGAGAGAGYGAG

AGAGYGAGYGVGAGAGYGAGYGAGAGSGAASGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGTGAGSGAGAGYGA

GAGAGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGVGYGAGAGSGAASGAGAGSGAGAG

SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFG

PYVANGGYSRSDGYEYAWSSDFGTGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGYGAGVGVGYGAGYGAGAGAGYGAGAGSGAASGAGAG

SGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGVGSGAGAGSGAGAGVGYGAGAGVGYGAGAGSGAASGAGA

… 25 LIGNES

AGAGSGAGAGSGAGAGSGAGAGSGAGVGYGAGYGAGAGAGYGAGAGSGAASGAGAGAGAGAGTGSSGFGPYVAHGGYSGYEYAWSSESDFGTGSGAG

AGSGAGAGSGAGAGSGAGAGSGAGYGAGVGAGYGAGYGAGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAAGAGSGAASGAGAGAGAGAGTGSSGFGP

AGYGAGAGVGYGAGAGSGAASGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGYGAGVGAGYGAGAGY

GAGYGVGAGAGYGAGAGSGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGAGSGAGSGAGAGYGAGAGAGYGAGAGAGYGAGAGSGAASGAGAGAGAG

SGAGAGSGAGAGSGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGSGAGAGAGAGAGAGSGAGAGSGAGAGYGAGAGSGAASGAGAGAGAGTGSSGFG

PYVANGGYSRREGYEYAWSSKSDFETGSGAASGAGAGAGSGAGAGSGAGAGSGAGAGSGAGAGGSVSYGAGRGYGQGAGSAASSVSSASSRSYDYSR

RNVRKNCGIPRRQLVVKFRALPCVNC

©Guy Perrière

Homologie sans similarité

• Globine alpha humaine vs myoglobine humaine

Identities = 39/148 (26%), Positives = 59/148 (39%), Gaps = 6/148 (4%)

Query 1 MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHF------DLSHGSA 54

M LS + V WGKV A +G E L R+F P T F F D S

Sbjct 1 MGLSDGEWQLVLNVWGKVEADIPGHGQEVLIRLFKGHPETLEKFDKFKHLKSEDEMKASE 60

Query 55 QVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHL 114

+K HG V AL + + L+ HA K ++ + +S C++ L +

Sbjct 61 DLKKHGATVLTALGGILKKKGHHEAEIKPLAQSHATKHKIPVKYLQFISECIIQVLQSKH 120

Query 115 PAEFTPAVHASLDKFLASVSTVLTSKYR 142

P +F +++ K L + S Y+

Sbjct 121 PGDFGADAQGAMNKALELFRKDMASNYK 148

Homologie: Orthologie

• Définition «gènes présents dans des organismes différents, ayant évolué à partir d’un même gène ancestral suite à des événements de spéciation»

=> La fonction est souventconservée au cours de l’évolution des orthologues

Homologie : Paralogie

• Définition « gènes issus

d’événements de duplication

au sein d’un génome»

=> La fonction d’un ou des

paralogues peut changer au

cours de l’évolution

(spécialisation, nouvelle

fonction)

Homologie : Xénologie

• Définition « gènes ayant été acquis par transfert horizontal »

Ancêtre

tem

ps

Evolution

spéciation

Oiseaux Mammifères

Poulet Homme

Evolution

@Daniel Gauteret

Evolution d’un gène au cours de l’évolution

Apparition de nouveaux gènes par

duplication

Ancêtre

tem

ps

Duplication

Evolution

Spéciation

Oiseaux Mammifères

Poulet Homme

Evolution

@Daniel Gauteret

???

Poulet Homme

???

@Daniel Gauteret

Application

Recherche d’homologues dans les banques

de séquences

• Recherche par similarité de séquence

Comparaison d’une séquence d’intérêt à chaque séquence contenue dans la base de données

BLAST

• Recherche à l’aide de profils

Construction d’un profil par comparaison de séquences homologues

Comparaison du profil à chaque séquence de la base de données

HMMer, PSI-BLAST

Séquence banque

Séquence requête

Longueur du mot = w

Score ≥ T

Mot

Extension du

segment similaire

Séquence banque

Séquence requête

HSP : High Scoring Pair

Score

Extension du segment

Extension stoppée quand :

- la fin d’une des deux séquences est atteinte

- score ≤ 0

- score ≤ score_max - xT

Score max.

x

BLAST : principe général

©Guy Perrière

S L A A L L N K C K T P Q G Q R L V N Q W

P Q G 18

P E G 15

P R G 14

P K G 14

P N G 13

P D G 13

P H G 13

P M G 13

P S G 13

P Q A 12

P Q N 12

...

Liste

de mots

voisins

Score seuil T = 13

Query : 325 S L A A L L N K C K T P Q G Q R L V N Q W 345

+ L A + + L + T P G R + + + W

Sbjct : 290 T L A S V L D C T V T P M G S R M L K R W 310

(P, P) = 7

(Q, R) = 1

(G, G) = 6x

T

Exemple

©Guy Perrière

Versions de BLAST

• blastp : protéine vs.protéine.

• blastn : utile pour le non-codant.

• blastx : séquences co-dantes non identifiées.

• tblastn : homologues dans un génome non complètement annoté.

Nucléique

Protéique

Nucléique

Protéiqueblastp

blastnT

Banque

tblastxT

T

Séquence

©Guy Perrière

Évaluation statistique

©Guy Perrière

• Similarités détectées :

– Relations significatives.

– Similarités dues au hasard.

• Fonction de score :

– Mesure sous la forme :

• D’une espérance mathématique (E-value).

• Valeur en bits.

– Basée sur une distribution calculée à partir séquences non homologues.

– Les scores dépendent de la taille de la banque.

E-value, bits et similarité

• Soit E, l’espérance mathématique d’avoir une similarité ≥ au score S observé :

E = Kmn e–S

Avec m et n les longueurs des deux séquences considérées, et K et deux paramètres dérivés de la distribution précédente.

• Le score en bits S' est donné par :

S' = [S – log(K)] / log(2)

• La relation entre E et S' est donc donnée par :

E = mn 2–S'

©Guy Perrière








Recherche par BLAST dans une banque de séquences protéiques (RefSEQ)

Recherche par Blast au NCBI

Choix des paramètres

Choix des paramètres avancés

Résultats du BLAST : Entête

Résultats du BLAST : Reformater les

résultats

Résultats du BLAST : Domaines conservés

Résultats du BLAST : Vue graphique

Résultats du BLAST : Descriptions

Résultats du BLAST : Alignements locaux

Taxonomy report

Recherche par profil

• Refaire l’analyse en utilisant PSI-BLAST (NCBI)

• Refaire l’analyse en utilisant HMMER (http://hmmer.org/)

Construction d’une phylogénie des

homologues de la colipase humaine

• Logiciel SeaView

• Ouvrir le fichier

Construction d’une phylogénie des

homologues de la colipase humaine

• Aligner les séquences avec Clustal0

• Éliminer les séquences partielles et les transcrits alternatifs

• Nettoyer l’alignement

• Reconstruire une phylogénie par la méthode du Maximum de Vraisemblance

introduction à la bioinformatique · 2016. 3. 21. · introduction à la bioinformatique céline...

Documents