le reti neurali e la predizione della struttura proteica rita casadio interdepartmental centre for...
Post on 01-May-2015
216 Views
Preview:
TRANSCRIPT
Le reti neurali e la predizione della
struttura proteica
Le reti neurali e la predizione della
struttura proteica
Rita Casadio
Interdepartmental Centre for Biotechnological ResearchUniversity of Bologna, Italy
L’era “omica”: genomi completi
•Archea: 16 speci/33 in progress
•Batteri: 83 speci
•Eukarioti: 17 speci (242 chromosomi)
www.ncbi.nlm.nih.gov
Draft del genoma umano
http://www.ncbi.nlm.nih.gov/genome/guide/human
http://www.ensembl.org/
•Nature (2/15/01) Human Genome Issue
•Science (2/16/01) Human Genome Issue
http://public.celera.com/index.cfm
Strutture proteiche
Dalla Sequenza alla Funzione
Dalla Sequenza alla Funzione
Geni
> RICIN GLYCOSIDASEMYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH
Sequenze proteiche
FunzioneFunzione
Genomica funzionale, Proteomica ed Interattomica
Genomica funzionale, Proteomica ed Interattomica
PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE
Primaria Secondaria Terziaria Quaternaria
Livelli di organizzazione strutturale
PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE
Gli elementi di struttura secondaria
C
N
Foglietto -elica
La cinetica del Folding:
I siti di iniziazioneLa catena
La predizione del Protein FoldingLa predizione del Protein Folding
La proteina nativa
Il processo di foldingIl processo di folding
Le Banche Dati di Sequenze Biologiche e Strutture
>BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus.MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH
NCBI: 18,197,119 sequenze 22,616,937,182
nucleotidi
Swiss-Prot: 113,470 sequenze
41,413,223 residui
PDB: 17,510 strutture
August/2002
Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e:
Struttura secondaria
Motivi strutturali e funzionali
Struttura terziaria (3D)
Il Protein Folding
T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N
Caratteristiche della Predizione Strutturale di Sequenze Proteiche
Ampio insieme di dati per cui la soluzione del problema è nota
E’ difficile (impossibile) formulare una soluzione analitica del problema
Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)
Xx1 x2 ………xn
Yy1 y2 ………yn
X space
Y s
pace
Mapping generale non-lineare funzionale
Set dalla banca dati
Mapping noto
Regole Generali
Nuova sequenza
Predizione
Training Predizione
Tools derivati dall’apprendimento automatico:
Reti Neurali
Le proprieta’ del residuo R dipendono sia dalle interazioni locali (finestra W) che da quelle non locali (contesto C)
Contesto C
Residuo RFinestra W
O Onon
Rete Neurale
La finestra di input
Input basato sulla Informazione Evolutiva
Input basato sulla Informazione Evolutiva
Multiple Sequence Alignment (MSA)
Posizione lungo la sequenza
Sequenze allineate
1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV2 MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL
1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV2 MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL
Finestra di Input
Artificial Neural NetworksPercettrone a singolo strato
Bias
Inputs
Outputs
x 0 x 1 x d
z mz 1
a = w i x ii = 0
d
z = g (a)
La Funzione di ErroreY i (X q) = Output of the network
D iq = Expected Value
L’ Algoritmo di Training: il Back Propagation(gradient descendent: Rumelhart et al. 1986)
Correction to the weights
= learning rate
= momentum term
Parametri variabili delle Reti Neurali
•L’ampiezza della finestra mobile
•Il codice di input
•L’architettura: il numero di nodi (neuroni) e gli strati di neuroni
•La velocità di apprendimento
Le Reti Neurali a Bologna predicono:
Le Reti Neurali a Bologna predicono:
•La struttura secondaria delle proteine
•I siti di iniziazione del protein folding
•La topologia delle proteine di membrana all
alpha and all beta (ISMB BEST PAPER AWARD
2002)
•La presenza dei peptidi segnale
•Lo stato di legame delle cisteine e la topologia
dei ponti a zolfo
•Le mappe di contatto delle proteine (BEST
PREDICTOR of the CATEGORY at CASP4)
•Le superfici di interazione tra proteine
www.biocomp.unibo.it
The Server
SequenceDatabase
PSI-BLAST
NEURALNEURALNETWORKNETWORK
Predictor Output
Sequence
USER
e-mailAnswer
Schema generale dei predittori disponibili al nostro sito web
Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:
Predittori basati su Reti Neurali
Predittori basati su Reti Neurali
La predizione delle mappe dei contattiLa predizione delle mappe dei contatti
Predizione dei contatti tra residuiPredizione dei contatti tra residuiContatti nelle Proteine
F 297
F 156 V 299
V 271
I 240V 238
I 269
From 3D Structure
F 297
F 156 V 299
V 271
I 240V 238
I 269
Computation of Contact MapsComputation of Contact Maps
To Contact MapTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYANT
TCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
RMSD = 2.5 Å
N
C
Contact mapMARC
1QHJ (1.9 Å)
3-D Modelling through Contact Maps Bacteriorhodopsin3-D Modelling through Contact Maps Bacteriorhodopsin
Model
PredizioneSequenza
Predizione della mappa dei contatti
Tools di Apprendimento Automatico Tools di Apprendimento Automatico
Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti
Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti
Set Banca Dati
Regole generali
Mapping noto
TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN
Training
T0087: 310 residues A=20 % (FR/NF)
N
C
T0110: 128 residues A=30% (NF)
N
C
Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:
Predittori basati su Reti Neurali
Predittori basati su Reti Neurali
La predizione dei ponti a zolfoLa predizione dei ponti a zolfo
Il Protein Folding
RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA
I legami a zolfo tra cisteine nelle I legami a zolfo tra cisteine nelle proteineproteine
2-SH -> -SS- + 2H+ + 2e-
S-S distance 2.2 Å
Torsion angle C-S-S-C 90°
Bond Energy 3 Kcal/mol
S
SC CC
C
Bonding Non bonding
Neural Networks for the Prediction of the disulfide-bonding state of cysteines in
proteins
Neural Networks for the Prediction of the disulfide-bonding state of cysteines in
proteins
1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL
MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...
P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)
W1 W2 W3
Cysteine free states
Cysteine bonding states
End
Begin
Most probable path through the states
Prediction of the bonding and non-bonding states of all the cysteines of the sequence
71 144 106 207 187 80 35 55 18 16 4 16 0 7 1 8 2 4 0 0 0 1 1 3 0 0 0 0 0 1 0 0 0 1 1
0
10
20
30
40
50
60
70
80
90
100
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35
Correctly predicted proteins (%)
No of cysteines per proteinNo of proteins
NN-based predictor HNN-based predictor
Accuratezza per cisteina: 88%; per proteina: 84%
Il sistema ibrido
Protein Science, in press
VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP
www.prion.biocomp.unibo.it/cyspred.html
Disulfide bonding cysteine
Free cysteine
VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP
Input
VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP
Output
I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE
PROTEINE?
EcoGene/EcoProt
(bmb.med.miami.edu/EcoGene)
Protein coding genes: 4,173Structural RNAs : 120
Escherichia coli K12, genoma completo
Completed: Oct 13, 1998. Total Bases: 4,639,221 bp
NCBI (www.ncbi.nlm.nih.gov)Protein coding genes: 4,289
Structural RNAs: 115
EcoGene/SwissProt functional annotation
Keywords of SwissProt entries (if exist) are extracted :
1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have SwissProt entry 1116 proteins don’t contain functional annotation in SwissProt
2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins
760 PARTIALLY ANNOTATED PROTEINS (18 %) proteins annotated as “Hypothetical proteins” and with other functional annotations 352 Inner membrane proteins
18 Outer membrane proteins 390 Globular proteins
Inner Membrane proteins(all -Transmembrane
proteins)
Outer Membrane proteins(all -Transmembrane
proteins)
PROTEOME
Signal peptide
Yes
All- TM All- TM
No
No
All- TM
Yes
all -TM
Yes
all -TMY
esall -TM
No
Globular
No
Globular
HUNTER
* the number of new proteins predicted in the class with Hunter, out of the non-annotated region
Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with
Hunter
http://www.biocomp.unibo.it
Welcome to the CIRB Biocomputing Group home page This is the Biocomputing unit of the CIRB Centro Interdipartimentale di Ricerche Biotecnologiche
Group Main Research Fields. Group Publications
Technology provider for the DRUG consortium of the NOTSOMAD TTN initiative.
BIOCOMPUTING GROUP
Group leader : Rita Casadio Group members:
Piero Fariselli Pier Luigi Martelli Emidio Capriotti Mario Compiani Ivan Rossi Gianluca Tasco
www.biocomp.unibo.it
Collaborazioni
ItaliaL.Masotti, Biochemistry, Bologna P.Mariani, Physics, AnconaM.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, BolognaG.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, BolognaG.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, BolognaD.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, BolognaP.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara
All’esteroB.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, MadridP.Baldi, Genomics and Bioinformatics, Irvine, CaliforniaA.Krogh, University of Copenhagen, CopenhagenN.Ben Tal, Israel Insitute of Technology, Tel Aviv
Protein set
Testing set
The cross validation procedure
Training set
Evaluation of the performance
Q2 = ———————— = ——p+nN
correct predictionstotal predictions
P(x) = ———————————— = ——p
p+ocorrect predictions in class xtotal predictions in class x
Q(x) = ———————————— = ——p
p+ucorrect predictions in class xtotal observations in class x
C = Correlation index = —————————————p·n - o ·u
[(p+o) ·(p+u) ·(n+o) ·(n+u)]1/2
x Non-xx p u
Non-x o n
Predicted
Observed
Legend:
Evaluation of the efficiency of contact map predictions
1) Accuracy:
A = Ncp* / Ncpwhere Ncp* and Ncp are the number of correctly assigned contacts and that of total predicted contacts, respectively.
2) Improvement over a random predictor :
R = A / (Nc/Np)
where Nc/Np is the accuracy of a random predictor ; Nc is the number of real contacts in the protein of length Lp, and Np are all the possible contacts
3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997):
Xd= i=1,n (Pic - Pia ) / n di
where n is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure); di is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin; Pic and Pia are the percentage of predicted contact pairs (with distance between di and di-1 ) and that of all possible pairs respectively
Protein set
Training set 1
Testing set 1
The cross validation procedure
PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE
Gli elementi della costruzione della struttura primaria
Amminoacidi Backbone della proteina
top related