le reti neurali e la predizione della struttura proteica rita casadio interdepartmental centre for...

Le reti neurali e la predizione della

struttura proteica

Le reti neurali e la predizione della

struttura proteica

Rita Casadio

Interdepartmental Centre for Biotechnological ResearchUniversity of Bologna, Italy

L’era “omica”: genomi completi

•Archea: 16 speci/33 in progress

•Batteri: 83 speci

•Eukarioti: 17 speci (242 chromosomi)

www.ncbi.nlm.nih.gov

Draft del genoma umano

http://www.ncbi.nlm.nih.gov/genome/guide/human

http://www.ensembl.org/

•Nature (2/15/01) Human Genome Issue

•Science (2/16/01) Human Genome Issue

http://public.celera.com/index.cfm

Strutture proteiche

Dalla Sequenza alla Funzione

> RICIN GLYCOSIDASEMYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH

Sequenze proteiche

FunzioneFunzione

Genomica funzionale, Proteomica ed Interattomica

PRINCIPI DI BASE DELLA STRUTTURA PRINCIPI DI BASE DELLA STRUTTURA DELLE PROTEINEDELLE PROTEINE

Primaria Secondaria Terziaria Quaternaria

Livelli di organizzazione strutturale

Gli elementi di struttura secondaria

Foglietto -elica

La cinetica del Folding:

I siti di iniziazioneLa catena

La predizione del Protein FoldingLa predizione del Protein Folding

La proteina nativa

Il processo di foldingIl processo di folding

Le Banche Dati di Sequenze Biologiche e Strutture

>BGAL_SULSO BETA-GALACTOSIDASE Sulfolobus solfataricus.MYSFPNSFRFGWSQAGFQSEMGTPGSEDPNTDWYKWVHDPENMAAGLVSGDLPENGPGYWGNYKTFHDNAQKMGLKIARLNVEWSRIFPNPLPRPQNFDESKQDVTEVEINENELKRLDEYANKDALNHYREIFKDLKSRGLYFILNMYHWPLPLWLHDPIRVRRGDFTGPSGWLSTRTVYEFARFSAYIAWKFDDLVDEYSTMNEPNVVGGLGYVGVKSGFPPGYLSFELSRRHMYNIIQAHARAYDGIKSVSKKPVGIIYANSSFQPLTDKDMEAVEMAENDNRWWFFDAIIRGEITRGNEKIVRDDLKGRLDWIGVNYYTRTVVKRTEKGYVSLGGYGHGCERNSVSLAGLPTSDFGWEFFPEGLYDVLTKYWNRYHLYMYVTENGIADDADYQRPYYLVSHVYQVHRAINSGADVRGYLHWSLADNYEWASGFSMRFGLLKVDYNTKRLYWRPSALVYREIATNGAITDEIEHLNSVPPVKPLRH

NCBI: 18,197,119 sequenze 22,616,937,182

nucleotidi

Swiss-Prot: 113,470 sequenze

41,413,223 residui

PDB: 17,510 strutture

August/2002

Possiamo estrarre dal PDB circa 1500 esempi di catene di cui e’ nota la struttura terziaria al fine di ricavare informazioni non ridondanti per la relazione tra sequenza e:

Struttura secondaria

Motivi strutturali e funzionali

Struttura terziaria (3D)

Il Protein Folding

T T C C P S I V A R S N F N V C R L P G T P E A L C A T Y T G C I I I P G A T C P G D Y A N

Caratteristiche della Predizione Strutturale di Sequenze Proteiche

Ampio insieme di dati per cui la soluzione del problema è nota

E’ difficile (impossibile) formulare una soluzione analitica del problema

Le banche dati vengono aggiornate in modo continuo (grande volume di dati, necessità di operare in tempo reale)

Xx1 x2 ………xn

Yy1 y2 ………yn

X space

Mapping generale non-lineare funzionale

Set dalla banca dati

Mapping noto

Regole Generali

Nuova sequenza

Predizione

Training Predizione

Tools derivati dall’apprendimento automatico:

Reti Neurali

Le proprieta’ del residuo R dipendono sia dalle interazioni locali (finestra W) che da quelle non locali (contesto C)

Contesto C

Residuo RFinestra W

O Onon

Rete Neurale

La finestra di input

Input basato sulla Informazione Evolutiva

Multiple Sequence Alignment (MSA)

Posizione lungo la sequenza

Sequenze allineate

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSPTGVAITSSGTKKGEL--FLGDV2 MAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSPTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTANGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSTTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSSTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSPNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTANGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSATGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTSSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTPNNVAFKVTGKSTHDK-VTSGAL

Finestra di Input

Artificial Neural NetworksPercettrone a singolo strato

Inputs

Outputs

x 0 x 1 x d

z mz 1

a = w i x ii = 0

z = g (a)

La Funzione di ErroreY i (X q) = Output of the network

D iq = Expected Value

L’ Algoritmo di Training: il Back Propagation(gradient descendent: Rumelhart et al. 1986)

Correction to the weights

= learning rate

= momentum term

Parametri variabili delle Reti Neurali

•L’ampiezza della finestra mobile

•Il codice di input

•L’architettura: il numero di nodi (neuroni) e gli strati di neuroni

•La velocità di apprendimento

Le Reti Neurali a Bologna predicono:

•La struttura secondaria delle proteine

•I siti di iniziazione del protein folding

•La topologia delle proteine di membrana all

alpha and all beta (ISMB BEST PAPER AWARD

•La presenza dei peptidi segnale

•Lo stato di legame delle cisteine e la topologia

dei ponti a zolfo

•Le mappe di contatto delle proteine (BEST

PREDICTOR of the CATEGORY at CASP4)

•Le superfici di interazione tra proteine

www.biocomp.unibo.it

The Server

SequenceDatabase

PSI-BLAST

NEURALNEURALNETWORKNETWORK

Predictor Output

Sequence

e-mailAnswer

Schema generale dei predittori disponibili al nostro sito web

Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:

Predittori basati su Reti Neurali

La predizione delle mappe dei contattiLa predizione delle mappe dei contatti

Predizione dei contatti tra residuiPredizione dei contatti tra residuiContatti nelle Proteine

F 156 V 299

I 240V 238

From 3D Structure

F 156 V 299

I 240V 238

Computation of Contact MapsComputation of Contact Maps

To Contact MapTTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYANT

TCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

RMSD = 2.5 Å

Contact mapMARC

1QHJ (1.9 Å)

3-D Modelling through Contact Maps Bacteriorhodopsin3-D Modelling through Contact Maps Bacteriorhodopsin

PredizioneSequenza

Predizione della mappa dei contatti

Tools di Apprendimento Automatico Tools di Apprendimento Automatico

Le Reti Neurali imparano il mapping dalla sequenza alla mappa dei contatti

Set Banca Dati

Regole generali

Mapping noto

TTCCPSIVARSNFNVCRLPGTPEAICATYTGCIIIPGATCPGDYAN

Training

T0087: 310 residues A=20 % (FR/NF)

T0110: 128 residues A=30% (NF)

Verso la predizione della struttura 3D:Verso la predizione della struttura 3D:

Predittori basati su Reti Neurali

La predizione dei ponti a zolfoLa predizione dei ponti a zolfo

Il Protein Folding

RPDFCLEPPYTGPCKARIIRYFYNAKAGLCQTFVYGGCRAKRNNFKSAEDCMRTCGGA

I legami a zolfo tra cisteine nelle I legami a zolfo tra cisteine nelle proteineproteine

2-SH -> -SS- + 2H+ + 2e-

S-S distance 2.2 Å

Torsion angle C-S-S-C 90°

Bond Energy 3 Kcal/mol

Bonding Non bonding

Neural Networks for the Prediction of the disulfide-bonding state of cysteines in

proteins

Neural Networks for the Prediction of the disulfide-bonding state of cysteines in

proteins

1 MVKGPGLYTDIGKKARDLLYKDYHS--DKKFTISTYSCTGVAITSSGTKKGEL--FLGDV2 SAKGPGLYTDIGKKARDLLYRDYQT--DQKFSITTYSCTGVAITSSGTKKGDL--FLADV3 MVKGPGLYSDIGKRARDLLYRDYQS--DHKFTLTTYTCNGVAITSTGTKKGEL--FLADV4 MVKGPGLYSDIGKKARDLLYRDYVS--DHKFTVTTYSCTGVAITASGLKKGEL--FLADV5 MVKGPGLYTEIGKKARDLLYRDYQG--DQKFSVTTYSCTGVAITTTGTNKGSL--FLGDV6 MVVAVGLYTDIGKKTRDLLYKDYNT--HQKFCLTTSSCNGVAITAAGTRKNES--IFGEL7 -MGGPGLYSGIGKKAKDLLYRDYQT--DHKFTLTTYTCNGPAITATSTKKADL--TVGEI8 AVVRPYADLGKSARDVFTKGYGFG-LIKLDLKTKSENGLEFTSSGSANTETTKVTGSLEI9 --AVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVTGSL10 -MAVPPTYADLGKSARDVFTKGYGFG-LIKLDLKTKSGNGLEFTSSGSANTETTKVNGSL11 --AVPPSYADLGKSARDIFNKGYGFG-LVKLDVKTKSCTGVEFTTSGTSNTDSGKVNGSL12 --MAPPSYSDLGKQARDIFSKGYNFG-LWKLDLKTKTCSGIEFNTAGHSNQESGKVFGSL13 --MAVPAFSDIAKSANDLLNKDFYHLAAGTIEVKSNTCNNVAFKVTGKSTHDK-VTSGAL

MYSFPNSFRFGWSQAGFQCEMSTPGSEDPNTDWYKWVHDPENMAAGLCSGDLPENGPGYWGNYKTFHDNAQKMCLKIARLNVEWSRIFPNP...

P(B|W1), P(F|W1) P(B|W3), P(F|W3)P(B|W2), P(F|W2)

W1 W2 W3

Cysteine free states

Cysteine bonding states

Most probable path through the states

Prediction of the bonding and non-bonding states of all the cysteines of the sequence

71 144 106 207 187 80 35 55 18 16 4 16 0 7 1 8 2 4 0 0 0 1 1 3 0 0 0 0 0 1 0 0 0 1 1

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35

Correctly predicted proteins (%)

No of cysteines per proteinNo of proteins

NN-based predictor HNN-based predictor

Accuratezza per cisteina: 88%; per proteina: 84%

Il sistema ibrido

Protein Science, in press

VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP

www.prion.biocomp.unibo.it/cyspred.html

Disulfide bonding cysteine

Free cysteine

VGDKLIPLKITYDYYVCNNHMDTDTSYERWPALGTYRPLNGRDCVMNNHKLAASDRWECDQREPLYTCMCNKDLPTKAAGPLMNTRPILNLSREEWLLPLLTHMNVVAGLCKLP

Output

I PREDITTORI POSSONO ESSERE USATI PER SCOPRIRE NUOVE

PROTEINE?

EcoGene/EcoProt

(bmb.med.miami.edu/EcoGene)

Protein coding genes: 4,173Structural RNAs : 120

Escherichia coli K12, genoma completo

Completed: Oct 13, 1998. Total Bases: 4,639,221 bp

NCBI (www.ncbi.nlm.nih.gov)Protein coding genes: 4,289

Structural RNAs: 115

EcoGene/SwissProt functional annotation

Keywords of SwissProt entries (if exist) are extracted :

1253 NON ANNOTATED PROTEINS (30 %) 137 proteins don’t have SwissProt entry 1116 proteins don’t contain functional annotation in SwissProt

2160 ANNOTATED PROTEINS (52 %) 421 Inner membrane proteins 35 Outer membrane proteins 1704 Globular proteins

760 PARTIALLY ANNOTATED PROTEINS (18 %) proteins annotated as “Hypothetical proteins” and with other functional annotations 352 Inner membrane proteins

18 Outer membrane proteins 390 Globular proteins

Inner Membrane proteins(all -Transmembrane

proteins)

Outer Membrane proteins(all -Transmembrane

proteins)

PROTEOME

Signal peptide

All- TM All- TM

All- TM

all -TM

all -TMY

esall -TM

Globular

HUNTER

* the number of new proteins predicted in the class with Hunter, out of the non-annotated region

Predicting globular, inner and outer membrane proteins in genomes of Gram-negative bacteria with

Hunter

http://www.biocomp.unibo.it

Welcome to the CIRB Biocomputing Group home page This is the Biocomputing unit of the CIRB Centro Interdipartimentale di Ricerche Biotecnologiche

Group Main Research Fields. Group Publications

Technology provider for the DRUG consortium of the NOTSOMAD TTN initiative.

BIOCOMPUTING GROUP

Group leader : Rita Casadio Group members:

Piero Fariselli Pier Luigi Martelli Emidio Capriotti Mario Compiani Ivan Rossi Gianluca Tasco

www.biocomp.unibo.it

Collaborazioni

ItaliaL.Masotti, Biochemistry, Bologna P.Mariani, Physics, AnconaM.Rossi, IBPE/CNR, Napoli G.Campadelli-Fiume, Pathology, BolognaG.Mita, IIGB/CNR, Napoli S.Prosperi, Veterinary, BolognaG.Irace, Biochemistry, Napoli F.Bernardi, Chemistry, BolognaD.Boraschi, CNR, Pisa S.Ciurli, Agricultural Chemistry, BolognaP.Arrigo, ICE/CNR, Genova C.Bergamini, Biochemistry, Ferrara

All’esteroB.Rost, Columbia University, New York A.Valencia, Protein Design Group, Cantoblanco, MadridP.Baldi, Genomics and Bioinformatics, Irvine, CaliforniaA.Krogh, University of Copenhagen, CopenhagenN.Ben Tal, Israel Insitute of Technology, Tel Aviv

Protein set

Testing set

The cross validation procedure

Training set

Evaluation of the performance

Q2 = ———————— = ——p+nN

correct predictionstotal predictions

P(x) = ———————————— = ——p

p+ocorrect predictions in class xtotal predictions in class x

Q(x) = ———————————— = ——p

p+ucorrect predictions in class xtotal observations in class x

C = Correlation index = —————————————p·n - o ·u

[(p+o) ·(p+u) ·(n+o) ·(n+u)]1/2

x Non-xx p u

Non-x o n

Predicted

Observed

Legend:

Evaluation of the efficiency of contact map predictions

1) Accuracy:

A = Ncp* / Ncpwhere Ncp* and Ncp are the number of correctly assigned contacts and that of total predicted contacts, respectively.

2) Improvement over a random predictor :

R = A / (Nc/Np)

where Nc/Np is the accuracy of a random predictor ; Nc is the number of real contacts in the protein of length Lp, and Np are all the possible contacts

3) Difference in the distribution of the inter-residue distances in the 3D structure for predicted pairs compared with all pair distances in the structure (Pazos et al., 1997):

Xd= i=1,n (Pic - Pia ) / n di

where n is the number of bins of the distance distribution (15 equally distributed bins from 4 to 60Å cluster all the possible distances of residue pairs observed in the protein structure); di is the upper limit (normalised to 60 Å) for each bin, e.g. 8 Å for the 4 to 8 Å bin; Pic and Pia are the percentage of predicted contact pairs (with distance between di and di-1 ) and that of all possible pairs respectively

Protein set

Training set 1

Testing set 1

The cross validation procedure

Gli elementi della costruzione della struttura primaria

Amminoacidi Backbone della proteina

le reti neurali e la predizione della struttura proteica rita casadio interdepartmental centre for...

folding slide

italy slide

interattomica slide

elica slide

reale slide

strutture august2002

lineare funzionale slide

banche dati

Documents

reti neurali su personal computer + fuzzy logic

lo splicing dell’rna definizione importanza predizione

predizione delle maree nella laguna di venezia usando la...

giornate mediche di santa maria nuova il paziente...

apprendimento mimetico reinforcement learning · mappe...

reti neurali e malattie neurodegenerative ·...

roberto casadio , michele lenzi and octavian micucz ·...

mri: acquisition of an ft-raman spectrometer for...

intelligenza artificiale reti neurali roberto marmo...

automazione (laboratorio) reti neurali per...

molecularbiologyprimermolecular biology primer - unibo.it...

neuroscienze e dinamiche profonde del cambiamento nella...

deep blue e la zanzara - bologna.enea.it · correspondstoa...

reti neurali -...

intelligenza artificiale - aa 2002/2003 reti neurali - 1...

correlati neurali della religiosità e delle credenze...

casadio 20045 mioceno decapodo

introduzione alla teoria delle reti neurali · 2013. 7....

systemics an introduction by umberta telfener and luca...

kompakte abmessungen - casadio · em aço e alumínio e...