![Page 1: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/1.jpg)
A Brief Introduction to Molecular Systematics
David S. HornerDip. Scienze Biomolecolari e
![Page 2: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/2.jpg)
Allineamento
![Page 3: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/3.jpg)
Che Cosa è un allineamento?
• E’ una serie di ipotesi di omologia posizionale
![Page 4: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/4.jpg)
SUGARSUCRE
![Page 5: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/5.jpg)
SUGAR
SUCRE
SUGR
SUCR
X
E
![Page 6: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/6.jpg)
S U G A R -
S U C – R E----------------------------
S U ? ? R ?
![Page 7: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/7.jpg)
S U G A R -
S U C – R EZ U C K E R
S O K K E RA Z U C A R
S A K A R I
A ç U C A R
![Page 8: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/8.jpg)
S U G - A R - S U C – - R EZ U C K E R -S O K K E R -
A Z U C - A R - S A K - A R I A ç U C - A R - -------------------- - S U C(K)A R -
![Page 9: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/9.jpg)
Possiamo Valutare un Allineamento• Match = +2• Mismatch = -1• Gap = -2
G A T T C C G T| | | | |G A A T - C C T+2 +2 -1 +2 -2 +2 -1 +2
=6 punti
![Page 10: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/10.jpg)
Models of Amino acid ReplacementExchangeability Parameters
![Page 11: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/11.jpg)
Human: W C T F G T TMouse: W C A W G T T 11 9 0 1 6 5 5
•Si può calcolare un “punteggio di similarità” tra 2 sequenze, in base
al punteggio scelto:
score = 37
![Page 12: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/12.jpg)
• Saul G. Needleman – Christian D. Wunsch 1970 Allineamento ottimale di due sequenze
![Page 13: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/13.jpg)
H E A G A W G H E E
PAWHEAE
![Page 14: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/14.jpg)
La formula• Matrice M = (m+1)x(n+1)• La posizione m(0,0) è “inizializzata” a zero• Poi: m(i,j) è uguale al massimo tra tre possibilità• s(xi,yj) è il costo (matrici) della sostituzione dell’i-esima lettera della sequenza
X con la j-esima della sequenza Y• d è il costo di una cancellazione (inserimento)• Alla fine, la casella in basso a destra conterrà il punteggio dell’allineamento
djimdjimyxsjim
jimji
)1,(),1(
),()1,1(max),(
![Page 15: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/15.jpg)
Allineamento “globale”
m(i-1,j-1) m(i,j-1)
m(i-1,j) F(i,j)s(xi,yj) d
d
Allinea caratterecon carattere
xi allineatocon un “gap”
yj allineatocon un “gap”
While building the table, keep track of where optimal score came from, reverse arrows
![Page 16: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/16.jpg)
BLOSUM62 Amino Acid Log-odd Substitution Matrix
![Page 17: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/17.jpg)
H E A G A W G H E E0 -8 -
16-24
-32
-40
-48
-56
-64
-72
-80
P -8 -2 -9 -17
-25
-33
-42
-49
-57
-65
-73
A -16
W -24
H -32
E -40
A -48
E -56
![Page 18: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/18.jpg)
“Traceback”
H E A G A W G H E E0 -8 -
16-24
-32
-40
-48
-56
-64
-72
-80
P -8 -2 -9 -17
-25
-33
-42
-49
-57
-65
-73
A -16
-10
-3 -4 -12
-20
-28
-36
-44
-52
-60
W -24
-18
-11
-6 -7 -15
-5 -13
-21
-29
-37
H -32
-14
-18
-13
-8 -9 -13
-7 -3 -11
-19
E -40
-22
-8 -16
-16
-9 -12
-15
-7 3 -5
A -48
-30
-16
-3 -11
-11
-12
-12
-15
-5 2
E -56
-38
-24
-11
-6 -12
-14
-15
-12
-9 1
HEAGAWGHE-E--P-AW-HEAE
Segui le frecce a partire dal basso a destra• Diagonale: Lettera con lettera• Su: Gap nella sequenza sopra• Sinistra: Gap nella sequenza sotto
![Page 19: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/19.jpg)
Ricerca in Database
• “Trovami nel database le sequenze che allineate con la mia producono un buon punteggio”
• Nelle ricerche nei database spesso ci si “accontenta” di trovare similarità locali (domini conservati, siti attivi, ecc.)
• Il database è enorme: occorrono metodi “veloci” (che non compilino tutta la tabella) per confrontare la nostra sequenza ignota con migliaia di altre sequenze: FASTA, BLAST
• Punteggi piu alto che atessa indicono omologia
![Page 20: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/20.jpg)
Allineamento Progressivo
• Inventato da Feng e Doolittle nel 1987.• Essenzialmente è un metodo euristico e in quanto
tale non garantisce il reperimento dell’allineamento “ottimale”.
• Richiede n-1+n-2+n-3...n-n+1 allineamenti a coppie di sequenze (pairwise) come punto di partenza - (n(n-1))/2
• La sua implementazione più nota è Clustal (Des Higgins)
![Page 21: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/21.jpg)
Allineamenti pairwise • Partire da tutti I possibili
allineamenti pairwise fra ciascuna coppia di sequenze. Ci sono (n-1)+(n-2)...(n-n+1) possibilità.
• Calcolare la “distanza” per ogni coppia di sequenze sulla base di questi allineamenti pairwise isolati.
• Generare una matrice di distanza e un albero filogenetico.
![Page 22: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/22.jpg)
Caso in cui una terza sequenza vada allineata alla prime due: ogni volta che sia necessario introdurre un gap per migliorare l’allineamento, le due entità vengono trattate come sequenze singole.
+
![Page 23: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/23.jpg)
H E A GAWGHE-E- - P -AW-HEAE0.5H 0.5E 0.5A …….0.5- 0.5- 0.5P ……. Profile
+H D P -AW-HEAE
HDP
-8 -16 -24-16-24-32
H E AGAWGHE-E- - P-AW-HEAE
![Page 24: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/24.jpg)
Progressione
• L’allineamento multiplo viene progressivamente costruito in questo modo: ogni passaggio è trattato come un allineamento pairwise, a volte ciascun membro del pair (coppia) rappresenta più di una sequenza.
![Page 25: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/25.jpg)
Progressive Alignment-Minimo Locale
• Problemi potenziali:–Problema del minimo locale. Se
viene introdotto un errore precocemente nel processo di allineamento, non è possibile correggerlo più tardi nel corso della procedura.
![Page 26: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/26.jpg)
Musclewww.drive5.com/muscle
![Page 27: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/27.jpg)
Allineamento di sequenze di DNA codificanti per proteine• Non è raccomandabile allineare
sequenze nucleotidiche di geni codificanti per proteine.
ATGCCCCTGTTAGGGATGCTCGTAGGG
ATGCCCCT-GTTAGGGATG---CTCGT-AGGG
http://www.cbs.dtu.dk/services/RevTrans/
![Page 28: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/28.jpg)
Allineamento di sequenze di DNA codificanti per proteine
Allineare le seq. Proteiche, inserire 3 gap nelle seq. nucleotidiche per ogni gap nel’allineamento proteico
ATGCCCCTGTTAGGGATG---CTCGTAGGG
MetProLeuLeuGlyATGCCCCTGTTAGGGATGCTCGTAGGGMetLeuValGly
MPLLGM-LVG
![Page 29: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/29.jpg)
Che Cosa è un allineamento?
• E’ una serie di ipotesi di omologia posizionale
![Page 30: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/30.jpg)
Allineamenti, omologia posizionale e siti allineati con segnale potenzialmente
fuorvianteSiamo confidenti che tutti i siti sono allineati correttamente?
Possiamo escludere siti che non sono bene allineati
![Page 31: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/31.jpg)
Esclusione di siti non bene allineati
• Si fa manualmente o con software come Gblocks
• http://molevol.ibmb.csic.es/Gblocks.html
• Rimuove i block con livelli basi di conservazione in modo obiettivo
![Page 32: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/32.jpg)
Terze Posizioni di codoni
• Tendono essere piu saturati in termini di numero di sostituzioni, particolarmente quando le distanze genetiche sono grandi
• Long Branch Attraction
• A volte vengono escluse
![Page 33: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/33.jpg)
Metodi Basati Sulle Distanze Genetiche
![Page 34: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/34.jpg)
Cambiamenti multipli a un singolo sito - cambiamenti nascosti
G CA G T G
2
3
1
pos 1
pos 2
Numero di cambiamenti
Seq 1 AGCGAGSeq 2 GCCGAC
pos 3C A C
![Page 35: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/35.jpg)
Substitutions
Diffe
renc
es
![Page 36: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/36.jpg)
Misure di quanto differenti sono due sequenzeIl numero di eventi evolutivi che sono intervenuti dopo la divergenza fra due sequenze.
La distanza più semplice: p-distance = la proporzione di siti che non sono uguali(Queste non sono buone misure dovuto alla saturazione )
Distanze
![Page 37: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/37.jpg)
Modelli dell’evoluzione molecolare
un “modello del processo”: una descrizione del meccanismo di cambiamenti molecolari.
Due approcci per la costruzione di modelli. EMPIRICAMENTE, possiamo usare proprietà stimate
da confronti fra un numero alto di sequenze osservate. (valori fissi di parametri)
Con un metodo PARAMETRICO, usando valori derivati dai dataset sotto analisi
![Page 38: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/38.jpg)
Modelli dell’evoluzione molecolare
Assunzioni “standard”: Tutti i siti evolvono independentamente La velocità di sostituzione è costante
rispetto al tempo e in organismi diversi. La composizione (di basi o aa) è costante
fra diversi organismi (condizione stazionaria).
Le probabilità di vari tipi di sostituzioni sono uguali per tutti i siti e non cambiano nel tempo.
L’evoluzione molecolare è modellizzata come un processo probabilistico dipendente dal tempo. (processo stocastico).
![Page 39: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/39.jpg)
Correzioni per sostituzioni sovrapposte
Jukes and Cantor – tutte le sostituzioni sono “uguali”
Kimura 2-parameter – differenza fra transizioni e transversioni
![Page 40: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/40.jpg)
Jukes-Cantor (1969)
A
C
G
T
Composizione di basi: [1/4, 1/4, 1/4, 1/4]
Tutti i 12 tassi di sostituzioni “sono” uguali (a)
1 solo parametro
![Page 41: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/41.jpg)
Il logaritmo naturale viene usato per correggere per sostituzioni sovrapposte
• Se 2 sequenze sono 95% identiche, differiscono al 5% o 0.05 (D) dei siti, quindi:
– dxy = -3/4 ln (1-4/3 0.05) = 0.0517
• Comunque, Se 2 sequenze sono 50% identiche, differiscono a 50% o 0.5 (D) dei siti, quindi:
– dxy = -3/4 ln (1-4/3 0.5) = 0.824
![Page 42: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/42.jpg)
Modello di Kimura a 2 parametri (1980)
A
C
G
TComposizione di basi: [1/4, 1/4, 1/4, 1/4]
Velocità di transizione (a) Velocità di transversione (b)
2 parametri
![Page 43: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/43.jpg)
Modello Kimura 2P : P = transizioni / numero di posizioniQ = transversioni / numero di posizioni
• D = -1/2 ln[ (1 - 2P - Q) * sqrt(1 - 2Q) ]
• M. Kimura, J. Mol. Evol. 16; 111-120 (1980).
![Page 44: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/44.jpg)
Felsenstein (1981)
A
C
G
T
composizione di basi diversa: [pA pC pG, pT]
Tutti I 12 tassi di sostituzione “sono” uguali (a)
3 parametriliberi
![Page 45: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/45.jpg)
Hasegawa, Kishino and Yano (1985)
A
C
G
T
composizione di basi diversa: [pA pC pG, pT] 5 parametri
liberiVelocità di transizione (a) Velocità di transversione (b)
![Page 46: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/46.jpg)
General Time Reversible (1984)
A
C
G
T
composizione di basi diversa: [pA pC pG, pT]
9 parametri liberi/indipendenti6 tassi di sostituzione
diversi
![Page 47: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/47.jpg)
![Page 48: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/48.jpg)
Metodi di “Distanza”
• I metodi di “clustering” usano algoritmi per generare alberi– UPGMA (Unweighted Pair Group
Method using Arithmetic Averages): produce un albero additivo, radicato, che si conforma all’orologio molecolare
– Neighbor-joining: produce un albero additivo, non radicato
Approci basati su criteri di ottimalità: least-squares, minimum evolution,...
![Page 49: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/49.jpg)
Stimare un albero con le distanze
Distanze additive:• Se potessimo calcolare
accuratamente il vero numero di eventi evolutivi che sono accaduti dalla divergenza di due sequenze sulla base del numero di divergenze osservate, queste distanze sarebbero additive.
![Page 50: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/50.jpg)
Metodi di clustering
• UPGMA distanze additive e ultrametriche => basato sull’assunzione di un orologio molecolare => molto sensibile a tassi di sostituzioni non uguali. Meglio usare altri algoritmi di clusteringe.g. Neighbor-joining
![Page 51: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/51.jpg)
A B C D E B 2C 4 4D 6 6 6E 6 6 6 4F 8 8 8 8 8
![Page 52: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/52.jpg)
A B C D E B 2C 4 4D 6 6 6E 6 6 6 4F 8 8 8 8 8
dist(A,B),C = (distAC + distBC) / 2 = 4dist(A,B),D = (distAD + distBD) / 2 = 6dist(A,B),E = (distAE + distBE) / 2 = 6dist(A,B),F = (distAF + distBF) / 2 = 8
Clusteriziamo le 2 seq più vicine, generiamo una nuova matrice dove queste seq. vengono considerate come un cluster unico.
![Page 53: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/53.jpg)
A,B C D EC 4D 6 6E 6 6 4F 8 8 8 8
dist(D,E),C = (distDC + distEC) / 2 = 6dist(D,E),F = (distDF + distEF) / 2 = 8Dist(D,E)(A,B)= (distD(AB) + distE(AB)) / 2 = 6
![Page 54: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/54.jpg)
AB C DEC 4DE 6 6F 8 8 8
dist(ABC),F = (dist(AB)F + distCF) / 2 = 8dist(ABC),(DE) = (dist(AB)(DE) + distC(DE)) / 2 = 6
![Page 55: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/55.jpg)
AB,C DEDE 6F 8 8
dist(ABC,DE)F = (dist(ABC)(F) + dist(DE)(F)) / 2 = 8
![Page 56: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/56.jpg)
ABC,DEF 8
![Page 57: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/57.jpg)
A B C D E B 2C 4 4D 6 6 6E 6 6 6 4F 8 8 8 8 8
![Page 58: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/58.jpg)
Pero……
![Page 59: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/59.jpg)
UPGMA is a weak clustering algorithm
• Neighbor joining is more complicated but better
• Other clustering algorithms available (least squares, minimum evolution etc)
![Page 60: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/60.jpg)
Maximum Parsimony
Identifica l’albero che richiede il minimo numero di cambiamenti evolutivi per spiegare le differenze osservate tra le sequenze
Spesso non si può identificare un unico albero
per grandi set di dati una ricerca esaustiva non è possibile
![Page 61: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/61.jpg)
Maximum Parsimony Assunzioni implicite riguardo all’evoluzione,
i cambiamenti sono rari (la migliore ipotesi è quella che richiede il minimo numero di cambiamenti)Tutti tipi di sostituzione avengono con la stessa probibilità
Molto sensibile a SATURAZIONE DI SOSTITUZIONI
![Page 62: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/62.jpg)
Site
Sequence 1 2 3 4 5 6 7 8 9 101 G G C A G T C C A C2 G A G C G T C C G C3 G A T G A T T C A C4 G A T T A T T C G C
Siti Informativi e non-informativi
12
34
13
24
14
23
Siti informativi sono quelli che ci permettono distinguere tra alberi diversi sulla base di quanti sostituzioni sono postulati.
Un sito informativo deve avere almeno due basi diversi, e ciascuno di questi basi dev’essere rappresentato almeno 2 volte
![Page 63: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/63.jpg)
1
2
3
4
1
3
2
4
1
4
2
3
I II III
site 2G
AA A
A
A AA A
A
AG
AA A
A
AG
1
2
3
4
1
3
2
4
1
4
2
3site 3
C
GG T
T
T TT T
T
GC
TT T
T
GC
1
2
3
4
1
3
2
4
1
4
2
3site 5
G
GG A
A
A AA A
A
GG
AA A
A
GG
1
2
3
4
1
3
2
4
1
4
2
3site 7
C
CC T
T
T TT T
T
CC
TT T
T
CC
1
2
3
4
1
3
2
4
1
4
2
3site 9
A
GG G
A
G AA G
G
GA
GA A
A
GA
Site
Sequence 1 2 3 4 5 6 7 8 9 101 G G C A G T C C A C2 G A G C G T C C G C3 G A T G A T T C A C4 G A T T A T T C G C
4 changes 5 changes 6 changes
![Page 64: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/64.jpg)
1 2 3 4
5
A C C T
T
[A,C]
[C]
[C,T]
[T] 2 Cambiamenti
![Page 65: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/65.jpg)
1 2 3 4
5
A C C T
T
[A,C] - C
[C] - C
[C,T] - T
[T] 2 Cambiamenti
Siti Ancestrali
![Page 66: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/66.jpg)
Analisi di parsimonia• Dato un set di caratteri, ad esempio
delle sequenze allineate, l’analisi di parsimonia determina l’adattamento (numero di passaggi) di ciascun carattere a un dato albero
• La somma dei cambiamenti per tutti I caratteri è definita “Tree Length” (TL, lunghezza dell’albero)
• Most parsimonious trees (MPTs, gli alberi più parsimoniosi) sono quelli che hanno TL minima
![Page 67: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/67.jpg)
Risultati dell’analisi di parsimonia
• Vengono prodotti uno o più MPTs • Ipotesi riguardo all’evoluzione dei
caratteri associate ad ogni albero (dove e quando sono avvenuti I cambiamenti)
• Lunghezze dei rami (branch lengths) = numero di cambiamenti associati ai rami
• Alberi sub-ottimali - opzionali
![Page 68: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/68.jpg)
Parsimonia -vantaggi
• Metodo semplice • Sembra non dipendere da un modello
esplicito di evoluzione• Produce sia alberi che ipotesi ad essi
associate dell’evoluzione dei caratteri• Dovrebbe dare risultati accurati se I dati
sono ben strutturati e se l’omoplasia è rara o ampiamente e casualmente distribuita su tutto l’albero
![Page 69: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/69.jpg)
Parsimonia -svantaggi• Può produrre risultati fuorvianti se c’è omoplasia concentrata
in particolari parti dell’albero, per esempio:- convergenza thermofilica- bias nella composizione in basi - long branch attraction (tassi di sostituzione non uguali tra
sequenze)• Sottostima le lunghezze dei rami (saturazione)• Il modello di evoluzione è implicito - il comportamento del
metodo non è del tutto chiaro• Spesso giustificata da un punto di vista filosofico - dobbiamo
preferire le ipotesi più “semplici” • Per molti sistematici molecolari questo argomento non è
convincente
![Page 70: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/70.jpg)
Numero di alberi distinti in funzione del numero di taxa
10 2*106
22 3*1023
50 3*1074
100 2*10182
1000 2*102860
N taxa N trees
![Page 71: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/71.jpg)
Trovare gli alberi ottimali - soluzioni esatte
• Ricerca esaustiva esamina tutti gli alberi possibili
• Tipicamente usata per problemi con meno di 10 taxa
![Page 72: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/72.jpg)
Trovare gli alberi ottimali - soluzioni euristiche
• Il numero di possibili alberi aumenta esponenzialmente all’aumentare del numero di taxa (esempio di problema NP complete)
• Metodi euristici sono usati per esplorare il “tree space” in cerca degli alberi più parsimoniosi
• Non è garantito che gli alberi trovati siano i più parsimoniosi
![Page 73: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/73.jpg)
Trovare gli alberi ottimali - soluzioni euristiche
• Branch Swapping:
Nearest neighbor interchange (NNI) Subtree pruning and regrafting (SPR) Tree bisection and reconnection (TBR) Altri metodi....
![Page 74: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/74.jpg)
Trovare gli alberi ottimali - soluzioni euristiche
• Nearest neighbor interchange (NNI)
A
B
C D E
F
G
A
B
D C E
F
G
A
B
C D
E
F
G
![Page 75: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/75.jpg)
Trovare gli alberi ottimali - soluzioni euristiche
• Subtree pruning and regrafting (SPR)
A
B
C D E
F
G
A
B
C D E
F
G
C
D
G
B
A
E F
![Page 76: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/76.jpg)
Trovare gli alberi ottimali - soluzioni euristiche
• Tree bisection and reconnection (TBR)
A
B
C D E
F
G
A
B
C D
E
F
G
A
C
B G F
D
E
![Page 77: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/77.jpg)
Ricerche Euristiche• In tutti casi, accetiamo un
riarrangemento se produce un albero migliore di quello precedente.
• Possiamo usare anche regole piu complesse (accetiamo se non e tanto peggio, e poi proviamo altre riarrangementi)
• Facciamo “n” passi cosi (anche usando, per es., x passi di NNI dopo ogni passo di TBR)
![Page 78: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/78.jpg)
Alberi ottimali multipli• Parsimonia può generare piu di un
albero più parsimonioso• Possiamo poi selezionare il
“migliore” con criteri addizionali • Tipicamente relazioni comuni fra
tutti gli alberi ottimali vengono riassunte in un albero consensus
![Page 79: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/79.jpg)
Consensus methods• Un albero consensus è una sintesi dei elementi
comuni fra un gruppo di alberi • Ci sono vari metodi di consensus che differiscono
rispetto a: – 1. Il tipo di accordo– 2. Il livello di accordo
• Metodi consensus possono essere usati con alberi multipli derivanti da un’unica analisi o da analisi differenti
![Page 80: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/80.jpg)
Majority rule consensus
A B C D E F G A B C E D F G
A B C E D F G
MAJORITY-RULE CONSENSUS TREE
A B C E F D G
10066
66
66
66
Numbers indicate frequency ofclades in the fundamental trees
![Page 81: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/81.jpg)
Come valutare lo support per un albero
• bootstrap:– Selezionare colonne da un
allineamento multiplo con rimpiazzo (resampling with replacement)
– Ricalcolare l’albero– Ripetere 100-1000 volte (calcolare 100-
1000 nuovi alberi)– Quanto spesso vediamo rami che
mettono insieme sequenze o gruppi di sequenze?
![Page 82: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/82.jpg)
Bootstrapping• Costruire un nouvo set di dati con
lunghezza uguale a quello originale. Colonne di caretteri vengono scelte casualemente dal dataset originale in modo tale che colonne orignali possono essere presente piu di una volta.
• Fare un’analisi filogenetica e ricordare l’albero
• Tornare al capo 100 (1000) volte
![Page 83: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/83.jpg)
The Bootstrap
1 2 3 4 5 6 7 8 A C C V K V I Y SB M A V R L I F SC M C L R L L F T
3 4 3 8 6 6 8 6 A V K V S I I S IB V R V S I I S IC L R L T L L T L
Original
Scrambled
2x 3x
Non-supportive
ABC
ABC
![Page 84: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/84.jpg)
Majority rule consensusA B C D E F G A B C E D F G
A B C E D F G
MAJORITY-RULE CONSENSUS TREE
A B C E F D G
10066
66
66
66
Numbers indicate frequency ofclades in the fundamental trees
![Page 85: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/85.jpg)
Bootstrapping
• La concordanza fra gli alberi prodotti viene rappresentata con un albero “majority-rule consensus”
• La frequenza con cui certi gruppi compaiono, le proporzioni di bootstrap (BPs), è una misura del supporto dei gruppi stessi
• Informazioni addizionali sono riportate nelle tabelle di partizione
![Page 86: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/86.jpg)
Bootstrapping - an example
Ciliate SSUrDNA - bootstrap123456789 Freq-----------------.**...... 100.00...**.... 100.00.....**.. 100.00...****.. 100.00...****** 95.50.......** 84.33...****.* 11.83...*****. 3.83.*******. 2.50.**....*. 1.00.**.....* 1.00Majority-rule consensus
Partition TableOchromonas (1)
Symbiodinium (2)
Prorocentrum (3)
Euplotes (8)
Tetrahymena (9)
Loxodes (4)
Tracheloraphis (5)
Spirostomum (6)
Gruberia (7)
100
96
84
100
100
100
![Page 87: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/87.jpg)
• Purchè non ci siano evidenze di un forte segnale di distorsione (per esempio bias nella composione, grandi differenze nelle lunghezze dei rami), elevati BPs (> 85%) sono indicativi di un segnale filogenetico forte
• Bassi BPs non necessariamente significano che la relazione evidenziata è falsa, ma semplicemente che non è fortemente supportata
Bootstrap - interpretazione
![Page 88: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/88.jpg)
• le BP sono depende sul numero di caratteri che sono consistenti con un clade e il livello di support per altri relazioni.
• Ci fornicsono una stima relativa per il grado di support per un gruppo soto il modello e metodo di analisi.
Bootstrap - interpretation
![Page 89: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/89.jpg)
PHYLIP• http://evolution.genetics.wa
shington.edu/phylip.html
http://pbil.univ-lyon1.fr/software/njplot.html
NJPlot
Seaviewhttp://pbil.univ-lyon1.fr/software/seaview.html
![Page 90: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/90.jpg)
Maximum Likelihood
![Page 91: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/91.jpg)
Maximum likelihood
• Try to identify the tree and model of substitution that MAXIMIZES the probability of observing the data (the alignment)
![Page 92: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/92.jpg)
Cos’è la probabilità di osservare un dato?
• lanciamo una moneta, viene testa. Se assumiamo che si tratti di una moneta “onesta”, la probabilità di avere testa dovrebbe essere 0.5.
• Se invece pensiamo che questa moneta dia testa nell’80% dei lanci, la probabilità di avere questo risultato dovrebbe essere 0.8!
• QUINDI: La probabilità dipende dal modello!
p = ?Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nela caso del secondo modello, la probabilità e più alta.
![Page 93: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/93.jpg)
MASSIMA VEROSIMGLIANZE - OBIETIVO
• Stimare la probabilità di osservare i dati, dato un albero filogenetico e un modello che descrive il processo dell’evoluzione.
Probability of given )
a b c db a e fc e a gd c f a
(
p a ,c,g,t
![Page 94: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/94.jpg)
Una regola…la regola dell’1
• la somma delle probabilità di tutte le possibilità è SEMPRE uguale a 1.
• Es. per DNA p(a)+p(c)+p(g)+p(t)=1
![Page 95: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/95.jpg)
Cos’è la probabilità di vedere un nucleotide 'G'?
• Domanda:Data una sequenza di lunghezza 1, il nucleotide “G”, qual’è la probabilità dei dati?
• Soluzione: Dipende dal modello dell’evoluzione (composizione).
• E.g.– Model 1: frequenza di G = 0.4 => likelihood(G) = 0.4– Model 2: frequenza di G = 0.1 => likelihood(G) =0.1– Model 3: frequenza di G = 0.25 => likelihood(G) = 0.25
![Page 96: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/96.jpg)
Per sequenze più lunghe?
• Consideriamo un gene con lunghezza 2: Gene 1: ga
• La probabilità di osservare questo gene è il prodotto delle probabilità di osservare ogni base.
• Es.– p(g) = 0.4; p(a)=0.15 (per es)– probabilità(ga) = 0.4 x 0.15 = 0.06
![Page 97: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/97.jpg)
…e così via per sequenze più lunghe
• Gene 1: gactagctagacagatacgaattac• Model (di frequenza di basi):
– p(a)=0.15; p(c)=0.2; p(g)=0.4; p(t)=0.25; – (La somma di tutte probabiltà dev’essere 1)
Prob(Gene 1) = 0.000000000000000018452813(anche la somma di probabilità di tutti geni =1
![Page 98: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/98.jpg)
Considerazioni sui modelli• Possiamo vedere che il nostro modello non
è quello ottimale per I dati osservati. Se avessimo usato questo modello:
• p(a)=0.4; p(c) =0.2; p(g)= 0.2; p(t) = 0.2; La probabilità sarebbe stata:Prob(gene 1) = 0.000000000000335544320000(un valore quasi 10,000 volte più alto)
Lezione: I dati rimangano costanti, il cambiamento è nel modello. Nel caso del secondo modello, la probabilità e più alta.
![Page 99: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/99.jpg)
In quale modo si riferiscono queste considerazioni agli alberi filogenetici?
• Consideriamo un allineamento di 2 sequenze:– Gene 1: gaac– Gene 2: gacc
• Facciamo l’assunzione che questi geni sono imparentati da un albero semplice con lunghezze di rami.
![Page 100: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/100.jpg)
Aumentare la complessità del modello
• In questo caso, non è possibile usare un modello che descrive solo la composizione. Dobbiamo includere il meccanismo di sostituzione.
• Ci sono due parti in questo modello: l’albero e il processo (il processo è spesso chiamato “il modello”), in realtà il modello è composto sia dal processo che dall’albero.
NB: Per evitare altra confusione, manteniamo la terminologia confusa.
![Page 101: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/101.jpg)
Il modello
• Le due parti del modello sono: l’albero e il processo (il modello).
• Il modello è composto dalla composizione e dal processo di sostituzione (I tassi di varie sostituzioni).
a b c db a e fc e a gd c f a
p a ,c,g,t +
Modello =
![Page 102: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/102.jpg)
Un modello “time-reversible” semplice
• Un modello semplice dice che la probabilità di una sostituzione da a a c (o vice versa) è 0.4, la composizione (p) a è 0.25 e la composizione (p) c è 0.25
. 0.4 . .0.4 . . .. . . .. . . .
P =
p 0.25 0.25 . .
![Page 103: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/103.jpg)
Probabilità della terza posizione del nostro allineamento
• p(a) =0.25; p(c) = 0.25;
Se cominciamo con A, la probabilità di questo nucleotide è 0.25, mentre la probabilità della sua sostituzione con C è 0.4. Quindi, la probabilità di osservare questi dati è:
*probabilità(D|M) = 0.25 x 0.4 =0.01
pa c 0.4
*La probabilità dei dati, dato il modello.
– Gene ancestrale: gaac– Gene derivata: gacc
![Page 104: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/104.jpg)
Diverse lungezze di rami
• Per rami corti, la probabilità che un carattere rimanga uguale è alta, la probabilità che venga sostituito è bassa (secondo la nostra matrice)
• Per rami più lunghi, la probabilità di cambiamento dovrebbe essere più alta.
• I calcoli precedenti sono basati sull’assunzione che la lunghezza del ramo descrive UNA Certain Evolutionary Distance or CED.
• Se volessimo considerare un ramo con lunghezza 2CED, potremmo moltiplicare la matrice per se stessa (matrice2).
![Page 105: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/105.jpg)
Per valori più alti di CED units
1 0.00003002 0.00005593 0.000078210 0.000162015 0.000177020 0.000175030 0.0001520
0 10 20 30 40
Lunghezza del ramo
Probabilità
![Page 106: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/106.jpg)
![Page 107: A Brief Introduction to Molecular Systematics](https://reader035.vdocuments.us/reader035/viewer/2022062400/5681569f550346895dc44045/html5/thumbnails/107.jpg)