baysian estimation of the number of inversions in the history of two chromosomes

87
Johann Wolfgang Goethe Universität Frankfurt am Main Fachbereich 15: Biologie und Informatik Bioinformatik Baysian Estimation of the Number of Inversions in the History of Two Chromosomes T. L. York, R. Durrett and R. Nielsen Baysian Estimation of Genomic Distance T. L. York, R. Durrett and R. Nielsen

Upload: ivo

Post on 16-Jan-2016

20 views

Category:

Documents


0 download

DESCRIPTION

Baysian Estimation of the Number of Inversions in the History of Two Chromosomes T. L. York, R. Durrett and R. Nielsen Baysian Estimation of Genomic Distance T. L. York, R. Durrett and R. Nielsen. Allgemein evolvieren Genome durch: Translocations Fusions Fisions Inversions. - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Baysian Estimation of the Number of Inversions

in the History of Two ChromosomesT. L. York, R. Durrett and R. Nielsen

Baysian Estimation of Genomic DistanceT. L. York, R. Durrett and R. Nielsen

Page 2: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Allgemein evolvieren Genome durch:

Translocations

Fusions

Fisions

Inversions

Page 3: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Ist es sinnvoll nur Inversionen zu betrachten?

Ja, für bestimmte Datensätze:

mitochondriale und Chloroplasten DNA

Gonosomen

DNA von Drosophila spec.

Page 4: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Wie werden die Chromosomen in den Datensätzen repräsentiert?

Über sog. „Marker“ werden spezifische Gene, die auf beiden Chromosomen auftauchen, lokalisiert.

Marker können 2 Orientierungen besitzen ( + , - )

Ist sowohl die Markerordnung als auch die Orientierung identisch, gelten auch die Chromosomen als identisch.

Repräsentation also „nur“ über einen Satz von Markern.

Page 5: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Frühere Ansätze zur Bestimmung der Verwandtschaft über Inversionen:

1. Bestimmung der „Inversions Distanz“:

Idee: Kleinst mögliche Zahl an Inversionen, die nötig sind, um Chromosom 1 in Chromosom 2 zu überführen.~

„Sorting by Reversals“ NP- Hard aber branch-and-bound Methode verfügbar.

Problem: Keine Garantie, dass Minimum Anzahl = wahre Anzahl an Inversion ist

Page 6: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Frühere Ansätze zur Bestimmung der Verwandtschaft über Inversionen:

2. Schätzung der wahren Anzahl von Inversionen per "break points“

Break points: Anzahl an adjazenten Marken in einem Chromosom, die in dem anderen nicht adjazent sind

Idee: Die Inversions Distanz ist mindestens ½ mal die Anzahl von break points.~

Problem: Diese Grenze ist sehr grob geschätzt.

Page 7: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der „break point“ – Graph

Der Schlüssel zum Ermitteln der Inversions Distanz ist der break point graph von Hannenhalli & Pevzner, 1995

1.Fall: Markerorientierung ist bekannt ( „signed permutation“ )

Jeder Marker kann sich mit „Startpunkt“ und „Endpunkt“ vorgestellt werden.

Der Graph einer orientierten Permutation von N Markern, pa, relativ zu einem anderen, pb, hat 2N+2 Knoten, für jedes Ende eines Markers jeweils einen, plus jeweils einen für die Enden des Chromosoms.

Page 8: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - signed, ein Beispiel:

Der Datensatz des ersten Chromosoms (a) ist (+2,-3,+1,+4)~

Der „Startpunkt“ des Markers k wird jetzt zu 2k-1 und der „Endpunkt“ zu 2k

3:4, 6:5,1:2,7:8

Anfügen von 0 links und 2N+1 = 9 rechts führt zu

(2,-3,1,4) (0,3:4, 6:5,1:2,7:8,9).

Die mit „:“ getrennten Paare sind jeweils die Enden eines Markers => Sie bleiben in jeder Permutation adjazent

Page 9: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - signed, ein Beispiel:

Der Datensatz des zweiten Chromosoms (b) ist (-1,-4,2,3) ~

(-1,-4,2,3) (0,2:1, 8:7,3:4,5:6,9).

Aus beiden Sätzen kann man dann den Break point graph pa relativ zu pb erzeugen:

Jeder, in dieser Permutation adjazente Marker aus Pa (Pb) ist durch eine „black Edge“ ( „grey Edge“ ) verbunden. Die

verbundenen Marker bilden eine cycle decomposition

Page 10: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point – Graph - signed

Sei die Anzahl an Zykeln in der Zykel-Dekomposition c(pa,pb). Eine Inversion I auf pa verursacht den Bruch zweier „black

edges“ und erzeugt zwei neue.

3 mögliche Effekte auf die Zykel Dekomposition:

1. Ein Zykel wird in zwei neue aufgespalten

2. Zwei Zykel werden zu einem vereint

3. Veränderung der Knoten Reihenfolge innerhalb eines Zykels

c = c(I pa,pb)- c(pa,pb) = +1, -1 or 0

Page 11: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - signed

Wenn pa = pb dann ist die Anzahl der Zykel = N+1

pa = pb = (2,-3,1,4) (0,3:4, 6:5,1:2,7:8,9)

Da eine Inversion maximal 1 zusätzlichen Zykel erzeugt braucht man mindestens N+1-c Inversionen um pa in pb zu überführen.

Page 12: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Komplikationen im break point Graph - signed

1. Hurdles:

Angenommen pa = (3,2,1) und pb = ( 1,2,3 )

keine Inversion kann die Anzahl der Zykel erhöhen =>

Wenn h(pa, pb) die Anzahl der Hurdles ist, dann ist n + 1- c + h eine untere Grenze für die Inversions Distanz

2. Fortress

Eine bestimmte Anordnung von Hurdles erzeugt eine Fortress ein weiterer Schritt notwendig Sei f (pa, pb) =1 wenn der Graph eine Fortress ist und 0 sonst

Page 13: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - signed

Formel für die untere Grenze der Inversions Distanz im Graph ist also:

d (pa, pb) = n+1-c+h+f

Hannenhalli und Pevzner haben gezeigt, dass man für orientierte

Permutationen, die Distanz in polynomieller Zeit berechnen kann.

Algorithmus liefert gute Ergebnisse für signed Permutations.

Page 14: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - unsigned

2. Fall: Markerorientierung ist nicht bekannt. ( „ unsigned permuation, partially signed permutation „)

Realistischer Fall, da genomic Data in Form von comperative

Maps meist unsigned oder nur partiell orientiert vorliegt

Page 15: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Gen Start Kb Cyto Cattle order

ANT3 Xp22.32 1

AMELX 8,950 Xp22.31 2

SAT 18,652 Xp22.1 3

CYBB Xp21.1 4

MAOA 38,289 Xp11.4 5

SYN1 42,783 Xp11.23 7

TIMP1 42,792 Xp11.23 8

SYP 44,288 Xp11.22 6

CITED1 64,082 Xq13.1 9

PLP1 97,418 Xq22 11

FACL4 103,471 Xq23 10

HPRT1 128,965 Xq26 14

TNFSF5 130,747 Xq26 13

SLC6A8 148,934 Xq28 12

1,2,3,4,5 +1

6 ?2

7,8 +3

9 ?4

11,10 -5

14,13,12 -6

Page 16: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Der break point Graph - unsigned

+1, +3, ?2, ?4, -5, -6

Mit wenig Aufwand kann man die 4 Möglichkeiten ausprobieren,

und kommt zu der signed permutation +1, +3, -2, +4, -5, -6 mit

der minimalen Distanz 4.

In den meisten Fällen ist durchprobieren nicht möglich.

Beim Vergleich von D. melanogaster und D. repleta müsste man

260 > 1018 Möglichkeiten durchprobieren...

Page 17: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Modell Annahmen

• Umordnung geschieht nur infolge von Inversionen

• Das Auftreten einer Inversion ist ein Poisson Prozess mit unbekannten Mittelwert ; Die Wahrscheinlichkeit von exakt L aufgetreten Inversionen ist: P(L| )=e-

L/L! L = 1, 2, ...

• Wir nehmen a priori eine Gleichverteilung für an: P() = 1/ max für 0 < <= max

• Die Anzahl der verglichenen Marker auf beiden Chromosomen ist N. Dabei ist es egal ob wir die Orientierung eines Markers kennen oder nicht. Ist die Orientierung bekannt ( nicht bekannt ) repräsentieren wir die Daten D als ein Paar von signed ( unsigned ) Permutationen pa, pb.

• Wir unterscheiden N(N+1)/2 mögliche Inversionen.

• Jede der N(N+1)/2 möglichen Inversionen hat die gleiche Wahrscheinlichkeit

Page 18: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Es gibt insgesamt (N(N+1)/2)Lx gleichwahrscheinliche Inversionssequenzen X der Länge Lx

+1 +2 +3 +4 4(4+1)/2 = 10 mögliche Inversionen

105 mögliche Inversionssequenzen 5X der Länge 5

P4 P6

P2 I3 I4 P5 I5 P1 I1 I2 P3

Page 19: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Sei die Menge aller möglichen Inversionssequenzen, dannist die Wahrscheinlichkeit für jedes X geben

P(X| ) = (e-Lx/Lx!)(N(N+1)/2)-Lx

Ws für das Auftreten von Genau L Inversionen

Ws für genau eine Sequenzder Länge L aus allen möglichen

Page 20: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach- MCMC

Ziel ist es die postiori Ws von X und zu erhalten. P(X|D) und P (|D).

Erzeugen einer Markov Kette mit dem Zustandsraum:

x R+

und stationärer Verteilung

P(X, |D), X , R+

Anzahl der Inversionen Rate der Inversionen

Page 21: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach- MCMC

Idee:

Samplen der Werte von und X wenn die Markov Kette in ihrer stationären Verteilung ist.

Gibt nicht nur den wahrscheinlichsten Zustand aus, sondern eine Menge wahrscheinlicher Zustände, die für die gegeben Daten als „typisch“ bezeichnet werden können

ABER: Wie kommt man in die stationäre Verteilung?

Page 22: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach- Metropolis Hasting Algorithmus

min 1, y* Qyx

x Qxy

x yQxy „proposal step“

Qyx

y* Qyx

x Qxy

Page 23: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

P(X, |D)

Bayes Theorem:

P(X|Y) =P(Y|X)*P(X) P(Y)

P(X,Y)=P(X|Y)*P(Y)

Stationäre Verteilung

= 1 (e-Lx/Lx!)(N(N+1)/2)-Lx1 max

/P(D)

= P(D| X, )P(X| )P( )/P(D)

= P(D| X, )P(X, )/P(D)

y* Qyx

x Qxy

Page 24: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X

X kann man sich als ein „Inversionspfad“ vorstellen, der Sequenzen von Permutationen, p0 = pa, p1,... pL = pb und von Inversionen I1, I2, ... IL mit pi = Iipi-1, i = 1, 2, ... L umfasst.

Pa

I1

I2

I3

I4

I5

I6

pb I7

Der neue vorgeschlagene Pfad, Y, wird wie folgtkonstruiert:

Page 25: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X

Pa

I1

I2

I3

I4

I5

I6

pb I7

1. Wähle einen zu ersetzenden Bereich von X. Wähle mit Ws qL(l,j), eine Länge,l ,(0 < l < L) und eine Startpermutation, pj, ( 0 < j < L-l ). Der Subpfad von p= pj zu p = pj+l wird in Y

von einem neuen ersetzt.

p

p

2. Generiere einen neuen Subpfad. Verwende den breakpoint Graph von p relative zu p, wähle eine Inversion, I1‘, zufällig, aber c = 1 mit hoher Ws. Dann fahre in gleicher Weise fort, wähle I2‘, unter Betrachtung von I1‘p relativ zu p, und so weiter bis I1‘, I2‘... Il‘‘p = p.

Page 26: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

1. Wähle einen Bereich von X, der ersetzt werden soll

Wähle die Länge l des zu ersetzenden Teilstückes durch das sampeln aus einer Verteilung q(l)

Wähle j gleichverteilt zufällig aus 0, 1, ... Li- l

mit = 8 und = 0.65

Q(l) 1- tanh - 1 lN

Page 27: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

2. Erzeugung eines neuen Subpfades

Start: p = pj End: p = pj+1

Wir suchen eine Sequenz von Inversionen I1‘, I2‘, ... Il‘ und dazwischenliegenden Permutationen p0‘ = p, p1‘, p2‘... pl‘‘= p

mit pi‘ = Ii‘pi-1, i = 1,2,...l‘.

Wir betrachten dazu den breakpoint Graph von pi-1‘ relativ zu p

Page 28: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

2. Erzeugung eines neuen Subpfades

Klassifiziere alle Inversionen nach c = +1, 0, -1

Erinnerung: pa = pb wenn Anzahl der Zykel = n+1

Wähle I so, dass mit hoher Ws c = +1 => Ein Schritt „vorwärts“

Man nimmt also an, dass kurze Pfade wahrscheinlicher sind als lange.

Page 29: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

2. Erzeugung eines neuen Subpfades

Wenn N+1, N0 und N-1 die Anzahl der Inversionen ist für c = +1, 0, -1 dann ist die relative Ws für eines davon 1, 1, 2.

Nach der Auswahl ziehen wir gleichverteilt eine der N Inversionen

=> Ws für ein c = +1 = 1/((1+1+ 2)N+1)

Page 30: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

2. Erzeugung eines neuen Subpfades

Wenn N+1 = N0 = 0 sind die Permutationen gleich ~

Mit Ws 1- 3 stoppen wir hier bzw. mit Ws 3 fahren wir mit c = -1 fort.

Page 31: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

2. Erzeugung eines neuen Subpfades

Die Ws qnew für den neuen Subpfad der Länge l‘ ist das Produkt von l‘ +1 Faktoren

Einen pro Inversion + Ws für das Stoppen wenn man pb erreicht

Die Länge des vorgeschlagenen Pfades ist L‘ = L+ l‘-l

Page 32: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail

3. Errechnen der „ forward proposal probabiltiy“

Q(Y|X) = Q(XY) = qL(l,j) qnew

4. Errechnen der „ acceptance probabiltiy“

Q(X|Y) = Q(YX) = qL‘(l‘,j) qold

Page 33: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail ( unsigned )

Anstatt die Markerorientierung zu berechnen verwendet man einfach orientierte Permutationen

Man lässt die Startpermutation über die 2N orientierten Permutationen laufen.

Update also sowohl für die Markerorientierung als auch für die Inversionen

Page 34: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail ( unsigned )

Pa F Fpa

F

Palpha F Fpalpha

1. Wähle eine Subpfad genau wie im Signed case. 2. Wende den Flip Operator F an Pa an und lasse die Inversionen bis Palpha gleich. 3. Erzeuge den neuen Pfad genau wie

Im signed caseWieso kann man das machen?

Page 35: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating X in Detail ( unsigned )

Pa F Fpa

F

Palpha F Fpalpha

Das Durchführen eines Flips ist eine Inversion eines einzelnen Markers.

Inversionen kann man über c bewerten!

Führe Flips mit c = -1 mit Ws 4, 0,5 für c = 0 oder c = 1 durch.

Page 36: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating

Ein Gibbs Schritt wird verwendet, um zu aktualisieren

D.h. wird zufällig gemäß der Ws von gegeben die Anzahl der Inversionen und der Daten aktualisiert

P(|X,D) P(X|)P() e- Lx P()

Page 37: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – convergence monitoring

Methode von Gelman und Rubin:

Man brauch mindestens 2 Chains für die gleichen Daten

Definiere eine „between chain variance“ B und eine „within chain variance“ W.

Konvergenz ist erreicht wenn R0,5 = ((n-1)/n+B/W)0,5 sich 1 nähert.

Hier verwendet: 5 – 10 Ketten, Burn In Phase bis R0,5 1.1

Page 38: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – convergence monitoring

Page 39: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – improving convergence

Das Update Schema hat viele Parameter, die die Konvergenz derKetten beinflussen:

und : kontrollieren die Länge des zu ersetzenden Teilstücks

1, 2. 3 : kontrollieren die Erzeugung des neuen Subpfades ( kurze vs. Lange Pfade

4 : kontrolliert die Bevorzugung für c = +1 Markerflips

Page 40: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – improving convergence

Durch Läufe mit simulierten Daten ist man zu folgenden Ergebnissen gekommen:

: 8 : 0.65

1: 0.03 2 : 1/2

3: 12 4 : 0.025

Page 41: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

1. Human-cattle data

14 unsigned Markers 8 simultane Ketten

Startzustände werden mit verschiedenen 1 erzeugt.

815.104 Iterationen Konvergenz nach 8.192 Iterationen

Danach über jede Iteration gemittelt

Laufzeit: 254 Sekunden Athlon 1,2 GHz Prozessor

Page 42: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

1. Human-cattle data

Ergebnisse: Wahrscheinlichster Wert für L = dem parsimony Wert: 4

Aber es ist wahrscheinlich, das die Anzahl der wahren Inversionen höher als 4 ist: 95% credible set für L

( 4 L 9 ) => die Erwartete Anzahl an Inversion ist wesentlich höher als 4

Page 43: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

Page 44: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

1. Human-cattle data

Page 45: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

2. D. melanogaster und D. repleta Daten

79 unsigned Markers 6 simultane Ketten

Startzustände werden mit verschiedenen 1 erzeugt.

43 mio Iterationen Konvergenz 1,7 mio Iterationen

Danach über jede Iteration gemittelt

Laufzeit: 3,456 x105 sec 4 Tage Athlon 1,2 GHz Prozessor

Page 46: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

Ergebnisse: Wahrscheinlichster Wert für L = 87 Erwartungswert: 92 Inversionen

95% credible set für L: ( 71 L 118)

Parsemony Wert: 53

95% credible set für : (64.14 125.00 )

2. D. melanogaster und D. repleta Daten

Page 47: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

Page 48: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

Page 49: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Applications to Real Data

Page 50: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Conclusion

• Lösung des Problems durch einen voll probabilistischen Ansatz machbar

• Für große Datensätze versagen die Parsemony Methoden

• Im Gegensatz zu den Parsymony Ansätzen ermöglicht der Bayes Ansatz zusätzlich die Beantwortung von folgenden Fragen:

Treten alle Inversionen mit der gleichen Rate auf?

Sind Inversionsraten über Abstammungslinien konstant

• Ziele

Einbinden von Translokationen, Chromosomenbrüchen und Fusionen

Erweiterung auf komplette Genome i.d „Genomic Distance“

Page 51: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Baysian Estimation of Genomic DistanceT. L. York, R. Durrett and R. Nielsen

Page 52: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Motivation für den erweiterten Ansatz

„Understanding the relationship between the organization of two genomes is important for transfering information betweens

species.

For example, for finding animal models of human deseases or locating genes of agricultural importance.“

Page 53: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Allgemein evolvieren Genome durch:

Translocations

Fusions

Fisions

Inversions

Page 54: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Allgemein evolvieren Genome durch:

Translocations

Fusions

Fisions

Inversions

Page 55: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Allgemein evolvieren Genome durch:

Translocations

Fusions

Fisions

Inversions

Page 56: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Allgemein evolvieren Genome durch:

Translocations

Fusions

Fisions

Inversions

Page 57: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Hannenhalli, Pevzner and the breakpoint graph

Problem der minimalen Chromosomen Distanz gelöst

Idee: Die Chromosomen eines Genoms „verketten“, so dass ein

langes Chromosom entsteht und erzeugen eines modifizierten

break point graphs.

Page 58: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Zu Untersuchende Daten: Genom der Aubergine vs. Tomate

Eggplant: Tomato:E3: 1 2 3 4 5 6 T3: 1 -5 2 6E4: 7 8 T4: 21 -22 -20 8 E5: 9 10 T5: -4 14 11 -15 3 9E10: 11 12 13 14 15 16 17 18 T10: 7 16 -18 17E11: 19 20 21 22 T11: -19 24 -26 27 25E12: 23 24 25 26 27 T12: -12 23 13 10

Ergänzen von „leeren Chromosomen“ wenn notwendig

Page 59: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Eggplant Doubled, Ends Added

1000 , 1 2 , 3 4 , 5 6 , 7 8 , 9 10 , 11 12 , 10011002 , 13 14 , 15 16 , 10031004 , 17 18 , 19 20 , 10051006 , 21 22 , 23 24 , 25 26 , 27 28 , 29 30 , 31 32 , 33 34 , 35 36 , 10071008 , 37 38 , 39 40 , 41 42 , 43 44 , 10091010 , 45 46 , 47 48 , 49 50 , 51 52 , 53 54 , 1011

Page 60: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Tomato Doubled, Ends Added

2000 , 1 2 , 10 9 , 3 4 , 11 12 , 20012002 , 41 42 , 44 43 , 40 39 , 15 16 , 20032004 , 8 7 , 27 28 , 21 22 , 30 29 , 5 6 , 17 18 , 20052006 , 13 14 , 31 32 , 36 35 , 33 34 , 20072008 , 38 37 , 47 48 , 52 51 , 53 54 , 49 50 , 20092010 , 24 23 , 45 46 , 25 26 , 19 20 , 2011

Page 61: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Mögliche enstehende Komponenten im Graph:

Pfade die 2 Enden verbinden

„kurze Pfade“ ( hier 5 )

„lange Pfade“ ( hier 7 )

Pfade die die Enden eines Genoms verbinden ( hier 0 )

Zykel ( hier 0 )

Page 62: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Die untere Grenze für die Genom Distance berechnet sich aus:

M +N ( Anzahl der Kommas, hier 33 )

minus Anzahl der kurzen und langen Pfade ( hier 5 + 7= 12)

minus der Anzahl der Zykel

Plus Anzahl der Pfade die im gleichen Genom anfangen und Enden ( hier 0 )

Um Tomate in Aubergine zu überführen sind also mindestens33-12 = 21 Inversionen oder Translokationen notwendig

Page 63: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Parsimony Methods - Erzeugung des break points Graphs

Problem: Wieder nur für „signed“ Marker möglich Im Tomaten- Auberginen Problem waren 5 einzelne

Marker: 25 = 32 einfach

Mensch - Katze: 221 kompliziert

Mensch - Rind: 275 umöglich

Page 64: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Modell Annahmen

• Umordnung geschieht infolge von Inversionen, Translokationen, Fusions and Fissions)

• Fusions and Fissions werden als spezial Fall von Translokationen behandelt, bei dem entweder das input oder output Chromosom leer ist

• Die Zeit bis zu einem Ereignis E ist expotential verteilt mit Parameter IT(ti) T+II(ti) I)ti

• Wenn zu einer Zeit t IT(t) Translokationen und II(t) Inversionen möglich sind dann ist die Rate mit denen beide auftreten jeweils IT(t)T und II(t)I

• Die Anzahl der Marker, deren Ordnung auf beiden Genomem bekannt ist, und die verglichen werden soll, ist N.

• Die Anzahl der Chromosomen die in beiden Genomen vorhanden ist ( inkl. Leere Chromosome) ist M.

• Wir nehmen a priori eine Gleichverteilung für E an: P(E) = 1/ Emax für 0 < E <= Emax

Page 65: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Inversionen und Translokationen im Genom bildeneine Markovkette mit dem Zustandsraum ( 0 ) der durch alle möglichen Anordnungen der N geordneten Marker auf den M geordneten Chromosomen erzeugt wird.

|0| = 2N (M+N-1)!

(M-1)!0(x) = 2-N , x 0

(M-1)!

(M+N-1)!

Page 66: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Ordnung der Chromosome egal

neue Markovkette mit kollabierten Zustandsraum (U)

Zustände in U mit M0 leeren Chromosomen sind Äquivalenzklassen aus 2(M-M0) M!/M0! Elementen aus 0

0 U

Page 67: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Daraus folgt die stationäre Wahrscheinlichkeit von einem Element aus mit M0 leeren ChromosomenU

u(x) = 2(M-N-M0) , x U M!(M-1)!

M0!(M+N-1)!

Page 68: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Genom 1 (x1) , Genom 2 (x2)

x1 kann in x2 durch eine Sequenz von Translokationen und Inversionen überführt werden

Pr(x1, x2| ) = Pr(x1) Pr(x1 x2| )

wobei Pr(x1 x2| ) die Übergangswahrscheinlichkeit von x1nach x2 ist. ist der Vektor der Parameter T I..

Page 69: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Die Ws für x1 ist unabhängig von daher:

L() = Pr(x1 x2| )

Page 70: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Sei die Menge aller möglichen Pfade von x1 zu x2. D.h.:

Pr(x1 x2| ) = y Pr(y|)

Page 71: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Um zu schätzen wird eine neue Markovkette erzeugt mit dem Zustandsraum [0,)2 x und mit stationärer Verteilung geben durch die verbundene Wahrscheinlichkeit von und dem

evolutionären Pfad

(y,T ,I ) = p(y,T ,I|x1,x2), y , E [0,)

Page 72: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Verwendung von Metropolis Hasting um Prozess konvergieren zu lassen:

y* Qyx

x Qxy

min 1,

Page 73: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

Umformung nach Bayes

(y,T ,I ) = p(y,T ,I|x1,x2)

= p(x1,x2| y,T ,I ) p(y|T ,I) p(T ) p(I) / P( x1,x2)

p(y|T ,I) p(T ) p(I)

Page 74: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach

E e-(IT(ti) T-II(ti) I)ti

E e-(IT(ti) T-II(ti) I)ti

.

.

.

E e-(IT(ti) T-II(ti) I)ti

1

2

S

p(y|T ,I)= E(i) e-(IT(ti) T-II(ti) I)tiS+1

i=1

E(i) =

T wenn i S und TranslokationI wenn i S und Inversion1 wenn i = S+1

Page 75: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Proposal Probability

Gleiches Vorgehen wie im ersten Paper

schlage einen Teil des Pfades vor, der ersetzt werden soll erzeuge neuen Subpfad unter Verwendung des break point Graphen

Berechne die Ws für den neuen Pfad

Ws für den umgekehrten Weg

Page 76: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Updating T ,I

Y, T und I werden alternierend aktualisiert, wobei Tneu und Ineu unabhängig von den jeweils anderen Werten in einem

Fenster um den alten Wert Talt ,Ialt gewählt werden.

Die Verteilung der Werte von T und I ist proportional zur deren

Likelihood Funktion.

Page 77: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – convergence

Verwendung von Metropolis Coupled Markov Chain Monte Carlo

Feststellung der Konvergenz über „between chain“ und „within chain variance“ ( Gelman & Rubin )

Page 78: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

1. Tomate vs. Aubergine

170 Marker

minimale Distanz 28, 23 Inversionen und 5 Translokationen

Bayes Ansatz: 6 unheated Chains, 459.000 updates, 20 Stunden

Burn in: 14.000

Page 79: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

1. Tomate vs. Aubergine

Ergebnisse des Bayes Ansatz: 95% credible Intervalls

Inversionen: [5,7] Transkriptionen[21,31]

Number of Events [28,37]

T = 0.000219 I = 0.0194

0.000219*30271=6.629 0.0194*1335=25.899

Page 80: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

Page 81: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

2. Human vs. Cat

269 Marker

parsimony Distanz 78, 64 Inversionen und 14 Translokationen

Bayes Ansatz: 6 unheated Chains, 2.2 mio updates, 9 Tage

Burn in: 306.000

Page 82: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

2. Human vs. Cat

Ergebnisse des Bayes Ansatz: 95% credible Intervalls

Inversionen: [71,89] Transkriptionen[12,15]

Number of Events [85,102]

T = 0.000161 I = 0.0350

0.000161*79650=12.82 0.0350*2370=82.95

Page 83: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

2. Human vs. Cattle

422 Marker

parsimony Distanz 155, 135 Inversionen und 20 Translokationen

Bayes Ansatz: 4 unheated Chains, 1.3 mio updates, 30 Tage

Burn in:

Konvergenz konnte nicht erreicht werdenBurn in nach 600.000 updates beendet

Page 84: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

2. Human vs. Cattle

Keine sichere Aussage möglich, da die 95% credible sets von Lauf zu Lauf sehr verschieden sind.

Page 85: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Analysis of Three Data Sets

Page 86: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

A Baysian Approach – Conclusion

• Lösung des Problems durch einen voll probabilistischen Ansatz machbar, allerdings entstehen Probleme bei großen Datansätzen wie der Cattle – Mensch Datensatz gezeigt hat

• Für große Datensätze versagen die Parsemony Methoden allerdings genauso und früher

• Ziele

Anpassen der Inversionswahrscheinlichkeiten, so dass sie von der Größe des invertierten Stücks abhängen

Erweitern, so dass Genduplikationen erfasst werden.

• Muster erkennbar, das Inversionen 4-7 so häufig sind wie Translokationen

Biologen gehen von 2 mal häufigerem Auftreten von Inversionen aus. Der Schluss aus den Parsemony Methoden

Page 87: Baysian Estimation of the Number of Inversions  in the History of Two Chromosomes

Johann Wolfgang Goethe Universität Frankfurt am MainFachbereich 15: Biologie und InformatikBioinformatik

Fragen?