on the power of profiles for transcription factor binding site detection

17
On the Power of Profiles for Transcription Factor Binding Site Detection Sven Rahmann* Tobias Müller Martin Vingron * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and Computer Science, Freie Universität Berlin University of Würzburg Computational Molecular Biology, Max Planck Institute for Molecular Genetics Chris Bielow [email protected] berlin.de

Upload: tyme

Post on 09-Jan-2016

41 views

Category:

Documents


0 download

DESCRIPTION

Chris Bielow [email protected]. On the Power of Profiles for Transcription Factor Binding Site Detection. Sven Rahmann* Tobias Müller † Martin Vingron ‡ * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and - PowerPoint PPT Presentation

TRANSCRIPT

On the Power of Profiles for Transcription Factor Binding Site Detection

Sven Rahmann*

Tobias Müller†

Martin Vingron‡

* Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and

Computer Science, Freie Universität Berlin

† University of Würzburg

‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics

Chris Bielow [email protected]

Gliederung

Profile

Regularisierung des Profils

Profil Score Matrix

Verteilung der Scores

Fehlerabschätzungen

Qualität eines Profils

Profil-Qualität TRANSFAC

Profile

Profil Pu

Countmatrix C

Regularisiertes Profil P ??

s1 ACTGAs2 AGTGAs3 CGTGC

Multiples Alignment N Anzahl d. Sequenzen

L Länge d. Sequenzen

11 1

1

, ,

, , 1,..,

nu

m m

ijuij

n

p p

P m L n

p p

j iN

LC

P

11 1

1

, ,n

m mn

c c

C m L n

c c

Regularisierung des Profils

Große Datenmenge Kaum Veränderung

Kleine Datenmenge Generalisierung (!

Overfitting) Zero-Counts vermeiden

(„nothing is impossible“)

Datenmenge

Regularisierung des Profils Positionsabhängig

Regularisierende Verteilung

Berechung der neuen Zeile:

1 ,

(Verteilung über alle Daten)

L

iji

j

C

N Lj

Beispiels1 ACTGAs2 AGTGA s3 CGTGC

A C G

4 3 5 3, , ,

15 15 15 15

T

(1 ) , 0,1iP

wenn , dann wähle groß,

sonst wähle klein

Beispiel: (2,1,1,1)

(0.4,0.2,0.2,0.2)

(0.25,0.25,0.25,0.25)

1

(0.25,0.25,0.25,0.25)

i

i

C

P

(5,0,0,0)

(1,0,0,0)

(0.25,0.25,0.25,0.25)

0.0349

(0.9738,0.0087,0.0087,0.0087)

i

i

C

P

Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell

ACGTTGCATGGTCAATGC

gleitendes Fenster

Signal(TFBS)?

Ja Nein

Hintergrundmodell:

1 ,.., ,

1 1 1 1z.B. , , ,

4 4 4 4

nb b n

Score für ein Fenster W: ,1 1

( ) log /i i i

L L

i W W iWi i

Score W P S

( ) 0 ist Anzeichen, dass W ein Signal istScore W

log / i=1,...,L; jij ij jS P Score-Matrix S mit

1 1 1 1 , , ,

4 4 4 4&

Beispiel

Verteilung der Scores „high quality“ Profil

„low quality“ Profil

Fehlertypen

Fehlerabschätzungen

W‘keit für Fensterfehler (Window Error) (Typ I)

W‘keit für Sequenzfehler (Sequence Error) (Typ I)

W‘keit für Fensterfehler (Typ II)

W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t

hat [FN]

( ) : ( )t X t

1..

( ) : maxn ii n

t P X t

( ) ( für mindestens ein i) i=1..mm P it P X t

( ) : ( )Pt X t

Qualität eines Profils „Wie gut unterscheidet sich das Profil vom Hintergrund?“ Qualitätsmaß (hohe Werte ≈ gute Trennung)

QH - Maß für Informationsgehalt

Qsens - Sensitivität (TP Erkennung)

Qsel - Selektivität (FP Unterdrückung)

Qbal - Balance zwischen FP & FN

[0,1]sensQ

[0,1]selQ

[0,1]balQ

0HQ

Typischerweise:

n = 500

m = 1

Profil PHintergrundverteilung

π

Sequenzlänge n

#Signale mSequenzfehlerw‘keit

αn(t) Typ I (FP)

Sequenzlänge n

# Signale m

W‘keit βm(t) (FN)Sequenzlänge n

#Signale m

Gewicht c (αn zu βm)

Qbal

Profil-Qualität TRANSFAC 623 Countmatrizen

Regularisiertes Profil

Annahme von drei verschiedenen Hintergrundmodellen

AT-reich

uniform

GC-reich

Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen

Scoreverteilung berechnen

Qualitätsmaße bestimmen

2 1 1 2, , ,

6 6 6 6AT

1 1 1 1, , ,

4 4 4 4uni

1 2 2 1, , ,

6 6 6 6GC

Profil-Qualität TRANSFAC

Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile

Maximal 5% FN

Wie gut werden echte Signale erkannt?

uniform

AT-reich GC-reich

Profil-Qualität TRANSFAC

Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile

Power of Profiles

Detection power: 95%

Wie gut werden FP unterdrückt?

uniform

AT-reich GC-reich

Profil-Qualität TRANSFAC

Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05

• über 80% sind zu schwach (viele FN)

Verbesserungen

Suche in langen Sequenzen Lsg:

verwandte Genome (Suchraum reduzieren) Profile Clustern

Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung

( ) ( ) 1 tn mt t

0, 0n m

ENDE

Danke für die Aufmerksamkeit