on the power of profiles for transcription factor binding site detection
DESCRIPTION
Chris Bielow [email protected]. On the Power of Profiles for Transcription Factor Binding Site Detection. Sven Rahmann* Tobias Müller † Martin Vingron ‡ * Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and - PowerPoint PPT PresentationTRANSCRIPT
On the Power of Profiles for Transcription Factor Binding Site Detection
Sven Rahmann*
Tobias Müller†
Martin Vingron‡
* Computational Molecular Biology, Max Planck Institute for Molecular Genetics and Department of Mathematics and
Computer Science, Freie Universität Berlin
† University of Würzburg
‡ Computational Molecular Biology, Max Planck Institute for Molecular Genetics
Chris Bielow [email protected]
Gliederung
Profile
Regularisierung des Profils
Profil Score Matrix
Verteilung der Scores
Fehlerabschätzungen
Qualität eines Profils
Profil-Qualität TRANSFAC
Profile
Profil Pu
Countmatrix C
Regularisiertes Profil P ??
s1 ACTGAs2 AGTGAs3 CGTGC
Multiples Alignment N Anzahl d. Sequenzen
L Länge d. Sequenzen
11 1
1
, ,
, , 1,..,
nu
m m
ijuij
n
p p
P m L n
p p
j iN
LC
P
11 1
1
, ,n
m mn
c c
C m L n
c c
Regularisierung des Profils
Große Datenmenge Kaum Veränderung
Kleine Datenmenge Generalisierung (!
Overfitting) Zero-Counts vermeiden
(„nothing is impossible“)
Datenmenge
Regularisierung des Profils Positionsabhängig
Regularisierende Verteilung
Berechung der neuen Zeile:
1 ,
(Verteilung über alle Daten)
L
iji
j
C
N Lj
Beispiels1 ACTGAs2 AGTGA s3 CGTGC
A C G
4 3 5 3, , ,
15 15 15 15
T
(1 ) , 0,1iP
wenn , dann wähle groß,
sonst wähle klein
Beispiel: (2,1,1,1)
(0.4,0.2,0.2,0.2)
(0.25,0.25,0.25,0.25)
1
(0.25,0.25,0.25,0.25)
i
i
C
P
(5,0,0,0)
(1,0,0,0)
(0.25,0.25,0.25,0.25)
0.0349
(0.9738,0.0087,0.0087,0.0087)
i
i
C
P
Profil Score Matrix bisher: nur Signaldaten (Profil) jetzt zusätzlich: Hintergrundmodell
ACGTTGCATGGTCAATGC
gleitendes Fenster
Signal(TFBS)?
Ja Nein
Hintergrundmodell:
1 ,.., ,
1 1 1 1z.B. , , ,
4 4 4 4
nb b n
Score für ein Fenster W: ,1 1
( ) log /i i i
L L
i W W iWi i
Score W P S
( ) 0 ist Anzeichen, dass W ein Signal istScore W
log / i=1,...,L; jij ij jS P Score-Matrix S mit
1 1 1 1 , , ,
4 4 4 4&
Beispiel
Fehlerabschätzungen
W‘keit für Fensterfehler (Window Error) (Typ I)
W‘keit für Sequenzfehler (Sequence Error) (Typ I)
W‘keit für Fensterfehler (Typ II)
W‘keit für m-Instanz-Fehler (m-instance Error) (Typ II) W‘keit, dass mind. ein echtes Signal (von m insgesamt) Score < t
hat [FN]
( ) : ( )t X t
1..
( ) : maxn ii n
t P X t
( ) ( für mindestens ein i) i=1..mm P it P X t
( ) : ( )Pt X t
Qualität eines Profils „Wie gut unterscheidet sich das Profil vom Hintergrund?“ Qualitätsmaß (hohe Werte ≈ gute Trennung)
QH - Maß für Informationsgehalt
Qsens - Sensitivität (TP Erkennung)
Qsel - Selektivität (FP Unterdrückung)
Qbal - Balance zwischen FP & FN
[0,1]sensQ
[0,1]selQ
[0,1]balQ
0HQ
Typischerweise:
n = 500
m = 1
Profil PHintergrundverteilung
π
Sequenzlänge n
#Signale mSequenzfehlerw‘keit
αn(t) Typ I (FP)
Sequenzlänge n
# Signale m
W‘keit βm(t) (FN)Sequenzlänge n
#Signale m
Gewicht c (αn zu βm)
Profil-Qualität TRANSFAC 623 Countmatrizen
Regularisiertes Profil
Annahme von drei verschiedenen Hintergrundmodellen
AT-reich
uniform
GC-reich
Scorematrizen (3x623) aus Profilen & Hintergrundverteilung erstellen
Scoreverteilung berechnen
Qualitätsmaße bestimmen
2 1 1 2, , ,
6 6 6 6AT
1 1 1 1, , ,
4 4 4 4uni
1 2 2 1, , ,
6 6 6 6GC
Profil-Qualität TRANSFAC
Verteilung von Qsens(0.05;500;1) der TRANSFAC-Profile
Maximal 5% FN
Wie gut werden echte Signale erkannt?
uniform
AT-reich GC-reich
Profil-Qualität TRANSFAC
Verteilung von Qsel(0.05;500;1) der TRANSFAC-Profile
Power of Profiles
Detection power: 95%
Wie gut werden FP unterdrückt?
uniform
AT-reich GC-reich
Profil-Qualität TRANSFAC
Erkennung von Signalen bei Typ I-Sequenzfehler < 0.05
• über 80% sind zu schwach (viele FN)
Verbesserungen
Suche in langen Sequenzen Lsg:
verwandte Genome (Suchraum reduzieren) Profile Clustern
Abhängigkeit vom Hintergrundmodell Lsg: Modell an Sequenz anpassen Verbesserung (?) durch höhere Ordnung
( ) ( ) 1 tn mt t
0, 0n m