algorithms for regression and classification - ls2-...
TRANSCRIPT
Fakultät für InformatikEffiziente Algorithmen und Komplexitätstheorie
Algorithms for Regression and ClassificationRobust Regression and Genetic Association Studies
Robin Nunkesser
Fakultät für InformatikEffiziente Algorithmen und Komplexitätstheorie
Promotionsvortrag
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Überblick
Algorithmische Statistik
Regression Klassifikation
Robuste Skalenschätzung
Qn Sn
Robuste lineare Regression
LQD LTS, LMS, ...
Genetische Assoziationsstudien
GPAS
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Überblick
Algorithmische Statistik
Regression Klassifikation
Robuste Skalenschätzung
Qn Sn
Robuste lineare Regression
LQD LTS, LMS, ...
Genetische Assoziationsstudien
GPAS
Qn Online-Algorithmus mit Laufzeitvorteilen für viele DatenSn Online-Algorithmus mit Laufzeit O (n) pro Update
LQD in R2 Obere Schranken O(n2 log2 n) und erw. O(n2 logn)Praktikable Alternativen mit ähnlichen Laufzeiten
LTS, LMS,. . .
Evolutionärer Algorithmus für verschiedene robusteSchätzer
GPAS GP Algorithmus für AssoziationsstudienWeitere Einsatzgebiete
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Robuste Regression
Definition (Donoho und Huber, 1983)Der Ersetzungsbruchpunkt eines Schätzers für eine endlicheStichprobe bezeichnet den kleinsten Stichprobenanteil, der ersetztwerden muss, um die Schätzung unbegrenzt zu beeinflussen.
Internationale Telefonate aus Belgien
1950 1955 1960 1965 19700.0e
+00
1.0e
+08
2.0e
+08
Jahr
Inte
rnat
iona
le T
elef
onat
e
LSLQD
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Einige robuste lineare SchätzerSei Y 1, . . . ,Yn eine Stichprobe und xi1, . . . ,xip für i = 1, . . . ,nBeobachtungen. Das lineare Modell ist gegeben durch
Y i = β0 + β1xi1 + . . .+ βpxip + εi i = 1, . . . ,n .
Definition
Die Schätzungen β̂LXX der Parameter β0, ...,βp sind gegeben durch
β̂LQS = minβ0,...,βp
{r1 (β0, . . . ,βp)2 , . . . , rn (β0, . . . ,βp)2}(hp)
β̂LTS = minβ0,...,βp
hp
∑i=1{r1 (β0, . . . ,βp)2 , . . . , rn (β0, . . . ,βp)2}(i)
β̂LQD = minβ0,...,βp
{|ri(β0, . . . ,βp)− rj(β0, . . . ,βp)|; i < j}(hp2 ) .
ri (β0, . . . ,βp): Differenz zwischen Beobachtung yi und der durch β0, ...,βpbestimmten Hyperebene
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Geometrische Dualität
• Punkt p = (β1,β0) wird zu Gerade Tp : y = β1x −β0• Gerade g : y = β1x + β0 wird zu Punkt Tg = (β1,−β0)
x
y
1.510.50-0.5-1-1.5
32
10
-1-2
-3
x1.510.50-0.5-1-1.5
32
10
-1-2
-3
Primalraum Dualraum
Duale LQD Berechnung• Suche den niedrigsten Punkt in k oberen Halbräumen• Dessen Koordinaten bestimmen die LQD Schätzung
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Geometrische Dualität
• Punkt p = (β1,β0) wird zu Gerade Tp : y = β1x −β0• Gerade g : y = β1x + β0 wird zu Punkt Tg = (β1,−β0)
Primalraum Dualraum
1.20
0.2
0.4
0.6
0.8
vu0.6 0.7 0.8 0.9 1 1.3 1.41.1-0
.20
0
y
x1 2 3 4 5 6 7
12
34
56
78
Duale LQD Berechnung• Suche den niedrigsten Punkt in k oberen Halbräumen• Dessen Koordinaten bestimmen die LQD Schätzung
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Lokale Lösungen
Frage: Gibt es in fester Höhe eine lokale Lösung?
Vorgehen1 Berechne Schnittpunkte mit horizontaler Geraden2 Betrachte Schnittpunkte von links nach rechts und aktualisiere
dabei Zahl der darüberliegenden Halbräume3 Sind k erreicht, gebe JA zurück
Laufzeit: O(n logn)
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Randomisierter Algorithmus
Wir verwalten eine untere und eine obere Schranke für die Höhe derglobalen Lösung
1 Initialisierung:• Initialisiere 0 als untere Schranke
Finde triviale lokale Lösung als obere Schranke2 Suche nach der globalen Lösung:
• Berechne die Anzahl der Schnittpunkte zwischen unterer undoberer Schranke
• Wähle zufällig gleichverteilt einen dieser Schnittpunkte• Entscheide, ob die Höhe des Schnittpunkts neue untere oder neue
obere Schranke wird3 Stoppkriterium:
• Suche bis keine Schnittpunkte mehr zwischen unterer und obererSchranke liegen
Erwartete Aufrufe des Entscheidungsproblems: O(logn)
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Höhere Dimension
• Die betrachteten robusten Schätzer sind NP-hart (Bernholt, 2005)• Die Berechnung für höhere Dimensionen erfolgt mit Heuristiken• Typische Heuristiken basieren auf durch Teilmengen der Größe
d = p + 1 definierten Lösungen
• Eine Heuristik kann für mehrere Schätzer angewandt werden
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Evolutionärer Algorithmus1 Wähle uniform zufällig d Beobachtungen2 Berechne darauf basierend eine eindeutige Hyperebene mit
Parametern β̂0, . . . , β̂p3 Führe uniform zufällig eine der folgenden Adaptionen durch:
1 Tausche eine gewählte Beobachtung mit einer nicht gewähltenBeobachtung
2 Wähle einen nicht gewählten Punkt zufällig und d −1 weiterePunkte mit „ähnlichen“ Residuen
3 Wähle uniform zufällig d Beobachtungen4 Berechne für das adaptierte Individuum eine eindeutige
Hyperebene mit Parametern β ′0, . . . ,β′p
5 Fahre mit dem adaptierten Individuum fort, wenn dessenZielfunktionswert für den gewünschten Schätzer LTS, LMS,LQD,. . . mindestens so gut wie der des Originalindividuums ist
6 Wenn das Abbruchkriterium erfüllt ist, gib das letzte Individuumaus. Sonst gehe zu 3.
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Schätzung auf d Punkten
1 Berechne Parameter der Hyperebene durch die d Punkte2 Berechne
β̂LS = minβ0,...,βp
hp
∑i=1
ri (β0, . . . ,βp)2
auf den hp Punkten mit den geringsten Residuen3 Schätzung sind die Parameter, die den besseren
Zielkriteriumswert ergeben
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Vergleich
Vergleich mit Standardheuristiken für LTS und LMS auf zweiDatensätzen
−2 0 2 4
−50
510
Datensatz 1
x
y
0.0 0.2 0.4 0.6 0.8 1.00
510
Datensatz 2
xy
Datensatz 1: 20% Ausreißer in x- und 20% Ausreißer in y -RichtungDatensatz 2: Strukturbruch nach 60% der Daten
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Ergebnis10
014
018
022
0LTS (Datensatz 1)
Anzahl Regressoren
LTS
Ziel
funk
tions
wer
t
0 5 10 15 20 25 30
ltsRegrobreg.evol
100
200
300
LTS (Datensatz 2)
Anzahl Regressoren
LTS
Ziel
funk
tions
wer
t
0 5 10 15 20 25 30
ltsRegrobreg.evol
010
3050
LMS (Datensatz 1)
Anzahl Regressoren
LMS
Ziel
funk
tions
wer
t
0 5 10 15 20 25 30
lqsrobreg.evol
23
45
67
LMS (Datensatz 2)
Anzahl Regressoren
LMS
Ziel
funk
tions
wer
t
0 5 10 15 20 25 30
lqsrobreg.evol
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Genetische Assoziationsstudien
Ziel: Identifiziere genetische Risikofaktoren für ErkrankungenDaten: Genetische Faktoren von Fällen und KontrollenBasis: SNPs sind häufig betrachteter genetischer Faktor
Single Nucleotide PolymorphismGenetische Variation
Single: tritt an einemBasenpaar auf
Nucleotide: Zucker, Phosphat undAdenin, Thymin,Cytosin oder Guanin
Polymorphism: Nukleotidvariante mitHäufigkeit ≥ 1%
≈ 90% der genetischen Variationen
Beispiel eines SNP
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Einzelnukleotidpolymorphismen
• Die meisten SNPs besitzen zwei Allele (Varianten)• Sei A das Referenzallel und a das Variantenallel• Wir unterscheiden drei Typen durch Allel in Mutterchromosom und
Allel in Vaterchromosom:• homozygote Referenz AA (kodiert als 0)• heterozygote Variante aA/Aa (1)• homozygote Variante aa (2)
DatenbeispielSNP1 SNP2 SNP3 SNP4 SNP5 SNP6 Fall
0 1 0 2 0 1 02 1 1 0 0 2 1
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
LernproblemBeispiele aus B := {0,1}, Eingaben aus {0,1,2}
Ziel: Finde eine zu Eingabe und Beispielen „passende“ Funktionf : {0,1,2}n→ B
Ansatz: Bilde mehrwertige Variablen auf Boolesche Variablen
xa :=
{1, falls x = a0, sonst
und x̄a mit a ∈ {0,1,2} ab und suche nach Polynomen
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
GP Algorithmus
1 Erzeuge uniform zufällig zwei Polynome der Größe 12 Reproduziere alle Polynome und selektiere 7 uniform zufällig für
• Einfügen eines Monoms aus einem Polynom in ein anderesPolynom
• Einsetzen eines neuen Literals• Löschen eines bestehenden Literals• Ersetzen eines bestehenden Literals• Einsetzen eines neuen Monoms• Löschen eines bestehenden Monoms
3 Bestimme die Fitnesswerte als Tripel aus• vorhergesagte Kontrollen, vorhergesagte Fälle, Polynomgröße
4 Entferne pareto-dominierte Polynome5 Wenn das Abbruchkriterium erfüllt ist, gib die Population aus.
Sonst gehe zu 2.
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Überanpassung
1 3 5 7 9 11
0.30
0.40
Trainingsdaten
Polynomgröße
Mis
skla
ssifi
katio
n
1 3 5 7 9 11
0.30
0.40
Testdaten
Polynomgröße
Mis
skla
ssifi
katio
nProblem: Tendenz zur Überanpassung
Ziel: Ermittle korrekte Modellgröße (hier 5) in den Trainingsdaten
Ansatz: Betrachte nur die konvexe Hülle und für diese Punkte dieSteigung zwischen benachbarten Punkten
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Überanpassung
1 3 5 7 9 11
01
23
4
Trainingsdaten
Polynomgröße
Stei
gung
1 3 5 7 9 11
0.30
0.40
Testdaten
Polynomgröße
Mis
skla
ssifi
katio
nProblem: Tendenz zur Überanpassung
Ziel: Ermittle korrekte Modellgröße (hier 5) in den TrainingsdatenAnsatz: Betrachte nur die konvexe Hülle und für diese Punkte die
Steigung zwischen benachbarten Punkten
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Ergebnisse auf GENICA
Missklassifikation bei fester Modellgröße
2 4 6 8 10 12
0.40
0.41
0.42
0.43
Modellgröße
Mis
skla
ssifi
katio
n
Logic RegressionGPAS
Missklassifikation und Laufzeit
GPASLogic Re-gression
CART BaggingRandomForests
MCR 0.392 0.405 0.429 0.457 0.450Laufzeit 6.31 11.75 1.37 21.77 9.03
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Ergebnisse auf HapMap
Missklassifikation und Laufzeit auf signifikanten SNPs
GPASLogic Re-gression
CART BaggingRandomForests
MCR 0.011 0.144 0.356 0.022 0.011Laufzeit 1.1 (89.3) 1.15 0.83 5.01 0.3
Suche auf allen SNPs
10 9 8 7 6 5
050
0010
000
1500
0
Polynomgröße
Anza
hl G
ener
atio
nen
in T
ause
nd Zufällige ZuordnungOriginaldaten
Laufzeit• Etwa 8 Minuten für 10000
Generationen• Die anderen Methoden
laufen nicht
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag
Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick
Überblick
Algorithmische Statistik
Regression Klassifikation
Robuste Skalenschätzung
Qn Sn
Robuste lineare Regression
LQD LTS, LMS, ...
Genetische Assoziationsstudien
GPAS
Qn Online-Algorithmus mit Laufzeitvorteilen für viele DatenSn Online-Algorithmus mit Laufzeit O (n) pro Update
LQD in R2 Obere Schranken O(n2 log2 n) und erw. O(n2 logn)Praktikable Alternativen mit ähnlichen Laufzeiten
LTS, LMS,. . .
Evolutionärer Algorithmus für verschiedene robusteSchätzer
GPAS GP Algorithmus für AssoziationsstudienWeitere Einsatzgebiete
Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag