algorithms for regression and classification - ls2-...

23
Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Algorithms for Regression and Classification Robust Regression and Genetic Association Studies Robin Nunkesser Fakultät für Informatik Effiziente Algorithmen und Komplexitätstheorie Promotionsvortrag Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Upload: hoangdan

Post on 15-Aug-2019

227 views

Category:

Documents


0 download

TRANSCRIPT

Fakultät für InformatikEffiziente Algorithmen und Komplexitätstheorie

Algorithms for Regression and ClassificationRobust Regression and Genetic Association Studies

Robin Nunkesser

Fakultät für InformatikEffiziente Algorithmen und Komplexitätstheorie

Promotionsvortrag

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Überblick

Algorithmische Statistik

Regression Klassifikation

Robuste Skalenschätzung

Qn Sn

Robuste lineare Regression

LQD LTS, LMS, ...

Genetische Assoziationsstudien

GPAS

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Überblick

Algorithmische Statistik

Regression Klassifikation

Robuste Skalenschätzung

Qn Sn

Robuste lineare Regression

LQD LTS, LMS, ...

Genetische Assoziationsstudien

GPAS

Qn Online-Algorithmus mit Laufzeitvorteilen für viele DatenSn Online-Algorithmus mit Laufzeit O (n) pro Update

LQD in R2 Obere Schranken O(n2 log2 n) und erw. O(n2 logn)Praktikable Alternativen mit ähnlichen Laufzeiten

LTS, LMS,. . .

Evolutionärer Algorithmus für verschiedene robusteSchätzer

GPAS GP Algorithmus für AssoziationsstudienWeitere Einsatzgebiete

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Robuste Regression

Definition (Donoho und Huber, 1983)Der Ersetzungsbruchpunkt eines Schätzers für eine endlicheStichprobe bezeichnet den kleinsten Stichprobenanteil, der ersetztwerden muss, um die Schätzung unbegrenzt zu beeinflussen.

Internationale Telefonate aus Belgien

1950 1955 1960 1965 19700.0e

+00

1.0e

+08

2.0e

+08

Jahr

Inte

rnat

iona

le T

elef

onat

e

LSLQD

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Einige robuste lineare SchätzerSei Y 1, . . . ,Yn eine Stichprobe und xi1, . . . ,xip für i = 1, . . . ,nBeobachtungen. Das lineare Modell ist gegeben durch

Y i = β0 + β1xi1 + . . .+ βpxip + εi i = 1, . . . ,n .

Definition

Die Schätzungen β̂LXX der Parameter β0, ...,βp sind gegeben durch

β̂LQS = minβ0,...,βp

{r1 (β0, . . . ,βp)2 , . . . , rn (β0, . . . ,βp)2}(hp)

β̂LTS = minβ0,...,βp

hp

∑i=1{r1 (β0, . . . ,βp)2 , . . . , rn (β0, . . . ,βp)2}(i)

β̂LQD = minβ0,...,βp

{|ri(β0, . . . ,βp)− rj(β0, . . . ,βp)|; i < j}(hp2 ) .

ri (β0, . . . ,βp): Differenz zwischen Beobachtung yi und der durch β0, ...,βpbestimmten Hyperebene

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Geometrische Dualität

• Punkt p = (β1,β0) wird zu Gerade Tp : y = β1x −β0• Gerade g : y = β1x + β0 wird zu Punkt Tg = (β1,−β0)

x

y

1.510.50-0.5-1-1.5

32

10

-1-2

-3

x1.510.50-0.5-1-1.5

32

10

-1-2

-3

Primalraum Dualraum

Duale LQD Berechnung• Suche den niedrigsten Punkt in k oberen Halbräumen• Dessen Koordinaten bestimmen die LQD Schätzung

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Geometrische Dualität

• Punkt p = (β1,β0) wird zu Gerade Tp : y = β1x −β0• Gerade g : y = β1x + β0 wird zu Punkt Tg = (β1,−β0)

Primalraum Dualraum

1.20

0.2

0.4

0.6

0.8

vu0.6 0.7 0.8 0.9 1 1.3 1.41.1-0

.20

0

y

x1 2 3 4 5 6 7

12

34

56

78

Duale LQD Berechnung• Suche den niedrigsten Punkt in k oberen Halbräumen• Dessen Koordinaten bestimmen die LQD Schätzung

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Lokale Lösungen

Frage: Gibt es in fester Höhe eine lokale Lösung?

Vorgehen1 Berechne Schnittpunkte mit horizontaler Geraden2 Betrachte Schnittpunkte von links nach rechts und aktualisiere

dabei Zahl der darüberliegenden Halbräume3 Sind k erreicht, gebe JA zurück

Laufzeit: O(n logn)

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Randomisierter Algorithmus

Wir verwalten eine untere und eine obere Schranke für die Höhe derglobalen Lösung

1 Initialisierung:• Initialisiere 0 als untere Schranke

Finde triviale lokale Lösung als obere Schranke2 Suche nach der globalen Lösung:

• Berechne die Anzahl der Schnittpunkte zwischen unterer undoberer Schranke

• Wähle zufällig gleichverteilt einen dieser Schnittpunkte• Entscheide, ob die Höhe des Schnittpunkts neue untere oder neue

obere Schranke wird3 Stoppkriterium:

• Suche bis keine Schnittpunkte mehr zwischen unterer und obererSchranke liegen

Erwartete Aufrufe des Entscheidungsproblems: O(logn)

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Höhere Dimension

• Die betrachteten robusten Schätzer sind NP-hart (Bernholt, 2005)• Die Berechnung für höhere Dimensionen erfolgt mit Heuristiken• Typische Heuristiken basieren auf durch Teilmengen der Größe

d = p + 1 definierten Lösungen

• Eine Heuristik kann für mehrere Schätzer angewandt werden

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Evolutionärer Algorithmus1 Wähle uniform zufällig d Beobachtungen2 Berechne darauf basierend eine eindeutige Hyperebene mit

Parametern β̂0, . . . , β̂p3 Führe uniform zufällig eine der folgenden Adaptionen durch:

1 Tausche eine gewählte Beobachtung mit einer nicht gewähltenBeobachtung

2 Wähle einen nicht gewählten Punkt zufällig und d −1 weiterePunkte mit „ähnlichen“ Residuen

3 Wähle uniform zufällig d Beobachtungen4 Berechne für das adaptierte Individuum eine eindeutige

Hyperebene mit Parametern β ′0, . . . ,β′p

5 Fahre mit dem adaptierten Individuum fort, wenn dessenZielfunktionswert für den gewünschten Schätzer LTS, LMS,LQD,. . . mindestens so gut wie der des Originalindividuums ist

6 Wenn das Abbruchkriterium erfüllt ist, gib das letzte Individuumaus. Sonst gehe zu 3.

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Schätzung auf d Punkten

1 Berechne Parameter der Hyperebene durch die d Punkte2 Berechne

β̂LS = minβ0,...,βp

hp

∑i=1

ri (β0, . . . ,βp)2

auf den hp Punkten mit den geringsten Residuen3 Schätzung sind die Parameter, die den besseren

Zielkriteriumswert ergeben

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Vergleich

Vergleich mit Standardheuristiken für LTS und LMS auf zweiDatensätzen

−2 0 2 4

−50

510

Datensatz 1

x

y

0.0 0.2 0.4 0.6 0.8 1.00

510

Datensatz 2

xy

Datensatz 1: 20% Ausreißer in x- und 20% Ausreißer in y -RichtungDatensatz 2: Strukturbruch nach 60% der Daten

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Ergebnis10

014

018

022

0LTS (Datensatz 1)

Anzahl Regressoren

LTS

Ziel

funk

tions

wer

t

0 5 10 15 20 25 30

ltsRegrobreg.evol

100

200

300

LTS (Datensatz 2)

Anzahl Regressoren

LTS

Ziel

funk

tions

wer

t

0 5 10 15 20 25 30

ltsRegrobreg.evol

010

3050

LMS (Datensatz 1)

Anzahl Regressoren

LMS

Ziel

funk

tions

wer

t

0 5 10 15 20 25 30

lqsrobreg.evol

23

45

67

LMS (Datensatz 2)

Anzahl Regressoren

LMS

Ziel

funk

tions

wer

t

0 5 10 15 20 25 30

lqsrobreg.evol

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Genetische Assoziationsstudien

Ziel: Identifiziere genetische Risikofaktoren für ErkrankungenDaten: Genetische Faktoren von Fällen und KontrollenBasis: SNPs sind häufig betrachteter genetischer Faktor

Single Nucleotide PolymorphismGenetische Variation

Single: tritt an einemBasenpaar auf

Nucleotide: Zucker, Phosphat undAdenin, Thymin,Cytosin oder Guanin

Polymorphism: Nukleotidvariante mitHäufigkeit ≥ 1%

≈ 90% der genetischen Variationen

Beispiel eines SNP

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Einzelnukleotidpolymorphismen

• Die meisten SNPs besitzen zwei Allele (Varianten)• Sei A das Referenzallel und a das Variantenallel• Wir unterscheiden drei Typen durch Allel in Mutterchromosom und

Allel in Vaterchromosom:• homozygote Referenz AA (kodiert als 0)• heterozygote Variante aA/Aa (1)• homozygote Variante aa (2)

DatenbeispielSNP1 SNP2 SNP3 SNP4 SNP5 SNP6 Fall

0 1 0 2 0 1 02 1 1 0 0 2 1

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

LernproblemBeispiele aus B := {0,1}, Eingaben aus {0,1,2}

Ziel: Finde eine zu Eingabe und Beispielen „passende“ Funktionf : {0,1,2}n→ B

Ansatz: Bilde mehrwertige Variablen auf Boolesche Variablen

xa :=

{1, falls x = a0, sonst

und x̄a mit a ∈ {0,1,2} ab und suche nach Polynomen

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

GP Algorithmus

1 Erzeuge uniform zufällig zwei Polynome der Größe 12 Reproduziere alle Polynome und selektiere 7 uniform zufällig für

• Einfügen eines Monoms aus einem Polynom in ein anderesPolynom

• Einsetzen eines neuen Literals• Löschen eines bestehenden Literals• Ersetzen eines bestehenden Literals• Einsetzen eines neuen Monoms• Löschen eines bestehenden Monoms

3 Bestimme die Fitnesswerte als Tripel aus• vorhergesagte Kontrollen, vorhergesagte Fälle, Polynomgröße

4 Entferne pareto-dominierte Polynome5 Wenn das Abbruchkriterium erfüllt ist, gib die Population aus.

Sonst gehe zu 2.

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Überanpassung

1 3 5 7 9 11

0.30

0.40

Trainingsdaten

Polynomgröße

Mis

skla

ssifi

katio

n

1 3 5 7 9 11

0.30

0.40

Testdaten

Polynomgröße

Mis

skla

ssifi

katio

nProblem: Tendenz zur Überanpassung

Ziel: Ermittle korrekte Modellgröße (hier 5) in den Trainingsdaten

Ansatz: Betrachte nur die konvexe Hülle und für diese Punkte dieSteigung zwischen benachbarten Punkten

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Überanpassung

1 3 5 7 9 11

01

23

4

Trainingsdaten

Polynomgröße

Stei

gung

1 3 5 7 9 11

0.30

0.40

Testdaten

Polynomgröße

Mis

skla

ssifi

katio

nProblem: Tendenz zur Überanpassung

Ziel: Ermittle korrekte Modellgröße (hier 5) in den TrainingsdatenAnsatz: Betrachte nur die konvexe Hülle und für diese Punkte die

Steigung zwischen benachbarten Punkten

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Ergebnisse auf GENICA

Missklassifikation bei fester Modellgröße

2 4 6 8 10 12

0.40

0.41

0.42

0.43

Modellgröße

Mis

skla

ssifi

katio

n

Logic RegressionGPAS

Missklassifikation und Laufzeit

GPASLogic Re-gression

CART BaggingRandomForests

MCR 0.392 0.405 0.429 0.457 0.450Laufzeit 6.31 11.75 1.37 21.77 9.03

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Ergebnisse auf HapMap

Missklassifikation und Laufzeit auf signifikanten SNPs

GPASLogic Re-gression

CART BaggingRandomForests

MCR 0.011 0.144 0.356 0.022 0.011Laufzeit 1.1 (89.3) 1.15 0.83 5.01 0.3

Suche auf allen SNPs

10 9 8 7 6 5

050

0010

000

1500

0

Polynomgröße

Anza

hl G

ener

atio

nen

in T

ause

nd Zufällige ZuordnungOriginaldaten

Laufzeit• Etwa 8 Minuten für 10000

Generationen• Die anderen Methoden

laufen nicht

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag

Einleitung LQD in R2 LTS, LMS, . . . GPAS Überblick

Überblick

Algorithmische Statistik

Regression Klassifikation

Robuste Skalenschätzung

Qn Sn

Robuste lineare Regression

LQD LTS, LMS, ...

Genetische Assoziationsstudien

GPAS

Qn Online-Algorithmus mit Laufzeitvorteilen für viele DatenSn Online-Algorithmus mit Laufzeit O (n) pro Update

LQD in R2 Obere Schranken O(n2 log2 n) und erw. O(n2 logn)Praktikable Alternativen mit ähnlichen Laufzeiten

LTS, LMS,. . .

Evolutionärer Algorithmus für verschiedene robusteSchätzer

GPAS GP Algorithmus für AssoziationsstudienWeitere Einsatzgebiete

Robin Nunkesser Algorithms for Regression and Classification Promotionsvortrag