vorlesung 3 maschinenlernen: klassische ansätze ii · 1 2 ( | ) ~ 2 j f g f f p f g e e l i i i...

M. Giese: Lernmethoden in Computervision und Computer Grafik28 October 2002

Vorlesung 3

Maschinenlernen:Klassische Ansätze II

Martin Giese

[email protected]


Übersicht

! Regression! Regularisierung! Basisfunktionenentwicklung! Anwendungsbeispiele


I. Regression (Wiederh.)


Nicht eindeutig lösbar

x

y

Datenpunkte

)(2̂ xf)(1̂ xf


Nicht korrekt gestelltes Problem(ill-posed problem)

Korrekt getelltes Problem (Hadarmard)

! Lösung existiert! Lösung eindeutig! Lösung hängt stetig von den Daten ab


Hypothesenraum

! Lösung wird eindeutig durch Einschränkung auf bestimmte Funktionenklasse H

! Ausnutzung von A-priori-Information über das Problem

Beispiele! Lineare Funktionen: ! Polynome p-ter Ordnung: ! Linearkombination von Gaussfunktionen:

∑=

=p

n

nnxwxf

0

)(ˆ

∑=

−−=p

n

mxn

newxf0

2/)( 22

)(ˆ σ

freie Parameter

∑=

=p

nnnwf

0

)(ˆ xx


Zielraum

! Raum Z in dem die wahre Funktion f(x) liegt! Typischerweise wesentlich allgemeiner als der

Hypothesenraum! Beispiele:

" Funktionen mit d differenzierbaren Ableitungen" Quadratintegrable Funktionen" Funktionen mit integrierbarer

Fouriertransformierter


II. Regularisierung


Einschränkung des Hypothesenraums

! Bisher: Funktionenklasse H eingeschränkt durch ad hoc Auswahl einer parameterisierten Funktionenklasse (linear, Polynom, usw.)

! Oft generellere Einschränkungen wünschenswert! Beispiele:

– Glattheit– Frequenzbandbegrenzung


Glattheit

x

y )(1̂ xf)(2̂ xf

! Glatte Funktion extrahiert mehr “wesentliche”Information aus den Daten

! Glatte Funktion weniger “komplex”

! Beispiel: Fourierreihen-entwicklung:

xnbxnaxfn

nn∑=

+=2

01 sincos)(ˆ ωω

xnbxnaxfn

nn∑=

+=6

02 sincos)(ˆ ωω

3 Parameter

7 Parameter


Messen von Glattheit

! Funktional Φ: Abbildung Funktionenraum →! Grosse Ableitungen bei Funktionen, die nicht glatt

sind! Beispiele für Glattheitsmasse:

RI

Ableitung


Ziel von Regularisierung

! Einschränkung der Hypothesenklasse H

! Problem wird durch Einschänkung eindeutig lösbar! Verschiedene Ansätze, die z.T. unter geeigneten

Bedingungen äquivalent sind


Ivanov Regularisierung

∑=∈

=l

iiiHf

yxfVf1

)),((minargˆ

τ≤Φ ][ fUnter der NB:

! Minimierung des Empirischen Risikos! Nebenbedingung für die Komplexität


Phillips Regularisierung

][minargˆ ffHf

Φ=∈

τ≤∑=

l

iii yxfV

l 1)),((1Unter der NB:

! Minimierung der Komplexität! Schranke für Empirisches Risiko


Tikhonov Regularisierung

][)),((1minargˆ1

fyxfVl

fl

iiiHf

Φ+= ∑=∈

λ

! Summe aus Komplexitätsmass und Empirischem Risiko minimiert

! λ > 0 bestimmt Tradeoff! λ bestimmt Grösse der Funktionenklasse H


Äquivalenzen (Beispiele)

! f0 löst Tikhonov-Problem mit λ0⇒ f0 löst Ivanov-Problem mit τ0=Φ(f0)

! f0 löst Ivanov Problem⇒ es ex. λ0 so dass f0 Tikhonov-Problem

löst! Ähnliche Äquivalenzen für Phillips-

Regularisierung


Beispiel: Ridge Regression

! Kleinste-Quadrate-Schätzung mit Regularisierung

! L1- Regularisierungsterm! Erzwingen kleiner Gewichte ! ! Wenig “Tradeoff” zwischen pos. und neg. wn

2

1

2

1

2

||)(1

)()(1)(

wxw

wxww

λ

λ

+−=

Φ+−=

∑

∑

=

=L

ll

Tl

L

ll

Tl

yL

yL

V


Ridge Regression

! In Matrixform: X = [x1, …xL], y=[y1, …, yL]T:

! Fehlerminimierung durch Ableiten nach w:

( ) 02][2 =−+=∂∂ XywIXXw

λLL

V T

( )wIXXwXywyw ][2||1)( 2 λLL

V TTT ++−=

XyIXXw 1)(ˆ −+= λLT

Immer positiv definit


Beispiel: Lasso Shrinkage

! Kleinste-Quadrate-Schätzung mit Regularisierung

! Erzwingen kleiner Gewichte, aber L1-Regularisierungsterm !

! Nicht in geschlossener Form lösbar.

||)(1

)()(1)(

1

2

1

2

wxw

wxww

λ

λ

+−=

Φ+−=

∑

∑

=

=L

ll

Tl

L

ll

Tl

yL

yL

V



! Viele Gewichte wn werden exakt Null⇒ Spärliche (sparse) Gewichtsverteilung

||)1()( 2 wwwV λ+−=

w

w

w

λ gross

λ klein



! Lösung des Optimierungsproblems:

! Umgeschrieben mit

minimiere:

+

−

−= −+

=

−+∑ 11

wwxx

www ],[)],[(1)(1

2 TTL

l l

lTTly

LV λ

0wwwwwwww >+=−= −+−+−+ ,||

pgHppp TTV +=21)(1

Quadratische Programmierung

=

−

+

ww

p

mit p ≥≥≥≥ 0


Probabilistische Interpretation! Annahme: yn als Resultat eines Zufallsprozesses

! Ziel: Schätzen der Funktion f(x),z.B. wahre Tiefe

! Gegeben: verrauschte Messwerte g(x)

! Abtastung an Punkten xl

llll fg ξxxy +== )()(

Abtastung

Rauschen

f(x)g(x)

ξ l

Wahre Tiefe Daten

xf(x)

g(x)y


Probabilistische Interpretation! Geg.: Modell für Messwerte bei gegebener Tiefe:

p(g|f) (likelihood)! Ges: Wahre Tiefe gegeben Messwerte:

p(f|g) (a posteriori Wahrscheinlichkeit)

! Bayes Theorem:

)()()|()|(

gpfpfgpgfp = Abtastung

Rauschen

f(x)g(x)

ξ l

Wahre Tiefe Daten

als konstant angenommen

LikelihoodA priori

Wahrscheinlichkeit

A posteriori Wahrscheinlichkeit


Probabilistische Interpretation! Rauschen ξ l is gaussverteilt (unabh.)

→

! Glattheitsfunktional Φ[f] →

! Bayes-Theorem → a posteriori Wahrscheinlichkeit:

Maximum-a-posteriori Schätzer für L2-Fehler

∑=

−−L

iii fg

efgp 1

22 ))()((

21

~)|(xx

σ

][~)( fefp Φ−λ

Likelihood

A priori Wahrscheinlichkeit

][][))()((

21

1

22

~)|( fJffg

eegfp

L

iii

−Φ−−−

=∑=

λσ

xxPotential

Abtastpunkte


III. Basisfunktionen


Glattheitsmasse für kontinuierliche Funktionen

! Beispiele:∫ −=R

isxdxexfsf )()(~Fouriertransformation:

∫ −

=

R

isxdxexfdxdsfis )()(~

s: Kreisfrequenz

π2

π2

π2


Repräsentationssatz (representer theorem)! Spezielle Klasse von Glattheitsfunktionalen

! Kostenfunktion:

∫=ΦR

dssGsff

)(~|)(~|][2

∫∑ +−== R

L

lll ds

sGsfxfy

LfV

)(~|)(~|))((1][2

1

2 λ


Repräsentationssatz (representer theorem)! Ausdrücken als Funktional der Fourier-

Transformierten :

! Funktionalableitung nach :

∫∑ ∫ +−== R

L

l R

isxl ds

sGsfdsesfy

LfV l

)(~|)(~|)

2)(~(1]~[

2

1

2 λπ

)(~ sf

)(~0sf

−+

−= ∫∑ ∫

= R

L

l R

isxl ds

sGsfsfdsesfy

LsfsfV

l

)(~)(~)(~

2)(~1

)(~)(~1

2

00

λπδ

δδ

δ


Repräsentationssatz (representer theorem)

Merkregel:

)()()(

00

sssgsg −= δ

δδ )(

)()(

00

sssgsg +=− δ

δδ

)(~)(~2

)(~)(~

)(~)(~

)(~)(~)(

)(~)(~)(

)(~)(~)(~

)(~

0

0

0

0

0

0

00

0

sGsf

sGsf

sGsf

dssG

sfssdssG

sfssdssG

sfsfsf R RR

−=−−+−=

++−−=−∫ ∫∫

δδδ

δ

)(~ sGWenn symmetrisch



( )llxis

R

xssixisl

R

xssi

R

isxl

R R

xssiisxll

R

isxl

yxfe

dsesfey

dsdsesfssdsessy

dsdsesfsfdsesfyysf

dsesfysf

l

ll

ll

ll

l

−=

+−=

−+−−=

+−=

−

∫

∫∫∫

∫ ∫∫

∫

+

+−

+

)(2

')'(~22

')'(~)(2)(2

')'(~)(~)(~2)(~

)(~)(~

0

00 )'(

)'(00

)'(2

0

2

0

δδ

δδ

δδ


Repräsentationssatz (representer theorem)! Bedingung für Minimum:

( ) 0)(~)(~

2)(2)(~

0

0

10

0 ≡−+−= ∑= sG

sfeyxfLsf

V L

l

xisll

l λδ

δ

( )∑=

−−−=L

l

xisll

lesGyxfL

sf1

000)(~)(1)(~

λ

( )∑=

−−=L

llll xxGyxf

Lxf

1

)()(1)(ˆλ

0)(~ >sG



Repräsentationssatz

Für die Klasse von Glattheitsfunktionalen der Form

mit G(s) symmetrisch und

hat die optimale Lösung die Form:

∫=ΦR

dssGsff

)(~|)(~|][2

( )∑=

−−=L

ll

ll xxGL

yxfxf1

)()()(ˆλ

0)(~ >sG



Repräsentationssatz

Für die Klasse von Glattheitsfunktionalen der Form

mit G(s) symmetrisch und

hat die optimale Lösung die Form:

∫=ΦR

dssGsff

)(~|)(~|][2

( )∑=

−−=L

ll

ll xxGL

yxfxf1

)()()(ˆλ

0)(~ >sGBasisfunktionen

Feste Koeffizienten cl



! Form der Basisfunktionen G(x) eindeutig durch

Glattheitsfunktional bestimmt

! Einschränkungen: G(x) symmetrisch und

! Die konstanten cl können sehr einfach durch Kleinste-

Quadrate-Schätzung bestimmt werden (vgl.

Vorlesung 2)

0)(~ >sG


Repräsentationssatz: Allgemeine Form (representer theorem)

# Zusätzliche

polynaminale Terme

aus Nullraum des

inversen Operator-

problems


Positiv definite Funktionen

! Bedingung beschränkt zulässige

Glattheitsfunktionale und Basisfunktionen

! Satz von Bochner:

und integrierbar ⇔

G(x) positiv definit

! Def: G(x) mit x ∈ [0,∞)N heisst positiv definit wenn

die quadratische Form für alle

reellen cl und xl ∈ IRN positiv ist.

0)(~ >sG

0)(~ >sG

∑ −ji

jiji Gcc,

)( xx


Positiv definite Funktionen! Allgemeiner genügt, wenn G(x) bedingt positiv

definit ist.

! Def: f(x) mit x ∈ [0,∞) heisst bedingt positiv definit

k-ter Ordnung wenn die quadratische Form

positiv ist für alle xl ∈ IRN und

alle reellen cl ,für die gilt für

alle reellen Polynome p(x) (k-1)-Ordnung.

∑ −ji

jiji Gcc,

)( xx

0)(0

=∑=

N

lln pc x


Beispiele

! Gaussfunktion:

positiv definit

sonstgerade und 2 wenn nnm >

! Multivariate Splines:

(m-1)-ter Ordnung

bedingt semidefinit

Polynom notwendig !


Normeigenschaften

! G(x) positiv definit ⇒

ist eine Norm

! G(x) bedingt positiv definit mit Ordnung m-1 ⇒

ist eine Seminorm

deren Nullraum aus Polynomen der Ordnung m

besteht


Normen

! ||.|| ist eine Norm falls:

! ||.|| ist eine Seminorm (oder Halbnorm)

falls alles gilt bis auf 1.

⇔⇔⇔⇔


Radiale Basisfunktionen

Def: abhängig nur von

Gaussfunktion

Multiquadrische Fkt.

Inverse Multiquadrische Fkt.

Multivariate Splines

Multivariate Splines



Implementierung! Parameter λ bestimmt die Glattheit; Optimierung

durch Kreuzvalidierung! Es ist möglich statt der xi andere Zentren mi der

RBFs zu verwenden und diese mitzuoptimieren:

=

),(...

),(),(

)( 2

1

L

T

G

GG

f

mx

mxmx

wx

),...,,(

)),((1),...,,(

1

1

2

1

L

L

lLl

Tl

L

GyL

V

mmw

mxw

mmw

Φ+

−

=

∑=

λ



Implementierung (Forts.)! Positionen der Zentren oft auch durch

Clusteralgorithmen bestimmt! Berechnung der Inversen kann zu numerischen

Problemen führen; Stabilisierung mit Ridge-Regression (s.o.) oder durch SVD


Kreuzvalidierung

! Heuristische Methode zur Optimierung von Netzwerkparametern (z.B. λ), um gute Generalisierungseigenschaften zu erzielen

! Daten Aufteilen in Trainings- und Testdatensatz! Netzwerkparameter schätzen auf Trainingsdatensatz! Generalisierungsfehler schätzen auf Testdatensatz mit

K Elementen! Liefert bei genügend Daten konsitente Schätzung des

Generalisierungsfehlers! Fall K=1 bezeichnet als “leave one out” bzw. “jackknife”;

Bias und Varianzschätzungen


Bootstrap

! Zufälliges Ziehen von N Elementen als Trainingsdatensatz, B Widerholungen

! Kann Fehler unterschätzen, da bestimmte Elemente bei Wiederholungen Teil von Trainings- und Testdaten

! Verbesserung durch Prädizieren von Testelementen, die nicht zur Schätzung des Modells verwendet wurden

! Formeln zur Korrektur der geschätzten Fehler, die durch die Überlappungen entstehen (Hastie et al, 2001)


IV. Anwendungsbeispiele


Splines zur Kurvenmodellierung

! Splines in der Computergrafik oft verwendet zur Modellierung von Kurven und Flächen

! Kontrollpunkte, die Form beeinflussen:– Interpolation (Kurve geht durch die Punkte)– Approximation (Kurvenform beeinflusst durch die

Punkte)! Stetigkeits / Glattheitseigenschaften

abhängig von Randbedingungen für die Ableitungen

C0 stetig C1 stetig

)()( 00+− = tftf )(')('

)()(

00

00+−

+−

=

=

tftftftf

C1 stetig


Hermite Splines

! Allgemeine Form, z.B. für kubischen Splines:

! Kompakte Schreibweise:

Kurvenkoordinaten

Geometrie-parameter

Kurvenparameter


Hermite Splines

! Gradient:

! Für Anfangs- und Endpunkt (t=0, 1):

Kontroll-punkte

Geometrie-parameter

],[ iii yxp =


Hermite Splines

! Auflösen nach Geometrievektor:

! Für beliebige t:

Basis-matrix


Hermite Splines

! Schreibweise als Basis- oderÜberblendungsfunktion:

Basispolynome

Kontrollparametert


Bezier Splines

! Intuitivere Kontrolle durch implizite Kodierung der Tangenten:

! Zusammenhang mit Hermite Formulierung:

Basis-matrixBezierM


B Splines

! Vermeidung von globalen Effekten! Parameteränderungen wirken nur

stückweise zwischen zwei Knotenpunkten Pk

! Glattheit und Interpolation getrennt kontrollierbar

! Mehr Parameter als Hermite- und Bezier-Splines

! Bedingungen für die Ableitungen an den Übergangsstellen

! Nonuniform vs. unifom für gleiche oder verschieden lange Segmente entlang t

Pk Pk+1Pk+2


Analyse von Gesichtsausdrücken(Rosenblum, Yacoob & Davies, 1994)

Systemarchitektur

Bildsequenz

Schätzung des

optischen Flusses

Radiales Basisfunk-

tionen Netzwerk

– korrelationsbasierteFlussberechnung

– Merkmalstracking (Augenbrauen, Mund, …)

– Merkmale:4 Bewegungs-richtungen



Hierarchische Netzwerkstruktur

Emotionszustände

Individuelle Netzwerke für einzelne Emotionen und 3 Gesichtskom-ponenten

Integration der Outputs von den Teilnetzwerken



Spezielle Tricks bei der Implementation der RBF Netzwerke:

! Zeitliche Integration mit Sättigung:

! Heuristiken zum effizienten Verteilen der RBF-Zentren

(Cluster mit minimaler Eingangssignalstärke)

<+−+−

= sonst 11)()1( falls )()1( tItytIty

y iiiii

αα

Inputs

Zeitlich geglättetes Ausgangssignal



Ergebnisse! Training mit 20 Gesichtern, ca. 100.000 Iterationen! Jede Emotion repräsentiert durch 40 Zustände! Testen mit 6 emotionalen Ausdrücken! ~80-90 % korrekt für Lächeln + Überraschung für

Trainingsgesicht; 30…80% korrekt für neues Gesicht


Bayes Klassifikatoren für Objektdetektion(Schneiderman & Kanade, 2000)

! Ziel: Detektion von Bildern in Datenbanken

! Probleme:– Variation der Ansichten– Variation der Beleuchtung– Formvariationen (z.B. Autos)

! 2D bildbasiert! Invariant gegen Ansicht, Position und

Skalierung! Histogramme für verschiedene

visuelle Attribute



! Separate Detektioren für 15 verschiedene Ansichten

! Modellierung der Verteilungen falls Objekt präsent und nicht präsent durch Histogramme

! Likelihood-Ratio-Entscheidungsregel:

! Vorteil: Normalisierung der Variation der Merkmale (feature)



! Histogramme “lernen” p(feature|object)! Problem: Sehr viele “Bins” und Daten

erforderlich! Zerlegung in Attribute:

– Frequenz (Wavelet Pyramide)– Orientierung (hor. / vert.)– Position (Abtasten mit Überlappung)– Form (Merkmalspos.relative zu

Objektpos.)! 17 kombinierte Attribute, die

Informationen aus Histogrammenzusdammenfassen



! Probabilistische Integration der Merkmale unterAnnahme der Unabhängigkeit:

! Trainingsbilder normalisiert:– Grösse– Position– Beleuchtung (Wavelet Pyramide)

! Zusätzliche synthetische Trainigsbilder



! Systematische Suche über verschiedene Positionen und Skalen oder “coarse-to-fine”-Strategie

! Ergebnisse:Gesichter+Autos: > 92 % korrekte Detektion

! Eines der besten z.Zt. bekannten Systeme


Wichtige Punkte

! Prinzip der Regularisierung! Probabilistische Interprätation! Repräsentationssatz! Positiv definite Funktionen! Kreuzvalidierung! Splines


Cherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley & Sons Inc, New York.

Girosi, F., Jones, M. & Poggio, T. (1995). Regularization and neural network architectures. Neural Computation,7, 219-269.

Hastie, T., Tibshirani, R., Friedman, J. (2001). The Elements of Statistical Learning Theory. Springer, Berlin.

Rosenblum, M, Yacoob, Y & Davis, L. (1994) Human Emotion Recognition from Motion Using a Radial Basis Function Network Architecture. Proc. IEEE Workshop on Motion of Non-Rigid and Articulated Objects, Austin, Texas, Nov. 1994.

Schneiderman, H., Kanade, T. (2000) A Statistical Method for 3D Object Detection Applied to Faces and Cars. IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

Literatur


http://fpn.mit.edu/9.520Spring2002/ MIT Course 9.520: Statistical Learning Theory and Applications (T. Poggio, S. Mukherjee, R. Rifkin)

http://escience.anu.edu.au/lecture/cg/Spline/index.en.html eScience onLine lecture notes Computergraphics: Splines. The Australian National University (P. Vuylsteker)

Relevante Webseiten

vorlesung 3 maschinenlernen: klassische ansätze ii · 1 2 ( | ) ~ 2 j f g f f p f g e e l i i i...

Documents