support vector machines - stanford universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf ·...

32
Support Vector Machines Based on ESL (chapter 12) and papers by Vladimir Vapnik+Isabel Guyon, Trevor Hastie, Saharon Rosset, Ji Zhu, Rob Tibshirani

Upload: others

Post on 05-May-2020

9 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 1'

&

$

%

Support Vector Machines

Based on ESL (chapter 12) and papers by

Vladimir Vapnik+Isabel Guyon, Trevor Hastie,

Saharon Rosset, Ji Zhu, Rob Tibshirani

Page 2: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 2'

&

$

%

Page 3: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 3'

&

$

%

Outline

• Optimal separating hyperplanes and

relaxations

• SVMs: nonlinear generalizations of separating

hyperplanes

• SVM as a function estimation problem

• Kernel based logistic regression

• Extensions and wrapup.

Chapter 12.

Page 4: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 4'

&

$

%

Separating Hyperplanes

The separating hyperplane with maximum margin

is likely to perform well on test data.

Here the separating hyperplane is almost identical

to the more standard linear logistic regression

boundary; see pp 95.

Page 5: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 5'

&

$

%

Distance to Hyperplanes

PSfrag replacements x0 x

β∗L = {x : β0 + βT x = 0}

• For any two points x1 and x2 lying in L,

βT (x1 − x2) = 0, and hence β∗ = β/||β|| is

the vector normal to the surface of L.

• For any point x0 in L, βT x0 = −β0.

• The signed distance of any point x to L is

given by

β∗T (x − x0) =1

||β|| (βT x + β0)

Page 6: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 6'

&

$

%

Maximum Margin Classifier

• •

••

••

••

PSfrag replacements

margin

ξ∗1

ξ∗2

ξ∗3

ξ∗4

ξ∗5

C

C

xT β + β0 = 0

Vapnik(1995) xi ∈ IRp, yi ∈ {−1, 1}

maxβ,β0,‖β‖=1

C

subject to yi(xTi β + β0) ≥ C, i = 1, . . . , N

Note: yi(xTi β + β0) is distance from xi to

boundary.

Page 7: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 7'

&

$

%

Overlapping Classes

• •

••

••

••

••

PSfrag replacements

margin

ξ∗1ξ∗

1ξ∗

1

ξ∗2ξ∗

2ξ∗

2

ξ∗3ξ∗

3

ξ∗4ξ∗

4ξ∗

4 ξ∗5

C

C

xT β + β0 = 0

ξ∗i = Cξi

maxβ,β0,‖β‖=1

C

subject to

yi(xTi β + β0) ≥ C(1 − ξi), ξi ≥ 0,

i ξi ≤ B

Here we allow a budget of overlap B, measured in

units relative to C.

Page 8: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 8'

&

$

%

Example

.. . . .. . . . . . .. . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . .. . . . . . . .. . . . ..

oo

ooo

o

o

o

o

o

o

o

o

oo

o

o o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

oo o

oo

oo

o

oo

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

oo

o

o

o

o

o

oo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o ooo

o

o

ooo o

o

o

o

o

o

o

o

oo

o

o

oo

ooo

o

o

ooo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

oo

ooo

o

o

o

o

o

o

oo

oo

oo

o

o

o

o

o

o

o

o

o

o

o

••

Training Error: 0.270Test Error: 0.288Bayes Error: 0.210PSfrag replacements

Fitted function is

f(x) = xT β + β0

Resulting classifier is

G(x) = sign[f(x)]

Page 9: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 9'

&

$

%

SVMs for Expression Arrays

• Suppose we have 5000 genes and 50 samples,

divided into two classes.

• Since we have many more variables than

observations, there are infinitely many

separating hyperplanes in 5000 dimensional

feature space.

• SVMs provide the unique maximal margin

separating hyperplane.

• Prediction performance can be good, but

typically no better than simpler methods such

as nearest centroid.

• All genes get a weight, so no gene selection.

• There is some evidence that these solutions

overfit the data.

Page 10: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 10'

&

$

%

Quadratic Programming Solution

After a lot of *stuff* we arrive at a Lagrange dual

LD =

N∑

i=1

αi −1

2

N∑

i=1

N∑

i′=1

αiαi′yiyi′xTi xi′

which we maximize subject to constraints

(involving the bound B as well).

The solution is expressed in terms of the fitted

Lagrange multipliers αi:

β =N

i=1

αiyixi

Some (often large) fraction of αi are exactly zero

(from Karush-Kuhn-Tucker conditions); the

others are called support points S.

f(x) = xT β + β0

=∑

i∈S

αiyixT xi + β0

Page 11: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 11'

&

$

%

Flexible SVM Classifiers

SVM - Degree-4 Polynomial in Feature Space

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . .. . . . . . . . . .. . . . . . . . .. . . . . . .. . . . .

oo

ooo

o

o

o

o

o

o

o

o

oo

o

o o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

oo o

oo

oo

o

oo

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

oo

o

o

o

o

o

oo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o ooo

o

o

ooo o

o

o

o

o

o

o

o

oo

o

o

oo

ooo

o

o

ooo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

oo

ooo

o

o

o

o

o

o

oo

oo

oo

o

o

o

o

o

o

o

o

o

o

o

••

• • •

•• •

••

••

Training Error: 0.180Test Error: 0.245Bayes Error: 0.210

Enlarge the feature space via basis expansions,

e.g. polynomials of total degree 4.

h(x) = [h1(x), h2(x), . . . , hM (x)] with

h1(x) = x1, h2(x) = x2, . . . , hp(x) = xp, . . . ,

hm(x) = x1x2, . . . , hM (x) = x4p.

f(x) = h(x)T β + β0

Page 12: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 12'

&

$

%

Support Vector Machine

The optimization math is the same!

LD =N

i=1

αi −1

2

N∑

i=1

N∑

i′=1

αiαi′yiyi′〈h(xi), h(xi′)〉

f(x) = h(x)T β + β0

=N

i=1

αiyi〈h(x), h(xi)〉 + β0.

LD and constraints involve h(x) only through

inner-products

K(x, x′) = 〈h(x), h(x′)〉

Given a suitable positive kernel K(x, x′), don’t

need h(x) at all!

f(x) =∑

i∈S

αiyiK(x, xi) + β0

Page 13: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 13'

&

$

%

Popular Kernels

K(x, x′) is a symmetric, positive definite function.

dth deg. poly.: K(x, x′) = (1 + 〈x, x′〉)d

radial basis: K(x, x′) = exp(−‖x − x′‖2/c)

Example: 2nd degree polynomial in IR2.

K(x, x′) = (1 + 〈x, x′〉)2

= (1 + x1x′1 + x2x

′2)

2

= 1 + 2x1x′1 + 2x2x

′2 + (x1x

′1)

2

+ (x2x′2)

2 + 2x1x′1x2x

′2

Then M = 6, and if we choose

h1(x) = 1, h2(x) =√

2x1, h3(x) =√

2x2,

h4(x) = x21, h5(x) = x2

2, and h6(x) =√

2x1x2,

then K(x, x′) = 〈h(x), h(x′)〉.

Page 14: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 14'

&

$

%

The Kernel trick

• Linear regression model: given n × p model

matrix X and response n-vector y, fitted

values are given by

y = X(XT X)−1XT y

• When XT X is singular (e.g. if p > n),

solution is not unique; ridge regression adds a

positive constant to its diagonal:

yrr = X(XT X + λI)−1XT y

• Can rewrite above as

yrr = (K + λI)−1Ky

where K = XXT is the n × n matrix of inner

products between the feature vectors.

• Hence we can fit a ridge regression model in

any feature space for which we have an

inner-product kernel.

Page 15: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 15'

&

$

%

Dim h(x) infinite

SVM - Radial Kernel in Feature Space

. . . . . . .. . . . . . .. . . . . .. . . . . .. . . . .. . . . .. . . .. . . .. . . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . . .. . . .. . . .. . . .. . . . .. . . . .. . . . . .. . . . . .. . . . . . .. . . . . . .. . . . . . . .. . . . . . . .. . . . . . . . .. . . . . . . . .. . . . . . . . . .. . . . . . . . . .. . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . . . . .. . . . . . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . . .. . . . . . . . . . . . .. . . . . . . . . . . . . .

oo

ooo

o

o

o

o

o

o

o

o

oo

o

o o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o

o

oo o

oo

oo

o

oo

o

o

o

oo

o

o

o

o

o

o

o

o

o

o

o

o

oo

o

o

o

oo

o

o

o

o

o

oo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

o

o ooo

o

o

ooo o

o

o

o

o

o

o

o

oo

o

o

oo

ooo

o

o

ooo

o

o

o

o

o

o

o

oo

o

o

o

o

o

o

oo

ooo

o

o

o

o

o

o

oo

oo

oo

o

o

o

o

o

o

o

o

o

o

o•

••

••

••

••

••

••

Training Error: 0.160Test Error: 0.218Bayes Error: 0.210

• Fraction of support points depends on

overlap; here 45%.

• Small fraction ⇒ quick lookup.

• N-fold CV error ≤ fraction.

• The smaller B, the smaller the overlap, and

more wiggly the function.

• B controls generalization error.

Page 16: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 16'

&

$

%

More on kernels

• a kernel defines the similarity K(x, x′)

between two objects

• useful when data X is not defined but

similarities can be specified- eg phylogenetic

trees

• also useful when p is so large that it is

impossible to store X. But can still compute

XXT . Example- string kernel- xij is number

of matches of fixed length amino acid

sequences j in the long protein string i. j runs

over all possible fixed strings of a given length

• many other multivariate methods need only

the inner product matrix XXT - eg k-means

clustering

Page 17: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 17'

&

$

%

Curse of Dimensionality

• True function quadratic in x1 to x4.

• Noise features x5 to x10 included.

• 100 training observations, 1000 test, 50

simulations.

Test Error (SE)

Method No Noise Features 6 Noise Features

1 SV Classifier 0.450 (0.003) 0.472 (0.003)

2 SVM/poly 2 0.078 (0.003) 0.152 (0.004)

3 SVM/poly 5 0.180 (0.004) 0.370 (0.004)

4 SVM/poly 10 0.230 (0.003) 0.434 (0.002)

5 BRUTO 0.084 (0.003) 0.090 (0.003)

6 MARS 0.156 (0.004) 0.173 (0.005)

Bayes 0.029 0.029

Both GAM and MARS are described in

, Chapter 9, the adaptive GAM (a.k.a BRUTO)

in Generalized Additive Models, H&T (1990).

They both have automatic feature selection.

Page 18: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 18'

&

$

%

SVM via Loss + Penalty

-3 -2 -1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

2.5

3.0

Binomial Log-likelihoodSupport Vector

PSfrag replacements

yf(x) (margin)

Loss

With f(x) = h(x)T β + β0 and yi ∈ {−1, 1},consider

minβ0, β

N∑

i=1

[1 − yif(xi)]+ + λ‖β‖2

Solution identical to SVM solution, with

λ = λ(B).

In general minβ0, β

N∑

i=1

L[yi, f(xi)] + λ‖β‖2

Page 19: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 19'

&

$

%

Loss Functions

For Y ∈ {−1, 1}Log-likelihood: L(Y, f(X)) = log

(

1 + e−Y f(X))

• (negative) binomial log-likelihood or deviance.

• estimates

f(X) = logPr(Y = 1|X)

Pr(Y = −1|X)

SVM: L(Y, f(X)) = (1 − Y f(X))+.

• Called “hinge loss”

• Estimates

C(x) = sign

(

Pr(Y = 1|X) − 1

2

)

Page 20: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 20'

&

$

%

SVM Regression

-4 -2 0 2 4

-10

12

34

-4 -2 0 2 4

02

46

810

12

PSfrag replacements

ε−ε c−cV

H(r

)

Vε(r

)

rr

The SVM concepts have been exported to many

other areas in statistics, such as regression,

principal components, time series analysis, . . ..

While the original concept of separating

hyperplanes is natural for two-class classification,

the versions required for these other areas are not

so natural.

Page 21: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 21'

&

$

%

Vapnik-Chernovenkis dimension

• The VC dimension of a class of functions is a

generalization of the concept of the degrees of

freedom or number of parameters.

• The VC dimension of a class of functions is

the number of points that can be “shattered”

by the function

• eg the VC dimension of hyperplanes in m

dimensions is m + 1.

• structural risk minimization is a general

paradigm that optimizes a loss function over

all functions with VC dimension bounded by

a constant.

Page 22: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 22'

&

$

%

SVM: VC dim and Error Bounds

• Let R the radius of the smallest sphere

containing xi.

• Let ‖β‖ (= 1/C) be the norm of the

coefficient vector for the support vector

hyperplane.

• The VC dimension h of this class of functions

is bounded above by R2‖β‖2.

• With probability 1 − η we get a bound on the

test-set misclassification error:

Errortest ≤ Errortrain+2h(log 2N

h + 1) − log η4

N

• but bound is so loose that is often

uninformative

Page 23: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 23'

&

$

%

Path algorithms: Lasso and LAR

• Tibshirani (1996) proposed the lasso for

penalized regression:

min∑

i

(yi − β0 −∑

j

xijβj)2 + λ

j

|βj |

• Solution paths β(λ) turn out to be piecewise

linear functions of λ

• Efron et al (2002) derived a forward stagewise

algorithm “least angle regression” for

computing the family of solutions

• This has led to a lot of activity (PhD theses,

etc) looking for path algorithms in other

settings.

• Solution profiles are piecewise linear whenever

at least one of the loss function and penalty

terms are linear or piecewise linear; remaining

one can be quadratric (Saharon Rosset)

Page 24: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 24'

&

$

%

Lasso and Ridge regression

β^ β^2. .β

1

β 2

β1β

Page 25: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 25'

&

$

%

Lasso in ActionC

oeffi

cien

ts

0.0 0.2 0.4 0.6 0.8 1.0

-0.2

0.0

0.2

0.4

0.6

••

•• • • • • • • • • • • • • • • • lcavol

• • • • ••

••

•• • • • • • • • • • • • • • • • lweight

• • • • • • • • • • • • • ••

• • • • • • • • • •age

• • • • • • • • • ••

••

•• • • • • • • • • • • lbph

• • • • • • ••

••

••

•• • • • • • • • • • • •svi

• • • • • • • • • • • • • • ••

••

••

••

••

• lcp

• • • • • • • • • • • • • • • • • • • • • • • • •gleason• • • • • • • • • •

••

•• • • • • • • • • •

••pgg45

PSfrag replacements∑ |βj |

Page 26: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 26'

&

$

%

Least Angle Regression — LAR

Like a “more democratic” version of forward

stepwise regression.

1. Start with r = y, β1, β2, . . . βp = 0. Assume

xj standardized.

2. Find predictor xj most correlated with r.

3. Increase βj in the direction of

sign(corr(r, xj)) until some other com-

petitor xk has as much correlation with

current residual as does xj .

4. Move (βj , βk) in the joint least squares direc-

tion for (xj , xk) until some other competitor

x` has as much correlation with the current

residual

5. Continue in this way until all predictors have

been entered. Stop when corr(r, xj) = 0 ∀ j,

i.e. OLS solution.

Page 27: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 27'

&

$

%

Path algorithm for the SVM

Implications of the KKT conditions

Observations are in one of three states:

• L = {i : yif(xi) < 1, αi = 1}, L for Left of the

elbow

• E = {i : yif(xi) = 1, 0 ≤ αi ≤ 1}, E for Elbow

• R = {i : yif(xi) > 1, αi = 0}, R for Right of the

elbow

- Start with λ large, and the margin very wide. All

αi = 1 (if N+ = N−). As λ ↓ 0, the margin gets

narrower.

- For the narrowing margin to pass through a

point, it’s α has to change from 1 to 0 (or from 0

to 1). While this is happening, the point has to

linger on the margin. Hence the point moves

from L to R via E .

- The conditionP

iyiαi = 0 demands a certain

balance on opposite margins.

Page 28: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 28'

&

$

%

Example

−0.5 0.0 0.5 1.0 1.5 2.0

−1.

0−

0.5

0.0

0.5

1.0

1.5

7

8

9

10

11

12

1

2

3

4

5

6PSfrag replacements

1/||β||f(x) = 0

f(x) = +1

f(x) = −1

Page 29: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 29'

&

$

%

• λ = 0.5, and the width of the soft margin is

2/||β|| = 2 × 0.587.

• Two hollow points {3, 5} are misclassified,

while the two solid points {10, 12} are

correctly classified, but on the wrong side of

their margin f(x) = +1; each of these has

ξi > 0.

• The three square shaped points {2, 6, 7} are

exactly on the margin.

Page 30: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 30'

&

$

%

The Path

• The αi are piecewise-linear in λ (or 1/C)

[MOVIES].

• The points in E characterize these paths,

since points must stay on the margin

(yif(xi) = 1) while their αi lie in (0, 1).

• Points can revisit the margin more than once.

• The coefficients β0 and β are piecewise-linear

in C = 1/λ. Recall LARS (Efron et. al.2002):

quadratic criterion, L1 constraint.

• The margins can stay wedged while their αi

change, if they are “loaded to capacity”.

• For non-separable data, the loss∑

i ξi

achieves a minimum value, with a positive

margin.

Page 31: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 31'

&

$

%

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

PSfrag

replacem

ents

αi(

λ)

λ

Piecewise Linear α Paths

Page 32: Support Vector Machines - Stanford Universitystatweb.stanford.edu/~tibs/sta306bfiles/svmtalk.pdf · 2006-05-26 · Suppose we have 5000 genes and 50 samples, divided into two classes

SL&DM c©Hastie & Tibshirani May 26, 2006 SVMs: 32'

&

$

%

Conclusions

• SVMs offer an interesting approach to

two-class classification, with a loss-function

similar to log-likelihood for logistic regression.

• The hinge loss of SVMs allows for

compression in terms of basis functions, from

N to some fraction of N .

• SVMs can suffer in high dimensions.

• SVMs for multiclass classification are clumsy;

see Margin Trees for new approach

• SVMs do not easily yield estimates of classes

probabilities

• Initial development due to Vladimir Vapnik;

subsequent SVMs by Vapnik and many others

has developed into a burgeoning field. Kernel

technology is hot!