disc rim in ante
TRANSCRIPT
-
8/6/2019 Disc Rim in Ante
1/271
1
Analyse d isc r im inant e ,c lass i f ic a t ion supervise,
scor ing
Gi lber t Sapor t a Conservato i re Nat iona l des Ar t s e t Mt iers
Gilber t .sapor t a@c nam .frh t tp : / /cedr ic .cnam. f r /~sapor ta
Versio n du 8/11/2009
mailto:[email protected]://cedric.cnam.fr/~saportahttp://cedric.cnam.fr/~saportamailto:[email protected] -
8/6/2019 Disc Rim in Ante
2/271
2
Bib l iographie
Bardos: Analyse discriminante , Dunod, 2001 Hastie, Tibshirani, Friedman : The Elements of Statistical
Learning , 2nd edition, Springer-Verlag, 2009 http://www-
stat.stanford.edu/~hastie/Papers/ESLII.pdf Nakache, Confais: Statistique explicative applique , Technip,2003
Thiria et al. : Statistique et mthodes neuronales Dunod, 1997
Thomas, Edelman,Crook: Credit scoring and its applications ,SIAM, 2002 Tuffry: Data Mining et statistique dcisionnelle ,Technip, 2007 Tuffry: tude de cas en statistique dcisionnelle ,Technip, 2009 Vapnik : Statistical Learning Theory , Wiley 1998
http://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdfhttp://www-stat.stanford.edu/~hastie/Papers/ESLII.pdf -
8/6/2019 Disc Rim in Ante
3/271
3
Plan
I Lanalyse factorielle discriminante II Discrimination sur variables qualitatives :
le scoring. III Analyse discriminante probabiliste
IV Rgression logistique V SVM
VI ValidationVII Choix de modles et thorie de lapprentissage
statistiqueVIII Arbres de dcision
-
8/6/2019 Disc Rim in Ante
4/271
4
Objet d t ude Observations multidimensionnelles rparties en k
groupes dfinis a priori.Autre terminologie: classification supervise Exemples dapplication :
Pronostic des infarctus (J.P. Nakache) 2 groupes : dcs, survie (variables mdicales) Iris de Fisher :
3 espces : 4 variables (longueur et largeur des ptales et spales)Risque des demandeurs de crdit
2 groupes : bons, mauvais (variables qualitatives)
Autres : Mto, publipostage, reclassement dans une typologie.
-
8/6/2019 Disc Rim in Ante
5/271
5
Quelques dat es :
P.C. Mahalanobis 1927 H. Hotelling 1931 R. A. Fisher 1936 J.Berkson 1944 C.R.Rao 1950
T.W.Anderson 1951 D.Mc Fadden 1973V.Vapnik 1998
-
8/6/2019 Disc Rim in Ante
6/271
6
Objec t i fs Y variable expliquer qualitative k catgories
X1, X2, , Xp variables explicatives
Objectif 1 : Dcrire tude de la distribution des Xi/ Y Gomtrie : Analyse factorielle discriminante AFD Tests : Analyse de variance multidimensionnelle MANOVA
Objectif 2 : Classer tude de P(Y/ X1, X2, , Xp) Modlisation fonctionnelle : Approche baysienne Modlisation logique : Arbre de dcision Mthodes gomtriques.
-
8/6/2019 Disc Rim in Ante
7/271
7
1. Rduction de dimension, axes et
variables discriminantes.2. Cas de 2 groupes.3. Mthodes gomtriques de
classement.
1re part ie : L analysefac t o r ie l le d isc r im inant e
-
8/6/2019 Disc Rim in Ante
8/271
8
Reprsent at ion des donnes
2 cas : prdicteurs numriques prdicteurs qualitatifs
n points dans Rp appartenant k groupes.
1 2
1 1 1 1
1 2
1 2
1 2 1 2
1
2
...
0 1 ... 0
1 0 ... 0
...
0 0 ... 1
1 0 ... 0
indicatrices des groupes variables explicatives
j p
j pi i i i
j p
n n n n
k j p
i
n
X X X X
X X X X
X X X X
-
8/6/2019 Disc Rim in Ante
9/271
9
I .1 Rduc t ion de d im ens ion.
Rec herc he d ax es et de var iab lesd iscr im inantes .
Dispersion intergroupeet dispersion intragroupe.
W = matrice variance intraW = 1/n ni Vi
B = matrice variance inter B = 1/n ni (gi - g) (gi - g)
V = W + B variance totale
V1
g1
V2
g2
Vk
gk
-
8/6/2019 Disc Rim in Ante
10/271
10
Ax es disc r im inant s : deux
ob jec t i f s
Dispersion intraclasse minimale : minuWu
Dispersion interclasse maximale : maxuBu
u
g2
gkg1
-
8/6/2019 Disc Rim in Ante
11/271
11
Ax es disc r im inant s : deux
ob jec t i f s
Simultanit impossible
Compromis :
-1 -1
min max
max
V W B
u V u u W u u B u
u B u u B uou
u V u u W u
V Bu u W Bu u
= +
= +
= =
min ' min i
max ' max
u Wu Wu u
u Bu Bu u i
=
=
-
8/6/2019 Disc Rim in Ante
12/271
12
Ax es disc r im inant s : deux
ob jec t i f s
ACP du nuage des gi avec :Mtrique V-1
Mtrique W-1 Mahalanobis
( )
1
-1
a) Bu u
Bu u
Bu (W B)u
1- Bu Wu
b) W Bu u u1-
V
V
=
== +
== =
-
8/6/2019 Disc Rim in Ante
13/271
13
Les di f f rent s c as se lon1
1. 1 = 0 : aucune sparation linaire nest possible, groupes
concentriques
2. 1=1 : sparation parfaite
3. Mais 0 < 1 < 1 : sparation possible avec groupes non recouvrants
-
8/6/2019 Disc Rim in Ante
14/271
14
Nom bre dax es d isc r im inant s
ACP des groupes : dimension de lespace contenantles centres des groupes gi
Si n>p>k (cas frquent), k-1 axes discriminantsExemple clbre : Iris de Fisher K = 3 Setosa, Versicolor, Virginica P=4 longueur ptale, longueur spale, largeur ptale, largeur
spale n1=n2=n3=50
Donc deux axes
-
8/6/2019 Disc Rim in Ante
15/271
15
Iris setosa Iris versicolor Iris virginica
-
8/6/2019 Disc Rim in Ante
16/271
16
-
8/6/2019 Disc Rim in Ante
17/271
17
Di t d MAHALANOBIS
-
8/6/2019 Disc Rim in Ante
18/271
18
Dist anc e de MAHALANOBIS
Distance au sens de la mtrique W-1
.
1. pour p=1 :
2. p quelconque :
Standardisation de chaque composante xj Dcorrlation...
( ) ( )2 11 2 1 2'pD g g W g g=
g1
Dp g2
( ) ( )
( ) ( )
2 1
1 2 1 2
2 1/ 2 1/ 2
1 2 1 2
1/2
'
p
p
W X
D g g W g g
D g g W W g g
=
=
2
21 2 1 2 1 21 1 2
1 2 1 2(1; 2)
n n x x n n
D F n nn n n n
= + + +
-
8/6/2019 Disc Rim in Ante
19/271
19
In t e rpr t a t ion probab i l i s t e
( ) ( )
( ) ( )
( ) ( )
2 2 -1
p 1 2 1 2
p p1 2
2 2
p
1 1 2 2
2 1
1 2 1 2
thorique : '
2 populations N , et N ,
estimation (biaise) de
2
= '
p
p
Le
D
n V n V Wn
D g g W g g
=
+= =
-
8/6/2019 Disc Rim in Ante
20/271
20
( )
( )( )
2 2
1 2
2
1 2
21 2p
2
1
0
1D ~ ; 1
2
p p
n pnE D n p n n
Si
n n n pF p n p
n p n
= +
= =
In t e rpr t a t ion probab i l i s t e
Dist anc es de Mahalanobis
-
8/6/2019 Disc Rim in Ante
21/271
21
Dist anc es de Mahalanobis
ent re 2 groupes parm i k
Thoriques :
Estimes :
( ) ( )2 1' p i j i j =
( ) ( )1
2 'p i j i jn
D g g W g gn k
=
( ) ( )
2
2
0
n-k-p+1;n-k-p+1n-k
i j
p
i j
Si
n n
D F pn n p
=
=+
-
8/6/2019 Disc Rim in Ante
22/271
22
I .2 Cas de deux groupes g1 et g2 sont sur une une droite : 1 seul axe discriminant :
RAPPEL : en ACP axe a, facteur u = M a
Combinaison discriminante proportionnelle
M (g2 - g1) = W-1
(g2 - g1) ou V-1
(g2 - g1)
FONCTION DE FISHER :
1 1
2 1
1 1
2 1
2 1
( )
p p
X X
W g g W
X X
=
e
a
d e ae Ma e u
M= < >= =
,
a g g= ( )1 2
-
8/6/2019 Disc Rim in Ante
23/271
23
His tor ique
( )
pj
jj=1
1 2
d
1, 2 p
-1 1 2
-
Historiquement : d= u x =X u
d -dTest (de Student) de comparaison de 2 moyennes : T=
s
Fisher (1936)
Trouver u , u , ..., u tel que T maximal.
Solution : u proportionnel W g -g
Nota : W
( ) ( )( )
1 -1 21 21 2 1 2 p
n ng -g = V g -g avec : =1+ D
n n-2
i i
-
8/6/2019 Disc Rim in Ante
24/271
24
Une rgression incorrecte
y 2 valeurs (-1;+1) ou (0;1) ou (a;b) a=n/n
1b=-n/n
2
Dp distance de Mahalanobis entre groupesIncomprhensions et controverses!
1
1 2
2 22 2
22 1 2
1 2
( )
( 2)( 2) 1
p
p
p
D n n RR Dn n n n R
Dn n
=
= = +
V g g
-
8/6/2019 Disc Rim in Ante
25/271
25
Consquences
Pas de test,pas derreurs standard sur les coefficients
MAIS possibilit dutiliser les mthodes de pas pasen rgression.
Modle linaire usuel non valide :
en discriminante cest linverse que lon suppose :
2 / ( ; )y N X X I
/ ( ; )p j y j N =X
-
8/6/2019 Disc Rim in Ante
26/271
26
FONCTION LINEAIRE DISCRIMINANTE
VARIABLES CORRELATIONS COEFFICIENTS ECARTS T P
........ VARIABLES FONCTION REGRESSION TYPES STUDENT
NUM LIBELLES AVEC F.L.D. DISC. (RES. TYPE REG.)
(SEUIL= 0.20)
..............................................................................................
3 FRCAR 0.232 0.0588 0.0133 0.0092 1.44 0.154
4 INCAR -0.697 -6.1539 -1.3887 0.4966 2.80 0.006
5 INSYS -0.673 0.1668 0.0376 0.0374 1.01 0.317
6 PRDIA 0.474 -0.0203 -0.0046 0.0351 0.13 0.897
7 PAPUL 0.431 0.1650 0.0372 0.0271 1.37 0.173
8 PVENT 0.269 0.0469 0.0106 0.0176 0.60 0.5499 REPUL 0.650 -0.0002 0.0000 0.0002 0.19 0.849
CONSTANTE -1.604374 -0.367565 0.9373 0.3922 0.6958
..............................................................................................
R2 = 0.55759 F = 16.74489 PROBA = 0.000
D2 = 4.94213 T2 = 124.77643 PROBA = 0.000
..............................................................................................
I 3 Mt h d t i
-
8/6/2019 Disc Rim in Ante
27/271
27
I -3 Mt hodes gom t r iques
de c lassem ent chantillon dapprentissage
e observation de groupe inconnu
e class dans le groupe i tel que:d(e ; gi) minimal
e
?
y x x p' . . .
.
.
.
1
1
2
1
g1
g2
g3
G1
G2
G3
e
Ut i l i sa t ion des fonc t ions
-
8/6/2019 Disc Rim in Ante
28/271
28
Ut i l i sa t ion des fonc t ions d isc r im inan tes
On classe dans le groupe pour lequel la fonction est maximale.
( ) ( ) ( )
( )
2 1 1 1 1
2 1 1
1 2 k
1
11 21 k1
2
p
1p 2p kp
; ' ' 2 ' '
min d ; max 2 ' '
groupes k fonctions discriminantes
1 2 ....... k
1
X
X
X
i
i i i i i i
i i i i
d e g e g W e g e W e g W e g W g
e g g W e g W g
k
= = + =
-
8/6/2019 Disc Rim in Ante
29/271
29
Linear Discriminant Function for Species
Setosa Versicolor Virginica
Constant -85.20986 -71.75400 -103.26971
SepalLength Sepal Length in mm. 2.35442 1.56982 1.24458
SepalWidth Sepal Width in mm. 2.35879 0.70725 0.36853
PetalLength Petal Length in mm. -1.64306 0.52115 1.27665
PetalWidth Petal Width in mm. -1.73984 0.64342 2.10791
-
8/6/2019 Disc Rim in Ante
30/271
30
Number of Observations Classified into Species
FromSpecies Setosa Versicolor Virginica Total
Setosa 50 0 0 50
Versicolor 0 48 2 50
Virginica 0 1 49 50
Total 50 49 51 150
Priors 0.33333 0.33333 0.33333
-
8/6/2019 Disc Rim in Ante
31/271
31
pour deux groupes
On classe dans G1 si:
Fonction de Fisher >cScore de Fisher:
' 1 ' 1 ' 1 ' 1
1 1 1 2 2 2
1 ' 1 ' 111 2 1 1 2 22
2 2
( ) ' ( )
g W e g W g g W e g W g
g g W e g W g g W g
>
>
1 ' 1 ' 111 2 1 1 2 22
( ) ' ( )g g W e g W g g W g
Int e rp r t a t ion gom t r ique
-
8/6/2019 Disc Rim in Ante
32/271
32
Int e rp r t a t ion gom t r ique
Projection sur la droite des centres avec lamtrique W-1
Dualit axe-frontire plane frontire
axe discriminant
Rgle de c lassem ent des plus
-
8/6/2019 Disc Rim in Ante
33/271
33
Rgle de c lassem ent des plus
proc hes vois ins
On compte le nombre dobservations de G1,G2, parmi les k plus proches voisins et onclasse dans le groupe le plus frquent.
Cas limite k = 1
Mt hode des p lus proc hes vo is ins (H ast ie and al)
-
8/6/2019 Disc Rim in Ante
34/271
34
p p ( )
-
8/6/2019 Disc Rim in Ante
35/271
35
-
8/6/2019 Disc Rim in Ante
36/271
36
-
8/6/2019 Disc Rim in Ante
37/271
37
-
8/6/2019 Disc Rim in Ante
38/271
38
-
8/6/2019 Disc Rim in Ante
39/271
39
-
8/6/2019 Disc Rim in Ante
40/271
40
Deux im e part ie : Disc r im inat ion sur var iab les
qua l i t a t i ves e t sc or ing
1. Le problme2. Disqual3. Les objectifs du credit scoring
I I .1 Disc r im inat ion sur
-
8/6/2019 Disc Rim in Ante
41/271
41
sc at o su
variab les qua l i t a t ives 1 2 p 1 2 p
variable de groupe
X , X , ... , X Variables explicatives m , m , ... , m modalits
bon payeurY :
mauvais payeur
Y
Solvabilit d'emprunteurs auprs de banquesExemples
1 2
1 2
X : sexe, X : catgorie professionnelle etc.
bon conducteur (pas d'accidents)Y :mauvais conducteur
X : sexe, X : t
Risque en assurance automobile
3ranche d'ge, X : vhicule sportif ou non ...
Y numro de groupe
Reclassement dans une typologie
-
8/6/2019 Disc Rim in Ante
42/271
42
Un peu de (pr)h is t o i re
Fisher (1940)
Un seul prdicteur Equations de lAFC
Introduction du vocable Scores
-
8/6/2019 Disc Rim in Ante
43/271
43
-
8/6/2019 Disc Rim in Ante
44/271
44
Cas de 2 groupes : le
-
8/6/2019 Disc Rim in Ante
45/271
45
scor ing
Deux ides quivalentes :
Transformer les variables qualitativesexplicatives en variables quantitatives.Donner des valeurs numriques (notesou scores) aux modalits de faon
optimale: maximiser la distance deMahalanobis dans Rp
Travailler sur le tableau disjonctif desvariables explicatives
Une ralisation : Passage parlintermdiaire dune analyse descorrespondances multiples.
1 2
0 1 1 0 0
. . . .
.
.
X X
Var iables ex p l ic a t ives
-
8/6/2019 Disc Rim in Ante
46/271
46
qua l i ta t i ves
Quantification : Transformer une variablequalitative en une variable numrique et se ramenerau cas prcdent.
Exemple : tat matrimonial de 7 individus
Quantification :
1
1
2
2
2
3
4
aC
aCC Clibataire
aM M Maria
V Veuf M a
D DivorcV a
D a
=
= =
=
-
8/6/2019 Disc Rim in Ante
47/271
47
X Tableau disjonctif des variables
indicatricesC M V D
1 0 0 0
1 0 0 00 1 0 0
0 1 0 0
0 1 0 00 0 1 0
0 0 0 1
F
H
GGGGG
GGGG
I
K
JJJJJ
JJJJ
Quant i f i ca t ion
x
a
a
a
a
a
a
a
a
aa
a
Xa=
F
H
GGGGGG
GGG
I
K
JJJJJJ
JJJ
F
H
GGGG
I
K
JJJJ
=
1
1
2
2
2
3
4
1
2
3
4
= X
La fonc t ion de Fisher es t une
-
8/6/2019 Disc Rim in Ante
48/271
48
c om bina ison l inai re des var iab les quant i f ies
S est une combinaisonlinaire des (m1 + m2 + +
mp) indicatrices desvariables
i
1
j1
X
1
i
p
i
Im
i jj
s
X
=
=
=
=
X nest pas de plein rang: rank(X) m p
-
8/6/2019 Disc Rim in Ante
49/271
49
X nest pas de plein rang: rank(X)=mi-pSolution classique: liminer une indicatrice par
prdicteur (GLM , LOGISTIC de SAS)
Disqual (Saporta, 1975):ADL effectue sur une slection de facteurs de lACMde X. Analogue de la rgression sur composantesprincipales
Composantes slectionnes de manire experte seloninertie et pouvoir discriminant
I I .2 DISQUAL
-
8/6/2019 Disc Rim in Ante
50/271
50
1re
tape Analyse des correspondances du tableau des
prdicteurs.
k variables numriques : garder les coordonnesfactorielles les plus discriminantes
1 . . .
1
2
.=
.
.
n
kz z
Z
1 2 3 4 Prop. Loc
Profession Logement
P P P P .
1 1 0 0 0 0 1
2 0 1 0 0 1 0
. .
.... .
. .
. .
variables indicatrices
X
n
=
-
8/6/2019 Disc Rim in Ante
51/271
51
2m e t ape :
Analyse discriminante linaire (Fisher).
Score = combinaison linaire des coordonnes factorielles=combinaison linaire des indicatrices des catgories
Coefficients = grille de notation
1
Scorek
j
j
j
d=
= s z
: coordonnes des catgories sur l'axe njj j jz = Xu u
1 1
grille de score
k kj j
j j
j j
s d Xu X d u= =
= =
( )1 1 21 2
.
.
( ).
.
j j
j j
z zd
V
= =
V g gz
-
8/6/2019 Disc Rim in Ante
52/271
52
Slec t ion des ax es
Selon lordre de lACM% dinertie
Selon le pouvoir discriminantStudent sur 2 groupes,F sur k groupes
Rgularisation, contrle de la VC dimension
E l
-
8/6/2019 Disc Rim in Ante
53/271
53
Ex em ple assuranc e(SPAD)
1106 contrats automobile belges: 2 groupes: 1 bons, 2 mauvais 9 prdicteurs: 20 catgories
Usage (2), sexe (3), langue (2), age (3), rgion(2), bonus-malus (2), puissance (2), dure (2),age du vhicule (2)
ACM
-
8/6/2019 Disc Rim in Ante
54/271
54
ADL de Fisher sur les composantes
-
8/6/2019 Disc Rim in Ante
55/271
55
FACTEURS CORRELATIONS COEFFICIENTS..............................................................................1 F 1 0.719 6.9064
2 F 2 0.055 0.71493 F 3 -0.078 -0.82114 F 4 -0.030 -0.46155 F 5 0.083 1.25816 F 6 0.064 1.02747 F 7 -0.001 0.21698 F 8 0.090 1.31339 F 9 -0.074 -1.138310 F 10 -0.150 -3.3193
11 F 11 -0.056 -1.4830CONSTANTE 0.093575..............................................................................R2 = 0.57923 F = 91.35686D2 = 5.49176 T2 = 1018.69159..............................................................................
Score= 6.90 F1 - 0.82 F3 + 1.25 F5 + 1.31 F8 - 1.13 F9 - 3.31 F10
-
8/6/2019 Disc Rim in Ante
56/271
56
scores normaliss
Echelle de 0 1000Transformation linaire du score et du seuil
-
8/6/2019 Disc Rim in Ante
57/271
C d di t i
-
8/6/2019 Disc Rim in Ante
58/271
58
Cas des prd ic t eurs num r iques
Si prdicteurs numriques (taux
dendettement, revenu )Dcoupage en classes
Avantages, dtection des liaisons non linaires
P i t d i t t i
-
8/6/2019 Disc Rim in Ante
59/271
59
Pr ise en c om pt e des int e rac t ions
Amlioration
considrable delefficacit du score
Exemple : tatmatrimonial et nombredenfants.
( ) ( )
( )
1 1 0 . . . 02 0 1 . . . 0. .. .
. ...n
3
1 2 1 2 3
1 1 1 2 2
2 catgories 3 catgories
M M E E E
variable croise 6 catgories
M E M E M E
( ) ( )1 1 2 2 ...Score f x f x= + +Rappel :Modle additif interactionsans
Un ex em ple banc a ire
-
8/6/2019 Disc Rim in Ante
60/271
60
15 000 dossiers de demandes de prt 1000 passs en contentieux
Variables: Taux dendettement
Revenu disponible par personne du mnage Situation dans le logement Statut matrimonial
Nombre denfants ProfessionAnciennet dans lemploi
Gri l le de sc ore
-
8/6/2019 Disc Rim in Ante
61/271
61
Gri l le de sc ore
Ratio dendettement :
Revenu disponible par personne du mnage :
Situation dans le logement :
Gri l le de sc ore (su i t e) i i l f h
-
8/6/2019 Disc Rim in Ante
62/271
62
ta t m at r im onial et enfan ts c harge :
Gri l le de sc ore (su i t e)f i t t b i l i t d l l i
-
8/6/2019 Disc Rim in Ante
63/271
63
profess ion e t s t ab i l i t dans l em plo i :
Ex em ple :
-
8/6/2019 Disc Rim in Ante
64/271
64
Ex em ple :
Note de score : + 60
Rpar t i t ions par t ranc hes de sc ore
-
8/6/2019 Disc Rim in Ante
65/271
65
Rpar t i t ions par t ranc hes de sc ore
Rpar t i t ion se lon le sc ore
-
8/6/2019 Disc Rim in Ante
66/271
66
Rpar t i t ion se lon le sc ore
Simula t ion
-
8/6/2019 Disc Rim in Ante
67/271
67
Simula t ion
Courbe de l i f t (e f f ic ac i t du c ib lage)
-
8/6/2019 Disc Rim in Ante
68/271
68
Courbe de l i f t (e f f ic ac i t du c ib lage)
I I .3 Les ob jec t i fs du c redi t
-
8/6/2019 Disc Rim in Ante
69/271
69
scor ing
Slec t ion des r isques
Prv is ion des im pays
Su ivi e t c ont r le
c red it sc or ing
-
8/6/2019 Disc Rim in Ante
70/271
70
Credit scoring is the set of decision models and theirunderlying techniques that aid lenders in the granting of
consumer credit.
Credit scoring is one the most successful applications of
statistical modeling in finance and banking. Yet becausecredit scoring does not have the same glamour as thepricing of exotic financial derivatives or portfolio analysis,
the literature on the subject is very limited.Thomas & al. 2002
-
8/6/2019 Disc Rim in Ante
71/271
71
Le c om i t de Ble sur la superv is ion banca i re
Cr en 1974 par le G10Banque des Rglements Internationaux (BIS)
Rduire la vulnrabilit par la mise en place dunratio prudentiel attestant dun niveau minimalde fonds propres.
Accords Ble II
Ble 2
-
8/6/2019 Disc Rim in Ante
72/271
72
Une rvolution quantitative (A.L.Rmy CrditAgricole) banks are expected to provide an estimate of
the PD and LGD PD (probability de dfaut) LGD (perte en cas de dfaut) EAD (exposition en cas de dfaut)
Calcul du capital ncessaire au niveau de
confiance 99.9% un an
-
8/6/2019 Disc Rim in Ante
73/271
73
Impact norme sur les tudes statistiques.
Exigence de justification statistique et debacktesting impos par le rgulateur (CommissionBancaire)
Recrutements massifsLe New Basel Capital Accord rgulera les prts
bancaires partir de 2007
LES DIFFERENTES ETAPESDE REALISATION
-
8/6/2019 Disc Rim in Ante
74/271
74
ECHANTILLONNAGECOLLECTE DE LINFORMATIONREDRESSEMENTSELECTION DES CRITERESCONSTRUCTION DU MODELE
SIMULATIONMISE EN OEUVRE
1. ECHANTILLONNAGE
-
8/6/2019 Disc Rim in Ante
75/271
75
OBJECTIF :
CONSTRUIRE UN ECHANTILLON REPRESENTATIF DE LADEMANDE ET DU COMPORTEMENT DU PAYEUR. 1.1. PRISE EN COMPTE DES DOSSIERS REFUSES
LES TROIS STRATES DE LA DEMANDE
PROBLEME
-
8/6/2019 Disc Rim in Ante
76/271
76
UN SCORE CALCULE UNIQUEMENT SUR LES
DOSSIERS ACCEPTES NE SAPPLIQUE PAS ALENSEMBLE DE LA DEMANDE.
PRISE EN COMPTE DE LADIMENSION TEMPORELLE
-
8/6/2019 Disc Rim in Ante
77/271
77
DEUX POSSIBILITES :A ) OBSERVER UNE COUPE INSTANTANEE
INCONVENIENT: CERTAINS DOSSIERS SONT CONSIDERES COMME BONS
ALORS QUILS DEVIENDRONT MAUVAIS PAR LA SUITE. B ) OBSERVER UNE POPULATION DE DOSSIERS
TERMINES
INCONVENIENT: LA STRUCTURE DE LA POPULATION OBSERVEE NECORRESPOND PAS A LA STRUCTURE ACTUELLE.
2. LA COLLECTE DELINFORMATION
-
8/6/2019 Disc Rim in Ante
78/271
78
OBJECTIF:
BATIR UN FICHIER CONTENANT TOUTES LES INFORMATIONSCONNUES SUR LES REFUSES AINSI QUE LES BONS ET MAUVAISPAYEURS.
PROBLEMES: PAS DE STOCKAGE INFORMATIQUE DES OBSERVATIONSINDIVIDUELLES
PAS DE CONSERVATION DES DOSSIERS REFUSES
PAS DE STATISTIQUES PERMETTANT DELABORER LE PLAN DESONDAGE
HISTORIQUE TROP COURT OU ABSENT
3. REDRESSEMENT
-
8/6/2019 Disc Rim in Ante
79/271
79
OBJECTIF: REDONNER A LECHANTILLON LA
STRUCTURE DE LA DEMANDE ACTUELLE. DEUX FAMILLES DE METHODES :A) SCORE ACCEPTE/REFUSE
HYPOTHESE: LES REFUSES DUN TRANCHE ONT LE MEMECOMPORTEMENT QUE LES ACCEPTES.
3. REDRESSEMENT
-
8/6/2019 Disc Rim in Ante
80/271
80
B) SIMULATION DU COMPORTEMENT
PRINCIPE : CHAQUE DOSSIER REFUSE SERAITDEVENU BON (OU MAUVAIS) AVEC UNE PROBABILITEA ESTIMER.
4. SELECTION DES CRITERES
-
8/6/2019 Disc Rim in Ante
81/271
81
OBJECTIF:
CHOISIR LES VARIABLES ET LES INTERACTIONS AINTRODUIRE DANS LE MODELE.
LES PROBLEMES : DECOUPAGE/REGROUPEMENT EN CATEGORIES. CHOIX DES INTERACTIONS.
CHOIX DES VARIABLES LES PLUS EXPLICATIVES. CHOIX DES VARIABLES LES MOINS CORRELEES ENTREELLES.
7. LA MISE EN UVRE
-
8/6/2019 Disc Rim in Ante
82/271
82
OBJECTIF:INTRODUIRE LE SCORE COMME OUTIL DE
SELECTION, DE PREVISION ET DE SUIVI.
LES PROBLEMES : FORMATION DES UTILISATEURS. MISE EN PLACE DES OUTILS INFORMATIQUES.REACTUALISATION.
3m e par t ie : Analyse
-
8/6/2019 Disc Rim in Ante
83/271
83
d isc r im inant e probabi l is t e .
1. Rgle baysienne et loi normale.2. Mthodes non paramtriques.
Insuf f isanc es des rg les gomt r iques
-
8/6/2019 Disc Rim in Ante
84/271
84
Mesures de distances ?
Risques derreurs ? Probabilits dappartenance ?
x
g1
g2
I I I .1Rgle baysienne
-
8/6/2019 Disc Rim in Ante
85/271
85
3 possibilits : Paramtrique : lois normales avec galit ou non desj Non paramtrique : noyaux ou plus proches voisins Semi-paramtrique : rgression logistique estimation
directe de : ( )( )
'
0
j
0
exp
P (G / ) 1 exp '
x
x x
+
= + +
pj probabilit a priori dappartenir au groupe j
fj (x) loi des xi dans le groupe j
1
( )
Formule de Bayes : ( / )( )
j j
j k
j j
j
p f
P Gp f
=
=
x
xx
Problme : estimer lesfj (x)
La rgle bays iennenave dans le c adre norm al
-
8/6/2019 Disc Rim in Ante
86/271
86
( ) ( )
( )( )
( ) ( )
( )
( ) ( )
j
1
1/ 2/ 2
j j
1j j
x densit d'une N ;
1 1exp -
22
max p f x attribuer x au groupe le plus
probable a posteriori
1 1max Ln p 2 2
j j
j j j jp
j
j j j
f
f x x x
x x Ln
=
rgle quadratique
La rgle bays ienne
-
8/6/2019 Disc Rim in Ante
87/271
87
1 2
1 1 1
j
1
j
simplificatrice : ... =
On attribue x au groupe j tel que :
1 1max Ln p
2 2
1: max Ln p
2
j j j
j j
j
indpendantdu groupe
a
Hypothse
x x x
donc
=
+
1
j j
Rgle linaire quivalente la rgle gomtrique si quiprobabilit, aprs estimation
de par g et de par W.
jx
+
Analyse d isc r im inant e probab i l is t e :
c as de deux groupes
-
8/6/2019 Disc Rim in Ante
88/271
88
( )( ) ( )
( ) ( ) ( )
1 1 2 2
1
1
2 2
1 2 2 2 2
21 2 1 2 1 2
1fonction de Fisher
Affecter au groupe 1 si ( ) ( )
1 1( ) exp '
22
1 1ln( ) ln( )
2 2
1' ln '2
i i ip
p f p f
f
p p
pp
>
=
+ > +
> + +
' -1 ' -1 ' -1 ' -1
1 1 1
-1 -1
x x
x x x
x x
x
Fonc t ion de sc ore e t p robabi l i t
-
8/6/2019 Disc Rim in Ante
89/271
89
Fonction de score S(x) :
Rgle :affecter au groupe 1 si S(x)>0Probabilit dappartenance au groupe 1 :
( )( ) ( )
( ) ( ) ( ) ( )
( ) ( ) ( ) ( )1
11
1 2
2 1
11 1
1 11 1 2 2
1 11 1 2 2
1/2
1/2 1/2
1/2 1/2
G /
/
P
1/ 1
x x
x x x x
x x x x
p ex
p e p e
p p ep
+
+
=
= +
1 111 2 1 2 1 2
2
1( ) ( ) ' ln( ) ( ) ' ( )
2
pS
p
= + +x x
probabi l i t
( ) ( )S
-
8/6/2019 Disc Rim in Ante
90/271
90
Fonction logistique du score
Expression en fonction des distances de Mahalanobisaux centres :
( ) ( )
( ) ( ) ( )
2 2
2 11/ 2 ; ;
2 1
2 2
2 1 2 1
1
1 /
Si P alors S x 1/ 2 ; ;
x xPP P e
P x x
= +
= =
( ) ( )1 1
1 ( )
ln(1/ ( / ) 1) ( ) 1/ ( / ) 1
1 exp( ( ))
( / ) 1 1 exp( ( ))
S
S
P G S P G e
S
P G e S
= = +
= =+ +
x
x
x x x
x
x x
S(x)
-
8/6/2019 Disc Rim in Ante
91/271
91
2
1
1( ( ) 0) ln
2
p
p
pP S x P U
p
> = > +
Probabilit derreur de classement de G2 en G1 :
On classe en G1 si S(x)>0
Rgle de Bayes avec c ot s d er reur
-
8/6/2019 Disc Rim in Ante
92/271
92
Maximiser la probabilit a posterioripeut conduire des rglesabsurdes. Cots d erreurs :
C(1/2) si on classe en G1 un individu de G2 C(1/1) = 0
Cot moyen a posterioridun classement en G1 : C(1/2) P(G2/x) Cot moyen a posterioridun classement en G2 : C(2/1) P(G1/x) On classera x en G1 si C(1/2) P(G2/x) < C(2/1) P(G1/x)
( ) ( ) ( )( )
( ) ( )
2 2 1 1 1 1
1 1 2 2 1 1 2 2 2 2
' '
1 1 2 2
1/ 21/ 2 < c 2/1 donc si : >
c 2/1
Rgle habituelle avec p =p c 2/1 et p =p c 1/2
c p f p f p f c
p f p f p f p f p f + +
-
8/6/2019 Disc Rim in Ante
93/271
Fent re m obi le : c asun id imens ionnel
-
8/6/2019 Disc Rim in Ante
94/271
94
Ide (Parzen-Rosenblatt): un histogramme o
chaque classe serait centre sur lobservationcourante
h
xFentre mobile
Fent re m obi le
-
8/6/2019 Disc Rim in Ante
95/271
95
( ) /
Estimateurdiscontinu.
x f x n nh=
dens i t
-
8/6/2019 Disc Rim in Ante
96/271
96
1
1/2-1/2 0
( )
( )( ) ] [
1
i
1
t 1/ 2 ; 1/ 210 sinon
h h1 si x x- ; x+
2 2
n
i
i
i
x x f x k
nh h
siK tK t
x xK
h
=
=
= = =
( )1
1Mthode du noyau
fonction de densit
n
i
i
x x f x k
nh h
k
=
=
Choix du noyau
-
8/6/2019 Disc Rim in Ante
97/271
97
K continue, paire, unimodaleExemples
K pas forcment positif
( ) 1K x dx+
=
221 1 3( ) exp ( ) 1 pour 5 Epanechnikov
2 52 4 5
uK u u K u u
= =
-
8/6/2019 Disc Rim in Ante
98/271
98
Il nexiste pas destimateur sans biais dune
densit qui soit continu, symtrique en xi
Critre du MISE
( ( )) ( ) est impossibleE f x f x x=
( )2 ( ) ( ) E f x f x dx+
Si
( ) ( )
2
2
42 2
2
( ) 1 ( ) 0 et ( )
1
MISE "( ) ( )4
K x dx xK x dx x K x dx k
h
k f x dx K x dxnh
+ + +
+ +
= = =
+
-
8/6/2019 Disc Rim in Ante
99/271
99
En substituant hopt qui dpend de f
Calcul des variations:
K optimal = Epanechnikov Noyau moins influent que la constante de lissage
( ) ( )
( ) ( )4 1
2 12 25 5
5 52
MISE ( ) ( )4
( ) "( )optimal
k f x dx K x dxnh
h k K x dx f x dx n + +
+
=
( ) ( )4 1
2 42 25 55 5
25 ( ) "( )4
ISE k K x dx f x dx n+ +
Param t re de l issage h
-
8/6/2019 Disc Rim in Ante
100/271
100
h (ou r) Joue le mme rle que la largeur de classe
dans lhistogramme. Estimation de h :
Mthodes visuelles (si p = 1)Maximum de vraisemblance
h petit : h grand :
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
0.06
15 25 35 45 55
0
0.01
0.02
0.03
0.04
0.05
Est im at ion de dens i t par la m t hode du noyau lm ent a i re
-
8/6/2019 Disc Rim in Ante
101/271
101
Noyau uniforme On compte le nombre
dobservations appartenant la boule de rayon r.
Ce nombre est alatoire.
Plus proches voisins. k nombre de voisins est fix.Volume de la boule :
alatoire.
( ) k paramtre fixerk
f x nV=
r
x
noyaux
( ) ( )1
fnoyaux x k x y =
-
8/6/2019 Disc Rim in Ante
102/271
102
( ) ( )
( ) ( )
( ) ( )
( ) ( )
t
-1 2
tt
1
t 20
t 1
f
1
si z' Vuniforme k
0 sinon
1 1 '
normal k exp - 2
'Epanechnikov k 1
noyaux tt y
r
t
x k x yn
z rV tz
z V z
z C t r
z V z C t
=
=
=
=
( ) ( )
( ) ( )
1-1 2
t2
21
t 2 2
31
t 3 2
si z' V
'Biweight k 1
'Triweight k 1
t
t
t
zz r
r
z V z z C t
r
z V z z C t r
=
=
Est im at ion de densi t versusd isc r im inat ion l ina i re
-
8/6/2019 Disc Rim in Ante
103/271
103
Discrimination linaire : simplicit, robustesse, interprtation inefficace si non linarits fortes
Estimation de densit : prcision, adaptation aux donnes calculs complexes, absence dinterprtation
4 m e part ie : La rgress ion
log is t ique
-
8/6/2019 Disc Rim in Ante
104/271
104
log is t ique
IV.1 Le modle logistique simpleIV.2 Odds ratiosIV.3 Interprtation conomtrique
IV.4 EstimationIV.5 TestsIV.6 Rgression logistique multiple
IV.7 Comparaison avec lanalyse discriminante
-
8/6/2019 Disc Rim in Ante
105/271
105
Berkson (biostatistique) 1944
Cox 1958 Mc Fadden (conomtrie) 1973
IV.1 Le modle logistique simple
Rponse dichotomique : Y = 0 / 1
-
8/6/2019 Disc Rim in Ante
106/271
106
Rponse dichotomique : Y = 0 / 1Variable explicative : XObjectif : Modliser
Le modle linaire (x) = 0 + 1x
convient mal lorsque X est continue. Le modle logistique est plus naturel
(x) = Prob(Y = 1/X = x)
Ex em ple : Age and Coronary Heart Disease St at us (CHD) (Hosm er & Lemeshow ; M.Tenenhaus)
-
8/6/2019 Disc Rim in Ante
107/271
107
Les donnes
ID AGRP AGE CHD
1
2
3
4
597
98
99
100
1
1
1
1
18
8
8
8
20
23
24
25
2564
64
65
69
0
0
0
0
10
1
1
1
-
8/6/2019 Disc Rim in Ante
108/271
108
AGE
70605040302010
CHD
1.2
1.0
.8
.6
.4
.2
0.0
-.2
Desc r ip t ion des donnes regroupes
par c lasse d age
-
8/6/2019 Disc Rim in Ante
109/271
109
p g
Age Group n
CHD
absent
CHD
present
Mean
(Proportion)
20 29
30 3435 39
40 44
45 49
50 54
55 - 59
60 - 69
10
1512
15
13
8
17
10
9
139
107
3
4
2
1
23
56
5
13
8
0.10
0.130.25
0.330.46
0.63
0.76
0.80Total 100 57 43 0.43
Tableau des effectifs
de CHD par classe dage
Graphique des proportions
de CHD par classe dage
AGEGRP
87654321
Proportio
n(CHD)
1.0
.8
.6
.4
.2
0.0
Le m od le log is t ique s im ple
-
8/6/2019 Disc Rim in Ante
110/271
110
x
x
10
10
e1e)x( +
+
+=
x))x(1
)x(
(Log 10 +=
ou
Probabilit d'une maladie cardiaque
en fonction de l'age
AGE
70605040302010
Pr
ob(Y=1/X)
1.0
.8
.6
.4
.2
0.0
Fonction de lien : Logit
Il sagit bien dun problme de rgression:Modlisation de lesprance conditionnelle
-
8/6/2019 Disc Rim in Ante
111/271
111
Modlisation de l esprance conditionnelle E(Y/X=x)=f(x)
Choix de la forme logistique en pidmiologie:Sajuste bienInterprtation de 1 en termes dodds-ratio
IV.2 Odds-Rat io
-
8/6/2019 Disc Rim in Ante
112/271
112
Si X binaire (sujet expos X=1, non expos
X=0)0 1 0
0 1 0
1 / 1 ( 1 / 0)( ) 1 1
Y X P Y X Pe e
e e
+
+
= = = == =+ +
1( 1/ 1) / ( 0 / 1)( 1/ 0) / ( 0 / 0)
P Y X P Y X OR eP Y X P Y X
= = = == == = = =
Odds-Ratio
Mesure lvolution du rapport des chances
-
8/6/2019 Disc Rim in Ante
113/271
113
Mesure l volution du rapport des chancesdapparition de lvnement Y=1 contre Y=0
(la cote des parieurs) lorsque X passe de x x+1.
Formule gnrale:
1( 1) /(1 ( 1))
( ) /(1 ( ))
x x
OR ex x
+ +
= =
IV.3 In t erpr t a t ion c onom t r ique
-
8/6/2019 Disc Rim in Ante
114/271
114
Y possession dun bien durable par un
mnage: manifestation visible dune variablelatente Zinobservable continue.
Z est l intensit du dsir de possder lebienSi Z
-
8/6/2019 Disc Rim in Ante
115/271
115
pour le mnage ide caractristiques xi (ge, sexe,revenu, CSP...), la possession du bien procure unniveau dutilit U(1,xi), la non possession U(0,xi).
Yi= 1U(1,xi) > U(0,xi)Yi= 0U(0,xi) > U(1,xi)
Variable latente Zi= U(1,xi) U(0,xi).
Modle d u t i l i t (su i t e)
-
8/6/2019 Disc Rim in Ante
116/271
116
Zi = xi + ii = P(Yi=1|xi)= P(Zi > 0)=P(xi > -i) = F(xi)F fonction de rpartition de -iChoix de F:
Logistique :modle logit, rgression logistique
Normal: modle probit
Com paraison logi t -probi t
-
8/6/2019 Disc Rim in Ante
117/271
117
Logit:F(x) = 1/(1+e-x
)E(X)=O V(X)=2/3 Peu diffrent en
pratique Logit plus simple
numriquement
IV .4 Est im at ion des param t res
-
8/6/2019 Disc Rim in Ante
118/271
118
Les donnes
X Y
x1
xi xn
y1
yi yn
yi = 1 si caractre prsent,
0 sinon
i10
i10
x
x
ii
e1
e
)xX/1Y(P)x(
++
+=
===
Le modle
Vra isem blanc e (c ond i t ionne l le !)
Probabilit dobserver les donnes
-
8/6/2019 Disc Rim in Ante
119/271
119
[(x1,y1), , (xi,yi), , (xn,yn)]
=
===n
1iii )xX/yY(Prob
=
=n
1i
y1i
yi
ii ))x(1()x(
),(L10
==
+
+
+
+
+
+=
n
1i
y1
x
xy
x
x
i
i10
i10
i
i10
i10
)e1
e1()
e1
e(
m ax im um de vraisemb lanc e
maximisent
Maximisation de la log-vraisemblance
10et 0 1( , ) ( )L L =
-
8/6/2019 Disc Rim in Ante
120/271
120
Maximisation de la log-vraisemblance
Estimateurs obtenus par des procduresnumriques: pas dexpression analytique
[ ]1
( ) log ( ) log ( ) (1 ) log(1 ( ))
n
i i i i
i
L y x y x =
= = +
10
11
( )( ( )) 0
( )( ( )) 0
n
i i
i
n
i i i
i
y x
x y x
=
=
= =
= =
Prc is ion (asym pt o t ique) des est im at eurs
L t i
-
8/6/2019 Disc Rim in Ante
121/271
121
La matrice
est estime par la matrice
0 0 1
0 1 1
( ) ( , )( ) ( , ) ( )
V CovV
Cov V
=
12
2
( )Log L
=
12
2
( )( )V
=
=
-
8/6/2019 Disc Rim in Ante
122/271
122
1
1 1
2
1 1
1 1 1 1
(1 ) (1 )
(1 ) (1 )
1 (1 ) 0 1
1 0 (1 ) 1
n n
i i i i ii i
n n
i i i i i i
i i
n n n n
x
x x
x x
x x
= =
= =
=
=
1
1( ) .
= X VX
Analysis of Maximum Likelihood EstimatesParameter Standard Wald Pr > Standardized Odds
Variable DF Estimate Error Chi-Square Chi-Square Estimate Ratio
-
8/6/2019 Disc Rim in Ante
123/271
123
INTERCPT 1 -5.3095 1.1337 21.9350 0.0001 . .AGE 1 0.1109 0.0241 21.2541 0.0001 0.716806 1.117
5,3095 0,1109
5,3095 0,1109( ) 1
x
x
e
x e
+
+= +
-
8/6/2019 Disc Rim in Ante
124/271
124
IV .5 Test s sur les param t res
-
8/6/2019 Disc Rim in Ante
125/271
125
Trois mthodes sont disponibles pour testerlapport de la variable X au modle :
1. Le test de Wald2. La mthode du rapport de vraisemblance
3. Le test du score
H0 : j = 0
H1 : j 0
Test de Wald
analogue un test de Student en rgression usuelle
-
8/6/2019 Disc Rim in Ante
126/271
126
analogue un test de Student en rgression usuelle,si lon considre la statistique w dfinie par :
reprsente lestimation de lcart-type delestimateur de 1.
Sous lhypothse H0, w2 suit approximativement une
loi du khi-deux un degr de libert . Rejet de H0 si w2
1
1
( )w
s
=
1
( )s
)1(21
Test du rappor t des v raisem blanc es
Lapport de la variable X est mesur laide de la
-
8/6/2019 Disc Rim in Ante
127/271
127
L apport de la variable X est mesur l aide de la
statistique :G= -2 log [ ]
sous lhypothse H0 G suit asymptotiquement une loi dukhi-deux un degr de libert.
Vraisemblance sans la variable:
Vraisemblance sans la variable
Vraisemblance avec la variable
01
01
nnnn
n n
Test du sc ore
00 0
1
( ) ( ) ( )H HHscore U J U
=
-
8/6/2019 Disc Rim in Ante
128/271
128
Uvecteur des drives partielles de la log-
vraisemblance estimesLe score suit galement asymptotiquement
sous H0 une loi du khi-deux un degr delibertEn rgression logistique simple, le score est
gal nr2 , o r est le coefficient de corrlationlinaire (abusif!) entre Y et X
Com para ison des 3 t es t s
-
8/6/2019 Disc Rim in Ante
129/271
129
Model Fitting Information and Testing Global Null Hypothesis BETA=0
Intercept
-
8/6/2019 Disc Rim in Ante
130/271
130
Intercept
Intercept and
Criterion Only Covariates Chi-Square for Covariates
AIC 138.663 111.353 .
SC 141.268 116.563 .
-2 LOG L 136.663 107.353 29.310 with 1 DF (p=0.0001)
Score . . 26.399 with 1 DF (p=0.0001)
In t erva l le de c onf ianc e de l odds-Rat io
-
8/6/2019 Disc Rim in Ante
131/271
131
2
11
s)(Var =
Do lintervalle de confiance de OR(1) au niveau 0.95:
]e,e[ 1111 s96.1
s96.1
+
In t e rva l le de c onf ianc e de (x )au n iveau 95%
2)(V 222
-
8/6/2019 Disc Rim in Ante
132/271
132
x
x
10
10
e1
e)x(
+
+
+
=
De xs2xss)x(Var 0122
12010 ++=+
on dduit lintervalle de confiance de :
]e1
e;
e1
e[
)x(Var96.1x
)x(Var96.1x
)x(Var96.1x
)x(Var96.1x
1010
1010
1010
1010
+++
+++
++
++
++
Com para ison ent re les propor t ionsobserves e t t hor iques
1.0
Proportion observe :
-
8/6/2019 Disc Rim in Ante
133/271
133
Classe d'age
87654321
Prop
ortion
.8
.6
.4
.2
0.0
Prop. observe
Prop. thorique
Proportion observe :
Classei
Classei ny /
Proportion thorique :
Classei
Classei n/
puisque E(yi) = iestim par
i
IV.6 Rgress ion logis t iquemu l t i p le
Gnralisation p variables explicatives
-
8/6/2019 Disc Rim in Ante
134/271
134
Gnralisation p variables explicatives
X1,, Xp.
Estimation par le maximum de vraisemblanceNe converge pas toujours: cas de la sparationcomplte
0 1 1
0 1 1
...
...( ) ( 1 / )
1
p p
p p
x x
x x
e x P Y X x
e
+ + +
+ + += = = =
+
Probab i l i ts a pos t e r io r i et s t ra t i f i c a t ion
Estimer P demande de connatre les vraies probabilits a priori
-
8/6/2019 Disc Rim in Ante
135/271
135
Estimer P demande de connatre les vraies probabilits a priori Les modifier change seulement
0en ADL et en logistique:on ajoute
Proc DISCRIM PRIORS statement
Proc LOGISTIC PEVENT option MODEL statement (SAS 8) PRIOR (ou PRIOREVENT) option SCORE statement (SAS 9)
Important pour les probabilits , pas pour un score
1
2
lnp
p
Tes ts
Tests dabsence deffet de toutes les
-
8/6/2019 Disc Rim in Ante
136/271
136
Tests d absence d effet de toutes les
variables: H0 : 1 = = p = 0Rapport de vraisemblance GScore test UTest de WaldSous H0, suivent tous trois asymptotiquement une
loi du 2 p ddl
IV.7 Com paraison avecl analyse d isc r im inant e
Avantages proclams:Unicit et interprtabilit des coefficients (odds
-
8/6/2019 Disc Rim in Ante
137/271
137
Unicit et interprtabilit des coefficients (odds-
ratios)Erreurs standard calculables
Modlisation des probabilitsHypothses plus gnrales quen AD gaussienneMaximum de vraisemblance au lieu de moindres
carrs (rgression linaire de Y sur les Xj)Prise en charge facile des X qualitatifs (logiciels)
Mais:Erreurs standard asymptotiques , bootstrap en AD
Non convergence en cas de sparation parfaite.Fisher existe toujours
-
8/6/2019 Disc Rim in Ante
138/271
138
Maximum de vraisemblance conditionnel:non
optimal dans le cas gaussien standardLAD peut aussi traiter les variables qualitatives, et
de manire plus robuste grce aux contraintes desous-espace (Disqual)
Querelle largement idologique (modlisationversus analyse des donnes)LAD est aussi un modle, mais sur les lois des X/Y,
la logistique sur les lois de Y/X
-
8/6/2019 Disc Rim in Ante
139/271
139
En pratique diffrences peu nettes: fonctionsde score souvent trs proches It is generally felt that logistic regression is a safer,
more robust bet than the LDA model, relying on fewerassumptions . It is our experience that the models givevery similar results , even when LDA is used ininappropriately, such as with qualitative variables.
Hastie and al.(2001)
In fa rc t us: c om paraisonFisher e t log is t ique
Courbe ROC
-
8/6/2019 Disc Rim in Ante
140/271
140
1 - Spcificit
1.00.75.50.250.00
Sens
itivit
1.00
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
Assurance
-
8/6/2019 Disc Rim in Ante
141/271
141
Usages souvent diffrents: AD pour classer, logistiquepour modliser (facteurs de risque)
-
8/6/2019 Disc Rim in Ante
142/271
142
Logistique aussi utilise en scoring
Si lobjectif est de classer: On ne fait plus de la science mais de laide la dcision
Mieux vaut essayer les deux mthodes. Mais comment les comparer? Le vrai critre de choix est la performance en gnralisation
5m e part ie: les SVM (sparat eurs vast e
-
8/6/2019 Disc Rim in Ante
143/271
143
m arge ou support vec t o r mach ines )
V.1 Du perc ep t ron aux SVM
Algorithme de Rosenblatt (1958), la premire machine apprendre
-
8/6/2019 Disc Rim in Ante
144/271
144
Du perc ept ron aux SVM
Equation de lhyperplan sparateur( ) 0f b= + =x w'x
-
8/6/2019 Disc Rim in Ante
145/271
145
( ) 0f b= + =x w x
Un peu de gom et r ie
Equation dun hyperplan:
-
8/6/2019 Disc Rim in Ante
146/271
146
Coefficients dfinis un facteur prs:
b=1 ouDistance lhyperplan:
( ) 0 f b b= + = + =x w'x x'w
bd += w'xw
1=w
Minimiser la somme des distances au plan desobservations mal classes
Yi=1 mal class si wxi+b
-
8/6/2019 Disc Rim in Ante
147/271
147
i a c ass s i b 0
Yi=-1 mal class si wxi+b>0
mal classs
mal classs mal classs
min ( ( ))
gradientb
i i
i i i
y b
y y
+
= =
w'x
xw
Gradient stochastique (obs. par obs.)
i iy
yb b
+
xw w
-
8/6/2019 Disc Rim in Ante
148/271
148
coefficient dapprentissage
Solutions multiples dans le cas sparableselon linitialisation
Non convergence dans le cas non sparable
1 in nyb b
V.2 L hyperp lan opt im al (Vapnik )
-
8/6/2019 Disc Rim in Ante
149/271
149
Front ire avec no mans land maximal,Hyperplan pais
Hyperplan op t im a l
Maximise la marge ou rayon du corridor:
-
8/6/2019 Disc Rim in Ante
150/271
150
distance du point le plus proche lhyperplan
Cas sparable
Marge C: tous les points sont une distance> C
-
8/6/2019 Disc Rim in Ante
151/271
151
'
'
'
max sous ( ) et 1
contrainte quivalente: ( )
1ou car et dfinis l'chel
min sous ( ) 1
le prs
i i
i i
i i
C y b C
y b
y b
C
bC
+ =
+
=
+
x w w
x w w
w x w
w w
Program m e quadrat ique
Lagrangien:
Do:
2 '2 ( ) 1i i iy b + w x wn n
-
8/6/2019 Disc Rim in Ante
152/271
152
D o:
Dual de Wolfe
1 1et 0i i i i i
i iy y = == = w x
'
1
1max
2
avec 0 et 0
i i k i k i k
n
i i i
i
y y
y
=
=
x x
Conditions de Khn et Tucker:
( ) 1 0i i
y b + = '
i
'
x w
-
8/6/2019 Disc Rim in Ante
153/271
153
w, donc lhyperplan, ne dpend que despoints supports o les
i
sont non nuls.
0 alors ( ) 1( ) 1 alors 0
i i
i i
Si y bSi y b
> + =+ > =
'
i
'
i
x wx w
Solution
0
i
n
i i iy
>
= w x
-
8/6/2019 Disc Rim in Ante
154/271
154
f(x) ne dpend que des points supports
est une combinaison linaire des variables (score) rgle de dcision selon le signe de f(x)
'
0 0
( )
i
i i
n n
i i i i i f b y b y b
> >
= + = + = + ix w x x x x x
Lhyperplan optimal ne dpend que des pointsproches (diffre de Fisher)
VC dimension: 22
o xR
h RC
-
8/6/2019 Disc Rim in Ante
155/271
155
Plus la marge est grande, meilleure est larobustesse en principe.
Mais pas toujours :
C
V.3 Le c as non sparable
-
8/6/2019 Disc Rim in Ante
156/271
156
Deux solutions: modifier le critre changer despace pour rendre leproblme linairement sparable
Variables dcart
min sous ( ) 1i i
y b + 'iw x w
-
8/6/2019 Disc Rim in Ante
157/271
157
On borne la proportion de points tombant dumauvais ct.
La solution ne dpend que des pointssupports o :
eti
'
ix w
Formulation quivalente:
-
8/6/2019 Disc Rim in Ante
158/271
158
C contrle le trade-off entre la marge etlerreur.0
-
8/6/2019 Disc Rim in Ante
159/271
159
Un sparateur linaire dans (E) donne unsparateur non-linaire dans E.
-
8/6/2019 Disc Rim in Ante
160/271
160
-
8/6/2019 Disc Rim in Ante
161/271
161
Solut ion
1max
2
0 et 0
i i k i k
i i i
y y
C y
< < =
i k
(x ) (x )
-
8/6/2019 Disc Rim in Ante
162/271
162
1
Solution ( )n
i i
i
f y b=
= + ix (x ) (x)
Ne dpend que des produits scalaires
Espac es de Hi lber t noyauxreproduisants
Noyaux K(x,x)=(x) (x)
-
8/6/2019 Disc Rim in Ante
163/271
163
Le kernel trick :choisir astucieusement Kpour faire les calculs uniquement danslespace de dpart.
Exemple:Dans lespace darrive:
2 2
1 2 1 1 2 2x ( ; ) (x) ( ; 2 ; ) x x x x x x= =
2 '2 ' ' 2 '2
1 1 1 2 1 2 2 2
' ' 2 2
1 1 2 2
(x) (x ') 2
( ) (xx ')
x x x x x x x x
x x x x
= + +
= + =
On peut donc calculer le produit scalaire dans(E) sans utiliser
-
8/6/2019 Disc Rim in Ante
164/271
164
Conditions de Mercer pour avoir un noyau:
k(xi;xj) terme gnral dune matrice sdp
supports
Solution ( ) ( ; )i i ii
f y K b
= +x x x
Ex em ples de noyaux
Linaire K(x;x)= d d
-
8/6/2019 Disc Rim in Ante
165/271
165
Polynomial K(x;x)=() ou ( +1)Gaussien (radial basis)
K(x;x)=exp-(||x-x||2
)/2
)
-
8/6/2019 Disc Rim in Ante
166/271
166Joachims
-
8/6/2019 Disc Rim in Ante
167/271
167
-
8/6/2019 Disc Rim in Ante
168/271
168
Hastie, Tibshirani, Friedman : The Elements of Statistical Learning , Springer-Verlag, 2001
Le problm e de la gnra l isa t ion .les SVM v i t ent :
Le risque de surapprentissage ( curse ofdimensionality )
-
8/6/2019 Disc Rim in Ante
169/271
169
y )Linfinit de solutions dans le cas sparable
(problme mal pos)
Le problm e de la gnra l isa t ion .les SVM :
Contrlent la capacit de gnralisation enaugmentant la marge car:
-
8/6/2019 Disc Rim in Ante
170/271
170
Ne dpend pas de la dimension de lespace(ventuellement )
2
2o x
Rh R
C
Approc hes vois ines
LS-SVM, GDA (Baudat, Anouar) : fonction de Fisherdans le feature space
-
8/6/2019 Disc Rim in Ante
171/271
171
Quelques r frenc es
http://www.kernel-machines.org Th.Joachims tutorial SVM
-
8/6/2019 Disc Rim in Ante
172/271
172
C.Burges a tutorial on SVM for pattern recognition O.Bousquet introduction aux SVM ,
http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf
J.Suykens et al. Least squares support vectormachines , World Scientific, 2002 Logiciels:
http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtml http://www.csie.ntu.edu.tw/~cjlin/
6 m e part ie : va l idat ion
http://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdfhttp://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.csie.ntu.edu.tw/~cjlin/http://www.csie.ntu.edu.tw/~cjlin/http://svm.dcs.rhbnc.ac.uk/pagesnew/GPat.shtmlhttp://www.math.u-psud.fr/~blanchard/gtsvm/intro.pdf -
8/6/2019 Disc Rim in Ante
173/271
173
VI-1 Qualit dun scoreVI-2 Qualit dune rgle de classement
VI-1 Qual i t d un sc ore
Quil soit obtenu par Fisher, logistique ouautre (une probabilit est un score)
-
8/6/2019 Disc Rim in Ante
174/271
174
Comparaison des distributions du score surles deux groupesdensitsfonctions de rpartition
Fonc t ions de rpart i t ion
-
8/6/2019 Disc Rim in Ante
175/271
175
Courbe ROC
-
8/6/2019 Disc Rim in Ante
176/271
176
Courbe ROC: int erprt at ion
Groupe dtecter G1: scores levs
1 f
-
8/6/2019 Disc Rim in Ante
177/271
177
Sensibilit 1-= P(S>s/G1):% de vrais positifsSpcificit 1-=P(S
-
8/6/2019 Disc Rim in Ante
178/271
178
seuil varieProportion de vrais positifs en fonction de la
proportion de faux positifs
Un site: http://www.anaesthetist.com/mnm/stats/roc/
http://www.anaesthetist.com/mnm/stats/roc/http://www.anaesthetist.com/mnm/stats/roc/ -
8/6/2019 Disc Rim in Ante
179/271
179
Surfac e sous la c ourbe ROC
Surface thorique sous la courbe ROC:P(X
1>X
2) si on tire au hasard et
i d d t b ti d G t
-
8/6/2019 Disc Rim in Ante
180/271
180
1 2indpendemment une observation de G1 etune observation de G2
Estimation non-paramtrique de la surface:Proportion de paires concordantes
(1 ( )) ( )ss
AUC s d s ==+
=
1 2
cncn n
=
m esures de c onc ordanc e
Coefficients d association entre les probabilitscalcules et les rponses observes. Paires formes dune obs o Y=1 et dune o Y=0 .
N b d i t 1 2 1+ 2
-
8/6/2019 Disc Rim in Ante
181/271
181
Nombre de paires t=n1n2 n=n1+n2 Si lobservation telle que Y= 1 a une probabilit
estime que Y= 1, plus grande que celle delobservation o Y= 0 la paire est concordante.
nc = nombre de paires concordantes; nd = nombrede paires discordantes; t - nc - nd = nombre dex-aequo
Courbe ROC: propr it s
Courbe ROC et surface sont des mesuresintrinsques de sparabilit, invariantes pourt t t f ti t i t d
-
8/6/2019 Disc Rim in Ante
182/271
182
toute transformation monotone croissante duscore
La surface est lie aux statistiques U de Mann-Whitney et W de Wilcoxon nc= U
U+W= n1n2+0.5n1(n1+1)AUC=U/n1n2
In fa rc t us: c om paraisonFisher e t log is t ique
Courbe ROC
1.00
-
8/6/2019 Disc Rim in Ante
183/271
183
1 - Spcificit
1.00.75.50.250.00
Se
nsitivit
.75
.50
.25
0.00
Source de la courbe
SCORLOG
SCORFISH
Aut res m esures
D de Somers = (nc - nd) / t Gamma = (nc - nd) / (nc + nd) Tau a = 2 (nc nd) / n(n 1)
-
8/6/2019 Disc Rim in Ante
184/271
184
Tau-a = 2 (nc - nd) / n(n-1) Indice de Gini
Double de la surface entre la courbe ROC et la diagonale
G=2AUC-1 En labsence dex-aequo: G identique au D de Somers
La capacit prdictive du modle est dautantmeilleure que ces indices sont proches de 1.
Courbe de l i f t
% de la cible
-
8/6/2019 Disc Rim in Ante
185/271
185
Sur fac e sous la c ourbe l i f t
Pourcentage dindividus ayant un score>s1 1(1 ) (1 )p p +
{ }
-
8/6/2019 Disc Rim in Ante
186/271
186
Surface { }1 1
1 1
11
(1 ) (1 ) (1 )
(1 ) (1 ) (1 ) (1 )
(1 )2
L d p p
p d p d p
p AUC
= + =
+
= +
Coef f ic ient K i (K x en)
Ki=(surface entre liftestim et alatoire) /(surface entre lift idal
-
8/6/2019 Disc Rim in Ante
187/271
187
(surface entre lift idalet alatoire)
Ki=2(surface ROC)-1
1 1
1 1
12(1 ) 1
2 2 11 1
2
L p p AUC
Ki AUC p p
+ = = =
VI-2 Qual i t d une rg le de c lassement
Tableau de classement :On classe des observations dont le groupe est connu :
groupe prdit
-
8/6/2019 Disc Rim in Ante
188/271
188
Pourcentage de bien classs :
Taux derreur de classement :
n n
n11 22+
n n
n12 21+
groupe prdit
groupe n n
rel n n
1 2
1
2
11 12
21 22
Sur quel c hant i l lon fa i re c et ableau ?
chantillon test dindividus supplmentaires. Si on reclasse lchantillon ayant servi construire la rgle
(estimation des coefficients) : mthode de resubstitutionBIAIS
-
8/6/2019 Disc Rim in Ante
189/271
189
(estimation des coefficients) : mthode de resubstitution BIAIS
surestimation du pourcentage de bien classs.
Solutions pour des chantillons de petite taille :Validation croise n discriminations avec un chantillon test dune unit : % de
bien classs sans biais (mais variance souvent forte)bien class
2 n -1 n
mal class
1
Boots t rap
B analyses discriminantes do distributions empiriques descoefficients et du % de bien classs.
chantillon B Rplications par tirage avec
-
8/6/2019 Disc Rim in Ante
190/271
190
chantillon B Rplications par tirage avecremise de n parmi n
Sept im e part ie : du c ho ix de
m odles la t hor ie del apprent issage s t a t i st ique
-
8/6/2019 Disc Rim in Ante
191/271
191
VII.1 Slection de variablesVII.2 Choix de modles par vraisemblance
pnalise
VII.3 Lapprentissage selon Vapnik
VII .1 Slec t ion de var iab lesRdui re le nom bre de prd ic t eurs
Pourquoi ? conomie
Pertinence Stabilit
-
8/6/2019 Disc Rim in Ante
192/271
192
Stabilit
Comment ?Recherche exhaustive 2p-1 sous-ensemblesMthodes pas pas ascendantes, descendantes
Cri tres
Le % de bien classs nest pas utilis dans leslogiciels classiques (SAS, SPSS): trop de calculs.
Algorithmes usuels en analyse discriminante:
-
8/6/2019 Disc Rim in Ante
193/271
193
Algorithmes usuels en analyse discriminante: Critre de Wilks :
On recherche minimiser : quivaut maximiser D pour k=2 Suppose implicitement la normalit
Mthodes pas pas : non optimales.
Pour k=2 recherche exhaustive par lalgorithme de Furnival etWilson.
= W V
Test s de var iab les en AD
Test dapport dune variable : Sous lhypothse de nonapport :
k-1 ; n-k-p1 ~F1
pn k pk
-
8/6/2019 Disc Rim in Ante
194/271
194
Test de non discrimination : (analyse de variancemultidimensionnelle)
11 pk +
( )1-
3 F 2p ; n-p-22
k>3 approximations
p
k n p
pour
= =
Slec t ion de variab les en
rgress ion logis t ique
Mthode ascendante :
-
8/6/2019 Disc Rim in Ante
195/271
195
Mthode ascendante : Selon le score dans la proc logistic de SAS
Mthode descendante: Selon la statistique de Wald dans la proc logistic de SAS
VI I .2 Choix de m odles par v ra isem blanc e pna l ise
Comparer des modles ayant des nombres deparamtres diffrents: Knombre de paramtres
estimer.
-
8/6/2019 Disc Rim in Ante
196/271
196
Critre dAkake :AIC = -2 ln(L) + 2K
Critre de Schwartz : BIC = -2 ln(L) + K ln(n)
On prfrera le modle pour lequel ces critres ont lavaleur la plus faible.
AIC et BIC ne sont semblables quenapparence
Thories diffrentesAIC : approximation de la divergence de Kullback-
Leibler entre la vraie distribution f et le meilleurchoix dans une famille paramtre
-
8/6/2019 Disc Rim in Ante
197/271
197
choix dans une famille paramtre
Asymptotiquement:
( )( ; ) ( ) ln (ln( ( )) (ln( ( ))
( )f f
f t I f g f t dt E f t E g t
g t= =
(ln( ( ; )) ln( ( ))f E E g t L k
BIC : choix bayesien de modlesm modles Mi paramtrs par i de probabilits a prioriP(Mi) gales.
Distribution a prioride ipour chaque modle P(i/ Mi).Distribution a posteriori du modle sachant les donnes ou vraisemblanceintgre P(x/Mi)
Choix du modle le plus probable a posteriorirevient maximiser
l ( ( / ) l ( ( / ) l ( )k
P M P M
-
8/6/2019 Disc Rim in Ante
198/271
198
ln( ( / ) ln( ( / , ) ln( )2
i i iP M P M n x x
0.5
0.5
1
( / )i
j
BIC
i mBIC
j
eP M
e
=
=
x
Com paraison AIC BIC
Si ntend vers linfini la probabilit que le BICchoisisse levrai modle tend vers 1, ce qui est faux pour lAIC.
AICva choisir le modle qui maximisera la vraisemblance defutures donnes et ralisera le meilleur compromis biais-
-
8/6/2019 Disc Rim in Ante
199/271
199
pvariance
LAICest un critre prdictif tandis que le BICest un critreexplicatif. Pour nfini: rsultats contradictoires. BICne choisit pas
toujours le vrai modle: il a tendance choisir des modlestrop simples en raison de sa plus forte pnalisation
AIC BIC ra l is t es?
Vraisemblance pas toujours calculable. Nombre de paramtres non plus: ridge, PLS etc. Vrai modle?
-
8/6/2019 Disc Rim in Ante
200/271
200
tous les modles sont faux ; certains sont utiles G.Box
Vapnik : c ho is i r se lon la VC
d imens ion
VII .3 : La t hor ie del apprent issage s t a t is t ique
Une introduction aux thories de V.Vapnik(rdige en collaboration avec Michel Bera, Kxen)
-
8/6/2019 Disc Rim in Ante
201/271
201
Un mathmaticien russe arriv aux USA en 92, qui travailledepuis chez NEC aprs les Bell (aujourdhui AT&T) Labs.
Premiers papiers en russe ds 1972.Premier livre chez Springer Verlag en 1982US Medalen sciences en 1992.Un troisime livre ( 800 pages ) chez J. Wiley,en 1998
Norbert Wiener 1948
Image courtesy of the Research Laboratory of Electronics at MIT.
http://en.wikipedia.org/wiki/MIThttp://en.wikipedia.org/wiki/MIT -
8/6/2019 Disc Rim in Ante
202/271
202
Frank Rosenblatt 1962
Vladimir Vapnik 1982
Le prob lm e de la bot e no i re e t l apprent issage superv is
Etant donne une entre x, un systme nondterministe renvoie une variable y = f(x)+e. On
dispose de n paires (xi,yi) et on cherche une fonctionqui approxime la fonction inconnue f
-
8/6/2019 Disc Rim in Ante
203/271
203
qui approxime la fonction inconnue f. Deux conceptions:
Une bonne approximation est une fonction proche de f Une bonne approximation est une fonction qui donne
un taux derreur voisin de celui de la bote noire
Risque d apprent i ssage
Apprentissage supervisY rponse prdire, X prdicteurs
Y numrique rgression ; binaire (-1;+1) discriminationdl l l d
-
8/6/2019 Disc Rim in Ante
204/271
204
Un modle calcule un prdicteur
o: fclasse de fonction
w est un paramtre qui dfinit le modle, estim surlensemble dapprentissage
),( wXfy =
Fonction de perte L(y;f(x,w)) Rgression L(y;f(x,w))=(y-f(x))2
Discrimination : taux (ou cot) derreur de classement
y et valeurs dans {-1 ;+1}
( )21 1 ( ; )
2 4L y y y y y y= =
y
-
8/6/2019 Disc Rim in Ante
205/271
205
Risque (erreur de gnralisation sur denouvelles donnes z = (X, y) )
( ) ( , ) ( )R E L L z w dP z= =
2 4
Objectif impossible: minimiser sur w le Risque
P(z) probabilit inconnue
On dispose seulement de n casdapprentissage (z z ) tirs suivant la loi
-
8/6/2019 Disc Rim in Ante
206/271
206
d apprentissage (z1, .. , zn) tirs suivant la loi
P(z), au lieu de minimiser R, on minimise leRisque Empirique :
1
1 ( ; ( ; ))n
emp i i
i
R L y f n =
= x w
Problme central en thorie delapprentissage:Quelle est la relation entre le Risque R et le
-
8/6/2019 Disc Rim in Ante
207/271
207
risque empirique Remp ?
Quelle est la capacit de gnralisation de
ce genre de modle?
Le d i lem m e b ia is -var ianc e
Modle y=f(x )+, f estim sur donnesdapprentissage
Erreur de prdiction 0 0 0 0 ( ) ( )y y f x f x = +
-
8/6/2019 Disc Rim in Ante
208/271
208
Doublement alatoire
Erreur quadratique moyenne de prdiction(risque R)
( ) ( ) ( )( ) ( )2
22 2 20 0 0 0 0 0 0
( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f x = + = + +
biais variance
premier terme: ala irrductible deuxime terme: carr du biais du modle troisime terme: variance de la prdiction
( ) ( ) ( )( ) ( )222 2 2
0 0 0 0 0 0 0 ( ) ( ) ( ) ( ) ( )E y y E f x f x E f x f x V f x = + = + +
-
8/6/2019 Disc Rim in Ante
209/271
209
Plus un modle sera complexe plus le biais sera faible,mais au dtriment de la variance.Mais comment mesurer la complexit?
Robustesse
Modle robuste: erreurs en apprentissage eten gnralisation du mme ordre de grandeur
-
8/6/2019 Disc Rim in Ante
210/271
210
-
8/6/2019 Disc Rim in Ante
211/271
Cons is tence
Un processus dapprentissage est consistent silerreur sur lensemble dapprentissageconverge lorsque la taille de cet ensemble
-
8/6/2019 Disc Rim in Ante
212/271
212
converge, lorsque la taille de cet ensemble
augmente, vers lerreur en gnralisation.
%erreurErreur en gnralisation
Apprent issage c onsis t ent
-
8/6/2019 Disc Rim in Ante
213/271
213
Taille ens. dapprentissage
Erreur dapprentissage
%erreur
Erreur engnralisation
Apprent issage non c ons is t ent
-
8/6/2019 Disc Rim in Ante
214/271
214
Taille ens. dapprentissage
tion
Erreur dapprentissage
Les quat re pi l iers de la t hor ie de l apprent i ssage
1 Consistence (garantit la gnralisation) Sous quelles conditions un modle peut-il gnraliser?
-
8/6/2019 Disc Rim in Ante
215/271
215
2Vitesse de convergence en fonction du nombre
dexemples (mesure de la gnralisation) Comment samliore la gnralisation lorsque le nombre
dexemples augmente ?
Quat re p i l iers de la t hor ie de l apprent issage
3 Contrle de la capacit de gnralisation Comment contrler efficacement la gnralisation partir
de linformation contenue dans un ensembledapprentissage de taille finie ?
-
8/6/2019 Disc Rim in Ante
216/271
216
g
4 Construire des algorithmes dapprentissage Existe-t-il une stratgie pour construire des algorithmes
qui garantissent, mesurent et contrlent la capacit degnralisation de modles dapprentissage ?
La VC d im ension
Dimension de Vapnik-Cervonenkis: une mesure dupouvoir sparateur (complexit) dune famille de
fonctionsVC dimension : un nombre entier attach une
( , ) : p f X w
-
8/6/2019 Disc Rim in Ante
217/271
217
famille Fde fonctions Chaque fde F cest--dire, pour un w donn
peut-tre utilis pour de la classification :
f (X,w) >= 0 : X class en 1f (X,w) < 0 : X class en -1
VC d im ens ion su i t e
Pour un chantillon de n points (x1, .. , xn) deR p Il existe 2n manires diffrentes de
sparer cet chantillon en deux sous-chantillons
-
8/6/2019 Disc Rim in Ante
218/271
218
chantillons
Un ensemble Fde fonctions f(X,w)hache(shatters)lchantillon si les 2n sparationspeuvent tre faites par desf(X,w) diffrentesde la famille F
Aucune ligne
Exemple
En 2-D, les fonctions linaires (droites)peuvent hacher 3 points, mais pas 4
-
8/6/2019 Disc Rim in Ante
219/271
219
droite ne
peut sparerles pointsnoirs des
points roses
Un ensem ble de fonc t ions de
Rp
-> R a la d im ensionh s i :
Il existe un jeu de h points deR p
qui peuttre hach, quel que soit ltiquetage des
-
8/6/2019 Disc Rim in Ante
220/271
220
pointsAucun ensemble de h+1 points ne peut tre
hach par cet ensemble de fonctions.
Quelques ex em ples
La VC dimension de lensemble deshyperplans de R p est p+1
Hyper-rectangles de Rp
parallles aux axesh=2p
-
8/6/2019 Disc Rim in Ante
221/271
221
(V.Cherkassky, F.Mulier, 1998)
Sphres de R p
h=p+1
Mais les VC dimensions ne sont PASgales au nombre de paramtres libres
La VC dimension de lensemble de fonctionsf(x,w) = sign (sin (w.x) ),c < x < 1, c>0,
avec un paramtre libre w est infinie.
-
8/6/2019 Disc Rim in Ante
222/271
222
Hastie et al. 2001
Deux c as im por t ant s : a) rg ress ion r idge
La VC dimension de lensemble desindicatrices linaires ( )
( )1
( , ) 1p
i ii f X sign w x
X R
== +
w
1
-
8/6/2019 Disc Rim in Ante
223/271
223
satisfaisant la condition :dpend de Cet peut prendre toute valeur de0 p+1.
2 2
1
1p
iiW w C==
2
2min ; 1
Rh ent p
C
+
b) L hyperp lan de m a rge m ax im ale
M lt t
-
8/6/2019 Disc Rim in Ante
224/271
224
Mme rsultat:
2
2min ; 1
R
h ent pC
+
Thorm e de Vapnik :
Q : Quelles sont les conditions ncessaires etsuffisantes pour assurer la consistence ?
R : Le processus dapprentissage est consistent si etseulement si la famille de modles a une VCdi i fi i h
-
8/6/2019 Disc Rim in Ante
225/271
225
dimension finie h La VC dimension finie ne garantit pas seulement la
gnralisation, mais cest LA SEULE MANIERE qui
permet la gnralisation de se produire.
Vi t esse de convergenc e
Erreur en gnralisation
% erreur
-
8/6/2019 Disc Rim in Ante
226/271
226
Taille de lens. dapprentissage: n
Intervalle
Erreur en gnralisation
Erreur dapprentissage
Vit esse de c onve rgenc e (2 )
Q : Quelle est la diffrence entre les erreursdapprentissage et de test pour une taille
donne de lensemble dapprentissage ?R : La diffrence entre les erreurs
-
8/6/2019 Disc Rim in Ante
227/271
227
a d e ce e e es e eu s
dapprentissage et de test dpend du rapportentre la VC dimension, h, et la taille delensemble dapprentissage, n.
Ingal i t de Vapnik
Avec la probabilit 1- :
( )( )ln 2 1 ln ( 4)h n hR R
+ < +
-
8/6/2019 Disc Rim in Ante
228/271
228
ne fait pas intervenir p mais la VC dimension hNe fait pas intervenir la distribution de probabilit P
empR R
n
< +
n fix
-
8/6/2019 Disc Rim in Ante
229/271
229
De Gui l laum e dOc k ham Vapnik
Guillaume dOccam (1285 - 3 avril 1349), dit le docteurinvincible franciscain philosophe logicien et thologienscolastique.Etudes Oxford, puis Paris. Enseigne quelques annes
Oxford.Accus d'hrsie, convoqu pour sexpliquer Avignon,excommuni , se rfugie Munich, la cour de Louis de
-
8/6/2019 Disc Rim in Ante
230/271
230
wikipedia
Bavire, lui-mme excommuni. Meurt de l'pidmie de
peste noire.A inspir le personnage du moine franciscain Guillaume deBaskerville dans le Nom de la rose d'Umberto Eco.Premier jour, vpres : il ne faut pas multiplier lesexplications et les causes sans qu'on en ait une strictencessit.
Le rasoi r d Oc k ham ou p r inc ipe de parc imon ie
Principe de raisonnement attribu Ockham : Les multiples nedoivent pas tre utiliss sans ncessit (pluralitas non estponenda sine necessitate).
Rasoir d'Ockham et science moderne
Le rasoir d'Ockham n'est malheureusement pas un outil trs incisif car il ne donne pas de
-
8/6/2019 Disc Rim in Ante
231/271
231
Le rasoir d Ockham n est malheureusement pas un outil trs incisif, car il ne donne pas de
principe opratoire clair pour distinguer entre les hypothses en fonction de leurcomplexit : ce n'est que dans le cas o deux hypothses ont la mme vraisemblancequ'on favorisera l'hypothse la plus simple (ou parcimonieuse). Il s'agit en fait d'uneapplication directe du thorme de Bayes o l'hypothse la plus simple a reu laprobabilit a priori la plus forte. Des avatars modernes du rasoir sont les mesures
d'information du type AIC, BIC o des mesures de pnalit de la complexit sontintroduites dans la log-vraisemblance.
wikipedia
De Gui l laum e dOc k ham Vapnik
Si deux familles de modles expliquent les donnesavec une qualit gale, alors la famille qui a la plus
faible VC dimension doit tre prfre.
-
8/6/2019 Disc Rim in Ante
232/271
232
1re dcouverte: La VC (Vapnik-Chervonenkis) dimension mesure lacomplexit dune famille de modles.
De Gui l laum e d Oc k ham Vapnik
Si deux modles expliquent les donnes avec unequalit gale, alors celui qui provient dune
famille plus faible VC dimension a une meilleureperformance en gnralisation.
-
8/6/2019 Disc Rim in Ante
233/271
233
2me dcouverte: La VC dimension peut tre relie des rsultats degnralisation (rsultats sur de nouvelles donnes).
De Gui l laum e d Oc k ham Vapnik
Pour construire le meilleur modle partir de donnes, ilfaut tenter doptimiser la fois sa performance sur
lensemble dapprentissage,et sa performance de gnralisation tire de la VCdimension : pour ce faire, il faut parcourir une suite defamilles dapplications pour y construire ce modle
-
8/6/2019 Disc Rim in Ante
234/271
234
familles d applications pour y construire ce modle
3me dcouverte: Au lieu dobserver des diffrences entre desmodles, mieux vaut les contrler..
Cont r le de la Capac i t de Gnra l isat ion
Risque = Risque dApprentissage +
Intervalle de Confiance Minimiser la seule erreur dapprentissage ne
donnera pas une esprance derreur faible
( )( )emp
ln 2 1 ln ( 4)h n hR R
n
+ < +
-
8/6/2019 Disc Rim in Ante
235/271
235
donnera pas une esprance d erreur faible(une bonne gnralisation)
minimiser la somme de lerreur
dapprentissage et de lintervalle deconfiance.
Pr inc ipe de m in im isat ion st ruc t ure du r isque (SRM) (1)
lorsque n/h est faible (h trop grand), ledeuxime terme est grand
( )( )
L
qhLhwEwR
ln12ln)()(
++