analyse disc rim in ante

35
L'analyse discriminante note pédagogique Michel Calciu (EUDIL-IAE de Lille) et Christophe Benavent (IAE des pays de l'Adour) 1. 1. INTRODUCTION........................................................................................................................ 3 2. 2. MODELE GEOMETRIQUE ...................................................................................................... 6 3. 3. LES COEFFICIENTS DE LA FONCTION DISCRIMINANTE ..............................................12 4. INTERPRETATION DE LA FONCTION DISCRIMINANTE ....................................................15 4.1. TEST DU MODELE ............................................................................................................................15 4.2. LES COEFFICIENTS DISCRIMINANTS...................................................................................................15 4.3. CLASSIFICATION DES INDIVIDUS UTILISANT LA FONCTION DISCRIMINANTE..........................................16 4.3.1. La qualité de la classification .................................................................................................17 4.4. ROTATION DES AXES DES FONCTIONS DISCRIMINANTES .....................................................................18 4.5. TESTS DE SIGNIFICATION .................................................................................................................18 4.6. METHODES DE SELECTION DES VARIABLES........................................................................................20 5. REMARQUES ET RESUME .........................................................................................................21 6. APPLICATIONS ............................................................................................................................22 6.1. LE CAS DICHOTOMIQUE ....................................................................................................................22 6.2. LE CAS POLYTOMIQUE .....................................................................................................................26 7. DEVELOPPEMENT MATHEMATIQUE ....................................................................................33 8. BIBLIOGRAPHIE..........................................................................................................................35

Upload: hicham-ait-itto

Post on 02-Jul-2015

99 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Analyse Disc Rim in Ante

L'analysediscriminantenote pédagogique

Michel Calciu (EUDIL-IAE de Lille) et Christophe Benavent (IAE des pays de l'Adour)

1. 1. INTRODUCTION........................................................................................................................ 3

2. 2. MODELE GEOMETRIQUE ...................................................................................................... 6

3. 3. LES COEFFICIENTS DE LA FONCTION DISCRIMINANTE..............................................12

4. INTERPRETATION DE LA FONCTION DISCRIMINANTE....................................................15

4.1. TEST DU MODELE ............................................................................................................................154.2. LES COEFFICIENTS DISCRIMINANTS...................................................................................................154.3. CLASSIFICATION DES INDIVIDUS UTILISANT LA FONCTION DISCRIMINANTE..........................................16

4.3.1. La qualité de la classification.................................................................................................174.4. ROTATION DES AXES DES FONCTIONS DISCRIMINANTES .....................................................................184.5. TESTS DE SIGNIFICATION .................................................................................................................184.6. METHODES DE SELECTION DES VARIABLES........................................................................................20

5. REMARQUES ET RESUME.........................................................................................................21

6. APPLICATIONS ............................................................................................................................22

6.1. LE CAS DICHOTOMIQUE ....................................................................................................................226.2. LE CAS POLYTOMIQUE .....................................................................................................................26

7. DEVELOPPEMENT MATHEMATIQUE ....................................................................................33

8. BIBLIOGRAPHIE..........................................................................................................................35

Page 2: Analyse Disc Rim in Ante

2

Page 3: Analyse Disc Rim in Ante

3

1. introduction

L'analyse discriminante connue dans la pratique marketing comme une des techniques de"scoring" essaye de déterminer la contribution des variables qui expliquent l'appartenance desindividus à des groupes.

Deux ou plusieurs groupes sont comparés, sur plusieurs variables pour déterminer s'ils différentet pour comprendre la nature de ces différences.

On peut, en marketing, distinguer différents type d'utilisateurs d'un produit :

- utilisateurs permanents et occasionnels d'un produit;

- acheteurs d'une marque et les acheteurs de marques concurentes;

- clients fidèles et infidèles

- vendeurs bons, médiocres et mauvais

Un exemple donné par Churchill1 est celui d'un concours de vente où on a réussi à séparer troisgroupes de vendeurs. Pour identifier quels sont les éléments (les variables) qui permettent de distinguerentre un bon et un mauvais vendeur, on a appliqué un questionnaire aux participants de ce concours. Ons'est intéressé d'une manière prioritaire à quatre caractéristiques :

- le nombre de contacts avec des nouveaux clients.

- la proportion de contacts avec rendez-vous d'avance.

- les coups de téléphone aux prospects.

- le nombre de nouveau comptes visités.

Le tableau de la page suivante montre le tableau tel qu'il est analysé en analyse discriminante(superposition des données de chaque groupe).

1Gilbert A. Churchill, "Marketing Research, Methodological Foundations", 5e Ed., Dryden Press, 1991.

Page 4: Analyse Disc Rim in Ante

4

Page 5: Analyse Disc Rim in Ante

5

Individus Nombre de contactsnouveaux clients.

Proportion contactsavec rendez-vous

Coups de téléphoneaux prospects

Nombre de nouveaucomptes visités

iGagneurs du grand prixG) X1 X2 X3 X41 KZV 130 62 148 422 BOR 122 70 186 443 NUA 89 68 171 324 NOA 104 58 135 405 HJV 116 40 160 366 VRX 100 65 151 307 BFO 85 66 183 428 MIG 113 59 130 259 WLL 108 52 163 4110 GJN 116 48 154 4811OKX 99 57 188 3212KAA 78 70 190 4013 UHO 106 61 157 3814 GCI 94 58 173 2915 CSN 98 64 37 36prix de consolation (C)1 XDC 105 39 155 452 OAH 86 60 140 333 VKS 64 48 132 364 EXL 104 36 119 295 PQT 102 53 143 416 ITE 73 62 128 307 OXX 94 51 152 368 DON 59 64 130 289 CIG 84 31 102 3210 GID 91 47 96 3511 PLO 83 40 87 3012 KOJ 95 42 114 2813 DIN 68 52 123 2614 RZI 101 51 98 2415 UOE 89 39 117 33Vendeurs sans succés (S)1 MJB 80 23 69 322 VKN 47 42 74 333 XOG 26 37 132 204 AUT 94 24 68 265 ZCU 57 32 94 236 AKY 38 41 83 287 HZL 29 52 96 228 NHN 48 24 73 269 KZW 57 36 82 2810 ZUB 39 37 98 2111 NFJ 51 38 117 2412 TFJ 40 42 112 2213RLM 64 21 67 2914 XGF 35 32 78 2515AMA 51 29 81 26

Tableau 1 :Activités des vendeurs concernant les nouveaux clients

Page 6: Analyse Disc Rim in Ante

6

2. Modèle géométrique

Une manière commode d'aborder l'analyse discriminante est d'examiner un modèle géométriquesimple. On prend deux groupes de sujets (vendeurs) mesurés sur deux variables X,Y. La proportion descontacts par rendez-vous sera notée par X et le nombre de contacts avec des nouveaux clients sera notéY. Les réponses des individus, sont représentées dans la figure 1. Les deux questions sont les variablespar lesquelles on veut distinguer les groupes.

Proportion de contacts avec rendez-vous d'avance

0

10

20

30

40

50

60

70

0 20 40 60 80 100 120 140

Grand Prix

Prix de consolation

Figure 1 : distribution des deux groupes sur deux variables

En analysant le graphique on se rend compte que sur chacun des axes représentés par les deuxvariables il y a une région importante d'incertitude, dans laquelle pour les mêmes valeurs des variableson trouve des individus appartenant aux deux groupes. Le but de l'analyse discriminante est de trouverun nouvel axe, combinaison linéaire des variables, qui permet de réduire cette zone d'incertitude et deséparer au mieux les deux groupes.

Page 7: Analyse Disc Rim in Ante

7

Proportion de contacts avec rendez-vous d'avance

0

10

20

30

40

50

60

70

0 20 40 60 80 100 120 140

Grand Prix

Prix de consolation

Figure 2 : tracé de la fonction discriminante

Imaginons maintenant, d'une manière plus générale, que ces variables soient centrées pourl'ensemble des deux groupes (c'est le changement de référentiel dans la figure 3). On illustre dans unespace à deux dimensions les coordonnées de chaque sujet sur les variables en question et on trace leslignes contours de 95 % (1,96 σ) Ou 68 % (1 a). Les hypothèses de normalité des variables conjointes etd'homogénéité des variances et covariances sont maintenues2. La figure 3 en est un exemple.

.

.

Y

X

Fig.3 Lignes contours de deux échantillons normalement distribuées.

2Hubert Laforge "Analyse multivariée pour les sciences sociales et biologiques avec applications des logicielsBMP, BMDP, SPSS, SAS", Ed. Etudes Vivantes, Montréal, 1981.

Page 8: Analyse Disc Rim in Ante

8

Dans la démarche habituelle de l'analyse, on éprouvera d'abord le besoin de déterminer s'il fautconsidérer les moyennes, ou centroides, de chaque population comme distinctes: L'analyse de variancemultiple est un instrument bien indiqué pour cette tâche. Il apparaît ensuite intéressant, connaissant lesscores d'un éventuel sujet sur les deux variables, de déterminer, à l'intérieur d'un pourcentage d'erreur,l'appartenance de ce sujet à l'une ou l'autre de ces populations. Si l'on se base, pour une telle attributiond'appartenance, sur la connaissance du seul score X, on voit que l'incertitude de la décision va de a à bet touche les sujets situés dans la région hachurée de la figure 4.

.

.

Y

X

Fig.4 Région d'incertitude basée sur la variable X

Page 9: Analyse Disc Rim in Ante

9

.

.

Y

X

a

b

Fig. 5 Région d'incertitude basée sur la variable Y

Si cette décision est prise en tenant compte des deux variables, on constate que la région sûrecorrespond alors à la surface hachurée suivante (intersection).

.

.

Y

X

a

b

Fig. 6 Région d'incertitude basée sur deux variables

Page 10: Analyse Disc Rim in Ante

10

Cette seconde façon de procéder, quoique meilleure que la première peut comporter encore degrosses imprécisions (sauf cas particuliers) car la véritable région d'incertitude est celle de l'intersectiondes deux ellipses:

.

.

Y

X

a

b

Fig. 7 Région minimum d'incertitude

On propose de considérer une nouvelle variable qui soit une combinaison linéaire des précédentes;géométriquement, cette nouvelle variable est représentée par un axe sur lequel on projette les diverspoints des groupes de sujets. Aux fins d'illustration, on limite le nombre de variables de départ ainsi quele nombre de groupes à deux; dans la pratique, le modèle mathématique dont il sera question à l'articlesuivant ne comporte pas de telles limites.

L'axe est appelé axe de la fonction discriminante. Les points projetés sur cet axe se distribuentnormalement pour chacun des groupes; les valeurs de cette fonction comprises entre les lignes pointilléscorrespondent à la région d'incertitude. On désire que l'axe occupe une position telle que la projectiondes points donne lieu au minimum de superposition des divers groupes de sujets. La figure 8 illustre lasituation particulière de la recherche de la fonction de deux variables qui discrimine au maximum deuxgroupes de cas.

La qualité de la discrimination est liée à la superposition des deux distributions de projections surl'axe. On peut mesurer la qualité de la dispersion à la grandeur du rapport de la variance entre lesmoyennes à la variance à l'intérieur d'un groupe

Variance inter-groupeVariance intra-groupe;

Ce rapport est analogue au F de l'analyse de variance. On suppose que la variance des scores àl'intérieur de chaque groupe répond au critère d'homogénéité de telle sorte que cette variance intra est lamoyenne des variances intra des groupes considérés.

Un rapport maximum est lié non seulement à la grandeur de son numérateur mais aussi àl'étroitesse du dénominateur: la variance inter atteindra son maximum pour l'axe parallèle au segment

Page 11: Analyse Disc Rim in Ante

11

joignant les centroides tandis que la variance intra sera minimum pour un axe perpendiculaire à l'axeprincipal des ellipses; c'est en une position intermédiaire que se situe le rapport maximum des variancesinter et intra.

.

.

Y

X

a

variance inter maximumvariance intra minimum

maximum (variance inter / variance intra)

b

Figure 8. Modèle géométrique de la fonction discriminante.

L'analyse discriminante a pour but de déterminer cet axe optimum de la fonction discriminante,c'est-à-dire de calculer les éléments d'un vecteur k qui définissent une combinaison linéaire des variablesX et Y. Ces exigences géométriques peuvent être avantageusement traitées à la manière de l'extractiondes composantes principales, car des fonctions discriminantes orthogonales successives s'apparentent àces composantes.

On comprend alors que le nombre possible de ces fonctions soit limité par le nombre de variableset aussi par le nombre de groupes: ce qui est dans le sens d'une interprétation plus aisée de ladiscrimination. Ceci est d'ailleurs facilité par le fait que des fonctions discriminantes additionnelles sontresponsables d'une proportion de moins en moins élevée du pouvoir discriminateur total; il est souventsouhaitable de limiter à deux ou à trois ces fonctions discriminantes afin d'en rendre possiblel'illustration géométrique et donc l'interprétation (voir Cooley et Lohnes, 1971, p. 244-246).

Page 12: Analyse Disc Rim in Ante

12

3. Les coefficients de lafonction discriminante

Une manière de déterminer quelles sont les variables qui discriminent entre les deux types degagnants aux concours de ventes est de construire un index, basé sur les valeurs des caractéristiquesmesurées, qui sépare les deux groupes, formant une combinaison linéaire de ces dernières du genre:

Y = ν1X1 + ν2X2 + ν3X3 + ν4X4,

ou ν1; ν2; ν3; ν4 sont des coefficients qui indique le poids des variables. En analysediscriminante les coefficients sont derivés de telle manière que la variation des scores de Y entre les(deux) groupes soit si large que possible et la variation des scores de Y à l'intérieur des groupes (withingroup - intra groupe) soie si petite que possible. Autrement dit on calcule les coefficients qui maximisentle rapport

Variance inter-groupeVariance intra-groupe.

Ceci fait les groupes aussi distincts que possible du point de vue des nouveaux scores(coordonnées sur la droite discriminante. Pour l'exemple analysé les coefficients discriminants sont ν1=0,059, ν2 = 0,063, ν3 = 0,034 et ν4 = -0,032, et la combinaison linéaire qui différencie de manièremaximales entre les groupes est3

Y = 0,059 X1 + 0,063 X2 + 0,034 X3 - 0,032 X4,

Ayant les coefficients discriminants on peut calculer le score de chaque vendeur, si ce score estplus proche de la moyenne des scores du groupe des gangnants du grand prix, l'individu sera affecté a cegroupe si non il sera affecté à l'autre groupe.

On peut observer que l'approche de l'analyse discriminante est proche de celui de la regression .Dans les chacun des cas on essaye d'expliquer (prévoir) une variable dépendante par une combinaisonlinéaire de variables indépendantes. En regression la variable expliquée est continue. En analysediscriminante la variable dépendente est l'appartenance à un groupe. On peut transformer le problème

3 les coefficients (poids) sont donnés par le vecteur propre qui resulte de la resolution de l'équation : (W-1B - λI)v= 0, où W est la matrice des variances-covariances intra-groupes (within group) et B est la matrice des sommes descarrées et produits croisés inter-groupes (between group)

Page 13: Analyse Disc Rim in Ante

13

d'analyse discriminante pour de groupes en problème de régression en utilisant une variable muette(dummy) comme variable dépendante. Les coefficients de régression résultants seront proportionnels àceux obtenus par l'analyse discriminante.

Y = 0,059 X1 + 0,063 X2 + 0,034 X3 - 0,032 X4,

X1 X2 X3 X4 YGagneurs du grand prix (G)1 KZV 130 62 148 42 15,12 BOR 122 70 186 44 16,43 NUA 89 68 171 32 14,24 NOA 104 58 135 40 13,05 HJV 116 40 160 36 13,56 VRX 100 65 151 30 14,17 BFO 85 66 183 42 14,08 MIG 113 59 130 25 13,99 WLL 108 52 163 41 13,810 GJN 116 48 154 48 13,511OKX 99 57 188 32 14,712KAA 78 70 190 40 14,113 UHO 106 61 157 38 14,114 GCI 94 58 173 29 14,115 CSN 98 64 37 36 9,8

Moyenne 103,9 59,9 155,1 37,0 13,9Gagneurs du prix de consolation (C)1 XDC 105 39 155 45 12,42 OAH 86 60 140 33 12,53 VKS 64 48 132 36 10,14 EXL 104 36 119 29 11,45 PQT 102 53 143 41 12,86 ITE 73 62 128 30 11,57 OXX 94 51 152 36 12,78 DON 59 64 130 28 11,09 CIG 84 31 102 32 9,310 GID 91 47 96 35 10,411 PLO 83 40 87 30 9,312 KOJ 95 42 114 28 11,113 DIN 68 52 123 26 10,614 RZI 101 51 98 24 11,615 UOE 89 39 117 33 10,5

Moyenne 86,5 47,7 122,4 32,4 11,1

Tableau 2 : Scores calculés des gagnants du grand prix et du prix de consolation utilisant la

fonction discriminante

Page 14: Analyse Disc Rim in Ante

14

Page 15: Analyse Disc Rim in Ante

15

4. Interprétation de lafonction discriminante

4.1. Test du modèle

Dans une approche rigoureuse avant d'interpreter la fonction discriminante, on doit tester si auniveau des scores discriminants on obtient une différentiation significative entre les groupes.

Cela se fait en appliquant un test en F au valeurs de la statistique D2 de Mahalanobis (quimesure la distance de chaque case à la moyenne du groupe, tout en permettant des axes correlées et desunités de mesure différentes). Ce test revient à tester l'hypothèse que la distance entre les deux groupesest différente de zéro.

4.2. Les coefficients discriminants

La fonction discriminante originale contient des poids (coefficients) à appliquer aux valeuresbrutes des variables. Ces poids sont influencés par l'echelle de mesure des variables. Pour eviter deseffects d'échelle de mesure arbitraire quand on compare les contributions de chaque variable on utilisedes coefficients standardisés, obtenus par multiplication des coefficients bruts de chaque variable parl'écart type pour l'ensemble des groupes (pooled standard deviation) de.

Page 16: Analyse Disc Rim in Ante

16

4.3. Classification des individus utilisantla fonction discriminante

Pour classifier les individus dans un des groupes on doit fixer un score (cutting score) qui joue lerôle de frontière entre les groupes. Normalement c'est la moyenne des scores des deux groupes. Si lesgroupes sont de dimensions égales le score critique (YCS) est égale à la moyenne des moyennes desscores des groupes.

YCS = (YG+ YC)/2 = (14,2 + 11,2)/2 = 12,7.

Si les groupes ne sont pas égaux on utilisera une moyenne pondérée du genre:

YCS = n2Y1 + n1Y2

n1 + n2

où Y1 et Y2 sont les scores discriminants moyens et n1 et n2 sont les dimensions des groupes (onobserve que la moyenne de chaque groupe est pondérée avec la dimension de l'autre).

Dans le cas du concours des vendeurs, une règle de décision simple serait de classifier unvendeurs dans le goupe des gagnants du grand prix si son score est plus proche de la moyenne desscores du groupe des gagnants du grand prix, que de la moyenne des score du groupe des gagnants duprix de consolation, sinon il sera affecté au groupe des gagnants du prix de consolation.

Gagneurs du grand prix (G)1 15,1 1,0 4,0 G2 16,4 2,3 5,3 G3 14,2 0,1 3,1 G4 13,0 -1,1 1,8 G5 13,5 -0,6 2,4 G6 14,1 0,0 2,9 G7 14,0 -0,1 2,8 G8 13,9 -0,2 2,7 G9 13,8 -0,3 2,6 G10 13,5 -0,7 2,3 G11 14,7 0,6 3,6 G12 14,1 0,0 3,0 G13 14,1 0,0 3,0 G14 14,1 -0,1 2,9 G15 13,2 -0,9 2,1 GGagneurs du prix de consolation (C)1 12,4 -1,7 1,2 C2 12,5 -1,6 1,3 C3 10,1 -4,0 -1,1 C4 11,4 -2,7 0,3 C5 12,8 -1,3 1,7 G6 11,5 -2,6 0,4 C7 12,7 -1,4 1,5 G8 11,0 -3,1 -0,2 C

Page 17: Analyse Disc Rim in Ante

17

9 9,3 -4,8 -1,9 C10 10,4 -3,7 -0,8 C11 9,3 -4,8 -1,8 C12 11,1 -3,0 0,0 C13 10,6 -3,5 -0,6 C14 11,6 -2,5 0,5 C15 10,5 -3,6 -0,6 C

4.3.1. La qualité de la classification

La conformité de cette classification prédictive avec la réalité est illustré par le tableau suivant,appelé matrice des confusions

Apparte-nance prédite

Appartenance réeleG C

G 15 2C 0 13

En générale cette matrice est un tableau de contingence g x g ( où g est le nombre de groupes), enligne figurent les appartenances réelles et en colonnes les affectations par le modèle. On peut y repérer lenombre d'affectations correctes et erronées4. Le pourcentage d'affectations correctes par rapport aunombre total d'individus est un indicateur global. Pour que le modèle présente un intérêt, il faut qu'il soitsuffisamment élevé.

Dans le cas de deux groupes à effectifs égaux 5, une procédure de répartition purement aléatoireentraînerait 50 % d'affectations correctes. La différence entre le hit score et 50 % mesure ainsi la qualitédu modèle. Le caractère significatif de cette différence est repéré à l'aide de l'expression:

Z = (p - 0,5)/[(0,5)(0,5)/n]1/2

où n est le nombre d'individus. Si Z est supérieur à 1,64, le modèle a significativement mieuxréussi à classer les individus qu'un processus aléatoire, à un seuil de 95 % 6.

Quand les groupes sont de dimensions différentes le taux de reclassement ne peut plus êtrecomparé au critère du 50% dans ce cas on peut utiliser deux critères: le critère de la probabilitémaximum (maximum chance) et le critère de la probabilité proportionnelle (proportional chance). Lecritère chance maximale considère que tout individu choisit aléatoirement doit être classé commeappartenant au plus grand groupe. Le critère de chance proportionnelle est donné par la somme descarrés des proportions de chaque groupe par rapport au nombre totale d'indivitus (dans le cas de deuxgroupes Cpro = p2 + (1 - p)2).

4Vedrine J.-P. "Le traitement des données en marketing", Ed. Organisation, Paris, 1991.

5Pour les cas d'effectifs inégaux cf. J. F. Hair, R. E. Anderson et R. L. Tatham Multivariate data analysis,Macmillan, i987, p. 89 et ss.

6I1 est conseillé de réaliser les calculs permettant d'aboutir au hit score sur un ochantillon différent de celui qui aservi à cons[ruire la fonction discriminante (hold out method).

Page 18: Analyse Disc Rim in Ante

18

Si le groupe G (grand prix) avait 20 membres et le groupe C (prix de consolations) avait 80membres7 le critère maximum chance serait 80 et le critère proportional chance (0,20)2 + (0,80)2 =0,68. Un hit rate de 85% montrera une bonne amélioration par rapport à la pure chance mais ils seramoins fort par rapport au critère de chance maximale.

4.4. Rotation des axes des fonctionsdiscriminantes

Une fonction discriminante est définie par un vecteur colonnes de coefficients appliqués, par unecombinaison linéaire, aux variables étudiées; ces coefficients sont dits bruts ou standard (beta weights)selon qu'ils s'appliquent à des variables brutes ou standard.

Le but de telles combinaisons linéaires est de séparer au maximum les groupes les uns des autres;en plus d'être indépendantes les unes des autres, les fonctions discriminantes ont un pouvoir dediscrimination qui décroît d'une fonction à l'autre. Le nombre de fonctions discriminantes est le pluspetit des deux possibilités suivantes: nombre de variables ou nombre de groupes moins un.

On a vu qu'à beaucoup de points de vue, les fonctions discriminantes présentent une grandeanalogie avec les facteurs mis en évidence de l'analyse factorielle. En particulier, on peut souhaiteridentifier par un nom chacune de celles-ci, en se basant sur les contributions des variables, tellesqu'exprimées de façon comparable par les coefficients standard.

Comme en analyse factorielle, une telle identification n'est pas toujours facile, à moins deprocéder à une rotation des axes des fonctions tout en maintenant constantes les positions relatives descas et des moyennes ou centroïdes.

Une rotation VARIMAX est proposée en option dans le programme SPSS; on obtient ainsi descoefficients qui sont le plus possible voisins de 1 pour les uns, et de zéro pour les autres.

L'avantage qu'on en tire est celui d'une facilité plus grande d'interprétation, mais cependant on yperd la connaissance de l'ordre des fonctions quant à leur pouvoir de discrimination. C'est pourquoi ilest suggéré de n'utiliser qu'avec prudence la rotation des axes des fonctions discriminantes (voir Klecka,dans SPSS, p. 444-445).

4.5. Tests de signification

On peut poursuivre, jusqu'à, la dernière, l'extraction des fonctions discriminantes. Mais commedans le cas des composantes principales, l'intérêt des fonctions additionnelles va décroissant. Dans

7 Churchill, 91

Page 19: Analyse Disc Rim in Ante

19

beaucoup d'applications on ne dépasse pas deux ou trois fonctions afin de tirer parti de la facilité et del'intérêt d'une illustration de la position des groupes de sujets dans un espace à trois dimensions etmoins.

L'effet de discrimination de la fonction i par rapport à toutes les fonctions est exprimé par laproportion (Hope, p. 117-120; Cooley et Lohnes, p.248-250)

λi

∑1

pλk

Ce rapport exprime la proportion de la variance expliquée par chaque fonction discriminante.Cependant cette proportion ne conduit pas à une décision statistique au sens habituel du terme. Onrecourt souvent à un autre indicateur. On montre que:

Λ = ∏1

p1

1+λi

où p= nombre de fonctions discriminantes, peut être utilisé pour exprimer la capacité de

discrimination d'un ensemble de variables (ce paramètre est similaire à Λ = |W||T| de l'article 11.3.0. de

Laforge). De même pour les fonctions au-delà de la k-ième fonction:

Λ' = ∏i=k+1

p1

1+λi

Ce lambda (λ') est donc une mesure de l'inverse de la puissance discriminative expliquée par lesfonctions discriminantes à venir. La signification de la discrimination des fonctions restantes k à p, à lasuite de l'acceptation des k premières, peut se calculer au moyen de l'approximation de Bartlett:

χ2= - [N- 12(v+ g) - 1 ] ln λ' avec d.l. = (v-k) (g-k-1)

où v: nombre de variables

g: nombre de groupes

et Λ' = ∏i=k+1

p1

1+λi

Si pour ces fonctions discriminantes (k + 1) à p, on obtient une valeur de x2 qui ne dépasse pas leseuil critique, on considère que les k premières fonctions calculées suffisent seules à expliquer de façonsignificative les écarts entre les groupes.

Page 20: Analyse Disc Rim in Ante

20

Une autre méthode permettant de juger de la valeur de discrimination de chaque fonction est cellede la corrélation canonique qui mesure l'étroitesse de la relation entre une fonction discriminante etl'appartenance à l'un ou l'autre groupe. Le carré de cette corrélation canonique exprime la proportion dela variance de la fonction discriminante expliquée par une fonction d'appartenance aux divers groupes.Les programmes universels d'analyse discriminante font appel, en plus d'autres méthodes, au calculd'une telle corrélation canonique.

4.6. Méthodes de sélection desvariables

Plusieurs méthodes peuvent être utilisées dans le choix des variables à inclure dans l'édificationdes fonctions discriminantes. Celle dont il a été question jusqu'à maintenant, et qui consiste à considérertoutes les variables à la fois, est dite méthode directe.

Une solution qui peut parfois présenter des avantages certains consiste à factoriser au préalableles variables. Cette analyse peut faire apparaître des faisceaux de variables fortement intercorrélées. Onretient de cette analyse un petit nombre d'indicateurs généraux dont on se sera assuré la validiténomologique8. Ce sont ces nouvelles variables en nombre réduit qui sont alors introduites dansl'analyse. C'est une approche similaire qui est connue comme Disqual, cette procédure consiste à utiliserdes variables qualitatives. Dans un premier temps on applique une analyse factorielle à l'ensemble desvariables, puis l'on introduit les score sur les axes factorielle dans l'analyse discriminante.

On peut aussi faire appel à une approche hiérarchique (stepwise) où les variables sont introduitesune à une selon leur capacité décroissante à mettre en évidence la différence entre les groupes. Au coursdes sélections successives, il est possible que des variables déjà entrées perdent leur pouvoir dediscrimination: la raison en est une redondance d'information, c'est-à-dire que le pouvoir dediscrimination de cette variable est désormais inclus dans quelque combinaison de nouvelles variablesretenues. Donc à chaque étape de l'analyse, on procède à l'élimination des variables devenues inutiles.Dans le programme SPSS ce test de variable apparaît sous le titre F-TO-REMOVE.

Divers critères, mettant l'accent sur l'un ou l'autre aspect de la dispersion des groupes, sontutilisés pour la sélection de variables: a) le test de Wilks vise à minimiser un rapport où entrent enconsidération la dispersion des centroïdes et la cohésion des cas au sein des groupes: il est semblable àun test multivarié F sur les différences entre les centroïdes;

Plusieurs tests, reliés à la notation de distance de Mahalanobis, visent à maximiser l'écart entreles deux groupes les plus rapprochés (les méthodes MAHAL, MAXMINF, MINRESID du programmeSPSS sont des variantes de cette approche); c) la méthode de Rao consiste à choisir la variable quicontribue le plus à une distance généralisée, évaluée sur les variables précédentes. Pour tous cescritères, une variable est sélectionnée lorsque son rapport F partiel dépasse une valeur critique, c'est-à-dire lorsque sa contribution à la dispersion additionnelle des centroïdes est statistiquement significative:dans le programme SPSS ce F est dit F-TO-ENTER .

8 C'est a dire le fait qu'une variable empirique, les indicateurs, représentent bien des variables conceptuelles donton veut vérifier l'effet.

Page 21: Analyse Disc Rim in Ante

21

5. Remarques et résumé

L'analyse discriminante peut être vue comme un cas spécial d'analyse factorielle. Mais le butdiffère: il s'agit de faire ressortir au maximum les différences entre des groupes mesurés dans un espacemultidimensionnel, en projetant chaque cas dans l'espace unidimensionnel d'un petit nombre de fonctionslinéaires orthogonales.

Cette opération fait suite habituellement à celle de l'analyse de variance multivariée où, enprésence d'une situation où plusieurs groupes sont mesurés sur plusieurs variables, on s'intéressed'abord à déterminer s'il y a différence significative entre les groupes. Dans le cas de résultats positifs, ildevient intéressant de déterminer, parmi les variables, celles qui sont responsables dans un ordredécroissant d'importance des différences entre les groupes: c'est le but de l'analyse discriminante.

Une exploitation plus poussée des résultats conduit à leur utilisation dans le but de classifier (ense donnant comme objectif une probabilité minimum d'erreurs) des nouveaux sujets dans les diversgroupes.

Le rôle de l'analyse discriminante peut être envisagé de deux façons quant à l'attribution desqualificatifs d'indépendance et de dépendance, aux variables mesurées sur les populations visées et auxfonctions discriminantes. En sciences d'exploration, en général, les populations sont considérées commevariables indépendantes (predictors) et les fonctions discriminantes comme variables dépendantes(critères). En sciences expérimentales, ces rôles se trouvent renversés.

L'analyse discriminante consiste donc à projeter dans un sous-espace approprié des échantillonsde mesures multidimensionnelles. L'interprétation de cette opération peut être faite en termes (voirCooley et Lohnes, p. 243 soit du nombre et de l'importance relative des fonctions discriminantesretenues, soit de la localisation dans l'espace discriminant des populations étudiées.

Ses applications en marketing sont multiples, certains l'ont proposé comme une méthode depositionnement perceptuel, elle a été largement utilisée en marketing pour scorer des fichiers même siaujourd'hui elle doive laisser le pas à la régression logistique. Elle peut aussi avantageusement servir àdresser les profils d'une typologie.

Page 22: Analyse Disc Rim in Ante

22

6. applications

6.1. le cas dichotomique

On souhaite prédire le fait d'appartenir à un groupe d'individu plutôt intéressé par une offre contrecelui de n'être pas intéressé, à partir d'une série de 9 variables (Q5_1 à Q5_9, de haut en bas sur legraphique) décrivant des centres d'intérêts de 470 consommateurs.

intérêt pour les off

faible

fort

Centres d'intérêt et attraction des offresDossier

Livre

Disque

Micro

Image

Son

Vidéo

News

Galerie4,03,53,02,5

Une analyse discriminante a été utilisée pour réaliser cette tâche. Ses caractéristiques sontindiquées dans le tableau suivant :

Page 23: Analyse Disc Rim in Ante

23

- - - - - - - - D I S C R I M I N A N T A N A L Y S I S - - - - -On groups defined by Q11_A intérêt pour les offres

567 (Unweighted) cases were processed. 136 of these were excluded from the analysis. 24 had missing or out-of-range group codes. 106 had at least one missing discriminating variable. 6 had both. 431 (Unweighted) cases will be used in the analysis.Number of cases by group Number of cases Q11_A Unweighted Weighted Label 0 213 213,0 faible 1 218 218,0 fort Total 431 431,0Prior probabilities Group Prior Label 0 ,49420 faible 1 ,50580 fort Total 1,00000

Un test individuel des variables est donné dans le tableau suivant. En fait deux tests sontemployés : le lambda de Wilks9 et le F de Snedecor. On voit ainsi que Q5_6 (son) ne semble pas du toutdiscriminant, au contraire de Q5_2, Q5_3, et Q5_8 (resp: livre, disque et News).

Wilks' Lambda (U-statistic) and univariate F-ratiowith 1 and 429 degrees of freedom

Variable Wilks' Lambda F Significance -------- ------------- ------------- ------------ Q5_1 ,99652 1,4964 ,2219 Q5_2 ,97958 8,9443 ,0029 Q5_3 ,97465 11,1596 ,0009 Q5_4 ,99573 1,8384 ,1759 Q5_5 ,99608 1,6890 ,1944 Q5_6 ,99880 ,5170 ,4725 Q5_7 ,99318 2,9475 ,0867 Q5_8 ,97835 9,4940 ,0022 Q5_9 ,98537 6,3701 ,0120

La fonction discriminante de Fisher est donnée ci-dessous pour chacun des deux groupes. C'estelle qui permet de calculer des scores discriminants pour chacun des deux groupes, et donc lesprobabilités d'appartenance10.

9lambda=INTRA/TOTAL

10 Ceci est possible si la distribution est multivariée. Dans ce cas le score centré/réduit, se distribue comme une loinormale. Une équivalence entre probabilité et score peut donc aisément être établie.

Page 24: Analyse Disc Rim in Ante

24

Classification function coefficients(Fisher's linear discriminant functions)

Q11_A = 0 1 faible fortQ5_1 1,2541671 1,2467639Q5_2 1,9916378 2,1835721Q5_3 1,9095237 2,1376173Q5_4 ,8923337 ,7598309Q5_5 ,8334167 ,9890893Q5_6 ,3137169 ,2509133Q5_7 ,5250130 ,6189056Q5_8 1,1395678 1,3292877Q5_9 ,5856616 ,6460226(Constant) -15,9643507 -18,4702821

L'analyse des fonctions canoniques permet le travail d'interprêtation. Un premier point est un testpositif de la disminance. On peut alors examiner les deux tableaux suivants qui donnent la fonctiondiscriminante standardisée, de manière à ce que les différentes variables puissent être comparées sur labase d'une même échelle de mesure, ainsi que des coefficients de corrélation entre chacunes desvariables et la fonction discriminante. Quatre variables dominent, elles ont une influence positive sur lescore. Q5_2, Q5_3, Q5_8, Q5_9 (Livre, disque, news et galerie).

Canonical Discriminant Functions Pct of Cum Canonical After Wilks'Q5_2 Fcn Eigenvalue Variance Pct Corr Fcn Lambda Chi-square df Sig

: 0 ,926545 32,386 9 ,0002 1* ,0793 100,00 100,00 ,2710 :* Marks the 1 canonical discriminant functions remaining in the analysis.

Standardized canonical discriminant function coefficients Func 1Q5_1 -,01526Q5_2 ,42966Q5_3 ,49568Q5_4 -,35221Q5_5 ,36900Q5_6 -,14988Q5_7 ,23832Q5_8 ,41713Q5_9 ,14498

Structure matrix:Pooled within-groups correlations between discriminating variables and canonical discriminant functions(Variables ordered by size of correlation within function)Q5_3 ,57282Q5_8 ,52835Q5_2 ,51282Q5_9 ,43278Q5_7 ,29439Q5_4 -,23249Q5_5 ,22285Q5_1 ,20976Q5_6 ,12329

L'évaluation du modèle peut être appréciée de trois façons . D'abord en comparant les scoresdiscriminant moyen des deux groupes. L'importance de l'écart donne une première idée de la qualité dela discriminance.

Canonical discriminant functions evaluated at group means (group centroids)

Group Func 1 0 -,28419 1 ,27767

Une seconde méthode, la plus intéressante, consiste à dresser une matrice de confusion qui croisel'appartenance réelle à l'appartenance prédite. On calcule ainsi le % d'individus bien classés. Si la

Page 25: Analyse Disc Rim in Ante

25

probabilité a priori est de 50%, que le taux de bien classé est de 60% (comme c'est à peu près le cas ici),on peut évaluer le gain par rapport au hasard à 0,1/0,5=20%. Ce calcul peut être généralisé avec laformule suivante ( g: le gain, p : % de biens classés, a probabilité à priori). Il exprime le rapport du gainen % de bien classé comparé à un modèle au hasard sur le gain maximal possible (déterminismeparfait).

gp a

a=

−−1

Classification results -

No. of Predicted Group Membership Actual Group Cases 0 1-------------------- ------ -------- --------

Group 0 263 142 121faible 54,0% 46,0%Group 1 274 92 182fort 33,6% 66,4%Ungrouped cases 30 17 13 56,7% 43,3%

Percent of "grouped" cases correctly classified: 60,34%

Une dernière manière d'évaluer la qualité du modèle est de représenter graphiquement ladistribution du score, ou de la probabilité, entre les deux groupes. On s'aperçoit qu'en dépit d'unchevauchement important des deux distributions, les valeurs modales sont assez bien séparée. Une zoned'incertitude importante demeure.

274263N =

intérêt pour les offres

fortfaible

Prob

abili

té d

'êtr

e in

tére

ssé

par

l'off

re

,8

,7

,6

,5

,4

,3

,2

,1

Page 26: Analyse Disc Rim in Ante

26

6.2. Le cas polytomique

Dans ce cas le problème posé est de savoir si l'on peut distinguer les consommateurs de quatresvilles de belgiques (Bruxelles, Liège, Anvers et Gand) à partir de variables reflétant pour partie lescomportements des individus, et pour une autre les attitudes vis à vis de la culture. Les différences sontillustrées dans les deux diagrammes suivants :

magasin étudié

Liège

Bruxelles

Gent

Antwerpen

80

70

60

50

40

30

20

10Mean Litt.-artMean diversMean radioMean TVMean journalMean travail

Page 27: Analyse Disc Rim in Ante

27

magasin étudié

Liège

Bruxelles

Gent

Antwerpen

7,0

6,5

6,0

5,5

5,0

4,5

4,0Mean normalitéMean non-adhésionMean DécadenceMean superficialité

La première phase de l'analyse est comme précédemment une série de tests univariées (Snédécoret Wilks). Pour la plupart des variables on observe des différences significatives sauf pour la propensionau travail et la radio.

Wilks' Lambda (U-statistic) and univariate F-ratiowith 3 and 1352 degrees of freedom

Variable Wilks' Lambda F Significance -------- ------------- ------------- ------------ CPT_W ,99575 1,9218 ,1241 CPT_J ,99108 4,0545 ,0070 CPT_TV ,98553 6,6174 ,0002 CPT_RD ,99720 1,2638 ,2854 CPT_DV ,96721 15,2763 ,0000 CPT_ART ,98389 7,3783 ,0001 C_ELIT ,98566 6,5564 ,0002 C_DECLI ,97648 10,8529 ,0000 C_PREF ,94286 27,3113 ,0000 C_NORM ,98332 7,6465 ,0000

Un second résultat fourni est la matrice de corrélation moyenne. Cette matrice nous informe surles corrélations moyennes entre les variables pour chacun des groupes. En principe, si l'hypothèsed'homogéneité des variances-covriance est vérifiée, cette matrice est égale à celle que l'on obtient pourchacun des groupes. Dans le cas contraire son intérêt est limité, et il vaut mieux considérer les matricesde corrélation groupe par groupe.

Page 28: Analyse Disc Rim in Ante

28

Pooled within-groups correlation matrix

CPT_W CPT_J CPT_TV CPT_RD CPT_DV CPT_ART C_ELIT C_DECLI C_PREF CPT_W 1,00000 CPT_J ,13264 1,00000 CPT_TV -,10832 ,06020 1,00000 CPT_RD ,06166 ,00598 ,14756 1,00000 CPT_DV -,05737 -,00571 ,02758 ,14421 1,00000 CPT_ART ,02857 ,10506 -,17750 ,04942 ,05951 1,00000 C_ELIT -,02070 -,08408 ,10074 ,05873 -,00763 -,22414 1,00000 C_DECLI ,04332 ,05070 -,04166 ,00441 -,02250 ,00892 ,28268 1,00000 C_PREF -,04204 -,07376 ,19316 ,05830 ,27919 -,45552 ,40660 ,09068 1,00000 C_NORM ,11266 ,14423 -,14567 -,03825 -,03442 ,26500 -,19042 ,26094 -,30243

Celle-ci est obtenue en calculant une matrice de corrélation pour chacun des groupes puis encalculant, une moyenne pondérées. Cette procédure est très différentes du calcul d'une matrice decorrélation sur l'ensemble des individus comme le montre clairement le shéma suivant (dans ce cas on al'homogénéité des variances covariance). Pour chacun des groupes on observe une corrélation quin'existe pas pour l'ensemble :

X

Y o

o

oo

o

o

o

o

oo

o

o

o

o

oo

o

o

Cette hypothèse est testée par le test M de box, lequel compare les log des déterminants desmatrices. Dans notre cas, on ne peut conclure à l'homogénéité des matrices. Cependant lorsque leséchantillons de chaque groupe sont importants (ce qui est le cas), on a toute les chances d'arriver à cetteconclusion. Un tel résultat ne remet pas en cause les résultats de l'analyse discriminante lorsque lesdifférences ne sont pas trop importantes (ce qui est le cas ici). Le véritable problème est que lesfonctions discriminantes ne classifient pas de manière optimale les individus11. Incidemment l'ensembledes autres tests peuvent être remis en cause.

11Ceci signifie qu'il existe une solution meilleure, mais ne dit pas que la solution obtenue est mauvaise.

Page 29: Analyse Disc Rim in Ante

29

Test of Equality of Group Covariance Matrices Using Box's M

The ranks and natural logarithms of determinants printed are those of the group covariance matrices.

Group Label Rank Log Determinant 1 Liège 10 39,245659 2 Bruxelles 10 39,197840 3 Gent 10 39,222726 4 Antwerpen 10 40,229477 Pooled within-groups covariance matrix 10 39,806494

Box's M Approximate F Degrees of freedom Significance 416,89818 2,49387 165, 3771927,0 ,0000

A la différence du cas à 2 groupes, dans le cas à 4 groupes, trois fonctions discriminantes peuventêtre identifiées. La question se pose de savoir si toutes sont nécessaires. Les résultats suivants donnentdes indications utiles à cette fin. La partie gauche résume les caractéristiques de chacune des fonctionsdiscriminantes. La valeur propre (eigen value) est égale à la variance inter que divise le nombre de ddl.La seconde colonne donne la répartition de la variance inter entre les trois fonctions. Les deux premièresfonctions rendent compte d'un peu plus de 90% de la variance. La corrélation cannonique est calculée enprenant la racine carrée du rapport INTER/total. La partie gauche est un test basé sur le lambda deWilks destiné à comparer les moyennes de chacun des groupes. Le principe consiste à éliminersuccessivement les fonctions. Dans cette exemple si les deux dernières fonctions sont éliminées laprobabilité est de 0,0043. Autrement dit même si on ne garde que la troisième fonction, les moyennessont encore différentes. On sera donc tenté de conserver les trois fonctions, même si la troisième necontribue que faiblement aux différences.

Canonical Discriminant Functions

Pct of Cum Canonical After Wilks' Fcn Eigenvalue Variance Pct Corr Fcn Lambda Chi-square df Sig

: 0 ,848935 220,766 30 ,0000 1* ,0974 57,32 57,32 ,2979 : 1 ,931595 95,515 18 ,0000 2* ,0558 32,83 90,16 ,2298 : 2 ,983553 22,355 8 ,0043 3* ,0167 9,84 100,00 ,1282 : * Marks the 3 canonical discriminant functions remaining in the analysis.

Examinons maintenant les fonctions discriminantes : trois types de résultats sont donnés : lescoefficients standardisés, les coefficients non standardisés, et les corrélations des variables avec lesfonctions.

Page 30: Analyse Disc Rim in Ante

30

Standardized canonical discriminant function coefficients

Func 1 Func 2 Func 3

CPT_W ,02215 -,05682 ,52187CPT_J ,33838 -,17668 -,00401CPT_TV -,14938 ,48177 ,39690CPT_RD ,06605 -,09127 -,18566CPT_DV ,33480 -,02928 ,23133CPT_ART ,40612 -,29737 ,56898C_ELIT -,13078 ,11106 ,66083C_DECLI ,13324 ,52216 -,07841C_PREF ,77437 ,25792 -,31719C_NORM -,35962 ,38260 ,07535

Structure matrix:

Pooled within-groups correlations between discriminating variables and canonical discriminant functions(Variables ordered by size of correlation within function)

Func 1 Func 2 Func 3

C_PREF ,69962* ,46516 -,22879CPT_DV ,58774* ,00366 ,12502C_NORM -,36751* ,24333 ,17530CPT_J ,28224* -,13354 ,12118CPT_RD ,16756* -,03442 -,01637

C_DECLI ,09337 ,64289* ,10421CPT_TV -,00127 ,49932* ,21571C_ELIT ,15656 ,41676* ,38467

CPT_ART ,07446 -,44566 ,53325*CPT_W ,01509 -,09230 ,47463** denotes largest absolute correlation between each variable and anydiscriminant function.

Unstandardized canonical discriminant function coefficients

Func 1 Func 2 Func 3

CPT_W 8,84347416E-04 -2,26912596E-03 ,0208395CPT_J ,0151082 -7,88837901E-03 -1,78912430E-04CPT_TV -5,91661004E-03 ,0190824 ,0157206CPT_RD 2,42857900E-03 -3,35582028E-03 -6,82670573E-03CPT_DV ,0186789 -1,63337091E-03 ,0129066CPT_ART ,0282516 -,0206863 ,0395812C_ELIT -,0806580 ,0684967 ,4075580C_DECLI ,0907786 ,3557475 -,0534226C_PREF ,4022441 ,1339757 -,1647631C_NORM -,2150551 ,2287965 ,0450607(Constant) -2,0833187 -4,6515902 -3,4341083

Un dernier résultat est l'évaluation des fonctions pour chacun des centres de groupes.

Page 31: Analyse Disc Rim in Ante

31

Canonical discriminant functions evaluated at group means (groupcentroids)

Group Func 1 Func 2 Func 3

1 -,01627 ,37917 ,08869 2 -,45131 -,07829 -,10185 3 ,43435 -,00710 -,16520 4 ,09847 -,26028 ,14874

La qualité prédictive du modèle peut enfin être appréciée d'une part par le tableau dereclassification suivant. En moyenne le taux de reclassement est de 37% alors que la probabilité dereclassement au hasard est de 25%. On peut donc conclure à une relativement bonne qualité du modèleque l'on nuancera par le diagramme suivant, qui illustre clairement le fait que la dispersion intra-groupeest beaucoup plus grande que la dispersion inter-groupe.

Page 32: Analyse Disc Rim in Ante

32

Classification results -

No. of Predicted Group Membership Actual Group Cases 1 2 3 4-------------------- ------ -------- -------- -------- --------

Group 1 394 124 140 46 84Liège 31,5% 35,5% 11,7% 21,3%

Group 2 400 65 217 31 87Bruxelles 16,3% 54,3% 7,8% 21,8%

Group 3 373 74 121 86 92Gent 19,8% 32,4% 23,1% 24,7%

Group 4 407 67 122 68 150Antwerpen 16,5% 30,0% 16,7% 36,9%

Ungrouped cases 29 1 12 3 13 3,4% 41,4% 10,3% 44,8%

Percent of "grouped" cases correctly classified: 36,66%

Classification processing summary

1603 (Unweighted) cases were processed. 0 cases were excluded for missing or out-of-range group codes. 1603 (Unweighted) cases were used for printed output.

magasin étudié

Barycentres

Observations non classifiées

Antwerpen

Gent

Bruxelles

Liège

AntwerpenGentBruxelles

Liège

Fonction 1

43210-1-2-3-4

Fonc

tion

2

4

3

2

1

0

-1

-2

-3

-4

Page 33: Analyse Disc Rim in Ante

33

7. Développementmathématique12

Soit une matrice X de scores centrés (réduits) de v variables et n individus. Cette matrice estpartitionnées en g sous matrices Di de ni cas chacunes.A chaque partition correspond un centroïde mi ,une matrice de covariation Wi et une matrice de covariance Vi=Wi/(ni-1).

On considère que les matrice de covariance sont homogène par conséquent on s'intéressera à lamatrice de variation W = W1+...+Wg. la matrice des covariances intergroupes est définie par :

B=M'M/(g-1)

On cherche une combinaison linéaire y des X pour obtenir la fonction discriminante y. Lafonction discriminante y recherchée est celle qu'on obtient au moyen d'une combinaison linéaire k de lamatrice X de telle sorte qu'à une variance intra groupes donnée corresponde un maximum de la varianceinter groupes. On peut représenter ainsi la dispersion des cas et moyennes des trois groupes sur l'axe yde la fonction discriminante.

m1 m2 m3

Figure 9 - Dispersion de trois groupes sur l'axe de la fonction discriminante.

Son expression générale est définie par :

y=Xk.

Si on considère les projections sur la fonction discriminantes des centroides, alors ces nouveauxcentroîdes auront pour scores discriminants

s=Mk

La variance de ces moyennes (variance inter) est donnée par s's

12Hubert Laforge "Analyse multivariée pour les sciences sociales et biologiques avec applications des logicielsBMP, BMDP, SPSS, SAS", Ed. Etudes Vivantes, Montréal, 1981.

Page 34: Analyse Disc Rim in Ante

34

k'M'Mk/(g-1)=k'Bk

la variance intra groupe est donnée de manière analogue par

k'Vk'

Le problème posé est de maximiser la variance inter par rapport à un niveau fixé de varianceintra. On choisit de fixer cette dernière à l'unité. Dès lors on peut exprimer la fonction par le lagrangiensuivant :

F=k'Bk-λ(k'Vk'-1)

il s'agit donc de trouver les valeurs k qui maximisent F

∂λ

λλ

F

k'Bk Vk

Bk Vk

B V k

= − =

⇔ − =⇔ − =

2 2 0

0

0( )

On sait que cette équation comporte une solution différentes de 0 si le déterminant est nul.L'allure générale de l'équation est proche du problème de l'ACP, pour encore mieux s'en rapprocherprémultiplions l'équation par l'inverse de V.

( )V B I k

V B I

− =

− =

1

1

0

0

λ

λet

avec cette nouvelle formulation le problème est que la matrice est non-symétrique. Pour revenir àune matrice symétrie on utilise le théorème qui dit qu'une matrice non symétrique peut s'écrire comme lasomme d'une matrice symétrique et d'une matrice non symétrique. Cette opération est faite en

remplaçant V B−1 par D BDv/

v/− −1 2 1 2 qui a la propriété d'avoir les mêmes valeurs propres et les même

vecteurs propres. Dans cette dernière expression on a une matrice diagonale de V. la résolution duproblème se fait donc en calculant les valeurs propres puis les vecteurs propres

Page 35: Analyse Disc Rim in Ante

35

8. Bibliographie

[1] Dillon, W.R.(1979)"the performance of the linear descriminant function in nonoptimal situationsand the estimation of classification error rates: a review of recent findings" JMR 16, 370-381

[2] Giltow, H.S.(1979)"Descrimination procedures for the analysis of nominally scaled data sets"JMR 16, 387-393

[3] Hubert Laforge "Analyse multivariée pour les sciences sociales et biologiques avec applicationsdes logiciels BMP, BMDP, SPSS, SAS", Ed. Etudes Vivantes, Montréal, 1981.

[4] F. Hair, R. E. Anderson et R. L. Tatham Multivariate data analysis, Macmillan, i987, p. 89 et ss

[5] Gilbert A. Churchill, "Marketing Research, Methodological Foundations", 5e Ed., Dryden Press,1991.

[6] Vedrine J.-P. "Le traitement des données en marketing", Ed. Organisation, Paris, 1991.