meth factorielles

Upload: chiadmi-med-salah

Post on 02-Mar-2018

265 views

Category:

Documents


2 download

TRANSCRIPT

  • 7/26/2019 METH Factorielles

    1/40

    UNIVERSIT LUMIRE LYON 2FACULT DE SCIENCES CONOMIQUES

    ET DE GESTION

    Economie quantitative

    Master 2-ECOSMA

    EtudesetCOnseil enStratgie etMArketing

    Analyse des donnesPolycopi 1 : Mthodes factorielles

    Anne Universitaire 2015-2016R. Abdesselam

    Courriel ;[email protected]

    Web :http://eric.univ-lyon2.fr/~rabdesselam/fr/

    Polycopis : http://eric.univ-lyon2.fr/~rabdesselam/Documents/

    mailto:[email protected]:[email protected]:[email protected]://eric.univ-lyon2.fr/~rabdesselam/fr/http://eric.univ-lyon2.fr/~rabdesselam/fr/http://eric.univ-lyon2.fr/~rabdesselam/fr/http://eric.univ-lyon2.fr/~rabdesselam/Documents/http://eric.univ-lyon2.fr/~rabdesselam/Documents/http://eric.univ-lyon2.fr/~rabdesselam/Documents/http://eric.univ-lyon2.fr/~rabdesselam/fr/mailto:[email protected]
  • 7/26/2019 METH Factorielles

    2/40

    M2 : ECOSMA Analyse des Donnes - 2 - R. Abdesselam

    PRESENTATION

    Description dtaille du cours

    1. Analyse stat ist iqu e des don nes u ni-bidim ension nelles

    - Introduction aux mthodes de sondage- Les types de questions (ferme, ouverte-textuelle) - codage- Mthodes descriptives ( tris plat - tris croiss - Tamisanalyse bivarie)

    - Mthodologie et Techniques de dpouillement denqute - traitements statistiques

    2. Analyse stat ist iqu e des don nes m ult idim ension nelle

    2.1 Mthod es d 'analy se f act or iell e

    - Analyse en Composantes Principales- Analyse Factorielle des Correspondances Simples - Multiples- Analyse Factorielle Discriminante - Analyse Discriminante Linaire

    2.2 Mthod es d e clas si fic atio n au tomatiq ue d es d on nes

    - Classification non hirarchique : nues dynamiques-Analyse et interprtation dune partition- Classification hirarchique ascendante - descendante- Analyse Discriminante Barycentrique

    - Segmentation2.3 Modlisa ti on - Mth od es expl ic ati ves

    - Modles de rgression ( simple et multiple )- Analyse de la variance ANOVA ( facteurs contrls avec ou sans interaction )- Analyse de la covariance ANCOVA- Rgression logistique

    3. Ana ly se des don nes vo lu ti ves

    - Analyse factorielle multiple- Analyse conjointe de tableaux

    Objectifs

    Le but de ce cours est de donner aux tudiant(e)s une formation de base en traitement de donnesmultidimensionnelles. Plusieurs techniques statistiques seront prsentes et on insistera surtout sur lacomprhension intuitive, linterprtation correcte et lutilisation pratique de celles-ci. Par consquent, lemploi deconcepts mathmatiques sera rduit son minimum et ces derniers ne serviront qu facilit la comprhension desmthodes tudies. Les mthodes les plus importantes sont prsentes dune manire aussi concrte quepossible, sans que soient trop dvelopps ni les fondements mathmatiques, ni les questions de calcul numrique.Le logiciel SPAD sera utilis mais aucune connaissance pralable de celui-ci nest requise. Par contre, uneconnaissance des concepts et mthodes statistiques (population, chantillon, estimation, test dhypothse) de baseest requise.

    Chaque mthode est illustre par des applications des donnes relles. Lutilisateur doit videmment avoir uneide suffisamment prcise des principes gnraux et des conditions dapplication de ces mthodes, mais il doitconsacrer essentiellement son attention la mthodologie denchanement de ces mthodes et linterprtation

    des rsultats obtenus.Lanalyse des donnes permet ltude dun problme dans sa globalit : multiplicit et interaction des critres,

    diversit de lenvironnement. Elle permet la description, lexploration, lanalyse dimportants tableaux de donnes.Bien adapte aux tudes de terrain, cest en particulier loutil idal des traitements denqutes.

    Les entreprises croulent littralement sous le poids des donnes quelles ont leur disposition. Ces donnescontiennent potentiellement une quantit importante dinformations pouvant tre bnfiques lentreprise si utilisescorrectement.

    Enfin, sous le vocable Data mining fouille de donnes, on retrouve diffrentes techniques statistiquesutilises pour explorer et analyser de grands ensembles de donnes. Ces techniques ont gnralement pour but dedvelopper des modles prvisionnels, de rduire la taille des donnes, faire de la segmentation ou bien dedcouvrir des associations pertinentes. Lanalyse multidimensionnelle des donnes est la base de plusieurstechniques de data maning et est utilise dans plusieurs domaines de lconomie et de la gestion dont le marketing.

    Approche pdagogique

    Sept sances de cours magistraux et de travaux dirigs (salle DE112 dure 3h) comprenant des exemplesdapplication traits avec le logiciel SPAD.

  • 7/26/2019 METH Factorielles

    3/40

    M2 : ECOSMA Analyse des Donnes - 3 - R. Abdesselam

    MATERIEL PEDAGOGIQUE

    Ressources diverses

    (3) Polycopis de cours, (1) polycopi de travaux dirigs ainsi que de nombreux fichiers de donnes rellesSPADSystme pour lAnalyse de Donnes, version 7.4, Kit-Etudiant.

    Rfrences bibliographiques

    Rfrence(s) de base

    [1] Bouroche J.M., Saporta G. L'analyse des donnes, "Que sais-je?" N1854 , PUF, 8medition (2002).

    Ce fascicule de poche constitue une excellente introduction lanalyse statistique multidimensionnelle. Il metlaccent sur linterprtation intuitive des ides et concepts en nayant presque aucun recours la notationmathmatique. Il accorde aussi beaucoup dimportance linterprtation correcte des rsultats.

    Autres rfrences

    [2] Caillez F., Pages J.P. Introduction l'Analyse des Donnes SMASH (1975).

    [3] Celeux G, Diday E, Govaert G, Lechevalier Y, Ralambondrany H. Classification automatique des donnes.Environnement statistique et informatique, Dunod (1989).

    [4] Cibois P. L'analyse factorielle, "Que sais-je?" PUF (1983).

    [5] Cibois P. L'analyse des donnes en sociologie. PUF (1984).

    [6] Escofier B., Pags J. Analyses factorielles simples et multiples 3medition Dunod (1988).

    [7] Fenneteau H., Bials C. Analyse statistique des donnes. Ellipses (1993).

    [8] Grang D., Lebart L. Traitements statistiques des enqutes. Dunod (1993).

    [9] Han J. , Kamber M. : Data Mining Concepts and Techniques, (2001).

    [10] Michael J.A. Berry, Gordon Linoff : Data Mining, Masson (1997).

    [11] Moscarola J. Enqutes et analyse de donnes. Vuibert Gestion (1990).

    [12] Rodriguez Herrera R., Salles-Le-Gac D. Initiation lanalyse factorielle des donnes Fondementsmathmatiques et interprtations. Ellipses (2002).

    [13] Saporta G. Probabilit, analyse des donnes et statistique Editions Technip (1990).

    [14] Stanton A, Glantz K, Bryan K : Primer of applied regression and anlysis of variance, Mc Graw Hill, (2000).

    [15] Volle M., Analyse des donnes. Economica (1978).

    [16] Guide du logiciel SPAD version 6 Systme pour lAnalyse des Donnes.

    Adresses de sites Web consulter :

    [1] http://www.decisia.fr/SPAD_Presentation.html

    [2]http://www.decisia.fr/index2.html

    [3] http://dept.econ.yorku.ca/jasj/classes.html Cours C. Gourieroux, Econometric, Analysais of individual Risks

    [4] http://dorakmt.tripod.com/mtd/glosstat.html glossaire statistique

    CONTROLE DES CONNAISSANCESExamen terminal ( 100% ) - janvier - dure 1h 30 - salle informatique.

    http://www.decisia.fr/SPAD_Presentation.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/index2.htmlhttp://www.decisia.fr/SPAD_Presentation.html
  • 7/26/2019 METH Factorielles

    4/40

    M2 : ECOSMA Analyse des Donnes - 4 - R. Abdesselam

    Pram bule

    Ce cours vise prsenter les mthodes d'analyses de donnes en mettant l'accent sur les outilsd'interprtation, sans carter pour autant l'expos des principes de fonctionnement. Ces mthodesd'analyse sont aises mettre en oeuvre depuis le dveloppement des moyens informatiques puissantsde calcul, mais leur interprtation est souvent dlicate.

    On insistera donc sur leurs aspects intuitifs, savoir leur principe gnral, leurs objectifs et lestechniques dinterprtation des rsultats. De plus, chaque mthode est illustre par des applications des donnes relles.

    Bien videmment, avant d'effectuer ces mthodes d'analyses multidimensionnelles sophistiques, ilest recommand de prendre contact avec les donnes au moyen des outils classiques de la statistiquedescriptive ou de ceux plus rcents de la statistique exploratoire ( cf. Mthodologie et techniques dedpouillement d'enqute ).

    Les object i fs

    - mettre en vidence les principes de fonctionnement de ces mthodes sans recourir au formalismemathmatique (des ouvrages permettant d'approfondir les fondements mathmatiques sontindiqus en bibliographie),

    - montrer partir d'exemples rels comment interprter les rsultats de ces analyses,

    - donner une ide de l'intrt mais aussi des dangers et limites de ces mthodes,

    - l'enchanement canonique de ces mthodes dans le cadre d'une analyse structurelle des donnesd'enqute.

    Un peu d'histoire

    Les prmices de ces mthodes ont t mises en place dans la premire moiti de ce sicle par les travauxde Pearson (1904) et Hotelling (1933), aboutissant l'Analyse en Composantes Principales (ACP, PrincipalComponent Analysis, PCA, appele aussi Factor Analysis dans certains logiciels) qui permet de traiter untableau de variables quantitatives.

    Dans les annes 1968-1975, divers travaux tentent de mettre au point une technique quivalente pourtraiter des tableaux de contingence ( tableau crois de deux variables qualitatives ) : on peut citer lesmodles de l'amricain Goodman. Un franais, Benzecri, trouve le moyen d'appliquer les principes de l'ACP un tel tableau : c'est l'Analyse Factorielle des Correspondances (AFC). Il assortit ses travaux deconsidrations pistmologiques sur l'inutilit des hypothses probabilistes (qui sont la base desstatistiques classiques : test, etc..) dans le traitement des donnes. Il prne une approche fonde sur le refusde ces hypothses qui se prsente comme une alternative aux approches statistiques classiques(essentiellement d'origine anglo-saxonne) et prend le nom d'Analyse de Donnes.

    A la suite de ces travaux, une sorte d'cole se dveloppe en France. Diverses techniques sont mises aupoint dans ce cadre : Analyse Factorielle des Correspondances Multiples ( AFCM ou ACM ) ; AnalyseFactorielle Discriminante (AFD); Segmentation ; Mthodes des Nues Dynamiques ; etc. A la fin des annes80 la querelle entre partisans de l'Analyse de Donnes et statisticiens "classiques" s'est apaise. Lespremiers ont rintroduit des lments de probabilits dans leurs techniques et les seconds ont fini parconsidrer que ces mthodes pouvaient parfois tre utiles.

    Le Data Mining est apparu aux Etats-Unis au milieu des annes 1990. Il dsigne lensemble desmoyens dexploitation informatique intelligente des donnes utilisant des modles de prdiction varis. Latraduction en franais la plus proche est fouille de donnes . Il ne suffit pas davoir les donnes, encore

    faut-il savoir les traiter pour les synthtiser, les analyser, les rechercher, les mettre en perspective duneaction bien dfinie ou dun objectif atteindre. Cest ainsi que sintroduit naturellement le Data Mining qui estessentiellement d la conjonction des deux facteurs suivants :

  • 7/26/2019 METH Factorielles

    5/40

    M2 : ECOSMA Analyse des Donnes - 5 - R. Abdesselam

    - laccroissement exponentiel, dans les entreprises, de donnes lies leur activit (donnes sur laclientle, les stocks, la fabrication, la comptabilit, la gestion, les ressources humaines, etc.). Lesentreprises ont vite compris quil serait dommage de jeter ces donnes car elles contiennent desinformations-cl (connaissances) sur leur fonctionnement, ces connaissances savrant stratgiquespour la prise de dcision.

    - Les progrs trs rapides des matriels et logiciels informatiques, permettant de stocker des donnes etde les analyser pour un cot de plus en plus faible, tout en grant des volumes de plus en plusimportants.

    Lanalyse statistique exploratoire des donnes ncessite beaucoup de calculs et est inutilisable sansmoyens informatiques. Pour traiter ses donnes, le statisticien contemporain a le plus souvent recours auxgrands logiciels trs rpandus SAS, SPAD, SPSS. Ces logiciels constituent des outils indispensables trspuissants, voire de vritables environnements informatiques (SAS), permettant le traitement d'une grandevarit de donnes.

    In t roduct ion

    Plus de vingt-cinq annes de pratique ont dmontr la puissance des mthodes d'analyses de donnes outechniques de statistique descriptive multidimensionnelle, pour acqurir de l'information synthtique sur deschantillons normes ou les trs grands ensembles de donnes complexes comme le sont les fichiersd'enqutes. La souplesse des programmes de calcul et leur efficacit permettent d'y faire appel de faonrpte sur les mmes donnes.

    Lorsquon dispose dun volumineux fichier de donnes, il est difficile dapprhender globalementlinformation contenue. Les mthodes statistiques classiques sont insuffisantes. En effet, la statistiquedescriptive nous enseigne seulement comment dgager des pourcentages et comment reprsenter lintensitentre deux caractres, par exemple le PIB en fonction de la population dun ensemble de pays; la statistiqueinfrentielle (mathmatique), quant elle, permet destimer des paramtres de distribution ( moyenne,variance, proportion, etc.) et de vrifier la validit dhypothses, notamment si deux sries de donnescorrespondent deux caractres corrls. Toutes ces mthodes ne permettent pas dextraire lesinformations dun grand fichier, do lon veut, en dpistant des concomitances rptes, dduire les relationsstatistiques entres diverses caractristiques. Lanalyse des donnes permet des tudes globales incluanttoutes les caractristiques de ces mmes donnes ; ces tudes ont pour but de mettre en lumire les

    phnomnes importants en faisant le minimum dhypothses a priori sur les importances relatives desinformations. Aujourdhui, lanalyse des donnes est devenue un outil indispensable dans de nombreuxdomaines, par exemple laide la dcision, en finance, dans les tudes de march ou dans ltude du risque.

    Les mthodes d'Analyse de Donnes sont ranges en deux grandes familles : les mthodes d'analysefactorielle et les mthodes de classification automatique.

    Ces deux familles de mthodes ont pour objet de rsumer l'information contenue dans les donnes. Ellessont plus complmentaires que concurrentes, et peuvent avec profit tre utilises conjointement sur un mmetableau de donnes du type " individus ( objets ) x variables ( attributs )". On peut, dans certains cas,associer utilement une classification aux rsultats d'une analyse factorielle.

    Les mthodes d'analyse factorielle constituent un domaine important de l'analyse des donnes et relventde l'analyse linaire. Elles sont diverses de part leurs diffrents domaines d'applications, mais leurs arrire-plans mathmatiques sont trs proches. Les mthodes factorielles ont pour objet de rsumer l'informationapporte par un ensemble de variables, par un nombre plus restreint de variables nouvelles appeles"facteurs".

    Les mthodes de classification automatique porte sur l'ensemble des individus ( objets ) qu'il s'agit deregrouper en classes ou catgories juges les plus homognes possibles et cela au regard d'un critre.

    On distinguera les variables selon leur type : quantitatives ou qualitatives et selon leur fonction dansl'analyse : actives ou illustratives ( supplmentaires ).

  • 7/26/2019 METH Factorielles

    6/40

    M2 : ECOSMA Analyse des Donnes - 6 - R. Abdesselam

    1- Analyse en Composantes Principales

    1-1 Gnrali ts

    L'Analyse en Composantes Principales1 (ACP) est une mthode statistique exploratoire permettent unedescription essentiellement graphique de linformation contenue dans de grands tableaux de donnes. Cestaussi une mthode de structuration et de synthse de donnes numriques. Elle permet de prsenter unrsum descriptif, accompagn de reprsentations graphiques, d'un ensemble d'observations mesures surun ensemble de variables numriques. On utilisera cette mthode lorsqu'il s'agira de dcrire et de "visualiser"au mieux l'information contenue dans un tableau de donnes quantitatives o n individus ( objets ) ont tvalus en fonction de p variables ( attributs ou caractristiques ).

    L'ACP est une mthode trs efficace pour reprsenter des donnes corrles entre elles. Elle est largementutilise dans les tudes de march, dopinion et, de plus en plus, dans le domaine industriel.

    1-2 Prsen ta t io n de la mth ode

    Supposons que l'on analyse les variables PIB et Population d'un ensemble de pays. On peut construire ungraphique reprsentant les individus ( 15 pays de UE ) :

    En prsence de deux variables, il est facile de reprsenter, dans un plan , l'ensemble des donnes . L'allure

    du nuage de points permet, d'tudier l'intensit de la liaison "corrlation" entre ces deux variables, de situerles diffrents individus ( pays ) et ventuellement de les classer.

    Supposons que l'on dispose d'une troisime variable "Taux dinflation" : il devient alors difficile de tout avoirsur un graphique. Il faut recourir la perspective ou faire deux graphiques ( PIB x Population et Tauxdinflation x Population par exemple ). Rajoutons une quatrime variable Taux de croissance, voire unecinquime Taux de chmage, etc. La reprsentation graphique des donnes devient alors impossible. Orces variables sont corrles entre elles : elles sont donc partiellement redondantes.

    Question : peut-on dterminer un nombre restreint de variables, reprsentant les mmes donnes etnon corrles entre elles ?

    1Principal Component Analysis (PCA).

  • 7/26/2019 METH Factorielles

    7/40

    M2 : ECOSMA Analyse des Donnes - 7 - R. Abdesselam

    1-2 Ob jec tif de la mthod e

    L'ACP consiste synthtiser le nombre de variables observes, autrement dit elle va tenter de rsumerl'information contenue dans le tableau de donnes, en un ensemble rduit de combinaisons linaires desvariables initiales, en veillant minimiser la perte d'information du fait de cette rduction. Ces nouvellesvariables synthtiques appeles "composantes principales ou facteurs ou encore macro-caractristiques"possdent donc les proprits suivantes :

    - les composantes principales, notes ( C1, C2, ..., Cq), sont des combinaisons linaires des variables

    initiales (X1, X2, , Xp) : Cj= a1

    X1+ a2

    X2+ ... + ap

    Xp

    pour tout j = 1,q avec q p .

    - elles sont non corrles (les coefficients de corrlation linaire des composantes prises deux deux sontnuls) ce qui vite la redondance de l'information dj rsume.

    - la premire composante porte ou rsume plus d'informations que la seconde qui en porte plus que latroisime et ainsi de suite, de sorte qu'en se limitant aux 2 ou 3 premires composantes on dispose d'unbon rsum de l'information contenue dans les donnes.

    En rsum, on peut dire que lACP consiste transformer les variables initiales corrles en de nouvellesvariables, les composantes principales, combinaisons linaires des variables initiales non corrles entreelles, de variance maximale et les plus lies aux variables initiales : lACP est une mthode factoriellelinaire. Ainsi, on utilisera lACP pour faire apparatre:

    - la structuration des variables actives, cest--dire les systmes de relation qui existent entre elles ;leurs association ou leurs oppositions.

    - La rpartition des individus les uns par rapport aux autres, en relation avec les variables traites ; lesindividus qui prsentent des caractristiques communes ou antagonistes.

    A noter que lACP est une mthode essentiellement descriptive, pralable lemploi dautres mthodesstatistiques, telles que les mthodes de classification, de rgression ou encore dconomtrie.

    Moyen s mathmatiq ues

    Les outils mathmatiques utiliss sont ceux de l'algbre linaire et du calcul matriciel. Le principe est lesuivant :

    Diagonalisation

    Matrice des corrlations > Matrice des valeurs propres

    X1 X2 ... Xp C1 C2 ... CpX1 1 r12 ... r1p C1 1 0 0 0

    X2 r21 1 ... r2 C2 0 2 0 0

    ... ... ... ... ... ... 0 0 ... 0Xp rp1 rp2 ... 1 Cp 0 0 0

    ( r12= r( X1, X2) coefficient de corrlation linaire entre les variables X1et X2)

    On diagonalise la matrice des corrlations2(matrice symtrique dont les lments sont les coefficients decorrlation linaire entre les variables initiales prises deux deux) (*).

    - les vecteurs propres de cette matrice dfinissent les nouvelles variables recherches; les composantesprincipales

    - les valeurs propres associes, sont les variances des composantes principales (l'information rsume parchacune des composantes).

    - les axes factoriels sont les droites engendres par les vecteurs propres.

    On peut montrer que les composantes principales ainsi dfinies, vrifient bien les proprits recherches :non corrles entre elles, de variance dcroissante, combinaisons linaires des variables de dpart. Cettedernire proprit permet de construire des graphiques reprsentant les individus aussi bien que lesvariables dans l'espace dfini par les composantes.

    2On ne traite ici que le cas le plus courant. Le cas gnral part de la matrice des variances-covariances et d'une matrice des poids qui peutvarier. Ici on parle d'une ACP norme, les donnes sont centres et rduites pour liminer les effets de l'origine (moyennes) et des units(variances) des variables.

  • 7/26/2019 METH Factorielles

    8/40

    M2 : ECOSMA Analyse des Donnes - 8 - R. Abdesselam

    1-3 Po in ts ret eni r

    - Matrice des corrlations : fournit des lments de description des associations entre les variables actives.Sa lecture nous donne une premire ide de l'intensit de la liaison linaireentre les variables, mais l'analyse en composantes principales va permettred'obtenir une synthse de ces liaisons.

    - Somme des valeurs propres : reprsente la variance ( l'inertie, l'information ) totale rsumer . Elle est

    gale au nombre de variables dans le cas d'une ACP norme.

    - Valeur propre : la variance de la composante principale correspondante (l'information rsume par l'axefactoriel considr).

    - Pourcentage : le rapport de la valeur propre l'inertie totale, ce qui mesure la quantit de l'informationrsume par l'axe factoriel correspondant.

    Variables et ind ivid us actifs : Interp rtation intern e

    Variables act ives

    - Coordonnes : les coordonnes des variables initiales sur les axes factoriels engendrs par lescomposantes principales.

    - Corrlations variables-facteurs : coefficients de corrlations entre les variables actives initiales et lescomposantes principales; ce qui mesure la qualit de la reprsentationdes variables dans les plans factoriels.

    Indiv idus act i fs

    - Coordonnes : les coordonnes des individus sur les axes factoriels

    - Contribution : mesure la qualit de reprsentation de l'individu sur l'axe factoriel considr. C'est la partd'inertie ou d'information de l'individu la dtermination de l'axe factoriel correspondant

    - Cosinus carr : dtermine la qualit de reprsentation de l'individu sur l'axe factoriel considr. Laqualit de la reprsentation d'un individu dans un plan est dfinie par la somme des cosinus carrscorrespondant aux deux axes factoriels dfinissant le plan.

    Variab les et ind ivi du s s up plmentai res : Int erp rtatio n ex tern e

    Les lments supplmentaires ventuels ninterviennent pas dans les calculs de dtermination descomposantes principales ; par contre, ils sont trs utiles a posteriori pour enrichir linterprtation de cescomposantes.

    Var iab les supp lment air es

    On peut galement reprsenter dans l'analyse, des variables mixtes ( quantitatives et/ou qualitatives )supplmentaires ou illustratives. L'utilisation de ces variables qui n'ont pas particip la dtermination desaxes factoriels apporte des clairages diffrents, il s'agit alors d'une interprtation externe.

    - Les variables quantitatives illustratives se reprsentent aisment dans le cercle des corrlations partirde leurs corrlations avec les composantes principales.

    - Quant aux variables qualitatives, on utilise en gnral le principe barycentrique qui consiste fairefigurer le centre de gravit ( point moyen ) de chaque modalit.

    Ind ivi du s sup plmentaires

    - On peut galement projeter des individus supplmentaires, partir de leurs coordonnes relativesaux variables initiales. N'ayant pas servi la dtermination des axes, les contributions des individusillustratifs sont nulles.

  • 7/26/2019 METH Factorielles

    9/40

    M2 : ECOSMA Analyse des Donnes - 9 - R. Abdesselam

    1-4 Quali tdes reprsenta ti ons - In ter p rtati on des rsu lt ats

    Les projections sur les plans principaux sont des reprsentations dformes de la ralit et il convient deprendre des prcautions quant l'interprtation des rsultats. On peut dcomposer la lecture des rsultatsd'une ACP en plusieurs tapes qui sont les suivantes :

    - L'histogramme des valeurs propres permet de vrifier la qualit du rsum sur les diffrents axes factoriels.Le nombre d'axes retenir est un problme dlicat et qui n'a pas desolution rigoureuse.

    Il n'y a pas de rgle prcise fixant un seuil partir duquel on liminerait l'analyse ou dcidant du nombred'axes tudier ( en analyse des donnes, tout est affaire d'interprtation ). Souvent on tient compte de laforme de l'histogramme pour dterminer le nombre d'axes interprter :

    +--------+----------+----------------------------------------------------------------------------------+| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |

    | | CUMULE | 2 axes factoriels |+--------+----------+----------------------------------------------------------------------------------+| 1 | 63.03 | ******************************************************************************** || 2 | 93.23 | *************************************** || 3 | 98.54 | ******* || 4 | 100.00 | ** |+--------+----------+----------------------------------------------------------------------------------+

    +--------+----------+----------------------------------------------------------------------------------+| NUMERO | POURCENT.| HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES |

    | | CUMULE | 3 axes factoriels |

    +--------+- ---+----------------------------------------------------------------------------------+| 1 | 49.79 | ******************************************************************************** || 2 | 75.97 | ************************************** || 3 | 98.27 | ********************************* || 4 | 100.00 | ******** |+--------+----------+----------------------------------------------------------------------------------+

    Pour rester intressants, les axes doivent fournir une information plus importante que chaque variableinitiale. On peut galement retenir les axes dont le taux d'inertie (exprim en %) serait peu prs gal 100/p , o p est le nombre de variables actives initiales.

    Dans le cas d'une ACP norme, on retient les axes factoriels dont la valeur propre est suprieure un. Eneffet en donnes centres-rduites les variables initiales ont des variances gales un et on cherche descombinaisons linaires de variance maximale donc suprieures.

    - Les corrlations variables-facteurs permettent de donner un sens aux axes factoriels et de vrifier la qualit

    de reprsentation des variables dans les plans factoriels. Si unevariable n'est corrle avec aucun des axes d'un plan, on ne peutgure tenir compte de cette variable dans ce plan. On sinteressera auxcoefficients les plus forts en valeur absolue et proches de 1.

    - les valeurs-tests : Si l'on projette les modalits de variables qualitatives illustratives, les valeurs-testsconstituent un indice de la qualit de reprsentation de ces modalits sur les plansfactoriels. On considre que si la projection d'une modalit sur un axe est due auhasard, elle ralise une loi normale centre rduite. Si la valeur-test est suprieure 1.96 en valeur absolue sur au moins l'un des deux axes, on considre que cetteprojection n'est pas due au hasard et que l'on peut en tenir compte. Autrement dit, laposition de cette modalit ( catgorie ) illustrative, dans le plan factorielle, estsignificativement diffrente de l'origine.

    - les cosinus carrs : Lorsque l'on tudie la reprsentation des individus, les cosinus carrs entre individus etaxes factoriels permettent de dterminer les individus qui sont bien ou mals reprsentsdans chaque plan. Le plus simple est de fixer arbitrairement un seuil (0.4 , 0.5 ou plus)et de ne tenir compte, dans une premire phase d'interprtation, que des individus dontle cosinus carr dpasse ce seuil, avant de rintgrer progressivement les autres.

    - contribution : On retiendra que les individus dont la contribution l'axe factoriel est au moins gale lamoyenne des valeurs des contributions sur cet axe.

    - Le graphique des variables ( cercle de corrlations dans le cas d'une ACP norme ) permet de visualiserles proximits entre variables en terme de corrlation. C'est une synthsegraphique de la matrice des corrlations des variables actives : les directions

    des variables donnent le sens des corrlations. La distance par rapport aucentre du graphique visualise la qualit de reprsentation dans le plan ( plusune variable est proche du centre, plus mauvaise est sa reprsentation ).

  • 7/26/2019 METH Factorielles

    10/40

    M2 : ECOSMA Analyse des Donnes - 10 - R. Abdesselam

    - Le graphique des individus permet de visualiser les proximits entre individus qui s'interprtent en terme desimilitudes de comportement vis--vis des variables. L'tude de la forme dunuage des individus permettra de distinguer d'ventuels regroupements et dediffrencier des individus ou des groupes d'individus selon leurs rponses l'ensemble des variables actives.

    Remarques :

    La superposition de ces deux graphiques ( variables - individus ) est dnue de sens car ces nuages depoints ne font pas partie d'un mme espace. Bien quil existe une manire de reprsenter simultanment

    individus et variables appele biplot , nous prconisons de reprsenter sparment les deux ensemblespour viter des confusions.Si les graphiques sont ce que l'on regarde en premier le plus souvent, il faut tenir compte des divers

    indicateurs qui permettent d'viter les piges de l'interprtation de ce qui ne constitue qu'un rsum desdonnes.

    Rappelons que les lments supplmentaires ninterviennent pas dans les calculs de dtermination desaxes factoriels ; par contre, ils sont trs utiles a posteriori pour conforter et enrichir linterprtation de cesaxes.

    Linterprtation interne consiste tudier les rsultats en se basant sur lesvariables et les individus actifs.Ltude des lments supplmentaires se fait travers la phase dinterprtation externe.

    1.5 Exemple d 'appl ic at ion

    1.5 .1 Do nnes ( Princip aux in dic ateurs conomi qu es et finan ciers d e UE-2000 )

    On s'intrresse ici aux principaux indicateurs conomiques et financiers des 15 pays de lUnion Europenne.Source : Publication de la banque de France - 14 septembre 2001- Document disponible sur le site internet de labanque de France : (http://www.banque-France.fr/fr/stat/main.htm). En plus des variables caractristiques de lapopulation et du Produit Intrieur Brut, prsentes dans le dictionnaire des variables, on distingue deux principauxthmes ou groupes de variables continues. Le premier se rfre aux finances publiques, le second lactivit etlemploi. Le tableau suivant rsument les principales variables retenues pour donner une description densembledes caractristiques des 15 pays de lUnion Europenne.

    Dict ionn aire des variables

    ---------------------------------------------------------------------------1 . Etat membre ( 3 MODALITES )AUTR - Autre ZNEU - Zone Non Euro ZEUR - Zone Euro-EUM

    2 . Population (%) UE-2000 ( CONTINUE )POPU - Population (%) UE-2000

    3 . Produit Intrieur Brut (%) UE-2000 ( CONTINUE )PIB - Produit Intrieur Br

    ---------------------------------------------------------------------------

    Thme Finances publiques4 . Recettes totales des APU en % du PIB ( CONTINUE )

    RECE - Recettes totales des5 . Dpenses totales des APU en % du PIB ( CONTINUE )

    DEPE - Dpenses totales des APU

    6 . Solde des finances publiques en % du PIB ( CONTINUE )SDFP - Solde des finances publiques

    7 . Dette brute des APU en % du PIB ( CONTINUE )DETB - Dette brute des APU

    ---------------------------------------------------------------------------

    Thme Activit-Emploi8 . Taux de chmage en % population active ( CONTINUE )

    TCHO - Taux de chmage en %9 . Ventes au dtail en volume (%) ( CONTINUE )

    VENT - Ventes au dtail en10 . Production industrielle hors btiment ( CONTINUE )

    PIND - Production industrie

    11 . Taux de croissance en volume du PIB ( CONTINUE )TCRO - Taux de croissance e---------------------------------------------------------------------------

    http://www.banque-france.fr/fr/stat/main.htmhttp://www.banque-france.fr/fr/stat/main.htmhttp://www.banque-france.fr/fr/stat/main.htmhttp://www.banque-france.fr/fr/stat/main.htm
  • 7/26/2019 METH Factorielles

    11/40

    M2 : ECOSMA Analyse des Donnes - 11 - R. Abdesselam

    1.5 .2 Rsult at sDans cet exemple, l'objectif est de dcrire les variables du thme finances publiques-2000 de lensemble des

    15 pays de lUE. A noter qu'on a considr les variables continues du thme Activit -Emploi et la variablenominale Etat membre comme variables supplmentaires ainsi que les deux pays hors UE (Etats-Unis et Japon)comme individus supplmentaires. Les rsultats numriques et graphiques sont les suivants :

    SELECTION DES INDIVIDUS ET DES VARIABLES UTILESVARIABLES NOMINALES ILLUSTRATIVES

    1 VARIABLES 3 MODALITES ASSOCIEES-------------------------------------------------------------------------------------------------------------------------

    1 . Etat membre ( 3 MODALITES )-------------------------------------------------------------------------------------------------------------------------VARIABLES CONTINUES ACTIVES

    4 VARIABLES-------------------------------------------------------------------------------------------------------------------------

    4 . Recettes totales des APU ( CONTINUE )5 . Dpenses totales des APU ( CONTINUE )6 . Solde des finances publiques ( CONTINUE )7 . Dette brute des APU ( CONTINUE )

    -------------------------------------------------------------------------------------------------------------------------VARIABLES CONTINUES ILLUSTRATIVES

    4 VARIABLES-------------------------------------------------------------------------------------------------------------------------

    8 . Taux de chmage en % population active ( CONTINUE )9 . Ventes au dtail en volume (%) ( CONTINUE )10 . Production industrielle hors btiment ( CONTINUE )11 . Taux de croissance en volume du PIB ( CONTINUE )

    -------------------------------------------------------------------------------------------------------------------------INDIVIDUS----------------------------- NOMBRE -------------- POIDS ---------------

    POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIFRETENUS ............ NITOT = 17 PITOT = 17.000SELECTION APRES FILTRAGEACTIFS ............. NIACT = 15 PIACT = 15.000SUPPLEMENTAIRES .... NISUP = 2 PISUP = 2.000-------------------------------------------------------------------------

  • 7/26/2019 METH Factorielles

    12/40

    M2 : ECOSMA Analyse des Donnes - 12 - R. Abdesselam

    ANALYSE EN COMPOSANTES PRINCIPALESSTATISTIQUES SOMMAIRES DES VARIABLES CONTINUESEFFECTIF TOTAL : 15 POIDS TOTAL : 15.00+-------------------------------------------------------+----------------------+----------------------+| NUM . IDEN - LIBELLE EFFECTIF POIDS | MOYENNE ECART-TYPE | MINIMUM MAXIMUM |+-------------------------------------------------------+----------------------+----------------------+| 4 . RECE - Recettes totales des 15 15.00 | 45.77 5.43 | 34.70 56.80 || 5 . DEPE - Dpenses totales des 15 15.00 | 44.01 5.94 | 30.00 52.70 || 6 . SDFP - Solde des finances p 15 15.00 | 1.37 2.66 | -1.50 6.70 || 7 . DETB - Dette brute des APU 15 15.00 | 60.71 27.38 | 5.30 110.80 ||-------------------------------------------------------|----------------------|-----------------------| 8 . TCHO - Taux de chmage en % 14 14.00 | 6.53 3.45 | 2.60 14.10 || 9 . VENT - Ventes au dtail en 15 15.00 | 3.91 2.51 | -0.40 9.10 || 10 . PIND - Production industrie 15 15.00 | 5.96 3.72 | 0.00 15.40 || 11 . TCRO - Taux de croissance e 15 15.00 | 4.46 2.33 | 2.90 11.50 |+-------------------------------------------------------+----------------------+----------------------+

    MATRICE DES CORRELATIONS| RECE DEPE SDFP DETB

    -----+----------------------------RECE | 1.00DEPE | 0.89 1.00SDFP | 0.11 -0.32 1.00DETB | 0.17 0.43 -0.59 1.00-----+----------------------------

    | RECE DEPE SDFP DETB

    MATRICE DES VALEURS-TESTS| RECE DEPE SDFP DETB

    -----+----------------------------RECE | 99.99DEPE | 5.58 99.99SDFP | 0.43 -1.27 99.99DETB | 0.68 1.77 -2.64 99.99-----+----------------------------

    | RECE DEPE SDFP DETB

    VALEURS PROPRESAPERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 4.0000

    SOMME DES VALEURS PROPRES .... 4.0000HISTOGRAMME DES 4 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE ||+--------+------------+----------+----------+------------------------------------------------------------+| 1 | 2.2063 | 55.16 | 55.16 | ************************************************************| 2 | 1.3907 | 34.77 | 89.93 | ***************************************| 3 | 0.3909 | 9.77 | 99.70 | ***********| 4 | 0.0121 | 0.30 | 100.00 | *+--------+------------+----------+----------+------------------------------------------------------------+

    COORDONNEES DES VARIABLES SUR LES AXES 1 A 4VARIABLES ACTIVES----------------------------+------------------------------------+-------------------------------+-------------------------------

    VARIABLES | COORDONNEES | CORRELATIONS VARIABLE-FACTEUR | ANCIENS AXES UNITAIRES----------------------------+------------------------------------+-------------------------------+-------------------------------IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0

    ----------------------------+------------------------------------+-------------------------------+-------------------------------RECE - Recettes totales des | -0.75 -0.66 0.01 -0.07 0.00 | -0.75 -0.66 0.01 -0.07 0.00 | -0.50 -0.56 0.02 -0.66 0.00DEPE - Dpenses totales des | -0.94 -0.30 -0.15 0.08 0.00 | -0.94 -0.30 -0.15 0.08 0.00 | -0.63 -0.25 -0.23 0.69 0.00SDFP - Solde des finances p | 0.52 -0.76 0.38 0.03 0.00 | 0.52 -0.76 0.38 0.03 0.00 | 0.35 -0.65 0.61 0.29 0.00DETB - Dette brute des APU | -0.70 0.54 0.47 0.00 0.00 | -0.70 0.54 0.47 0.00 0.00 | -0.47 0.46 0.76 -0.01 0.00----------------------------+------------------------------------+-------------------------------+-------------------------------

  • 7/26/2019 METH Factorielles

    13/40

    M2 : ECOSMA Analyse des Donnes - 13 - R. Abdesselam

    Reprsent ation des variabl es activ es Finances publ iquesCercl e de cor rlat io n

    COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUSINDIVIDUS ACTIFS (AXES 1 A 4)+---------------------------------------+-------------------------------+--------------------------+--------------------------+| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES ||---------------------------------------+-------------------------------+--------------------------+--------------------------|| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+| France 6.67 3.17 | -1.48 -0.15 -0.97 0.06 0.00 | 6.7 0.1 16.0 1.8 0.0 | 0.70 0.01 0.30 0.00 0.00 || Allemagne 6.67 1.26 | -0.13 0.88 -0.63 -0.28 0.00 | 0.0 3.7 6.8 42.7 0.0 | 0.01 0.61 0.31 0.06 0.00 || Autriche 6.67 1.24 | -0.80 0.42 -0.65 0.07 0.00 | 2.0 0.8 7.1 2.8 0.0 | 0.52 0.14 0.34 0.00 0.00 || Belgique 6.67 3.91 | -1.47 0.91 0.95 0.03 0.00 | 6.6 4.0 15.5 0.6 0.0 | 0.55 0.21 0.23 0.00 0.00 || Espagne 6.67 2.53 | 0.93 1.28 -0.19 -0.04 0.00 | 2.6 7.8 0.6 1.0 0.0 | 0.34 0.64 0.01 0.00 0.00 || Finlande 6.67 5.09 | 0.61 -2.02 0.79 -0.01 0.00 | 1.1 19.6 10.7 0.0 0.0 | 0.07 0.80 0.12 0.00 0.00 || Grce 6.67 4.88 | -2.06 0.65 0.41 0.16 0.00 | 12.9 2.0 2.8 14.5 0.0 | 0.87 0.09 0.03 0.01 0.00 || Irlande 6.67 11.91 | 3.33 0.57 0.70 0.08 0.00 | 33.5 1.5 8.3 3.7 0.0 | 0.93 0.03 0.04 0.00 0.00 || Italie 6.67 3.67 | -1.14 1.18 0.97 -0.19 0.00 | 3.9 6.7 16.0 20.5 0.0 | 0.36 0.38 0.26 0.01 0.00 || Luxembourg 6.67 7.17 | 2.15 -1.54 -0.41 -0.08 0.00 | 14.0 11.4 2.9 3.2 0.0 | 0.64 0.33 0.02 0.00 0.00 |

    | Pays-bas 6.67 0.45 | 0.65 0.04 0.16 0.05 0.00 | 1.3 0.0 0.5 1.4 0.0 | 0.93 0.00 0.06 0.01 0.00 || Portugal 6.67 2.35 | 0.52 1.24 -0.73 0.09 0.00 | 0.8 7.4 9.1 4.8 0.0 | 0.11 0.66 0.23 0.00 0.00 || Danemark 6.67 3.14 | -0.92 -1.47 -0.39 0.00 0.00 | 2.6 10.3 2.5 0.0 0.0 | 0.27 0.68 0.05 0.00 0.00 || Royaume-Uni 6.67 1.86 | 1.32 0.26 -0.19 0.07 0.00 | 5.3 0.3 0.6 2.7 0.0 | 0.94 0.04 0.02 0.00 0.00 || Sude 6.67 7.36 | -1.50 -2.25 0.17 -0.02 0.00 | 6.8 24.3 0.5 0.3 0.0 | 0.31 0.69 0.00 0.00 0.00 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+

    Reprsent ation des ind ivid us actifs (pays UE-15)Premier plan princ ipal

  • 7/26/2019 METH Factorielles

    14/40

    M2 : ECOSMA Analyse des Donnes - 14 - R. Abdesselam

    VARIABLES ILLUSTRATIVES----------------------------+------------------------------------+-------------------------------+-------------------------------IDEN - LIBELLE COURT | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0----------------------------+------------------------------------+-------------------------------+-------------------------------POPU - Population (%) UE-20 | -0.14 0.42 -0.26 -0.55 0.00 | -0.14 0.42 -0.26 -0.55 0.00 |PIB - Produit Intrieur Br | -0.03 0.25 -0.33 -0.60 0.00 | -0.03 0.25 -0.33 -0.60 0.00 |TCHO - Taux de chmage en % | -0.26 0.27 0.14 -0.45 0.00 | -0.26 0.27 0.14 -0.45 0.00 |VENT - Ventes au dtail en | 0.21 -0.05 0.33 0.63 0.00 | 0.21 -0.05 0.33 0.63 0.00 |PIND - Production industrie | 0.25 -0.30 0.41 -0.04 0.00 | 0.25 -0.30 0.41 -0.04 0.00 |TCRO - Taux de croissance e | 0.76 -0.18 0.27 0.12 0.00 | 0.76 -0.18 0.27 0.12 0.00 |----------------------------+------------------------------------+-------------------------------+-------------------------------

    Reprsent ation des variabl es il lus trativ esPremier plan princ ipal

    INDIVIDUS ILLUSTRATIFS (AXES 1 A 4)+---------------------------------------+-------------------------------+--------------------------+--------------------------+| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES ||---------------------------------------+-------------------------------+--------------------------+--------------------------|| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 0 | 1 2 3 4 0 | 1 2 3 4 0 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+| Etats-Unis 6.67 12.98 | 3.02 1.84 0.68 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.70 0.26 0.04 0.00 0.00 || Japon 6.67 15.07 | -1.59 3.54 -0.11 0.11 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.17 0.83 0.00 0.00 0.00 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+COORDONNEES ET VALEURS-TEST DES MODALITES AXES 1 A 4+---------------------------------------------+-------------------------------+------------------------------------+----------+| MODALITES | VALEURS-TEST | COORDONNEES | ||---------------------------------------------|-------------------------------|------------------------------------|----------|| IDEN - LIBELLE EFF. P.ABS | 1 2 3 4 0 | 1 2 3 4 0 | DISTO. |+---------------------------------------------+-------------------------------+------------------------------------+----------+| 1 . Etat membre || AUTR - Autre 0 0.00 | 0.0 0.0 0.0 0.0 0.0 | 0.00 0.00 0.00 0.00 0.00 | 0.00 || ZNEU - Zone Non Euro 3 3.00 | -0.5 -1.8 -0.4 0.3 0.0 | -0.37 -1.15 -0.13 0.02 0.00 | 1.48 || ZEUR - Zone Euro 12 12.00 | 0.5 1.8 0.4 -0.3 0.0 | 0.09 0.29 0.03 0.00 0.00 | 0.09 |+---------------------------------------------+-------------------------------+------------------------------------+----------+

    Reprsentat ion des in divid us il lustrat i fs sur le premier p lan prin cipalModalits de la variable nominale Etat membre

  • 7/26/2019 METH Factorielles

    15/40

    M2 : ECOSMA Analyse des Donnes - 15 - R. Abdesselam

    1.5.3 Qu elq ues in ter prtat io ns des rsu ltats

    Les tableaux des statistiques sommaires et des corrlations des variables "finances publiques des 15 paysde lUE" nous fournissent les premires informations :

    - Statistiques descriptives ( moyenne, cart-type, minimum, maximum ) des variables actives et illustrativescontinues.

    - lorsque l'ordre de grandeur des variances des variables actives et/ou les units de mesure de cesvariables sont diffrentes, il est ds lors indispensable de normer les donnes cest--dire choisir uneACP norme.

    - la variable Recettes totales des APU3 est fortement corrle positivement avec la variable Dpensestotales des APU alors que la variable Solde des finances publiques est corrle ngativement avec lavariable Dette brut des APU. La matrice des valeurs-tests prsente les rsultats des tests statistiquesdes coefficients de corrlation des variables actives.

    - Seuls les deux premiers facteurs significatifs de lanalyse sont conservs. Les taux d'inertie expliquecorrespondent 55,16% et 34,77% de l'information globale reprsente respectivement par lepremier et deuxime facteur. Le plan constitu de ces deux facteurs principaux dcrit environ 90% del'information totale contenue dans les quatre variables actives initiales.

    Reprsen tatio n gr aph ique des variab les f inances publ iques:

    Le graphique "cercle de corrlations" donne une reprsentation des caractristiques finances publiquesdes 15 pays de lUE sur les deux premiers axes factoriels. Les donnes tant ici centres rduites, lescoordonnes de ces caractristiques sur les axes sont les coefficients de corrlations entre les variables etles composantes principales. Ainsi, sur le premier plan principal,

    - le premier facteur est corrl ngativement avec les dpenses, les recettes et la dette brute des APU, etpositivement avec le solde des finances publiques.

    - le deuxime facteur est significativement corrl ngativement avec le solde des finances publiques et lesrecettes, et positivement avec la dette brut des APU.

    Seule la variable illustrative "Taux de croissance en volume du PIB" du thme Activit-Emploi qui a tprojete a posteriori dans le plan factoriel, est corrle avec le premier axe factoriel.

    Reprsentation graphique des individus ( pays de lUE-15 ) :

    Linterprtation interne de la reprsentation des individus seffectue toujours partir de celle des variablesactives. Ainsi, relativement lensemble des pays de lUE et sur le premier plan factoriel,

    - le premier facteur oppose les pays dont les recettes, les dpenses et la dette brute sont leves avec unsolde des finances publiques significativement faible cest le cas de la Grce, Sude, France ou encorede la Belgique, aux pays comme lIrlande et le Luxembourg dont le solde des finances publiques est levalors que les recettes, les dpenses et la dette brute sont significativement faibles. De plus, ces pays ontplutt un taux de croissance en volume du PIB lev par rapport celui de lensemble des pays de lUE( interprtation externevariables illustratives ).

    -Quant au deuxime facteur, il oppose les pays ayant un solde des finances publiques et des recettessignificativement levs et une faible dette brute des APU ( Sude, Finlande, Luxembourg et leDanemark ), aux pays caractriss par une dette brute importante et un solde des finances publiques etdes recettes faibles cest le cas notamment de lEspagne, de lItalie et du Portugal.

    Lorigine ( fictive ) des axes reprsente un pays qui aurait pour caractristique finances publiques lamoyenne des quatre variables actives tudies.

    3APU - Administrations publiques : Ensemble des units institutionnelles dont la fonction principale est de produire des services non marchands ou deffectuerdesoprations de redistribution du revenu et des richesses nationales. Elles tirent la majeure partie de leurs ressources de contributions obligatoires. Le secteur desadministrations publiques comprend les administrations publiques centrales, les administrations publiques locales et les administrations de scurit sociale.

  • 7/26/2019 METH Factorielles

    16/40

    M2 : ECOSMA Analyse des Donnes - 16 - R. Abdesselam

    2 Analyse Factor iel le des Correspo ndanc es

    Le domaine d'application de l'Analyse Factorielle des Correspondances4 (AFC), dveloppe parBenzcri (1969), est diffrent de celui de l'ACP. Alors que cette dernire s'applique aux tableaux de mesureset au traitement de donnes quantitatives, l'AFC est une mthode adapte la description d'un tableau decont ingenceet permet d'tudier les ventuelles relations existant entre les deux var iables qual i tat ivesdece tableau.

    Le tab leau d e co ntin genc e ou de dpend anceest un tableau crois des effectifs des modalits dedeux variables qualitatives ou nominales.

    La validit de l'AFC s'tend tout tableau de donnes condition que les donnes recenses dans cetableau soient toutes posi t ives et homognes. On peut ainsi traiter des tableaux de mesures exprimesdans la mme unit, des tableaux d'changes, tableaux de notes, tableaux de rangs, etc..

    2-1 Ob jec tif de la mthod e

    Dcrire la dpendance entre deux var iables q ual i tatives ( nom inales ).

    L'observation de deux caractres qualitatifs sur un ensemble d'individus permet de construire un tableaude contingence.

    Par exemple, pour les 81491 crateurs-repreneurs dentreprises, cres ou reprises au cours du

    premier semestre 1994 ( Source : Insee - Les Crations dentreprises du premier semestre 1994 - Systmeproductif n97-98 - mars 96 ), si on veut dcrire les ventuels liens entre les secteurs d'activits et lesqualifications professionnelles du dernier emploi, le tableau ci-dessous donne la rpartition des 81491crateurs-repreneurs dentreprises selon ces deux caractres.

    Secteur Qual i f icat ion profess ionnel le du dernier emplo i

    dactivit A.C.C.Entps. Cadre P.Intermd Employ Ouvrier E.S.Qualif Total

    I.Agro.Alimentaire 291 129 112 508 529 148 1717

    Industrie 1109 1250 773 1528 1195 570 6425

    Construction 1186 1011 1011 1956 4482 1107 10753

    Commerce 4865 4316 3316 7927 3275 3928 27627

    Transport 401 337 256 1247 557 312 3110

    H.C.Restaurants 1374 684 528 3095 859 1083 7623

    Serv. Entreprises 2833 5382 1654 3179 387 1670 15105

    Serv. Mnages 1306 1117 1655 3265 560 1228 9131

    Total 13365 14226 9305 22705 11844 10046 81491

    Tableau de contingence

    Peut-on donner une rponse graphique la question : Est-il raisonnable de penser qu'il existe uneliaison ( correspondance ) entre les secteurs d'activits des entreprises cres-reprises et la qualificationprofessionnelle du crateur-repreneur ?

    Remarquons tout d'abord qu'un tableau de contingence peut se lire de deux manires diffrentes : selonses lignes ou selon ses colonnes. On peut rpondre la question pose en appliquant les principes del'Analyse en Composantes Principales. L'AFC se prsente alors comme 2 ACP particulires selon que l'on

    s'intresse aux lignes ( secteurs dactivits ) ou aux colonnes (qualification professionnelle) du tableau de contingence.

    2.1.1 Prem ire an aly se :ACP des profils-lignes ( secteurs dactivits )

    Si on s'intresse aux secteurs dactivits des entreprises cres-reprises, on construit le tableau desprofils-lignes en ramenant le total ligne du tableau de contingence 1 (100%), on vite ainsi les effets demarges. On dtermine ainsi pour chaque secteur dactivit la rpartition des crateurs -repreneurs selon laqualification professionnelle de leur dernier emploi. Par exemple, cest dans le secteur de la construction queles ouvriers (41.68%) ont cr ou repris le plus dentreprises que tous les autres ou encore ce sont lescadres (9.40%) qui ont cr ou repris le moins dentreprises dans ce secteur (interprtation par rapport auprofil moyen : tous secteurs dactivits confondus).

    4Factorial Correspondence Analysis (FCA).

  • 7/26/2019 METH Factorielles

    17/40

    M2 : ECOSMA Analyse des Donnes - 17 - R. Abdesselam

    Secteur Qual i f icat ion professio nnel le du dernier emplo i

    Act iv i t A.C.C.Entps. Cadre P.Intermd Employ Ouvrier E.S.Qualif Total

    I.Agro.Alimentaire 16.95 7.51 6.52 29.59 30.81 8.62 100

    Industrie 17.26 19.46 12.03 23.78 18.60 8.87 100

    Construction 11.03 9.40 9.40 18.19 41.68 10.29 100

    Commerce 17.61 15.62 12.00 28.69 11.85 14.22 100

    Transport 12.89 10.84 8.23 40.10 17.91 10.03 100

    H.C.Restaurants 18.02 8.97 6.93 40.60 11.27 14.21 100

    Serv. Entreprises 18.76 35.63 10.95 21.05 2.56 11.06 100

    Serv. Mnages 14.30 12.23 18.13 35.76 6.13 13.45 100

    Profil moyen 16.40 17.46 11.42 27.86 14.53 12.33

    Tableau des profils-lignes (%)

    Nous allons considrer les lignes de ce tableau comme des individus et les colonnes comme descaractres. On fait ensuite l'ACP de ce tableau avec une mtrique particulire, (mtrique du Khi) pourcalculer les distances entre profils, et des poids proportionnels aux effectifs des lignes. Cela revient en fait procder comme pour l'ACP norme en remplaant la matrice des coefficients de corrlation linaire par unematrice adapte aux caractres qualitatifs. On obtient ainsi une analyse et des reprsentations graphiquesdes secteurs dactivits dans des plans factoriels appropris.

    2.1.2 Deuxime analy se : ACP des profils-colonnes ( qualification professionnelle )

    Si on veut s'intresser aux qualifications professionnelles des crateurs-repreneurs, on construit letableau des profils-colonnes en ramenant le total colonne du tableau de contingence 1 (100%).

    Secteur Qual i f icat ion professio nnel le du dernier emplo i profil

    Act iv i t A.C.C.Entps. Cadre P.Intermd Employ Ouvrier E.S.Qualif moyen

    I.Agro.Alimentaire 2.18 0.91 1.20 2.24 4.67 1.47 2.11

    Industrie 8.30 8.79 8.31 6.73 10.09 5.67 7.88

    Construction 8.87 7.11 10.87 8.61 37.84 11.02 13.20

    Commerce 36.40 30.34 35.64 34.91 27.65 39.10 33.90

    Transport 3.00 2.37 2.75 5.49 4.70 3.11 3.82

    H.C.Restaurants 10.28 4.81 5.67 13.63 7.25 10.78 9.35

    Serv. Entreprises 21.20 37.83 17.77 14.00 3.27 16.62 18.54

    Serv. Mnages 9.77 7.85 17.79 14.38 4.73 12.22 11.20

    Total 100 100 100 100 100 100 100

    Tableau des profils-colonnes (%)

    On peut ainsi savoir pour chaque catgorie professionnelle comment se rpartissent les secteursdactivits des entreprises cres-reprises. Ainsi, on constate que les cadres ont cr ou repris plusdentreprises dans les secteurs des services aux entreprises (37.83%) et de lindustrie (8.79%), et moinsdans les autres secteurs (interprtation par rapport au profil moyen : toutes qualifications confondues).

    On procde de la mme faon avec le tableau des profils-colonnes en prenant les colonnes pourindividus et les lignes pour caractres. On obtient ainsi une analyse et une reprsentation graphique desqualifications professionnelles.

    Remarques :

    1- La mise en correspondance et le rle symtrique que fait jouer la mtrique du Khi pour les modalitslignes et colonnes du tableau de contingence, fait que l'ACP des profils-lignes est quivalente l'ACPdes profils-colonnes : les composantes principales d'une analyse se dduisent de celles de l'autre et lesvaleurs propres des deux analyses sont identiques.

    2- Le nombre d'axes factoriels est toujours infrieur ou gal au min(p-1 , q-1) o p et q sont les nombres demodalits des deux caractres qualitatifs.

    3- Dans la pratique, on effectue qu'une seule des 2 ACP, les rsultats de l'autre analyse se dduisent pardes formules de transition. Il est possible de superposer les graphiques (moyennant un changementd'chelle) des 2 ACP pour visualiser, dans les plans factoriels, les liaisons entre les profils-lignes et lesprofils-colonnes ( reprsentation simultane ).

    4- Les principes de reprsentation et les indices de qualit associs dans le cadre de l'Analyse enComposantes Principales restent inchangs.

  • 7/26/2019 METH Factorielles

    18/40

    M2 : ECOSMA Analyse des Donnes - 18 - R. Abdesselam

    2.2 Exemple - Rsu lt ats

    2.2.1 Donnes( L es cration s-repri ses d'entr epris es )

    Enqute ralise par l'Insee auprs de 81491 crateurs-repreneurs d'entreprises au cours du premiersemestre 1991. Nous avons soumis l'analyse des correspondances le tableau de contingence donnant laqualification professionnelle et le secteur d'activit des 81491 crateurs-repreneurs d'entreprises.

    2.2.2 In ter prtat io n de qu elq ues rsu lta ts

    Les rsultats et les rgles de lecture des reprsentations graphiques de cette mthode demandent treinterprts avec prudence.

    Les deux tableaux de profils permettent de rpondre aux questions suivantes :

    Tableau d es pro f i ls-l ignes :"Quelle est la qualification professionnelle du dernier emploi du crateur ou

    repreneur de chaque secteur d'activit ?

    Tableau des prof i ls-colon nes : "Quel est le secteur d'activit des entreprises cres ou reprises parchaque qualification professionnelle ?

    La proximit entre deux points "secteur d'activit" signifiera une similitude des profils "qualificationprofessionnelle. Il en est ainsi pour les htels-cafs-restaurants et les services aux mnages, par exemple(cf. tableau des profils-lignes).

    La proximit entre deux points "qualification professionnelle" signifiera une similitude des profils "secteurd'activit". C'est ce que l'on constate pour les professions intermdiaires et les artisans-commerants-chefsd'entreprise (cf. tableau des profils-colonnes).

    La proximit entre les htels-cafs-restaurants et les services aux mnages s'explique notamment par lefait que dans ces deux secteurs, la proportion d'entreprises cres ou reprises par les employs (13.63% ,

  • 7/26/2019 METH Factorielles

    19/40

    M2 : ECOSMA Analyse des Donnes - 19 - R. Abdesselam

    14.38%) est suprieure la moyenne (9.35% , 11.20%), et une proportion d'entreprises cres ou reprisespar les cadres (4.81% , 7.85%) infrieure la moyenne.

    Enfin, on notera que les proximits entre profils s'interprtent toujours par rfrence au profil moyen, etque les proximits les plus aises interprter se situent toujours la priphrie du graphique.

    Anal ys e de la dpen dan ce

    LAnalyse Factorielle des Correspondances (AFC) de la table de contingence conduit cinq axes

    factoriels reprsentant toute linformation rsumer cest--dire lassociation symtrique, entre lesqualifications professionnelles et les secteurs dactivit des crateurs et repreneurs dentreprises, mesure

    par le phi-deux de Pearson ( = 0.1794).

    Dans le cas de lindpendance des deux variables, hypothse dindpendance des lignes et des colonnes dutableau de contingence ci-dessous, la mesure de lassociation serait une ralisation dun khi-deux de

    Pearson 35 degrs de libert ( KHI2 = 14619.49 ), not calcul , dont la relation est = calcul/ n, on = 81491 entreprises dsigne la taille de lchantillon. Lhypothse dindpendance est videmment rejetevu que PROBA ( KHI2 > 14619.49 ) = 0.0001 < 5% (risque derreur) .

    EDITION DU TABLEAU CROISETABLEAU 1 EN LIGNE : Secteur dactivit POIDS TOTAL : 81491

    EN COLONNE : Qualification professionnelle du dernier emploi

    POIDS | A.C.C.Entps. | Cadre | P.Intermdia | Employ | Ouvrier | E.S.Qualific | ENSEMBLE% COLONNE | | | | | | |

    % LIGNE | | | | | | |---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

    | 291 | 129 | 112 | 508 | 529 | 148 | 1717I.Agro.Alimentaire | 2.18 | 0.91 | 1.20 | 2.24 | 4.67 | 1.47 | 2.11

    | 16.95 | 7.51 | 6.52 | 29.59 | 30.81 | 8.62 | 100.00---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

    | 1109 | 1250 | 773 | 1528 | 1195 | 570 | 6425Industrie | 8.30 | 8.79 | 8.31 | 6.73 | 10.09 | 5.67 | 1 7.88

    | 17.26 | 19.46 | 12.03 | 23.78 | 18.60 | 8.87 | 100.00---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

    | 1186 | 1011 | 1011 | 1956 | 4482 | 1107 | 10753Construction | 8.87 | 7.11 | 10.87 | 8.61 | 37.84 | 11.02 | 13.20

    | 11.03 | 9.40 | 9.40 | 18.19 | 41.68 | 10.29 | 100.00---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

    | 4865 | 4316 | 3316 | 7927 | 3275 | 3928 | 27627Commerce | 36.40 | 30.34 | 35.64 | 34.91 | 27.65 | 39.10 | 33.90

    | 17.61 | 15.62 | 12.00 | 28.69 | 11.85 | 14.22 | 100.00---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------

    | 401 | 337 | 256 | 1247 | 557 | 312 | 3110Transport | 3.00 | 2.37 | 2.75 | 5.49 | 4.70 | 3.11 | 3.82

    | 12.89 | 10.84 | 8.23 | 40.10 | 17.91 | 10.03 | 100.00---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------| 1374 | 684 | 528 | 3095 | 859 | 1083 | 7623

    H.C.Restaurants | 10.28 | 4.81 | 5.67 | 13.63 | 7.25 | 10.78 | 9.35| 18.02 | 8.97 | 6.93 | 40.60 | 11.27 | 14.21 | 100.00

    ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------| 2833 | 5382 | 1654 | 3179 | 387 | 1670 | 15105

    Serv. Entreprises | 21.20 | 37.83 | 17.77 | 14.00 | 3.27 | 16.62 | 18.54| 18.76 | 35.63 | 10.95 | 21.05 | 2.56 | 11.06 | 100.00

    ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------| 1306 | 1117 | 1655 | 3265 | 560 | 1228 | 9131

    Serv. Menages | 9.77 | 7.85 | 17.79 | 14.38 | 4.73 | 12.22 | 11.20| 14.30 | 12.23 | 18.13 | 35.76 | 6.13 | 13.45 | 100.00

    ---------------------+--------------+--------------+--------------+--------------+--------------+--------------+--------------| 13365 | 14226 | 9305 | 22705 | 11844 | 10046 | 81491

    ENSEMBLE | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00 | 100.00| 16.40 | 17.46 | 11.42 | 27.86 | 14.53 | 12.33 | 100.00

    ------------------------------------------------------------------------------------------------------------

    KHI2 = 14619.49 / 35 DEGRES DE LIBERTE / 0 EFFECTIFS THEORIQUES INFERIEURS A 5PROBA ( KHI2 > 14619.49 ) = 0.000 / V.TEST = 99.10------------------------------------------------------------------------------------------------------------

    ANALYSE DES CORRESPONDANCES BINAIRESVALEURS PROPRESAPERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 0.1794

    SOMME DES VALEURS PROPRES .... 0.1794HISTOGRAMME DES 5 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 0.1244 | 69.33 | 69.33 | ******************************************************************************** || 2 | 0.0442 | 24.65 | 93.97 | ***************************** || 3 | 0.0075 | 4.19 | 98.16 | ***** || 4 | 0.0025 | 1.41 | 99.57 | ** || 5 | 0.0008 | 0.43 | 100.00 | * |+--------+------------+----------+----------+----------------------------------------------------------------------------------+

  • 7/26/2019 METH Factorielles

    20/40

    M2 : ECOSMA Analyse des Donnes - 20 - R. Abdesselam

    COORDONNEES, CONTRIBUTIONS DES FREQUENCES SUR LES AXES 1 A 5FREQUENCES ACTIVES+------------------------------------------+-------------------------------+--------------------------+--------------------------+| FREQUENCES | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES ||------------------------------------------+-------------------------------+--------------------------+--------------------------|| IDEN - LIBELLE COURT P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |+------------------------------------------+-------------------------------+--------------------------+--------------------------+| ACCE - A.C.C.ENTREPRISE 16.40 0.02 | 0.13 0.00 0.06 0.06 0.05 | 2.1 0.0 6.6 20.5 54.4 | 0.64 0.00 0.12 0.13 0.10 || CADR - CADRES 17.46 0.28 | 0.39 0.36 0.02 -0.03 -0.01 | 21.1 49.8 1.3 5.8 4.5 | 0.54 0.45 0.00 0.00 0.00 || PINT - PROF.INTERMEDIAIRE 11.42 0.07 | 0.09 -0.06 -0.23 -0.02 0.02 | 0.7 0.8 82.3 1.3 3.4 | 0.12 0.05 0.83 0.00 0.00 || EMPL - EMPLOYES 27.86 0.06 | 0.04 -0.24 0.05 -0.05 -0.01 | 0.4 36.7 9.3 24.7 1.1 | 0.03 0.90 0.04 0.03 0.00 || OUVR - OUVRIERS 14.53 0.67 | -0.80 0.17 0.01 -0.01 0.00 | 75.4 9.5 0.1 0.4 0.0 | 0.96 0.04 0.00 0.00 0.00 || ESQU - E.SQUALIFICATION 12.33 0.03 | 0.05 -0.11 -0.01 0.10 -0.05 | 0.2 3.2 0.3 47.3 36.6 | 0.09 0.44 0.01 0.37 0.09 |+------------------------------------------+-------------------------------+--------------------------+--------------------------+

    COORDONNEES, CONTRIBUTIONS ET COSINUS CARRES DES INDIVIDUSAXES 1 A 5+---------------------------------------+-------------------------------+--------------------------+--------------------------+| INDIVIDUS | COORDONNEES | CONTRIBUTIONS | COSINUS CARRES ||---------------------------------------+-------------------------------+--------------------------+--------------------------|| IDENTIFICATEUR P.REL DISTO | 1 2 3 4 5 | 1 2 3 4 5 | 1 2 3 4 5 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+| IAAlimentaire 2.11 0.27 | -0.49 -0.02 0.14 -0.04 0.09 | 4.1 0.0 5.4 1.1 21.5 | 0.89 0.00 0.07 0.00 0.03 || Industrie 7.88 0.03 | -0.08 0.13 -0.02 -0.04 0.07 | 0.4 3.0 0.4 5.0 57.7 | 0.19 0.56 0.01 0.05 0.19 || Construction 13.20 0.60 | -0.75 0.21 -0.03 0.00 -0.02 | 59.1 13.2 1.5 0.0 9.9 | 0.92 0.07 0.00 0.00 0.00 || Commerce 33.90 0.01 | 0.05 -0.07 -0.01 0.06 0.00 | 0.7 4.1 0.9 41.6 0.1 | 0.23 0.48 0.02 0.28 0.00 || Transport 3.82 0.11 | -0.16 -0.20 0.12 -0.16 -0.03 | 0.8 3.6 7.6 36.7 5.5 | 0.23 0.39 0.14 0.23 0.01 || HCRestaurants 9.35 0.13 | -0.01 -0.31 0.17 0.00 -0.01 | 0.0 20.8 38.0 0.1 0.7 | 0.00 0.76 0.24 0.00 0.00 || S.Entreprises 18.54 0.31 | 0.47 0.30 0.03 -0.02 -0.01 | 32.8 36.7 2.1 2.3 4.0 | 0.71 0.28 0.00 0.00 0.00 || S.Mnages 11.20 0.13 | 0.15 -0.27 -0.17 -0.05 -0.01 | 2.2 18.5 44.1 13.3 0.6 | 0.18 0.56 0.23 0.02 0.00 |+---------------------------------------+-------------------------------+--------------------------+--------------------------+

    Crateurs / Repreneurs dentreprisesQualif icat ion Activit de lentreprise

    Reprsentation de lassociation Premier plan principal

    Reprsen tatio n graph iqu e

    La dpendance entre le secteur d'activit et la qualification professionnelle du dernier emploi peut tredcrite par le premier plan principal qui rsume environ 94% de l'information globale.

    - Le premier axe oppose les secteurs de la construction et de l'industrie agroalimentaire, caractristiquesdes ouvriers, au secteur des services aux entreprises reprsentatif des cadres.

    - Quant au deuxime axe, il oppose les employs qui ont le plus cr ou repris d'entreprises dans lesservices aux mnages et les htels-cafs-restaurants, aux cadres qui caractrisent les entreprisescres ou reprises dans le secteur des services auprs des entreprises.

    Enfin, pour viter des interprtations abusives de proximits graphiques illusoires, comme en Analyse enComposantes Principales, il est recommand de consulter le tableau des contributions "contributionsabsolues" et le tableau des cosinus carrs des angles entre les points et avec les axes factoriels"contributions relatives".

  • 7/26/2019 METH Factorielles

    21/40

    M2 : ECOSMA Analyse des Donnes - 21 - R. Abdesselam

    3 Analyse Factoriel le des Correspond ances Mult iples

    L'analyse de plus de deux variables qualitatives s'effectue l'aide d'une extension de l'AFC que l'onappelle Analyse Factorielle des Correspondances Multiples5(AFCM ou ACM). C'est l'une des mthodes lesplus utilises en analyse des donnes, ses principaux domaines d'applications sont le traitement desquestionnaires et l'exploitation des enqutes par sondages.

    Du point de vue de l'analyse des donnes une variable qualitative est une question; ses modalits sontles diffrentes rponses possibles. Les variables utilises sont ncessairement qualitatives. Cependant, il esttoujours possible de transformer une variable quantitative en une variable qualitative ordinale ( classes

    d'ges, tranches de salaires, etc. ). Il est possible de positionner des variables continues en lmentsupp lmen tai re( sans transformation au pralable en variable qualitative par dcoupage en classes ).

    3.1 Ob jec ti f d e la mthod e

    Dcrire et tudier les liaisons entre plusieurs var iables q ual i tat ives.

    L'AFCM consiste effectuer une Analyse Factorielle des Correspondances sur un tableau disjonctifcomplet ( logique ) ou un tableau de Burt.

    Le tableau de Burt est calcul directement partir du codage condens ou disjonctif complet. On trouvedans ce tableau tous les tableaux de contingence croisant les variables deux deux. Sur la diagonale setrouvent les variables croises avec elles-mmes, et donc les effectifs correspondant chaque modalit. Par

    exemple, dans l'enqute portant sur les crations d'entreprises au cours du premier semestre 1991, on arelev six variables qualitatives ( questions ) totalisant 29 modalits.

    ( Source : Insee - Les Crations dentreprises du 1ersemestre 1994 - Systme productif n97-98 - mars 96 ).

    Tableau disjon ct i f com plet (logiq ue) :

    Individu -25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.mna

    I001 1 0 0 0 1 0 0 0 0 1I002 0 1 0 0 0 0 0 1 0 0

    .... .. .. .. .. .. .. .. .. .. ..I81491 0 0 1 0 0 1 0 0 1 0

    Tableau de Bur t :

    -25 ans 25-39 40ans+ homme femme ... ... ... s.entps s.mna

    -25ans 7019 0 0 4778 2241 ... ... ... 749 110325-39 0 42678 0 30307 12371 ... ... ... 7900 5069

    40ans+ 31794 21657 10137 ... ... 6456 2959

    homme 56742 0 ... ... ... 10572 4536femme 24749 ... ... ... 4533 4595

    ... ... ... ... ... ...

    ... ... ...

    ... ... ...

    ... 0 0s.entps 15105 0s.mna 9131

    On peut montrer que les rsultats de l'AFCM obtenus partir d'un tableau disjonctif ou d'un tableau de Burt,considr comme un tableau de donnes, sont quivalents. Pour des raisons videntes d'conomie decalcul, les logiciels utilisent gnralement le tableau de Burt.

    5Multiple Factorial Correspondence Analysis (MCA).

  • 7/26/2019 METH Factorielles

    22/40

    M2 : ECOSMA Analyse des Donnes - 22 - R. Abdesselam

    3.2 Exemple - Rsu lt ats

    3.2.1 Donnes( Source : Insee - Les Crations dentreprises du premier semestre 1994 - Systme productif n97-98 - mars 96 ).

    Enqute ralise par l'Insee auprs de 81491 crateurs-repreneurs d'entreprises au cours du premiersemestre 1991. Nous avons soumis l'analyse des correspondances multiples six variables qualitatives( questions ), quatre actives et deux illustratives, totalisant 29 modalits (19 actives et 10 illustratives).

    Variables act ives :

    Class es d'ge des crateur s-rep reneur s( moins de 25 ans, entre 25 et 39 ans, 40 ans et plus )Sexe( homme, femme )

    Qual i f icat ion p rofessionn el le ( artisan/commerant/chef entreprise, cadre, prof.intermdiaire, employ,ouvrier, tudiant/sans qualification )

    Dip lme le p lu s lev( pas diplme/cep, bepc, cap/bep, bac technique, bac gnral, bts/dut,deug/quivalent, bac+3 et plus )

    Variables i l lustrat ives :

    Si tu ati on pralab le( actif, chmeur/non actif )Sec teu rs d'a ct iv its( industrie agro-alimentaire, industrie, construction, commerce, transport,

    htel/caf/restaurant, services aux entreprises, services aux mnages )

    Les variables actives utilises dans cet exemple reprsentent la signaltique des crateurs-repreneursd'entreprises ( classes d'ges, sexe, qualification professionnelle, diplme le plus lev ). En gnral, ces

    questions dcrivent plus ou moins objectivement les crateurs-repreneurs. Les deux autres variables (situation pralable, secteurs d'activits des entreprises cres ou reprises ), constituant le sujet mme del'enqute, sont reprsents en lments supplmentaires ou illustratifs.

  • 7/26/2019 METH Factorielles

    23/40

    M2 : ECOSMA Analyse des Donnes - 23 - R. Abdesselam

    Remarques :

    - Il serait maladroit de mlanger, par exemple, des informations de type socio-conomique ( ge, sexe,profession, etc. ) et des opinions ou des comportements. Comment interprterait-on alors la proximit entredeux individus ? Si deux individus sont loigns, est-ce cause de leurs opinions diffrentes ou parce qu'ilsont des profils socio-conomiques opposs ?

    - On notera que l'analyse exploratoire met en jeu de faon essentielle les dpendances entre lesquestions actives. Par contre les variables illustratives ( qualitatives ou quantitatives ) sont introduites l'uneaprs l'autre, sans tenir compte de leur ventuelle dpendance.

    3.3.2 Rsu ltats et in ter p rtat io n

    ANALYSE DES CORRESPONDANCES BINAIRESVALEURS PROPRESAPERCU DE LA PRECISION DES CALCULS : TRACE AVANT DIAGONALISATION .. 1.0011

    SOMME DES VALEURS PROPRES .... 1.0011

    HISTOGRAMME DES 15 PREMIERES VALEURS PROPRES+--------+------------+----------+----------+----------------------------------------------------------------------------------+| NUMERO | VALEUR | POURCENT.| POURCENT.| || | PROPRE | | CUMULE | |+--------+------------+----------+----------+----------------------------------------------------------------------------------+| 1 | 0.1463 | 14.61 | 14.61 | ******************************************************************************** || 2 | 0.1232 | 12.31 | 26.92 | ************************************************************************** || 3 | 0.0883 | 9.82 | 36.74 | *************************************************************** || 4 | 0.0832 | 8.31 | 45.05 | *********************************************************** || 5 | 0.0708 | 7.07 | 52.12 | *************************************************** || 6 | 0.0644 | 6.43 | 58.55 | ************************************************* || 7 | 0.0627 | 6.26 | 64.82 | ************************************************ || 8 | 0.0625 | 6.25 | 71.06 | *********************************************** || 9 | 0.0587 | 5.86 | 76.92 | ********************************************** || 10 | 0.0563 | 5.62 | 82.55 | ********************************************* || 11 | 0.0507 | 5.06 | 87.61 | **************************************** || 12 | 0.0477 | 4.77 | 92.37 | ***************************** || 13 | 0.0362 | 3.61 | 95.99 | *********************** || 14 | 0.0252 | 2.52 | 98.51 | ***************** || 15 | 0.0149 | 1.49 | 100.00 | *********** |+--------+------------+----------+----------+----------------------------------------------------------------------------------+

    Compte tenu de la nature particulire du tableau disjonctif qui conduit un nuage trs parpill, lespourcentages d'information apports par chaque axe sont en gnral trs faibles ce qui surprend lenophyte. Il n'y a l rien d'inquitant mais cela rend un peu plus dlicat le choix du nombre pertinent d'axesfactoriels retenir.

    Les rgles de lecture sont semblables celles de l'AFC. Seuls les calculs de contributions cumules pourles modalits de chaque question active ont t ajouts.

    Daprs les rsultats graphiques et numriques prcdents, on interprtera lanalyse des deux premiersfacteurs en saidant des tableaux des contributions et des cosinus carrs.

    Le premier plan factoriel rsume environ 27% de la dpendance entre les caractres signaltiques descrateurs-repreneurs, elle peut tre interprte de la faon suivante :

    - Le premier axe caractrise surtout la qualification professionnelle du dernier emploi des crateurs-repreneurs ainsi que leurs diplmes, il oppose les jeunes ouvriers et employs d'un niveau CAP/BEP, auxcadres artisans-commerants et chefs d'entreprise plus gs et plus diplms (DEUG et BAC+3).

    - Le deuxime axe caractrise davantage la qualification professionnelle du dernier emploi ainsi que le sexedes crateurs-repreneurs. Il oppose les femmes tudiantes ou sans qualification d'un niveau BAC gnralaux ouvriers diplms d'un CAP/BEP.

    Le deuxime graphique montre la projection des modalits de rponses des deux caractres illustratifssur le premier plan principal de lanalyse de la signaltique des crateurs-repreneurs d'entreprises. Pourlinterprtation des modalits de ces caractres, on saidera du tableau des valeurs-test. Ainsi,

    - Le premier axe oppose donc les jeunes ouvriers et employs d'un niveau CAP/BEP qui taient inactifs ouchmeurs et qui ont cr ou repris des entreprises dans les secteurs de l'industrie agroalimentaire, destransports et des htels-cafs-restaurants, aux cadres artisans-commerants et chefs d'entreprise plusgs et plus diplms (DEUG, BAC+3) qui taient actifs et qui ont cr ou repris dans le secteur desservices aux entreprises.

    - Le deuxime axe oppose les femmes tudiantes ou sans qualification d'un niveau BAC gnral, qui ontcr ou repris des entreprises de services aux mnages, aux ouvriers diplms d'un CAP/BEP, qui ont crou repris des entreprises dans les secteurs de la construction et de l'industrie.

  • 7/26/2019 METH Factorielles

    24/40

    M2 : ECOSMA Analyse des Donnes - 24 - R. Abdesselam

    4 Analyse Factoriel le Discrim inante

    L'Analyse Factorielle Discriminante6 (AFD) et les techniques associes ont pris une grande importanceces dernires annes. Appliques essentiellement dans le domaine mdical pour laide au diagnostic, ellessont maintenant utilises dans des domaines trs varis : en conomie, en reconnaissance des formes, dansles banques et les assurances avec les techniques de scoring, dans le domaine biomdical, du managementpour dcider de l'avenir d'une entreprise en fonction de ses diverses mesures comptables, de la vente pourslectionner les clients potentiels les plus intressants, etc.

    Lobjectif de lanalyse discriminante dite dcisionnelle est de dfinir une rgle permettant de classer unindividu dans un groupe particulier, parmi les groupes possibles. Cette affectation un groupe donn se faitsur la base des caractristiques (variables) observes sur cet individu. Elle permet aussi de mettre envidence les liaisons existant entre un caractre qualitatif expliquer ( discriminer) et un ensemble decaractres explicatifs quantitatifs (discriminants).

    En analyse discriminante, on distingue a priori deux ou plusieurs groupes dindividus sur lesquels onmesure un ensemble de caractres communs. Lanalyse va alors chercher mettre en vidence ce quidiffrencie ces groupes.

    4.1 Ob jec ti f d e la mthod e

    En ralit, le but prcis de lanalyse discriminante dpend du contexte. Dans la plupart des cas, laspectdiagnostic est essentiel. On vise avant tout une bonne prdiction des groupes a priori. La bonne affectation,

    dans le futur, dindividus de provenance inconnue est le but principal. Elle se diffrencie des mthodes declassification7, dans la mesure o les classes (groupes) sont dfinies au dpart de lanalyse. On distinguedonc deux objectifs pour l'analyse discriminante :

    - Object i f descr ipt i f :rechercher quels sont les caractres qui permettent de sparer le mieux possibleles classes (groupes) d'individus et donner des reprsentations graphiques qui rendent compte au mieuxde cette sparation.

    - Obj ect if dcisi on ne l : Un nouvel individu (anonyme) se prsente, pour lequel on ne connat que lesvaleurs des caractres descriptifs discriminants, il s'agit alors de dcider dans quelle classe il fautl'affecter.

    L'analyse discriminante tente alors de rsoudre le problme de l'affectation une classe d'un individucaractris par de nombreux caractres explicatifs. Les fonctions linaires discriminantes seront les

    combinaisons linaires de ces caractres, dont les valeurs sparent au mieux des classes connues a priori.Par exemple, certains rsultats raliss sur un ensemble d'entreprises caractris par une srie de

    mesures comptables (C.A., diffrents ratios, frais de publicit, etc.) et dont on connat leur situation actuelle(bonne, stable, critique), on se propose de "prdire" (ou de dcider) l'avenir d'une nouvelle entrepriseconnaissant ses rsultats sur le mme ensemble de mesures comptables.

    A partir de ces informations, l'analyse discriminante va prvoir la situation la plus probable de cettenouvelle entreprise.

    Exemple :Caractristiques de 200 entreprises.

    Le caractre qualitatif discriminer "Situation de l'entreprise" comprend ici trois modalits (bonne, stable,critique) et les caractres explicatifs quantitatifs sont les mesures comptables : Chiffre daffaires annuel

    (M.F.), nombre de Salaris, nombre de points de Vente, ..., frais de Publicit (M.F.).

    Caractres explicatifs Caractre expliquerMesures comptables Situation de lentreprise

    Ets C.A. S V P Bonne Stable Critique Classe

    E001 6860 325 152 414 1 0 0 1E002 2925 353 117 234 0 0 1 3

    ... ... ... ... ... ... ... ... ...E200 5775 412 124 295 0 1 0 2

    Tableau des donnes

    Le tableau ci-dessous contient les valeurs moyennes des mesures comptables des 200 entreprises sur

    chacune des trois situations.

    6Factorial Discriminant Analysis (FDA, descriptive discriminant analysis, canonical variate analysis).7Cluster analysis, classification.

  • 7/26/2019 METH Factorielles

    25/40

    M2 : ECOSMA Analyse des Donnes - 25 - R. Abdesselam

    Mesures comptables

    Classes C.A. S V P Effectif Poids

    Bonne 5465 330 346 396 66 0.330Stable 4325 341 219 127 84 0.420

    Critique 3675 326 182 221 50 0.250

    Tableau des centres des classes

    Ainsi, d'un point de vue de la discrimination, l'analyse factorielle discriminante, en dcrivant l'chantillond'apprentissage compos de 200 entreprises, permet de rpondre aux questions pralables suivantes :

    - Est-il possible de raliser la discrimination partir des caractres descriptifs (mesures comptables)choisis ?

    - Comment se comportent les caractres descriptifs vis--vis des trois classes discriminer ?- Quelles sont les caractres ou les groupes de caractres les plus discriminants ?

    Peut-on donner une rponse graphique la question : Dans quelle mesure la situation d'une entreprisedpend-t-elle des mesures comptables ?

    0n peut rpondre la question pose en appliquant les principes de l'Analyse en ComposantesPrincipales au tableau des centres des classes. l'AFD se prsente alors comme une ACP particulire.

    4.2 Analyse en Composantes Princ ipales des centres des classes :

    On considre alors les centres des classes comme des individus et les colonnes comme des variables.On fait ensuite l'ACP de ce tableau avec une mtrique particulire, (distance de Mahalanobis) pour calculerles proximits entre les centres des classes, et des poids proportionnels aux effectifs des classes. On obtientainsi, une analyse et des reprsentations graphiques sur des plans factoriels appropris qui permettent desparer au mieux les centres des classes.

    Les rsultats d'une AFD peuvent alors se visualiser sur les plans factoriels appels plans discriminants etse formuler par des critres d'inertie :

    - maxim iser l ' inert ie interc lasses : sparer au mieux les centres des classes afin d'exalter les

    diffrences entre classes.

    - min imis er l 'inert ie intra-classes : les individus appartenant une mme classe soient le plusconcentrs possible autour du centre de la classe afin quel'tendue dans les classes soit bien dlimite.

    Les principes de reprsentation et les indices de qualit sont les mmes que ceux de l'Analyse enComposantes Principales.

    Remarques :

    - Cas de deux classes, on retrouve les rsultats de l'analyse discriminante linaire classique rencontrefrquemment lors des applications. C'est aussi un cas particulier de la rgression multiple, o la

    variable expliquer ne prend que deux valeurs (modalits), chacune d'elles caractrisantune classe.

    - Quand le nombre de variables descriptives est trs lev relativement la taille de l'chantillon, il estsouvent indispensable de passer par une phase de slection des "meilleurs" caractres discriminantsafin d'obtenir une discrimination satisfaisante. Certains logiciels d'analyse de donnes proposent desmthodes hirarchiques de slection des caractres, bases sur des critres de mesure du "pouvoir"discriminant de ces caractres. Ce sont des techniques de discrimination pas pas analogues largression stepwise o on introduit au fur et mesure les caractres explicatifs dans une formule dediscrimination.

    - L'Analyse Factorielle Discriminante sur un ensemble de variables qualitatives explicatives(discriminantes) et une AFD sur les composantes principales (quantitatives) de l'AFCM des variablesexplicatives.

  • 7/26/2019 METH Factorielles

    26/40

    M2 : ECOSMA Analyse des Donnes - 26 - R. Abdesselam

    4.3.1 Disc rim inatio n en 2 c lass es - Exem ple - Don nes( Le marc hbelg e des peti tes vo itu res )

    On s'intresse ici un chantillon de voitures de moins de 3,80 mtres. On dispose du prix en milliers defrancs belges, de la consommation urbaine, de la cylindre, de la vitesse maximum, du volume maximum ducoffre, du rapport poids/puissance et de la longueur de 27 voitures.

    L'objectif est de mettre en vidence les caractristiques qui diffrencient ces voitures concurrentes.

    On dsire dterminer dans quelle mesure la marque du constructeur est lie aux caractristiques mesures

    par les six caractres quantitatifs ( prix en milliers de francs belges, consommation urbaine, cylindre, vitessemaximum, volume maximum du coffre et le rapport poids/puissance ). Le caractre qualitatif discriminer,marque du constructeur ( Franaise, Etrangre ), prend ici deux modalits.

    Disposant des caractristiques de trois nouvelles petites voitures, anonymes quant leur marque, on sepropose de visualiser ces voitures dans les plans discriminants de l'analyse et ainsi tenter de prvoir lamarque de leur constructeur. Ces trois voitures seront considres dans l'analyse comme individussupplmentaires.

    ADL : Marchdes p etites voitu res en B elgique

    Caractres d isc rim inan ts(car actrist iq ues)

    Car ac tre d is cr im in er(Marque constru cteur)

    act iv es : 6 Moda lits : 2

    Prix FranceConsommation EtrangerCylindreVitesseVolumeP/P : poids-puissance

    Voitures actives : 27 Voitures il lustrat ives : 3

    ClioCitron AXRover

    AFD : Marchdes p etites voit ures en Belgiqu e

    SELECTION DES INDIVIDUS ET DES VARIABLES UTILESVARIABLES NOMINALES ACTIVES

    1 VARIABLES 2 MODALITES ASSOCIEES---------------------------------------------------------------------------------------------------------

    8 . Marque du constructeur ( 2 MODALITES )---------------------------------------------------------------------------------------------------------

    VARIABLES CONTINUES ACTIVES6 VARIABLES

    ---------------------------------------------------------------------------------------------------------1 . Prix ( CONTINUE )2 . Consommation urbaine ( CONTINUE )3 . Cylindre ( CONTINUE )4 . Vitesse ( CONTINUE )5 . Volume maximum du coffre ( CONTINUE )6 . Rapport poids/puissance ( CONTINUE )

    7 . Longueur ( CONTINUE )---------------------------------------------------------------------------------------------------------

    INDIVIDUS----------------------------- NOMBRE -------------- POIDS ---------------POIDS DES INDIVIDUS: Poids des individus, uniforme egal a 1. UNIFRETENUS ............ NITOT = 30 PITOT = 30.000SELECTION APRES FILTRAGEACTIFS ............. NIACT = 27 PIACT = 27.000SUPPLEMENTAIRES .... NISUP = 3 PISUP = 3.000

    -------------------------------------------------------------------------

    STATISTIQUES USUELLES DES VARIABLESTRIS A PLAT DES VARIABLES NOMINALES

    ------ EFFECTIFS -------ABSOLU %/TOTAL %/EXPR. HISTOGRAMME DES POIDS

    9 . Marque du constructeurMFRA - Franaise 10 37.04 37.04 ******************METR - Etrangre 17 62.96 62.96 *****************************

    ENSEMBLE 27 100.00 100.00---------------------------------------------------------------------------------------