statistiques licence — quatrième séance. analyse de variance simple un facteur de classification

Post on 04-Apr-2015

114 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Statistiques

Licence — quatrième séance

Analyse de variance simple

Un facteur de classification

Plan1. Une étude de Eysenck

1. La question2. Les données

2. Situation statistique1. Description2. Le principe de raisonnement

3. Conditions d’application4. Calculs5. Interprétation des résultats6. Exemple supplémentaire (11.22 p 390)

1. Une étude de Eysenck

Mémoire et profondeur de traitement

1.1 Présentation

[Howell, pp 340-]

HistoriqueEn 1974, Eysenck a mené une étude dans

le but de démontrer que la profondeur de traitement a un effet sur la mémorisation involontaire.

Des groupes de volontaires sont formés, qui ont a traiter une liste de mots. Le traitement varie selon les groupes, mais la liste est la même.

On demande ensuite aux sujets de rappeler le maximum d’items possibles de la liste. Le nombre X de mots correctement rappelés est une mesure de la qualité de la rétention.

HistoriqueL’étude comporte 5 groupes :

Le groupe « addition » doit compter le nombre de lettres de chaque mot de la listeLe groupe « rime » doit chercher un mot rimant avec chaque mot de la listeOn demande au groupe « adjectif » d’accoler un adjectif possible à chaque mot de la liste (il s’agit de substantifs)Au groupe « image » de se représenter mentalement l’objet désignéAu groupe « intentionnel » d’apprendre la liste.

Historique

Dans l’esprit d’Eysenck, les groupes correspondent à des traitements de plus en plus profonds (signes / sons / sens / image).

QuestionLa question qu’on se pose peut

s’exprimer la façon suivante :Le traitement a-t-il une influence

sur la mémorisation ?

Ce qui revient à :Les moyennes de X dans les

différents groupes sont-elles différentes ou au contraire toutes égales ?

1.2 Les données

Formalisation et données brutes

Formalisation

La situation est la suivante :1. Nous disposons d’un échantillon

de volontaires participants (individus)

2. D’un facteur T « traitement » catégoriel (qualitatif ou nominal)

3. D’une variable dépendante X quantitative

4. Et nous cherchons un lien éventuel entre T et X.

Les données brutes

addition rimes adjectif images intention.

9 7 11 12 10

8 9 13 11 19

6 6 8 16 14

8 6 6 11 5

10 6 14 9 10

4 11 11 23 11

6 6 13 12 14

5 3 13 10 15

7 8 10 19 11

7 7 11 11 11

Les données traitées

add rime adj image inten

n 10 10 10 10 10

Moyenne 7 6.9 11 13.4 12

Écart type 1.83 2.13 2.49 4.50 3.74

2. La situation statistique

Retour et généralisation

2.1 Description

Quand faire une ANOVA ?

Les cas appelant l’anova

Dans les situations semblables à celles que nous venons de décrire, on est amené à utiliser une méthode statistique particulière : l’analyse de variance ou ANOVA (ANalysis Of VAriance).

Situation propice à l’anova

Nous avons deux variables :Une variable indépendante ou facteur catégoriel (échelle finie).Une variable dépendante quantitative.

Il est indispensable d’avoir suffisamment de valeur de la VD pour chaque modalité de la VI.Mais les « groupes » ne sont pas nécessairement de la même taille.

RemarquesLe tableau que nous avons présenté plus haut n’est ni descriptif ni statistique.L’anova est un test fondé sur un modèle, comme la régression linéaire (corrélation fondée sur le modèle linéaire).La conclusion donnée par le test est seulement que les moyennes vraies sont différentes (ie non toutes égales), et ne permet pas de conclure à un quelconque « sens » de variation, même si cela fait sens, comme ici. Il s’agira d’interprétation.

2.2 Principes fondamentaux

Variations

Variations

Le principe de base est une étude des variations.On dit « variation » parce qu’il s’agit d’une version légèrement modifiée de la variance… mais l’idée est la même.

VariationsLa variable X n’est pas constante : elle présente des variations.L’anova est fondée sur l’idée qu’une partie de ces variations est attribuable au facteur.Le reste étant dû à d’autres facteurs.Si la variation due au facteur semble élevée, on pourra conclure à un « effet » du facteur sur la VDDans le cas contraire, on ne pourra pas conclure (et non pas conclure qu’il n’y a pas d’effet !).

3. Conditions d’application

De l’ANOVA

À vérifier systématiquementPour pouvoir appliquer l’analyse de variance,

il est indispensable de vérifier :1. L’indépendance des observations (dans

l’expérience d’Eysenck, les sujets ne passent qu’une des expériences possibles)

2. La normalité de la VD dans les groupes (elle se vérifie par ordinateur, nous la supposerons toujours)

3. L’homogénéité des variances. Vérifiez qu’aucune variance n’est 4 fois supérieure à une autre. (Eysenck a fait l’étude malgré la violation de cette condition).

Violation des conditionsCependant, l’anova est relativement robuste, et fonctionne encore si les conditions d’application sont « presque » vérifiées.Des variances très différentes impliqueront une plus grande prudence dans la lecture des résultatsDes distributions non normales ne sont pas gênantes si elles sont d’asymétrie de même signe et unimodales.

Exemples

0

1

2

3

4

5

6

7

8

9

10

0 1 2 3 4 5 6 7 8 9 10

G1

G2

G3

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1

G2

G3

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1G2

G3

Exemples

0

2

4

6

8

10

12

0 1 2 3 4 5 6 7 8 9 10

G1G2

G3

4. Les calculs

Sans commentaire

La mesure de variation

Tous les calculs se fondent sur un principe identique.Quand il nous faut mesurer la variation de X entre des groupes G1, G2… de taille n1, n2… nous procédons toujours de la manière suivante (encore valable en anova factorielle ou pour mesures répétées).

Facteur de correctionDans l’expérience d’Eysenck, on peut calculer le carré de la somme des 50 valeurs (9+8+…+11)²=503²

Que l’on divise ensuite par 50 (il y a 50 valeurs), ce qui donne le facteur de correction FC=5060.18

On calcule (attention à l’erreur dans Howell, p 350)

On en déduit le facteur de correction

2X

2X

FCN

Somme des carrésOn calcule la somme des carrés des totaux (par groupes) divisés par les effectifs.Par exemple, pour comparer les groupes d’Eysenck :

On calcule alors simplement les « sommes des carrés » (en réalité somme des carrés des écarts à la moyenne) par :

2k

k

TSC FC

n

2 2

2 2

70 120...

10 1070 ... 120

10351.52

traitSC FC

FC

Somme des carrés

On a ainsi une mesure de la variation entre les groupes (traitement), donc « due au traitement »La variation due au traitement est 351.52

SC est une mesure de la variation entre les groupes considérés.

Les différents SC

Les SC se calculent pour les groupes de traitement, mais pas seulement. On peut aussi calculer les SC correspondant à d’autres « regroupements ».Les différents SC ainsi obtenus permettent de terminer l’anova.

Les différents SC

Par exemple, on peut « regrouper » les valeurs une par une.Le raisonnement précédent s’applique, avec des groupes de taille 1 et des totaux égaux en fait à l’unique valeur considérée.On obtient alors la variation entre toutes les valeurs : la variation totale

2

9² ... 11²

786.82

totSC X FC

FC

Répartition des variations

La variation totale (entre toutes les valeurs) est due d’une part à l’effet du facteur (variation entre les groupes) et d’autre part à ce qu’on appelle « l ’erreur » car dans le modèle simplifié où seul le facteur intervient, c’est une erreur.Cette variation supplémentaire est la variation « à l’intérieur des groupes », et elle est due à tous les facteurs autre que celui qui nous préoccupe.

Répartition des variations

Une propriété formidable des SC est qu’elle sont « additives ». Ainsi, quand on additionne

la variation due au facteur Tet celle due aux autres facteurs,

on obtient la variation totale.

Répartition des variations

Variation totale

totSC

Variation entregroupes

Erreur(variation sujet)

grSC errSC

Répartition des variations

Dans la pratique, on calcule la variation due au facteur, puis la variation totaleOn en déduit la variation « erreur » par soustraction :

err tot grSC SC SC

Degrés de libertéÀ chaque SC est associé un degré de liberté.Le degré de liberté est le nombre de groupes moins 1.Les degrés de liberté s’additionnent comme les SC.Dans le cas de l’expérience,

50 1 49

5 1 4

49 4 45

tot

gr

err

dl

dl

dl

Degrés de liberté

Dans le cas général, si n est le nombre total d’individus dans l’échantillon et k le nombre de groupes, on a

1

1

1 1

tot

fac

err

dl n

dl k

dl n k

n k

Carrés moyens

Enfin, on définit les carrés moyens (qui sont une sorte de variance corrigée) CM.Ils mesurent la variation d’une manière standard et plus adéquate que les SC, mais ne sont pas additifs.

SCCM

dl

Présentation des résultats

On a l’habitude de présenter les résultats dans un tableau standard de la forme :

source dl SC CM F

Groupe

Erreur

Total

Présentation des résultatsDans l’expérience de Eysenck, cela donne le tableau suivant (en rouge: obtenu par soustraction. En vert, par division).

source dl SC CM F

Traitement

4 351.52 87.88 9.08

Erreur 45 435.30 9.67

Total 49 789.82

5. Interprétation

F

La seule valeur mystérieuse est F. Elle sert à tester l’hypothèse de différence entre les moyennes, et elle vaut

gr

err

CMF

CM

F

Si le facteur n’intervient pas, on devrait avoir autant de variation entre les groupes qu’à l’intérieur des groupes, et donc on devrait avoir F=1Si au contraire il intervient, on s’attend à avoir un F supérieur à 1En particulier, un F inférieur à 1 n’est pas significatif.

gr

err

CMF

CM

F

F suit une loi de Fisher-Snedecor.Les tables statistiques donnent les valeurs à partir desquelles la conclusion d’effet est possibleSi l’on a observé un F de valeur supérieure, alors on peut affirmer (avec un certain risque, en général 1%) que les traitements différents donnent des moyennes différentes de la VDOn dira alors que le facteur a un effet sur la VD

F

Dans l’expérience d’Eysenck, la table donne

.01(4,45) 3.78F

Degré de liberté du numérateur

Risque de 1% Degré de liberté du dénominateur

gr

err

CMF

CM

F

On avait trouvé F=9.08C’est supérieur à 3.78On peut donc affirmer au risque de 1% que la profondeur de traitement a un effet sur la mémorisation.Cela ne dit pas que l’effet est positif, mais la forme du lien nous renseigne efficacement.Il faut pour cela représenter les données : on représente la distribution de l’espérance conditionnelle de X connaissant T.

gr

err

CMF

CM

Espérance conditionnelle

0

2

4

6

8

10

12

14

16

18

20

add rim adj ima int

Achtung !

Le fait que F soit significatif implique que l’on peut donner la conclusion voulueMais la valeur de F ne dit rien sur la grandeur de l’effet du facteur.Pour étudier la grandeur de l’effet, on utilise d’autres calculs, assez simples heureusement, qui consistent à chercher la part de SC due à tel ou tel facteur.

Exemple

Par exemple, on avait chez Eysenck

D’où on tire que la profondeur de traitement explique 44,6% des variations, ce qui n’est pas négligeable.

351.52

786.82gr

tot

SC

SC

351.520.446 44.6%

786.82

6. Exemple

Darley et Latané (1968)

L’expérienceDarley et Latané ont relevé la vitesse à laquelle les gens appellent à l’aide pour un inconnu quand ils pensent être seuls (groupe 1, n=13), ou qu’une autre personne (groupe 2, n=25) ou quatre personnes (groupe 3, n=13) les écoutent.La VD est la vitesse d’appel, d’autant plus grande que l’appel arrive peu de temps après l’événement nécessitant une aide extérieure.

SituationNous avons donc un échantillon de 25+13+13, soit 51 individus (personnes)Sur lequel on étudie le facteur catégoriel « groupe » GEt son lien avec la VD quantitative « vitesse d’appel », XUne anova pourrait montrer que les moyennes de X varient d’un groupe à l’autre, et donc que G a un effet sur X

Données

groupe 1 2 3

n 13 25 13

Moyenne X

0.87 0.72 0.51

TOTAL 11.31 18 6.63

0.053errCM

DonnéesOn peut déduire de ces données le facteur de correction FC=25.33 (somme totale au carré divisée par 51)Puis, du coup, le SC(groupe), variation due au nombre d’auditeurs supposés. En effet :

11.31² 18² 6.62²25.33

13 25 130.851

grSC

DonnéesOn sait d’autre part que les dl et les SC se répartissent de la manière suivante :

Total : dl=50SC=2.544+.851

=3.395

Groupe : dl=2SC=.851

Erreur : dl=48SC=48x.053=2.544

TableauOn en déduit facilement le tableau

source dl SC CM F

Groupe 2 .851 .4255 8.03

Erreur 48 2.544 .053

Total 50 3.395

ConclusionLa table de F donne :

1% 2,48 5.06F

En réalité, 50… la table ne donne pas toutes les

valeurs possibles

ConclusionLa valeur trouvée est supérieure à celle de la tableOn peut affirmer au risque de 1% que le nombre supposé d’auditeurs influence la vitesse d’appel au secours.On peut également préciser que le nombre d’auditeurs supposé explique 25% des variations de vitesse observées. En effet, SC(gr)/SC(tot)=.25

Représentation

01

4

0

10

20

30

40

50

60

70

80

90

top related