ch.5. description numérique d’une variable statistique

39
ch.5. ch.5. Description numérique d’une Description numérique d’une variable statistique. variable statistique. Ce chapitre s’intéressera principalement à quatre types de paramètres: Les paramètres de tendance centrale, les paramètres de dispersion, les paramètres de concentration, et les paramètres de forme 5.1 Les principaux paramètres de location. Un paramètre de location, de position ou de tendance centrale pour une variable x est un nombre qui indique l’ordre de grandeur habituel de x. Il existe trois principaux paramètres de location qui sont: la médiane, le mode et la moyenne arithmétique.

Upload: laddie

Post on 04-Feb-2016

67 views

Category:

Documents


0 download

DESCRIPTION

ch.5. Description numérique d’une variable statistique. Ce chapitre s’intéressera principalement à quatre types de paramètres: Les paramètres de tendance centrale, les paramètres de dispersion, les paramètres de concentration, et les paramètres de forme - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: ch.5. Description numérique d’une variable statistique

ch.5.ch.5.Description numérique d’une variable statistique.Description numérique d’une variable statistique.

Ce chapitre s’intéressera principalement à quatre types de paramètres:Les paramètres de tendance centrale, les paramètres de dispersion, les paramètres de concentration, et les paramètres de forme

5.1 Les principaux paramètres de location.Un paramètre de location, de position ou de tendance centrale pour une variable x est un nombre qui indique l’ordre de grandeur habituel de x.Il existe trois principaux paramètres de location qui sont: la médiane, le mode et la moyenne arithmétique.

Page 2: ch.5. Description numérique d’une variable statistique

5.1.1 La médiane.5.1.1 La médiane.

La médiane d’une variable statistique est la valeur de cette variable qui partage les effectifs supposés rangés par ordre de valeur croissante (ou décroissante) de la variable, en deux effectifs égaux.

Autrement dit la médiane de x notée Med(x) est le nombre qui occupe le milieu de la distribution statistique; elle correspond à la valeur pour laquelle la fréquence relative cumulée est égale à ½ ou 50% des observations.

La médiane peut être déterminée par graphique et/ou par interpolation linéaire.

N.B. Le mode de calcul de la médiane diffère selon la nature de la distribution statistique.

Page 3: ch.5. Description numérique d’une variable statistique

5.1.2 Le mode.5.1.2 Le mode.

Le mode d’une variable statistique est la valeur qui correspond au maximum du diagramme différentiel (diagramme en bâtonnets ou histogramme suivant le cas). Le mode est la valeur la plus fréquente ou dominante de la variable statistique.

Lorsque la variable statistique est discrète, le mode correspond au bâtonnet le plus long.

Si plusieurs valeurs sont ex aequo, alors la variable statistique considérée a plusieurs modes.

Si la variable est continue, on ne peut que définir la classe modale qui correspond au maximum de la fréquence moyenne par unité d’amplitude.

Page 4: ch.5. Description numérique d’une variable statistique

5.1.3 La moyenne arithmétique.5.1.3 La moyenne arithmétique.

La moyenne arithmétique de la variable x notée x barre ou (lettre grecque « mu ») est la valeur moyenne que prendraient les valeurs de x

Deux cas peuvent se présenter:Si on a une série statistique comportant n

observations dont les valeurs respectives sont (x1,x2,x3,..., xn); alors la moyenne arithmétique de la variable x est égale à la somme des valeurs prises par cette variable divisée par le nombre des observations; il s’agit de cas à grandeurs additives.

Page 5: ch.5. Description numérique d’une variable statistique

Cette expression algébrique définissant la moyenne a ensuite été étendue aux variables statistiques quelconques additives ou non; La moyenne d’une variable statistique est la moyenne arithmétique pondérée de ses valeurs possibles par les fréquences correspondantes ou ce qui revient au même par les effectifs correspondants:

.,...,3,2,1.....1

/.....3211

niavecxin

nXnXXxxxn

i

Page 6: ch.5. Description numérique d’une variable statistique

La moyenne arithmétique pondérée s’obtient en effectuant la somme de tous les produits de xi par les effectifs ou les fréquences relatives correspondants.

x xn x n x n x nkxk

nf x f x f x fkxk

nnixi fixi

i

k

i

k

1 1 2 2 3 3

1 1 2 2 3 31

1 1

........

Page 7: ch.5. Description numérique d’une variable statistique

A.Cas discretA.Cas discret

exemple:1. Le rendement scolaire de deux classes ayant le même professeur enseignant la même matière se présente comme suit:

Classe A. 2;2;2;2;10;18;18;18;18.Classe B. 9;9;9;9;10;11;11;11;11.1) déterminer les fréquences relatives et cumulées

pour chaque classe.2) faire les représentations graphiques3) calculer et extrapoler les paramètres de location.

Page 8: ch.5. Description numérique d’une variable statistique

i) médiane. la série A est impaire donc:2n+1=92n = 8 n = 4 ( quatrième terme), la médiane correspond à la

valeur au n+1 terme i.e 4+1= 5 terme d’ou Med(xA) = 10; Med(xB) =10 ii) moyenne de xA = 10.... (4*2)+(10*1)+(18*4)/9 =

90/9 = 10 moyenne de xB = 10 iii) mode de xA = bimodale 2 et 18 mode de xB = bimodale 9 et 11

Page 9: ch.5. Description numérique d’une variable statistique

• Exemple 2.Dans une école primaire rurale; les notes sur 20 de 10 élèves se présentent ainsi:

• 17;14;15;13;11;6;5;8;9;10• 1) calculer et extrapoler les paramètres de location.• i) médiane de x• n = 10• 2n = 10• n = 5ième terme• med(x) = [(nième) + (n+1)]/2 = (10 +11 )/2 = 21/2 =

10.5 indéterminée• 5;6;8;9;10;11;13;14;15;17 faire les graphiques• ii) mode = multimodale• iii) moyenne de x = 9.8

Page 10: ch.5. Description numérique d’une variable statistique

B. cas continu. i) la Médiane. la Med(x) peut être déterminée par graphique et/ou

par interpolation linéaire.Au niveau graphique on se réfère au point

d'intersection des courbes des fréquences cumulées, ou juste au point représentant 50% des effectifs sur F(x).

Par interpolation linéaire:

Page 11: ch.5. Description numérique d’une variable statistique

Med x a b a F a F b F a

ou

Med x a b a n N a N b N a

( ) ( ) / ( ) ( )

( ) / ( ) / ( ) ( )

50%

2

Page 12: ch.5. Description numérique d’une variable statistique

ii) le mode.

Le Mode(x) peut lui aussi être déterminé par graphique (histogrammes des fréquences relatives ou des effectifs); il correspond à la valeur la plus Fréquente dans la série statistique considérée.Nous pourrons aussi le déterminer par interpolation linéaire ainsi:

Mode(x) = a + [(b - a)(ni - ni-1) ]/[ 2ni- ni-1- ni+1 ]

NB. Une formule analogue peut être dégagée des fréquences.

Page 13: ch.5. Description numérique d’une variable statistique

iii) La moyenne arithmétique.Dans le cas d'une variable statistique continue la moyenne arithmétique, E(x) peut être calculée à partir des effectifs ou des fréquences relatives.

E x n x n x fi i i ii

k

i

k

( ) / 111

NB. Les xi considérés dans le calcul de la moyenne arithmétique, correspondent aux centres de classes.

Page 14: ch.5. Description numérique d’une variable statistique

Classes de poids en Kg (xi)

Xc Effectifs (ni) Fréquences relatives (fi)

Fréquences cumulées F(x)

Fréquences cumulées F(x)

[50-55[ 52.5 1 1/20 0.05 0 1

[55-60[ 57.5 2 2/20 0.10 0.05 0.95

[60-65[ 62.5 5 Mode(x) 5/20 0.25 0.15 0.85

[65-70[ 67.5 3 3/20 0.15 0.40 0.60

[70-75[ 72.5 5 Mode(x) 5/20 0.25 0.55 Med(x) 0.45

[75-80[ 75.5 3 3/20 0.15 0.80 0.20

[80-85[ 82.5 1 1/20 0.05 0.95 0.05

20 20/20 1 1 0

Exemple:1.prenons un tableau statistique des classes de poids et calculons les trois principaux paramètres de tendance centrale.

Page 15: ch.5. Description numérique d’une variable statistique

a)Détermination des paramètres par interpolation linéaire.

Med(x)= 65 + [(70-65)(0.50 -0.40)]/[0.55-0.40]=68.33 Kg. Mode1(x) = 70 +[(75-70)(5-3)]/[ (2x5-3-3)] = 72.50 Kg.

Mode2(x) = 60 +[(65-60)(5-2)]/[ (2x5-2-3)] = 63.00 Kg

E(x)=1/20[(52.50x0.05)+(57.50x0.10)+(62.50x0.25)+(67.5x0.15)+ (72.5x0.25)+(75.5x0.15)+(82.5x0.05)] = 67.70 Kg

Page 16: ch.5. Description numérique d’une variable statistique

b) Détermination graphique des paramètres de location.

0 50 55 60 65 70 75 80 85

F(x)

xi0.05

0.1

0.2

0.3

0.5

0.6

0.7

0.8

0.9

1

0.4

0.05

0.15

0.40

0.55

0.80

0.95

1 F(x)

fig: courbe des fréquences cumulées croissantes

1

0.95

0.85

0.60

0.45

Med(x) = 68.33Kg

Page 17: ch.5. Description numérique d’une variable statistique

0 50 55 60 65 70 75 80 85xi

fi

0.05

0.10

0.15

0.20

0.25

0.05

0.10

0.25

0.15

fig: histogramme de la répartition des patients selon le poids en Kgfig: histogramme de la répartition des patients selon le poids en Kg

fig: histogramme de la répartition des patients selon le poids en Kg

fig: histogramme de la répartition des patients selon le poids en Kg

fig: histogramme de la répartition des patients selon le poids en Kg

Mode(x)= 72.50Mode(x)=63.00

Page 18: ch.5. Description numérique d’une variable statistique

Paramètres de dispersionParamètres de dispersion

Un paramètre de dispersion est un nombre qui indique l'ordre de grandeur des variations de X. Il se rapporte à la différence de deux grandeurs du caractère, alors qu'un paramètre de position représente une valeur du caractère.Il y a cinq principaux paramètres de dispersion qui sont : L'Etendue, l'écart absolu moyen, la variance, l'écart type, et Le coefficient de variation, et l'écart interquartiles.

Page 19: ch.5. Description numérique d’une variable statistique

L’étenduL’étendu

L'Etendue de X ( notée Et(X) ) est simplement la distance qui sépare les deux valeurs extrêmes de X.

Et(X) = max.{Xi} - min.{Xi}.

Page 20: ch.5. Description numérique d’une variable statistique

L’écart absolu moyenL’écart absolu moyen

L'écart absolu moyen par rapport à la moyenne (noté Ecm(x)) est la moyenne des écarts à la moyenne µ en valeur absolu.

Ecm(X) = E( x-µ ) = 1/n (ni xi - µ ).

Page 21: ch.5. Description numérique d’une variable statistique

Variance et écart typeVariance et écart type

La variance de x (notée Var(x)) ou simplement σ²(x) "sigma carré") est la moyenne du carré de la distance entre X et sa moyenne µ.

Var(x) = E ( x - µ )²) =1/n ∑ ni(xi -µ)² avec n = ∑ ni L'écart type de X ou l’écart quadratique moyen(noté σ(x) est simplement la racine carrée de la variance de x.

σ(x) = √var(x).

Page 22: ch.5. Description numérique d’une variable statistique

Le coefficient de variationLe coefficient de variation

La moyenne x, comme l’écart type, s’expriment dans la même unité que la variable x. On définit le coefficient de variation comme le rapport de l’écart type à la moyenne

CV(x)= σ(x) / µ.C’est une quantité sans dimension, indépendantes des unités choisies, le coefficient de variation permet de comparer des distributions statistiques différentes ( ex. salaires dans différents pays).

Page 23: ch.5. Description numérique d’une variable statistique

L'écart interquartiles L'écart interquartiles

L'écart interquartiles de X ( noté Eiq(x)) est la distance entre les quartiles d'ordre 1/4 et 3/4.

Eiq(X) = Q3/4 - Q1/4Avant de calculer l'écart interquartiles, il est nécessaire de définir les quartiles.

Il existe trois quartiles : Q1,Q2 et Q3; qui sont des valeurs de la variable pour lesquelles la fréquence cumulée est respectivement égale à 1/4, 1/2 et 3/4.

Page 24: ch.5. Description numérique d’une variable statistique

F(Q1) = 1/4 = 25%F(Q2) = 1/2 = 50%F(Q3) = 3/4 = 75%.Ce sont les valeurs du caractère (xi) qui divisent une série statistique en quatre sous ensembles égaux. Ils sont au nombre de trois: Q1, Q2 et Q3.Les écarts interquartiles ne sont que la différence entre le quartile d'ordre un quart (Q1) et le quartile d'ordre trois quarts (Q3). [ Q3 - Q1 ].

Page 25: ch.5. Description numérique d’une variable statistique

Q1 Q2 Q3

n/4 n/4 n/4 n/4

25% 25% 25% 25%

Q1

25% 75%

Q2 = Med(x)

50% 50%

Q375% 25%

1

2

3

4

2

1

Page 26: ch.5. Description numérique d’une variable statistique

Le calcul des écarts interquartiles suivent le même raisonnement que celui de la médiane. Ils peuvent être déterminés par interpolation linéaire ou par graphique.

Q1 = a + [( b - a )( n/4 - F(a) )/[ F(b) - F(a) ].

Q3 = a + [( b - a )(n3/4 - F(a) )/[ f(b) - F(a) ].

Eiq(x) = [ Q 3/4 - Q 1/4 ] = [ Q3 - Q1 ].

Page 27: ch.5. Description numérique d’une variable statistique

ExerciceExercice

9 15 15 7 11 12 14 10 11 8

8 11 11 14 8 10 11 11 10 11

7 15 12 6 14 9 15 8 8 14

15 10 11 13 11 11 15 12 15 10

Dans deux classes d’une même école, les notes sur 20 obtenues par les élèves à l’occasion d’une même composition sont les suivantes:

Classe A

Page 28: ch.5. Description numérique d’une variable statistique

11 9 8 13 9 8 13 14 15 15

10 10 7 15 15 7 14 9 3 10

15 10 15 8 15 8 14 9 6 13

12 11 9 9 13 14 8 13 8 5

Classe B

Page 29: ch.5. Description numérique d’une variable statistique

1) Comparer les classes à l’aide des paramètres de position2) Continuer la comparaison en utilisant les paramètres de dispersion par rapport à la moyenne.3) commenter le résultat.

Page 30: ch.5. Description numérique d’une variable statistique

SolutionSolution

NotesXi

effectifni

xini (xi-µ ) (nixi-µ ) (xi-µ )² (nixi-µ )²

6789101112131415

12525103147

614401850110361356105

5.24.23.22.21.20.20.81.82.83.8

5.28.4164.462

2.41.811.226.6

27.0417.6410.244.841.440.040.643.247.8414.44

27.0435.2851.209.687.200.41.923.2431.36101.08

40 448 84 268.40

Classe A.

Page 31: ch.5. Description numérique d’une variable statistique

1) les paramètres de tendance centrale

µ(A) = 448/40 = 11.2/20 points

Med(A) = 11 2n = 40; n = 20 terme et n+1 = 21 terme ( 11 + 11)/2 = 11

Mod(A) = 11.2) Les paramètres de dispersion.i) étendue de x Et(x) = (15-6) = 9 points

ii) Ecm(x) = 84/40 = 2.1 points

iii) Var(x) = 268.4/40 = 6.71 et σ(x) = 2.59 points.

Page 32: ch.5. Description numérique d’une variable statistique

Xi ni (xini) (xi-µ ) (nixi-µ ) (xi-µ )² (nixi-µ )²356789101112131415

111266421547

3561448544022126556105

7.755.754.753.752.751.750.750.251.252.253.254.25

7.755.754.757.5016.50

63

0.51.2511.25

1329.75

60.0633.0622.5614.067.563.060.560.061.565.0610.5618.06

60.0633.0622.5628.1245.3618.362.240.121.5625.3042.24126.42

40 430 107 405.48

Page 33: ch.5. Description numérique d’une variable statistique

Classe B. µ (B) = 430/40 = 10.75/20 points

Med(B) = 10/20 2n = 40 donc 20 et 21 sur 2 donc (10+10)/2 = 10/20

Mod(B) = 15

Et(B)= 15-3=12/20

Ecm(B)= 107/40 = 2.675

Var(B)= 405.48/40 = 10.137 donc σ(B)= 3.18 points

Page 34: ch.5. Description numérique d’une variable statistique

INTERPRETATIONS DES PARAMETRES STATISTIQUES L'essentiel à savoir Avant de donner une interprétation ou une explication d'un paramètre statistique, il faut avoir identifié la population étudiée, son effectif total et le caractère étudié. Toute interprétation doit être adaptée au caractère et à la population étudiée. Les exemples proposés dans la colonne de droite correspondent à la situation du devoir : La population étudiée est l'ensemble des 25 pays d'Europe, et le caractère étudié est le nombre d'habitants (population) de ces pays.

Page 35: ch.5. Description numérique d’une variable statistique

-I- LES PARAMETRES NUMERIQUES : 1. La moyenne : C'est la valeur que l'on pourrait donner à chaque individu de la population s'ils avaient tous la même valeur du caractère. Si les 25 pays avaient la même population ils auraient 31,52 millions d'habitants.

2. L'écart type : Il donne une idée de la dispersion. La majorité des individus ont des modalités comprises entre µ −σ et µ +σ. Quand l'écart type est grand, cela signifie que la série contient des valeurs éloignées de la moyenne. L'écart type, 56,31 est très grand signifie que les données sont très dispersées. La série contient des valeurs très éloignées de la moyenne. Moyenne et écart type servent aussi à définir la plage de normalité à 95 % :

[µ -2σ;+ µ -2σ]3. La médiane : C'est la valeur m du caractère tel que 50% des individus de la population ont une modalité inférieure à m et 50 % des individus de la population ont une modalité supérieure à m. La médiane est 11. Cela signifie que 50 % des pays d'Europe concernés ont une population inférieure à 11 millions d'habitants.

Page 36: ch.5. Description numérique d’une variable statistique

4. Le premier quartile : C'est la valeur q de la série pour laquelle au moins 25 % des données de la série ont une valeur plus petite ou égale à q. 25 % des pays 25 d'Europe ont une population inférieure à 8 millions d'habitants.

5. Le troisième quartile : C'est la valeur q' de la série pour laquelle au moins 75 % des données de la série ont une valeur plus petite ou égale à q'. q'q−75 % de ces pays ont une population inférieure 39 millions d'habitants.

6. L'écart interquartile : C'est le nombre . 50% des valeurs de la série sont comprises entre q et q', donc ont un écart inférieur à l'écart interquartile. 50 % des 25 pays ont des populations comprises entre 8 et 39 millions d'habitants, donc un écart de population inférieur à 31.

7. Le premier et le neuvième décile : C'est la valeur d (respectivement d') de la série pour laquelle 10 % (respectivement 90%) des données sont inférieures ou égales à d' (respectivement d'). 10 % des 25 pays ont une population inférieure ou égale à 4 millions

Page 37: ch.5. Description numérique d’une variable statistique

-II- COMPARAISON DES PARAMETRES : 1. Médiane et moyenne : Si ces deux paramètres sont sensiblement différents, cela montre la présence de valeurs extrêmes.2. De deux moyennes ou de deux écarts types : Ces deux paramètres sont très sensibles aux valeurs extrêmes, c'est la raison pour laquelle, dans le devoir, moyenne et écart type diminuent quand on enlève l'Union Soviétique. 3. De deux médianes : Elle n'est pas sensible aux valeurs extrêmes.

Page 38: ch.5. Description numérique d’une variable statistique

-III- INTERPRETATION DANS LES GRAPHIQUES : 1. Dans un histogramme : L'aire des rectangles (valeur parfois affichée sur le rectangle) représente le nombre d'individus de la population ayant une valeur du caractère comprise dans l'intervalle en abscisse. Dans le devoir : 10 pays ont une population comprise entre 0 et 10 millions d'habitants. 2. Dans un diagramme en boîte : La boîte contient 50 % des effectifs que la médiane partage en deux fois 25 %. Sa longueur est l'écart interquartile.

Avant la première moustache, il y a 10 % des effectifs et avant la dernière moustache, il y a 90 % des effectifs.

Page 39: ch.5. Description numérique d’une variable statistique