fitted surface; variable: y rend dv: y rend 80 78...

68
Fitted Surface; Variable: Y_REND 2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053 DV: Y_REND 80 78 76 74 72 70

Upload: others

Post on 12-Jul-2020

0 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Fitted Surface; Variable: Y_REND2 factors, 1 Blocks, 13 Runs; MS Pure Error=.053

DV: Y_REND

80 78 76 74 72 70

Page 2: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

2

2

TABLE DES MATIÈRES

§ STRUCTURE de STATISTICA : interface usager …………………………... 3 § SORTIES : classeurs, rapports, fenêtres ..……………………………………… 4 § FEUILLE de DONNÉES

- Spécifications des variables / observations, types variables, libellés …… 6 - Statistiques de blocs, recodage, tri ……………………………………….. 12

§ IMPORTATION / EXPORTATION de DONNÉES …………………. 16 - Requêtes, filtres de sélection, échantillonnage aléatoire .……………….. 18

§ OPTIONS de STATISTICA …………………………………………………. 18 § MODULE STATISTIQUES ÉLÉMENTAIRES ………………………... 19

- Sélection de variables, statistiques, normalité, corrélations ……………. 19 - Test t, 2 échantillons indépendants, par groupes ………………………... 23 - Test t, 2 échantillons indépendants, par variables ………………………. 25 - Test t, 2 échantillons appariés …………………………………………….. 26 - Test t, un échantillon ………………………………………………………. 27 - Décomposition et ANOVA à 1 facteur ……………………………………. 28 - Table de fréquences / Tableaux et tris croisés …………………………… 31 - Calculateur de probabilités …..…………………………………………… 33 § MODULE : TESTS NON PARAMÉTRIQUES

- Comparaison de 2 échantillons indépendants ……………………………. 34 § GRAPHIQUES ……………………………………………………………………. 35

- Graphique d’une feuille de données ………………………………………. 35 - Graphique d’un bloc de données ………………………………………….. 37 - Graphique à partir du menu ..……………………………………………... 39 - Graphique personnalisé ……………………………………………………. 41 - Mise à jour de graphiques …………………………………………………. 42 - Options globales …………………………………………………………….. 43 - Création de graphiques composés / multiples …………………………….. 44 - Edition d’un graphique …………………………………………………….. 46 - Personnalisation des composantes ……………………………………….… 47 - Utilisation d’un style ………………………………………………….…….. 49 § EXPLORATION D’UN GRAPHIQUE : zoom, habillage, rotation ..……… 52 § PERSONNALISATION de STATISTICA …………………………………... 56 § STATISTICA VISUAL BASIC ………………………………………………… 57 § AIDE de STATISTICA ………………………………………………………….. 59 § GLOSSAIRE ……………………………………………………………………….. 60 § EXERCICES : gestion des données …………………………………………... 62 § EXERCICES : statistiques élémentaires …………………………………….. 64 § VERSION 6 : nouvelles fonctionnalités ................................................... 67

Page 3: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

3

3

STRUCTURE de STATISTICA version 6 : interface usager STATISTICA est organisé en modules. Chaque module contient un groupe de procédures statistiques reliées. On utilise le menu Statistiques pour sélectionner le module approprié disponible dans votre version particulière de STATISTICA.

modules sous module menu général

module : Satistiques Élémentaires

Groupe de procédures statistiques reliées § Statistiques descriptives § Matrices de corrélations § Test t pour éch. indépendants, par groupes § … § …

feuille de données = tableau croisé

lignes X colonnes observations X variables

bouton d’outils

Il n’y a plus de « module switcher »

dans la version 6

Page 4: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

4

4

On peut avoir plusieurs modules et plusieurs fichiers de données ouverts simultanément. Ceci constitue une différence majeure par rapport à la version 5 de STATISTICA. Par exemple, on peut avoir 3 analyses de Régressions et 2 analyses ANOVA en cours et chaque analyse peuvent s’exécuter sur différents fichiers de données « ouverts ». Des options générales sont disponibles dans tous les modules et à chaque point d’une analyse.

SORTIES (« OUTPUT »)

La sortie des résultats numériques ou graphiques de STATISTICA peut être dirigée vers trois canaux : classeurs (« woorkbook »), fenêtre de rapport (« report window ») et fenêtres indépendantes (« stand alone windows »). On peut choisir le canal de sortie de son choix en cliquant sur Outils… Options… et l’onglet Gestionnaire de sorties. Remarque : différence majeure par rapport à la version 5.

CLASSEURS : méthode par défaut (implicite) pour gérer les sorties. Chaque sortie est stockée avec un onglet dans le classeur. Les documents peuvent être organisés en hiérarchie (arborescence). Les classeurs sont très flexibles car on peut gérer les filières, les documents et des branches entières de l’arborescence.

Exemple d’un

CLASSEUR

fichier de type

****.stw

Choix du type de sortie :

Gestionnaire de sorties

Page 5: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

5

5

Par exemple, on peut extraire, copier–coller, copier-déplacer un ou plusieurs documents (tableaux ou graphiques produits par STATISTICA) et les placer dans un document WORD. On peut placer des branches entières dans d’autres classeurs afin de construire une organisation de filières. RAPPORTS: c’est une méthode plus traditionnelle de gérer les sorties où chaque objet est monté séquentiellement comme dans un traitement de texte. L’avantage de ce format est la possibilité d’insérer des notes et commentaires ainsi que de dérouler (« scrolling ») pour consulter le rapport. Suggestion : il est probablement plus efficace d’ouvrir le traitement de texte WORD pour insérer les tableaux et graphiques de STATISTICA avec des opérations de copier-coller. Ces opérations peuvent aussi se faire avec les documents d’un classeur de STATISTICA.

FENÊTRES INDÉPENDANTES

Exemple d’un

RAPPORT

fichier de type

****.str

fenêtres indépendantes

Page 6: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

6

6

FEUILLE DE DONNÉES

La feuille de données est organisée en variables et observations (« cases »). Les colonnes sont les variables et correspondent aux champs dans des programmes de base de données comme ACCESS. Les rangées ou observations sont équivalents aux enregistrements dans des programmes de base de données. Les observations peuvent être identifiées optionnellement avec un nom d’observation ou libellé. Par défaut, le libellé est un numéro séquentiel 1, 2, 3,…noté « Vo » qui est toujours créé et disponible avec la feuille. SPÉCIFICATIONS DES VARIABLES ET DES OBSERVATIONS

Les variables et les observations peuvent être modifiées : l’ajout de variables, le déplacement d’obervations, le

recalcul de variables etc. Ces options sont accessibles avec le bouton et et le bouton de

de la barre d’outils.

boîte information barre de titre entête de fichier variable

observation

libellé de l’observation

Variables Observations

75 variables par 50 cas

Page 7: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

7

7

VARIABLES Chaque variable a un ensemble de propriétés ou spécifications qui lui est associée. Cliquer sur le nom de la variable pour ouvrir la boîte de dialogue contenant toutes les informations.

ÉDITEUR DES SPÉCIFICATIONS DE TOUTES LES VARIABLES

nom type longueur (variable texte) code valeur manquante (VM) format d’affichage nombre de décimales (variable numérique) valeurs ∕ Statistiques description détaillée :

étiquette ou

formule

Page 8: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

8

8

OPÉRATIONS SUR LES VARIABLES

OPÉRATIONS SUR LES OBSERVATIONS

Page 9: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

9

9

TYPE DE VARIABLES On peut spécifier le type de la variable avec la fenêtre de dialogue de spécification de la variable. STATISTICA distingue 4 types de variable. Double : format par défaut pour stocker des variables numériques. Chaque cellule occupe 8 bytes. Entier : type de variable avec valeurs entière sans aucune décimale. Chaque cellule occupe 4 bytes. Octet : type pour des entiers entre 0 et 255. Chaque cellule occupe 1 byte. Texte :type de variable contenant une séquence de caractères. La séquence est généralement de longueur variable. VALEURS-TEXTE

Utile dans les applications statistiques d’avoir un codage numérique pour la saisie des valeurs textes. Éditeur de Valeurs-Texte On peut basculer entre les valeurs-textes et les valeurs numériques avec le bouton

Page 10: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

10

10

EXEMPLE : création d’un fichier hypothétique d’information sur 18 individus. La feuille de données (« spreadsheet ») contiendra 6 variables : sexe, couleur des yeux, couleur des cheveux, taille, poids, age.

liste des fichiers les plus récents qui furent accédés

Page 11: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

11

11

Remplissage vers le bas de la cellule 1 jusqu’à la cellule 9 Répéter l’opération de la cellule 10 à la cellule 18 avec la valeur « homme »

Remplissage des valeurs de la variable « couleur yeux » opérations similaires à celles des fichiers EXCEL :

• copier coller, • coloriage de cellules, • choix d’une police de caractères, • caractères gras, italiques, • couleurs de caractères, • centrage des cellules, • etc.

Page 12: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

12

12

STATISTIQUES DE BLOCS

RECODAGE

Une opération utile et fréquente dans les tâches de gestion des données est le recodage des valeurs d’une variable. Cette opération peut se faire avec le bouton Variables de la barre d’outil et en choisissant Recodifier…permettant d’afficher une boîte de dialogue avec une barre de défilement. Par exemple

Les statistiques (moyennes, écart types,…) d’un bloc de lignes (colonnes) seront ajoutées avec des lignes (colonnes) additionnelles au fichier existant.

Page 13: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

13

13

TRI

Le bouton trier de la barre d’outil ouvre une boîte de dialogue permettant de trier les données en utilisant un maximum de 7 clés (variables).

La variable « classe age » qui était une copie de la variable « Age » a été recodée de la manière suivante: Age classe age 25 ans et moins 1 26 à 64 ans 2 65 ans et plus 3

A Z

Page 14: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

14

14

EXEMPLE : saisie de données, codage variable texte, statistique bloc, recodage, tri, rangs

Opérations 1. entrer des valeurs 2. éditer des valeurs texte 3. calculer des statistiques de blocs 4. recoder et faire la mise à jour dynamique 5. affecter des rangs 6. trier

Assignation numérique automatique par défaut : 101, 102, 103,… à toute variable de type texte On peut éditer et remplacer avec d’autres valeurs numériques de son choix : par exemple, 1, 2, 3,…

bloc saisi : taille poids age somme des lignes

Page 15: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

15

15

Ajout d’une nouvelle variable TPA = taille + poids + age

autres formules possibles : = ‘taille’ + ‘poids’ + ‘age’ ; = sum (v4:v6) ;

bouton de la barre d’outil permet de recalculer automatiquement lorsque les données changent Calcul d’une nouvelle variable « Rang PTA » Tri des observations selon la variable TPA

x = ?

Page 16: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

16

16

IMPORTATION DE DONNÉES Les fichiers provenant d’une grande variété d’applications Windows et autres peuvent être accédés et transformés en format STATISTICA (.sta) en ouvrant Fichier et en sélectionnant Ouvrir avec la barre principale. Les formats les plus employés sont supportés : Excel, dBASE, SPSS, Lotus/Quatro, etc.

Par exemple, si on choisit un ficher Excel (.xls) à ouvrir, STATISTICA demandera si on veut importer toutes les feuilles dans un classeur ( .stw) ou une feuille de données ( .sta). On peut importer le nom des observations et le nom des variables si elles sont présentes dans le fichier Excel.

Formats supportés

Excel, dBASE, SPSS, Lotus Quatro, Texte, XTML,… Aussi : format en version 5 de Statistica

Page 17: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

17

17

STATISTICA Query

STATISTICA permet l’accès, l’importation et la création de feuilles de données à partir de grandes bases de données comme ACESS, ORACLE, etc. Le langage de requêtes relationnelles de STATISTICA. (SQL) permet de sélectionner les composants de la requête via une interface graphique conviviale et intuitive. On peut créer une feuille de données à partir de plusieurs bases de données différentes.

SÉLECTION / ÉCHANTILLONNAGE ALÉATOIRE

Il est possible de sélectionner des observations avec filtre ou d’échantillonner au hasard d’une feuille de données afin de créer un sous ensemble pour l’analyse. Il y a plusieurs méthodes d’échantillonnage : aléatoire simple avec ou sans remplacement, échantillonnage systématique, échantillonnage stratifié.

Page 18: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

18

18

EXPORTATION DES DONNÉES

STATISTICA permet l’exportation de ses feuilles de données (*** .sta) vers d’autres applications comme celles mentionnées dans les possibilités d’importation. Choisir Fichier …Enregistrer sous…. pour ouvrir une boîte de dialogue pour identifier la destination, le nom du fichier ainsi que le type de format désiré.

OPTIONS

La boite de dialogue Options de la barre d’outils contient 12 onglets permettant de personnaliser

OPTIONS de STATISTICA Ouvir Outils … Options.

12 onglets pour définir des options • Généralités • Classeurs • Rapports • Graphe 1 • Graphe 2 • Feuilles de données • Importation • Analyses/Graphiques • Programme SVB (macros) • Gestionnaire de sorties • Listes personnalisées • Gestionnaire de Configurations

Page 19: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

19

19

MODULE : STATISTIQUES ÉLÉMENTAIRES Plusieurs analyses statistiques de base sont accessibles en sélectionnant le module Statistiques Élémentaires avec le menu Statisques de la barre principale. Les sorties sont dirigées, par défaut, dans une filière ( . stw).

EXEMPLE : statistiques descriptives, histogramme, normalité, droite de Henry, corrélations,

Test t, ANOVA à un facteur, tables de fréquences, tableaux, tri croisé.

feuille : patients.sta : 11 variables et 100 patients (cas , observations)

Étapes de la mise en œuvre d’une procédure

• ouvrir une feuille de données, • sélectionner une analyse spécifique du

module, • sélectionner les variables de l’analyse, • préciser les tableaux ou graphiques désirés

• cliquer sur le bouton

• chaque procédure possède plusieurs onglets : Base, Avancé , …

synthèse

Page 20: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

20

20

statistiques descriptives : variables : taille, poids, age histogramme : variable diastolique

Filière pour consigner les sorties

Patients.stw

Page 21: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

21

21

Droite de Henry ( échelle de probabilité normale) : variable pouls

Onglet « Avancé »: Statistiques Descriptives

Onglet « Tracés catég. » : Statistiques Descriptives

Description très détaillée des variables sélectionnées

• statistiques de position • statistiques de dispersion • moments • percentiles • étendues • etc

Tracés divers par catégories

• Boite à moustaches • Tracés d’interaction • Histogrammes • Nuages de points • Droite de Henry

(graphique sur échelle de probabilité normale)

• etc

Page 22: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

22

22

boîte à moustache : poids selon sexe CORRÉLATIONS Le coefficient de corrélation, généralement noté r, est une mesure de relation linéaire entre deux variables quantitatives. La valeur du coefficient de corrélation se situe entre - 1.0 (corrélation maximale négative) et + 1.0 (corrélation maximale positive). La recherche d’une équation mathématique de prédiction (liaison) de la forme Y = β0 + β1X entre les deux variables Y et X est reliée au coefficient de coefficient de corrélation. Si les variables Y et Y sont en moyenne 0 et écart type 1 (variables centrées réduites) alors Y = rX. Une valeur du coefficient de corrélation près de 0 est une indication de l’absence de liaison linéaire entre les variables. Matrice de corrélation des variables : taille poids pouls systolique diastolique indice

Page 23: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

23

23

nuages matriciels

TESTS t Le test t compte parmi les procédures statistiques les plus fréquemment employées. Elle sert à comparer les différences de moyennes entre deux groupes. Le test suppose que les variables sont normalement distribuées et que les variances de chaque groupe sont égales. Le module Statistiques Élémentaires offre 4 sortes de tests t.

Test t : deux échantillons indépendants, par groupes

Une variable contient les codes pour les 2 groupes et une autre variable contient les mesures.

Page 24: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

24

24

exemple : comparaison de la pression systolique entre les hommes et les femmes

Cet échantillon de 100 personnes dont 52 hommes et 48 femmes montre qu’il n’y a pas de différence statistiquement significative de la pression systolique moyenne entre les deux groupes.

Page 25: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

25

25

Test t : deux chantillons indépendants, par variables Dans certains cas, les données à comparer résident en 2 colonnes Par exemple, les données de pression systolique des hommes seraient dans une colonne et celles des femmes dans une autre colonne. Dans ce cas, il faut employer le test t par variables.

exemple : comparaison de la pression systolique entre les hommes et les femmes

systolique homme

systolique femme

1 83 89 2 84 88 3 87 87 4 83 81 . . . . . .

48 85 84 49 85 50 88 51 62 52 85

Le fichier ci haut présente une organisation inhabituelle des données.

Dans les études statistiques, il est utile, nécessaire et préférable d’identifier les unités statistiques (les patients dans ce cas) et de préciser quelles seront les variables (mesures et attributs) qui serviront pour l’analyse.

Il n’y a pas de différence significative entre la pression systolique moyenne des hommes et celle des femmes sur la base de cet échantillon considéré comme un échantillon aléatoire de tous les patients d’une certaine population.

Page 26: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

26

26

Test t : deux échantillons appariés (dépendants) Il est assez fréquent, lors de la phase de la planification d’une étude statistique, que l’on prévoit mesurer et caractériser à plusieurs reprises les mêmes unités statistiques. Par exemple, une variable spécifique est mesurée à deux reprises dans le temps sur les mêmes unités expérimentales et, on veut savoir si cette variable présente une différence significative dans le temps. On peut facilement imaginer qu’une portion non négligeable de cette différence est attribuable aux unités statistiques qui généralement présentent un certain degré d’hétérogénéité. Dans ce cas, le test t est basé sur la différence entre la variable mesurée au temps 1 et la variable correspondante mesurée au temps 2. Les deux échantillons de valeurs observées sont dépendants ou appariés car les mêmes unités statistiques sont présentent dans les deux échantillons de valeurs. La mise en œuvre du test t pour échantillons appariés est illustrée dans l’exemple suivant tiré du fichier « Patients.sta ». On a mesuré sur tous les patients la variable « indice » au début et à la fin. La différence est –elle significative ?

2.55 est la différence entre la moyenne de la variable « indice début » et la moyenne de la variable « indice fin ».

p = 0.0000 est la probabilité d’observer une telle différence. Elle est calculée avec la loi t de Student sous l’hypothèse nulle d’égalité de moyennes.

Boîtes à Moustachesindice début X indice fin

Moyenne Moyenne±Erreur-Type Moyenne±1.96*Erreur-Type

indice début indice fin1.5

2.0

2.5

3.0

3.5

4.0

4.5

5.0

La probabilité est jugée trop petite pour supporter l’absence de différence. La différence est déclarée statistiquement significative.

Page 27: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

27

27

Test t : comparer une moyenne à un standard (un échantillon)

Illustrons avec un exemple tiré du fichier « patients.sta » . Répondons à la question : les hommes dont la taille est inférieure à 1.70 m ont ils un poids de 65 kg ou moins tel que prévu selon les normes ?

Le fichier contient 17 hommes dont la taille est inférieure à 1.70 m. Ils ont un poids moyen de 81.0 kg. qui s’écarte significativement du standard théorique de 70 kg. Cet échantillon de 17 hommes est tiré d’une population dont la moyenne se situe entre 74.15 et 87.83. Le degré de confiance de cette affirmation est de 95%. Autrement dit, il y a 1 chance sur 20 de se tromper en faisant cette affirmation.

Dans un premier temps il faut sélectionner le sous ensemble des patients qui satisfont à la condition :

« homme et taille ≤ 1.70 »

Cette opération est réalisable avec le bouton

disponible avec toutes les procédures statistiques.

Permet de définir un filtre de sélection.

SELECT CASES S

Comparaison de moyennes à un standard (constante) (Patients.sta)

Moyenne Ec-Type N Erreur-T Confiance - 95%

Confiance + 95%

Valeur de comparaison Valeur t dl p

poids 81.0 13.30 17 3.23 74.15 87.83 70.00 3.407 16 0.0036

Page 28: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

28

28

DÉCOMPOSITIONS et ANOVA à 1 FACTEUR de CLASSIFICATION

Illustrons avec un exemple tiré du fichier « Patients.sta ». On veut décrire, comparer et décider si la taille (variable de réponse ou dépendante) des patients hommes présente des différences significatives selon la couleur de leurs cheveux (variable de classement ou indépendante). On commence par construire un filtre sur le fichier pour sélectionner seulement les patients qui satisfont le critère « hommes ».

Cette procédure fait le calcul de statistiques descriptives d’une variable de réponse mesurée sur plusieurs groupes définis par d’autres variables du fichier, par exemple, des catégories d’age. On veut ainsi comparer la distribution d’une réponse selon les groupes. Cette analyse est typiquement de nature exploratoire mais elle peut aussi être de nature inférentielle afin de savoir si des différences significatives réelles existent entre les groupes. Pour répondre à cette question on fait appel à l’analyse de la variance dont le sigle ANOVA signifie ANalysis Of VAriance. Celle méthode d’analyse compte parmi les méthodes les plus utiles et les plus employées de l’analyse statistique des données. Le module Statistiques Élémentaires présente le cas le plus simple de cette analyse avec un seul facteur de classification. Les modules ANOVA et MODÈLES LINÉAIRES présentent des procédures pour traiter des cas de données ayant plusieurs variables de classement.

Onglet pour faire des comparaisons a posteriori (post-hoc) à la suite de l’analyse de la variance qui aurait révélé des différences significatives.

Page 29: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

29

29

Tracé des Moyennes & Intervalle de Confiance (95.00%)taille

brun rouge noir blond

couleur cheveux

1.62

1.64

1.66

1.68

1.70

1.72

1.74

1.76

1.78

1.80

1.82V

aleu

rs

couleur cheveux

moyenne N Ecart

type

brun 1.71 20 0.07

rouge 1.71 14 0.11

noir 1.74 17 0.09

blond 1.65 1 0.00

Ts Grpes 1.72 52 0.09

Analyse de la Variance (Patients.sta) Effets significatifs marqués à p < .05000

SC dl MC SC dl MC F p

taille 0.0158 3 0.0053 0.3846 48 0.0080 0.66 0.5824

Il n’y a pas de différence significative de la taille moyenne entre les patients masculins des différents groupes définis par la couleur des cheveux.

Boîtes à Moustaches Catég. : taille

Médiane 25%-75% Min-Max brun rouge noir blond

couleur cheveux

1.40

1.45

1.50

1.55

1.60

1.65

1.70

1.75

1.80

1.85

1.90

taille

Page 30: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

30

30

On peut aussi obtenir les statistiques d’une variable de réponse pour les différentes catégories du croisement de plusieurs variables. Par exemple, quelles sont les moyennes de la variable taille (réponse) selon les catégories définies par les deux variables sexe et couleur des cheveux ?

sexe Couleur cheveux

Taille moyenne N Écart

type homme brun 1.71 20 0.07 homme rouge 1.71 14 0.11 homme noir 1.74 17 0.09 homme blond 1.65 1 0.00 femme brun 1.74 26 0.09 femme rouge 1.69 8 0.07 femme noir 1.73 10 0.12 femme blond 1.71 4 0.13

Tous Grpes 1.72 100 0.09

Tracé des Moyennes & Intervalle de Confiance (95.00%)taille

sexe homme sexe femme

brun rouge noir blond

couleur cheveux

1.4

1.5

1.6

1.7

1.8

1.9

2.0

Vale

urs

Page 31: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

31

31

TABLES DE FRÉQUENCES / TABLEAUX ET TRIS CROISÉS

Les tables de fréquences (aussi appelés tableau d’effectifs) constituent une méthode simple pour analyser une variable qualitative (aussi appelée variable de type attribut). Elles sont souvent employées comme méthode exploratoire pour décrire et résumer les différents sous groupes de l’échantillon de données. Par exemple, dans un sondage, on veut résumer les réponses des différents sous groupes des répondants aux questions posées. Nous allons illustrer en employant la feuille de données « Patients2.sta ». Ce fichier complète le fichier « Patients.sta » avec des informations additionnelles sur les patients. Les premières lignes de la feuille de données sont présentées ci-après.

SEXE YEUX CHEVEUX TAILLE POIDS AGE . MARCHE 1KM /JOUR

EXER INT

HRTV

TRAVAIL

CIG / JR

1 homme bleu brun 1.75 56 32 . jamais jamais 3 tplein 0

2 homme vert brun 1.68 91 78 . toujours jamais 6 ret 20

3 femme brun brun 1.70 53 32 . souvent jamais 5 tplein 15

.. … … … … … … … … … … … …

Table de fréquences : marche extérieure 1km/jour (Patients2.sta)

Effectif Effectifs cumulés %age %age

cumulé

toujours 15 15 15.0 15.0

souvent 14 29 14.0 29.0

quelquefois 45 74 45.0 74.0

jamais 26 100 26.0 100.0

VM 0 100 0.0 100.0

Histogramme Bivarié : marche ext 1km/jour & exercice phys int/jour

Page 32: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

32

32

Table de Fréquences - Synthèse (Patients2.sta) Effectifs en surbrillance > 10 (effectifs marginaux non marqués)

sexe marche ext 1km/jour

Travail tplein

Travail tpartiel

Travail ret

Travail arret

Totaux lignes

homme toujours 3 1 4 0 8 homme souvent 3 2 4 1 10

homme quelquefois 19 2 4 0 25

homme jamais 8 1 0 0 9

Total 33 6 12 1 52

femme toujours 5 1 1 0 7

femme souvent 3 1 0 0 4

femme quelquefois 14 1 4 1 20

femme jamais 13 0 4 0 17 Total 35 3 9 1 48

Tot. Colonnes 68 9 21 2 100

Interactions : sexe x marche ext 1km/jour x Travail

sexehomme sexefemme

marche ext 1km/jour: toujours

Trav

ail:

tple

in

tpar

tiel

ret

arre

t-5

0

5

10

15

20

25

Effe

ctifs

marche ext 1km/jour:souvent

Trav

ail:

tple

in

tpar

tiel

ret

arre

t

marche ext 1km/jour:quelquefois

Trav

ail:

tple

in

tpar

tiel

ret

arre

t

marche ext 1km/jour:jamais

Trav

ail:

tple

in

tpar

tiel

ret

arre

t

Page 33: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

33

33

CALCULATEUR DE PROBABILITÉS

Fonction de Densité de Probabilitéy=normal (x;0;1)

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

0.5

0.6

Fonction de Distribution de Probabilitép=inormal(x;0;1)

-3 -2 -1 0 1 2 30.0

0.2

0.4

0.6

0.8

1.0

Fo nc tio n de Dens i té d e Pro babi l i té

y =F (x ;25 ;10)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.00.0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

Fon c tion de Dis tribu tion de Probab i l i té

p =iF(x ; 25;1 0)

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 4.00.0

0.2

0.4

0.6

0.8

1.0

Fonction de Densité de Probabilitéy=gamma( x;2)

1 2 3 4 5 60.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Fonction de Distribution de Probabilitép=igamma(x;2)

1 2 3 4 5 60.0

0.2

0.4

0.6

0.8

1.0

Fonction de Densité de Probabilité

y =pareto(x;2)

1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.00.0

0.5

1.0

1.5

2.0

2.5

3.0

3.5

4.0

Fonction de Distribution de Probabi lité

p=ipareto(x;2)

1.0 1.2 1.4 1.6 1.8 2.0 2.2 2.4 2.6 2.8 3.00.0

0.2

0.4

0.6

0.8

1.0

normale F (Fisher)

Gamma Pareto

Page 34: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

34

34

MODULE TESTS NON-PARAMÉTRIQUES

EXEMPLE : comparaison de 2 échantillons indépendants Feuille de données : « Patients.sta » variable de réponse : nombre cigarettes / jour variable groupe : sexe

Beaucoup de procédures statistiques (tests d’hypothèses et intervalles de confiance) ont comme condition de base que la variable de réponse suit une distribution normale (gaussienne). Plusieurs de ces procédures sont robustes relativement à cette condition. On a aussi développé des tests qui ne font aucune hypothèse sur la forme paramétrée de la distribution. Ces méthodes sont connues sous le nom de « tests non-paramétriques ». Il y a au moins un test non paramétrique correspondant à chaque test paramétrique. On a aussi développé des tests et des coefficients appropriés lorsque l’on a affaire à des variables qualitatives.

La variable « nbre cigaret/jour » n’est pas normale

Histogramme nbre cigaret /jour

-5 0 5 10 15 20 25 30 35nbre cigaret /jour

0

10

20

30

40

50

60

70

Nbre

d'o

bs.

Histogramme CatégoriséVariable :nbre cigaret /jour

sexe: homme nbre cigaret /jour = 52*5*normal(x; 6.5385; 9.264)sexe: femme nbre cigaret /jour = 48*5*normal(x; 6.875; 9.5997)

nbre cigaret /jour

Nbr

e d'o

bs.

sexe: homme

-5 0 5 10 15 20 25 30 350

5

10

15

20

25

30

35

sexe: femme

-5 0 5 10 15 20 25 30 35

Test U de Mann-Whitney

(Patients2.sta) Par var. sexe Tests significatifs marqués à p <.05000

Somme Rgs F

Somme Rgs H U Z niv. p Z niv. p

nbre cigaret

/jour 2605.5 2444.5 1227.5 -0.141 0.888 -0.161 0.872

différence non significative car p > 0.05

Page 35: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

35

35

GRAPHIQUES

STATISTICA offre une grande variété de représentations graphiques pour tous les besoins et des outils très développés pour les éditer en totalité et les personnaliser selon les préférences de l’utilisateur. Tous les modules et leurs procédures associées disposent de graphiques contextuels pour accentuer et visualiser l’interprétation de l’analyse. La production d’un graphique est fonction des données à visualiser et de la méthode de le spécifier : graphiques intégrés à une feuille, graphiques d’un bloc de la feuille, graphiques à partir du menu de la barre principale de STATISTICA.

GRAPHIQUES DE LA FEUILLE DE DONNÉES

Chaque feuille de données ainsi que les résultats accompagnant presque toutes les analyse possèdent des graphiques intégrés. Ces graphiques sont accessibles avec un seul clic de souris : bouton spécifique des options prévues de l’analyse ou par des raccourcis en activant le bouton droit de la souris.

Les GRAPHIQUES DE LA FEUILLE DE DONNÉES offre les graphiques le plus souvent demandés comme les

histogrammes, les nuages de points, etc. La sélection de la variable dépend de la position du curseur

dans la feuille active. Les graphiques ont un format prédéfini que l’on peut éditer à volonté en cliquant

sur toute portion du graphique. Les sélections du sous menu de la forme demande de

préciser une deuxième variable dépendamment de la position du curseur. par …

Page 36: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

36

36

Exemples

Fenêtre d’édition d’un graphique : activation par double clic sur le graphique

Histogramme (Patients2.sta 17v*100c)

taille

Nbr

e d'

obs.

sexe: homme

1.4 1.5 1.6 1.7 1.8 1.9 2.00

2

4

6

8

10

12

14

16

18

20

22

24

26

28

sexe: femme

1.4 1.5 1.6 1.7 1.8 1.9 2.0

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)Histogramme = 100*1*normal(x; 84.6879; 3.015)

Histogramme = 100*5*normal(x; 120.1022; 11.4797)Nuage de Points = 130.8765-0.1272*x

0

20

40

78 80 82 84 86 88 90 92

systolique

80

90

100

110

120

130

140

150

160

170

dias

toliq

ue

0 20 40

Page 37: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

37

37

GRAPHIQUES D’UN BLOC DE LA FEUILLE DE DONNÉES

avec toutes les observations

Histogramme Bivarié (Patients2.sta 17v*100c)

Tracé Matriciel (Patients2.sta 17v*100c)pouls systolique diastolique

pouls

systolique

diastolique

Page 38: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

38

38

bloc partiel des observations

bloc saisi

Camembert ( 2v*20c)

couleur cheveux

blond

noir

rouge

brun

Camembert ( 1v*100c)

nbre cigaret /jour

(25;30](20;25]

(15;20]

(10;15]

(5;10]<= 0

Page 39: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

39

39

GRAPHIQUES DE LA BARRE DE MENU STATISTICA

menu principal sous menu

Onglets similaires dans la majorité des boîtes de dialogue pour spécifier un graphique. Base : liste resteinte d’options Avancé : liste complète d’options Apparence : options de style et type de graphiques Option 1 et Option 2 : liste d’options moins employées comme l’utilisation de cordonnées polaires etc.

Page 40: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

40

40

Exemple : nombre cigarettes/ jour (Z) vs pression systolique (X) et pression diastolique (Y) Rotation du graphique en 3D

Boîte à moustaches catégorisées en 2D

Surface de Réponse (Patients2.sta 17v*100c)nbre cigaret /jour = Distance des Moindres Carrés

Pondérés

15 10 5 0

Surface de Réponse (Patients2.sta 17v*100c)nbre cigaret /jour = Distance des Moindres Carrés Pondérés

15 10 5 0

Boîte à Moustaches (Patients2.sta 17v*100c)

marche ext 1km/jour

nbre

cig

aret

/jou

r

Médiane 25%-75% Etendue Non-Atypique

sexe

: hom

me

-5

05

10

1520

2530

35

Travail: tplein

sexe

: fem

me

touj

ours

souv

ent

quel

quef

ois

jam

ais-5

05

10

1520

25

3035

Travail:tpartiel

touj

ours

souv

ent

quel

quef

ois

jam

ais

T ravail: ret

touj

ours

souv

ent

quel

quef

ois

jam

ais

T ravail: arret

touj

ours

souv

ent

quel

quef

ois

jam

ais

Page 41: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

41

41

GRAPHIQUES PERSONALISÉS (« USER DEFINED GRAPHS ») But visé : automatiser des taches répétitives

L’onglet « Option 2 » de la boîte de dialogue de définition de tout graphique permet de sauvegarder toutes les options spécifiées durant la définition du graphique, incluant la sélection des variables. Le graphique sera placé dans cette liste personnalisée et il pourra être invoqué pour produire le même type de graphique sur la même feuille de donnée ou une autre feuille.

Lors de la prochaine activation du bouton « Graphiques Personnalisés » le graphique « Boîtes à Moustaches Catégorisés en 2D » fera partie de la liste La liste peut être éditée : changement de nom suppression

Page 42: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

42

42

MISE À JOUR DE GRAPHIQUES

Lors de la création d’un graphe, on peut établir un lien avec la feuille de données qui en est sa source. Le graphe sera automatiquement mis à jour si les données changent. Cela constitue une méthode commode pour explorer inter activement le graphe comme l’examen des anomalies ou des données suspectes. La mise en œuvre de cette possibilité se fait avec l’onglet « Option 1 » de la boîte de dialogue. Cette disposition est valable seulement si la sortie est placée dans une fenêtre individuelle et non pas dans une filière (***.stw). L’option de mise à jour demeure en vigueur pour la durée d’ouverture de la boîte de dialogue.

Nuage de Points (Patients2.sta 17v*100c)systolique = 84.8381-0.0224*x

diastolique = 118.7884+0.1961*x

systolique diastolique-5 0 5 10 15 20 25 30 35

nbre cigaret /jour

70

80

90

100

110

120

130

140

150

160

Nuage de Points (Patients2.sta 17v*100c)

systol ique diastolique

8 10 12 14 16 18 20 22 24 26 28 30 32

nbre cigaret /jour

70

80

90

100

110

120

130

140

150

160 nbre cigaret /jour:systolique: y = 85.4203719 - 0.0519718461*x nbre cigaret /jour:diastolique: y = 114.0110290 + 0.4385699410*x

fumeurs seulement v16 > 0 données enlevées

Tous les patients

Page 43: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

43

43

OPTIONS GLOBALES

On peut choisir des options globales pour tous les graphiques qui, une fois fixées s’appliqueront à tous les graphiques subséquents à l’exception des graphiques intégrés activés par les boutons accompagnat les analyses statistiques. Ces options globales sont accessibles via « Outils » … « Options » ...onglet « Analyses/Graphiques » de la barre STATISTICA.

onglet Graph 1 onglet Graph 2

Page 44: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

44

44

CRÉATION DE GRAPHIQUES COMPOSÉS / GRAPHIQUES MULTIPLES Les graphiques composés de STATISTICA inclus § certains types de graphiques dans une fenêtre unique avec le bouton Graphiques de la barre

principale de STATISTICA produisant différents graphiques dans une fenêtre unique : les nuages de points avec des histogrammes, les tracés matriciels, etc;

§ les Graphiques Catégorisés; § certains graphiques spécialisés obtenus comme résultats de procédures statistiques comme le

graphique de la carte de contrôle Xbar &R; § des graphiques créés avec un assistant (« wizard ») de mise en forme ou des modèles prédéfinis.

Les trois premières catégories sont des combinaisons de types spécifiques de graphiques créés par STATISTICA tandis que la quatrième catégorie inclus des graphiques définis par l’usager provenant d’une infinie variété de possibilités.

Exemple : utilisation de l’assistant

fenêtres individuelles

résidantes sur le bureau

Page 45: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

45

45

Remarque : il n’est pas toujours possible de produire un graphique composé avec certains ensemble

de graphiques existants

Tracé des Moyennes & Intervalle de Confiance (95.00%)taille

sexe homme sexe femme

brun rouge noir blond

couleur cheveux

1.41.51.61.71.81.92.0

Val

eurs

Histogramme Bivarié : marche ext 1km/jour & exercice phys int/jour

Impossible de tracer le graphique

Page 46: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

46

46

ÉDITION / PERSONALISATION D’UN GRAPHIQUE

On peut éditer et personnaliser toutes les éléments/composantes d’un graphique produit avec les options par défaut. On peut aussi ajouter d’autres éléments comme du texte, des images etc. Il y a trois catégories d’opérations disponibles afin de personnaliser un graphique : § ajout / édition d’un objet du graphique, § personnalisation des composantes du graphique, § utilisation d’un style (ensemble d’options prédéfinies) du graphique.

AJOUT / ÉDITION D’UN OBJET DU GRAPHIQUE STATISTICA fournit des outils pour la création et l’addition de texte, rectangles, cercles, ovales, arcs, polygones, flèches à tout graphique existant. De plus, on peut insérer des objets graphiques prédéfinis provenant de STATISTICA ou de d’autres applications.

Barre d’outils pour ajouter (dessiner) des objets graphiques. Cette barre s’active automatiquement lorsqu’un fichier graphique est actif sur le bureau. Lorsque les objets sont ajoutés sur le graphique, ceux-ci peuvent être éditer en cliquant sur le bouton droit de la souris pour accéder à un menu : position sur le graphique, taille, couleur, etc

Carte X-barre et R ; variable : RESISHis togramme des Moyennes

0 2 4 6 8 10 12 14 16320034003600380040004200440046004800500052005400

X-barre : 4503.2 (4503.2) ; Sigma : 323.54 (323.54) ; n : 4.

5 10 15 20 25 30 35 40 45 50

4017.9

4503.2

4988.6

His togramme des Etendues

0 2 4 6 8 10 12 14 16 18-200

0200400600800

1000120014001600180020002200

Etendue : 666.08 (666.08) ; Sigma : 284.65 (284.65) ; n : 4.

5 10 15 20 25 30 35 40 45 50

0.0000

666.08

1520.0

c a r t e de S he w h ar t p ou r le c o n t r ô le d e X -b a r r e

c a r t e d e S h e w ha r t po u r le c o n rô le d e l ' é t e n d ue R

l im i t e d e c on t rô le s u p é r ie u re

Exemple éléments ajoutés : flèche titres

Page 47: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

47

47

PERSONNALISATION DES COMPOSANTES D’UN GRAPHIQUE

Tous les paramètres contrôlant l’apparence d’un graphique sont accessibles interactivement après la production de celui-ci. Un double clic sur l’arrière plan (à l’extérieur des axes) du graphique ouvre une liste d’options regroupées d’environ 20 onglets permettant de personnaliser toutes les composantes du graphique. Il existe aussi des options particulières selon chaque type de graphique.

Page 48: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

48

48

Exemple : personnalisation d’un graphique

Nuage de Points (Patients2.sta 17v*100c)classe age: moins 30 ans systolique = 89.6641-0.8001*x

classe age: 30-50 ans systolique = 83.5853+0.3051*xclasse age: 51 ans et plus systolique = 84.8558-0.211*x

indice début

syst

oliq

ue

classe age: moins 30 ansclasse age: 30-50 ansclasse age: 51 ans et plus

1 2 3 4 5 6 7 8 978

80

82

84

86

88

90

92

opérations de personnalisation du graphique avec la fenêtre « toutes les options »

1. onglet fenêtre graphique : couleur extérieure, couleur intérieure, marge gauche 2. onglet texte/titres : changement de couleur et de police de caractères 3. onglet catégorisation : séparation en trois graphiques distincts relativement à la catégorie d’age 4. onglet tracés généralités : modification de la couleur des droites et remplacement des points avec + 5. onglet tracés ellipse : ajout d’une ellipse à 95% autour du nuage de points 6. onglet axes échelles : changement des limites et des graduations sur X (indice début) et Y (systolique)

graphique initial résultant des paramètres par défaut de STATISTICA

graphique final à la suite des opérations de personnalisation

Nuage de Points (Patients2.sta 17v*100c)classe age: moins 30 ans systolique = 89.6641-0.8001*xclasse age: 30-50 ans systolique = 83.5853+0.3051*x

classe age: 51 ans et plus systolique = 84.8558-0.211*x

indice début

syst

oliq

ue

classe age: moins 30 ans

0.00.5

1.01.5

2.02.5

3.03.5

4.04.5

5.05.5

6.06.5

7.07.5

8.08.5

9.09.5

10.070

75

80

85

90

95

100

classe age: 30-50 ans

0.00.5

1.01.5

2.02.5

3.03.5

4.04.5

5.05.5

6.06.5

7.07.5

8.08.5

9.09.5

10.0

classe age: 51 ans et plus

0.00.5

1.01.5

2.02.5

3.03.5

4.04.5

5.05.5

6.06.5

7.07.5

8.08.5

9.09.5

10.070

75

80

85

90

95

100

Page 49: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

49

49

UTILISATION D’UN STYLE DE GRAPHIQUE (ensemble d’options prédéfinies)

L’utilisation d’un STYLE est un autre moyen de personnaliser l’apparence d’un graphique. Les styles sont un ensemble d’options sauvegardées qui s’appliquent simultanément pour changer rapidement l’apparence des éléments du graphique. Cela élimine le besoin de redéfinir les options à chaque fois que l’on produit un graphique. Un graphique est une collection d’objets graphiques : libellés, axes, lignes ajustées, identificateur de points, …. de même que des objets ajoutés tels des cercles, boîtes de texte, des flèches, etc. Les styles de graphiques sont les propriétés (spécifications) des objets graphiques : § lignes : taille, couleur, épaisseur, type (pleine, pointillées), § points : taille, forme, et couleurs des identificateurs, § aires : couleur et texture, § libellés / titres : taille, couleur, polices ce caractères, § axes / échelles : couleur, graduation, étendue,….

Les styles n’ajoutent pas d’objets mais habillent l’objet. Lorsqu’un style s’applique à un graphique, (durant ou après sa création) les éléments (composants) définis par le style sont changés simultanément. Le graphique résultant est identique au graphique obtenu avec un changement fait manuellement appliqué aux éléments. Il s’agit en fait d’une séquence de commandes individuelles (macro commande).

Exemple : définition d’un style

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)Histogramme = 100*1*normal(x; 84.6879; 3.015)

Histogramme = 100*5*normal(x; 120.1022; 11.4797)Nuage de Points = 130.8765-0.1272*x

0

20

40

78 80 82 84 86 88 90 92

systolique

80

90

100

110

120

130

140

150

160

170

dias

toliq

ue

0 20 40

Apparence du graphique initial

Nuage de Points avec Histogrammes style normal (celui de STATISTICA)

les spécifications (propriétés) des éléments (points, symboles, couleurs, droites, caractères,..) sont prédéfinis. Ils s’appliquent à chaque fois que l’on produit un graphique « Nuages de Points avec Histogrammes » Changements apportés les couleurs, les symboles pour obtenir une version en noir et blanc du graphique.

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)Histogramme = 100*1*normal(x; 84.6879; 3.015)

Histogramme = 100*5*normal(x; 120.1022; 11.4797)Nuage de Points = 130.8765-0.1272*x

0

20

40

78 80 82 84 86 88 90 92

systolique

80

90

100

110

120

130

140

150

160

170

dias

toliq

ue

0 20 40

Graphique modifié On peut conserver les modifications d’apparence et les appliquer dans la production de tout autre graphique sans devoir les refaire individuellement à chaque fois. Exemple création d’un nouveau style nom du nouveau style « Nuage histogramme N&B » méthode : page suivante

Page 50: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

50

50

MÉTHODE POUR CRÉER UN STYLE PERSONNEL DE GRAPHIQUE

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)Histogramme = 100*1*normal(x; 84.6879; 3.015)

Histogramme = 100*5*normal(x; 120.1022; 11.4797)Nuage de Points = 130.8765-0.1272*x

0

20

40

78 80 82 84 86 88 90 92

systolique

80

90

100

110

120

130

140

150

160

170

dias

toliq

ue

0 20 40

Étapes 1. ouvrir la fenêtre du graphique

2. accéder aux options du graphique en cliquant dans la zone

3. ouverture de la fenêtre « toutes les options »

4. cliquer su l’onglet Style… dans la partie inférieure gauche

5. choisir l’option Enregistrer Sous… et spécifier un nom

double clic ici

Page 51: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

51

51

Exemple d’application d’un style

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)Histogramme = 100*0.1*normal(x; 1.7244; 0.0908)

Histogramme = 100*10*normal(x; 75.4972; 19.1106)Nuage de Points = 67.1103+4.8636*x

0

30

60

1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1

taille

20

40

60

80

100

120

140

160

poid

s

0 30 60

Nuage de Points avec Histogrammes (Patients2.sta 17v*100c)

Histogramme = 100*0.1*normal(x; 1.7244; 0.0908)Histogramme = 100*10*normal(x; 75.4972; 19.1106)

Nuage de Points = 67.1103+4.8636*x

-300

3060

1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1

taille

20

40

60

80

100

120

140

160

poid

s

-30 0 30 60

Liste détaillée des propriétés du graphique Bouton pour activer un menu pour l’enregistrement

Style normal STATISTICA Activation : appliquer le style « Nuage histogramme N&B »

Page 52: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

52

52

OUTILS D’EXPLORATION INTERACTIVE D’UN GRAPHIQUE : ROTATION HABILLAGE ZOOM

barre graphique

bouton ROTATION en 3D bouton HABILLAGE en 2D bouton ZOOM

Page 53: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

53

53

Exemple de ZOOM

Nuage de Points (Patients2.sta 17v*100c)classe age: moins 30 ans systolique = 89.6641-0.8001*x

classe age: 30-50 ans systolique = 83.5853+0.3051*xclasse age: 51 ans et plus systolique = 84.8558-0.211*x

indice début

syst

oliq

ue

classe age: moins 30 ansclasse age: 30-50 ansclasse age: 51 ans et plus1 2 3 4 5 6 7 8 9

78

80

82

84

86

88

90

92

Nuage de Points (Patients2.sta 17v*100c)classe age: moins 30 ans systolique = 89.6641-0.8001*x

classe age: 30-50 ans systolique = 83.5853+0.3051*xclasse age: 51 ans et plus systolique = 84.8558-0.211*x

indice début

syst

oliq

ue

classe age: moins 30 ansclasse age: 30-50 ansclasse age: 51 ans et plus

5.5 6.0 6.5 7.0 7.5 8.0

80

82

84

86

88

Zone sélectionnée pour le Zoom résultat

Cliquer ici résultat

Nuage de Points (Patients2.sta 17v*100c)classe age: moins 30 ans systolique = 89.6641-0.8001*x

classe age: 30-50 ans systolique = 83.5853+0.3051*xclasse age: 51 ans et plus systolique = 84.8558-0.211*x

indice début

syst

oliq

ue

classe age: moins 30 ansclasse age: 30-50 ansclasse age: 51 ans et plus

5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.8

82

83

84

85

86

Page 54: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

54

54

Exemples D’HABILLAGE

Nuage de Points (Patients2.sta 17v*100c)indice fin = 2.1062-0.0181*x

1 2 3 4 5 6 7 8 9

indice début

-1

0

1

2

3

4

5

6

indi

ce fi

n

Etiquetage de points

Nuage de Points (Patients2.sta 17v*100c)indice fin = 2.1062-0.0181*x

Obs. 11

Obs. 14

Obs. 18

1 2 3 4 5 6 7 8 9

indice début

-1

0

1

2

3

4

5

6

indi

ce fi

n

Tracé Matriciel (Patients2.sta 17v*100c)

pouls

systolique

diastolique

Marquage de points sélectionnés sans une zone rectangulaire

Page 55: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

55

55

Exemple de ROTATION

Page 56: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

56

56

PERSONALISATION DE STATISTICA

L’interface usager de STATISTICA peut s’ajuster aux besoins spécifiques de l’usager. De plus STATISTICA anticipe même vos préférences car il se rappelle les choix que l’usager a fait. Par exemple, si l’usager utilise l’onglet « Avancé » avec la boîte de dialogue de spécification d’une procédure, alors c’est l’onglet « Avancé » qui sera suggéré plutôt que l’onglet «Base », la prochaine fois que l’usager invoquera cette procédure.

Tous les aspects de l’interface usager peuvent être personnalisé : contrôle des menus, barre d’outils, et le clavier. Le processus pour le faire est simple. On peut régler des interfaces locales et des interfaces globales pour les feuilles de données, les graphiques, les classeurs et maintenir plusieurs configurations différentes. On peut même définir des barres d’outils personnelles. BARRES D’OUTILS

D’autres barres d’outils s’activent lorsqu’elles sont nécessaires. Par exemple, si un graphique est un document actif, alors la barre « Outils Graphiques » est visible.

10 barres d’outils prédéfinies

Chaque barre contient les boutons (icônes) les plus utiles pour les tâches.

Par défaut, la barre « Feuille de données »

et la barre « Standard »

sont toujours visibles à l’ouverture de STATISTICA.

6 Sigma Macro Outils Graphiques Standard Feuille de données

Barre d’outils personnelle

Page 57: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

57

57

STATISTICA VISUAL BASIC

Microsoft Visual Basic (MVB) est un langage de programmation très employé et il constitue un des standards de l’informatique. Son environnement est riche, flexible et comprend de nombreuses fonctionnalités pour le développement d’applications. Le langage STATISTICA VISUAL BASIC (SVB) vient ajouter un arsenal de plus de 10 000 nouvelles fonctions. SVB prend avantage de l’architecture modulaire par objet de STATISTICA et il permet à l’utilisateur d’accéder à tous les aspects et à tous les détails de fonctions des programmes. Dans le but d’automatiser les tâches répétitives STATISTICA offre trois catégories de MACROS (programmes en SVB) pour créer l’enregistrement automatique alors que l’usager exécute un programme. Il y a trois types de macros que l’on peut enregistrer. Ces macros suivent la même syntaxe et elles peuvent être éditées.

Macro d’une tâche : Analyse ou Graphique

Toutes les actions comme la sélection des variables, le choix des options … lors de l’exécution d’une tâche (provenant du menu Statistique ou Graphique ) sont enregistrées dans les coulisses. La tâche peut être simple ou élaborée en impliquant plusieurs centaines de documents de sorties, La création de ce type de Macro peut se faire via le menu Options (voir plus bas) qui est disponible avec toutes les analyse.

Page 58: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

58

58

Macro d‘une session (« Log »): Filière d’analyse

Une session entière comprenant plusieurs analyses peut être enregistrée (macro). Cette macro se différencie de la macro d’analyse standard par la possibilité d’avoir des périodes de suspension / reprise de l’enregistrement. Macro au Clavier

Toutes les frappes entrées via le clavier sont enregistrées. Lorsqu’on arrête, une fenêtre d’édition SVB s’ouvre comprenant toutes les frappes enregistrées. Exemple : macro de session

nom : correl programme : correl.vbs fonction : corrélations / scattergrammes des var 4-10 de la feuille.

La macro « correl.vbs » s’applique à tout fichier ayant au moins 10 variables. Elle calcule la matrice de corrélation des variables 4 à 10 et elle fait le tracé matriciel des mêmes variables. S’il y a une feuille de données ouverte , alors on peut exécuter la macro.

Page 59: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

59

59

AIDE DE STATISTICA

Disponible en anglais : sommaire – par index – par recherche - contextuelle

Conseiller statistique Manuel Électronique Vidéo didacticiels

Page 60: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

60

60

GLOSSAIRE

Types d’échelle de mesure Nominale : variable qualitative servant à définir l’appartenance à une classe ; les classes ne sont pas ordonnées. Ordinale : variable qualitative avec des classes ordonnées de moins à plus sans être capable de chiffrer les différences. Entre les classes. Intervalle :variable quantitative permettant de comparer la taille des différences entre les valeurs ;, par exemple l’échelle Celsius de température est une échelle de catégorie intervalle. Ratio : variable quantitative de type intervalle mais avec un zéro absolu ; par exemple l’échelle de température Kelvin.

Intervalle de confiance étendue de valeurs pour un paramètre (moyenne, proportion,..) de la population, calculée à partir des observations recueillies, que l’on croit, avec une certaine probabilité (coefficient de confiance), contenir la vraie valeur du paramètre. Le calcul de l’intervalle de confiance est basé sur l’hypothèse d’une distribution normale. Si la taille (nombre d’observations) de l’échantillon est supérieure è 100 cette hypothèse n’est pas nécessaire.

p-level (test de signification)

probabilité calculée et basée sur : (a) une statistique appropriée (généralement un ratio) dépendant des données, (b) en supposant qu’une hypothèse nulle (celle que l’on met à l’épreuve) est vraie, (c) une distribution d’échantillonnage généralement la loi F de Fisher ou la loi T de Student. Interprétation : si la valeur du p-level fournit par le logiciel statistique est « petite », disons 0.05, on déclare le test significatif, ce qui permet de conclure au rejet de l’hypothèse nulle avec un risque de 5% de se tromper.

Degré de liberté

le nombre de termes (fonctions des observations) qui sont linéairement indépendant dans une somme de carrés. C’est une valeur entière qui dépend du nombre d’observations n de l’échantillon et de la procédure statistique employée. Le degré de liberté est égal à n – k où k représente le nombre de restrictions imposées sur les données. Illustrons avec des exemples.

Exemple 1 : calcul de la variance échantillonnale. Le degré de liberté de la somme totale des carrés est n – 1 car on impose une seule restriction. Le calcul repose sur les écarts quadratiques (y – y ) 2 entre chaque observation y et la moyenne y. La somme des écarts (y – y ) est nulle.

Exemple 2 : ANOVA à un facteur variant à k modalités Le degré de liberté de la somme des carrés résiduelle servant à estimer l’erreur expérimentale est n – k - 1. On impose k restrictions additionnelles pour le calcul des moyennes de groupes. Il reste donc n – 1 – k = n – k – 1 degrés de liberté.

Exemple 3 : tableau de contingence r X c ( r rangées c colonnes) Les valeurs des comptages dans les cellules du tableau sont soumis à plusieurs contraintes. Le total de chaque ligne est fixé, le total de chaque colonne est fixé, le grand total de tous les effectifs est fixé. Il y a r * c cellules dont (r-1) lignes qui sont libres de varier et

Page 61: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

61

61

Degré de liberté (suite)

(c-1) colonnes qui sont libres de varier. Donc k = (r - 1) + (c -1) Le degré de liberté est r*c – (r - 1) – (c - 1) = (p - 1)*(q - 1). Cette valeur est le degré de liberté pour la variable khi deux pour tester l’indépendance des 2 variables qualitatives définies par les modalités des lignes et des colonnes.

Moyenne géométrique G = ( ∏ y i) 1 / n y i observation n taille de l’échantillon.

= exp [ ( 1/ n) ∑log ( y i ) ]

Moyenne harmonique H = n / ∑ ( 1/ y i)

Moyenne arithmétique

y = ∑ y i / n

Mode l’observation la plus fréquente.

Médiane

valeur qui sépare les observations en 2 groupes tels que 50% des valeurs sont inférieures à la médiane et 50% des valeurs sont supérieures à la médiane

Percentiles d’une distribution expérimentale (observations) ou une distribution théorique est un nombre x(p) (0 ≤ p ≤ 1) tel que 100*p% des valeurs de la distribution sont inférieures à x(p).

Étendue interquartile = x(0.75) - x( 0.25) différence entre le 75ième percentile et le 25ième percentile.

Étendue différence entre la plus grande observation et la plus petite observation.

Rang valeur entière désignant la position de l’observation dans la suite ordonnée des observations.

Écart type c’est est un indicateur de la dispersion des données. s = [ ∑ ( y i – y )2 / (n – 1) ]

0.5

Variance s2 = ∑ ( y i – y )2 / (n – 1 )

Écart type de la moyenne = s / √ n

Coefficient de corrélation mesure du degré de la relation linéaire entre 2 variables. Le coefficient est une valeur comprise entre – 1 et + 1. Une valeur voisine de zéro est associée à un nuage de points ayant une forme sphérique. Il est fortement recommander de faire un nuage de points pour visualiser les données correspondantes sur lesquelles on a calculé un coefficient de corrélation.

Page 62: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

62

62

Ouvrir la feuille de données STATISTICA : Agressivité.sta (3v par 50c. La feuille contient le sexe de l’individu et deux variables (AGR1 et AGR2). Ces variables mesurent, sur une échelle de 0 (doux) à 10 (violent), l’indice d’agressivité lorsque mis en face de deux situations susceptibles d’une réaction dans le cadre d’une simulation.

(a) Ajouter une nouvelle variable AGR = (AGR1 + AGR2)/2 (b) Ajouter une nouvelle variable CLAGR : agressivité de l’individu selon 4 niveaux : AGR CLAGR (0.00, 0.25] faible (0.25, 0.50] moyenne (0.50, 0.75] forte (0.75, 1.00] élevée (c) Quel code numérique a été assigné à la variable CLAGR ?

Remplacer le code numérique par les 4 valeurs suivantes : 1 – 2 – 3 – 4. (d) Trier les observations par SEXE et selon les valeurs croissantes de AGR. (e) Colorer en jaune : les cellules de sexe féminin ayant une valeur de AGR > 0.76 (e) Changer la police de caractères par « Times New Roman » ; centrer toutes les colonnes.

Ouvrir la feuille de données EXCEL : Température.xls La feuille contient 4 variables : Date, Ville, Température (degrés F), Condition atmosphérique de 30 villes américaines en date du 22, 23 ou 24 Août 1998.

(a) Importer la feuille dans une feuille de données STATISTICA ; sauvegarder le fichier sous le nom Température.sta

(b) Ajouter un en-tête descriptif au fichier. (c) Changer le format de la variable DATE pour le format : mois-année, (AUG-1998). (d) Transformer la température en degrés Celsius. (e) Trier les observations en ordre de température croissante. Quelle ville a la température la plus élevée ? (f) Trouver la moyenne et l’écart type de la variable température.

(a) Créer une nouvelle feuille de données avec le nom EX-G3.sta Saisir les 12 observations des 5 variables suivantes : ID1, ID2, X, Y, Z

ID1 ID2 X Y Z 1 AB 4 14 101.3 2 CD 7 -2 21.8 3 EF 9 7 122.1 4 GH 8 16 131.9 5 IJ 12 -22 99.2 6 KL 3 49 88.5 7 MN 5 -17 110.0 8 OP 7 6 87.4 9 QR 1 19 24.7

10 ST 2 -15 45.5 11 UV 1 -36 17.2 12 WX 4 0 99.6

(b) Ajouter un "en tête de fichier" intitulé « fichier pour l’exercice G-3 ».

G-1 : ajout de variables, formule, assignation texte/numérique, tri, coloriage

G-2 : importation, en-tête, format, tri, moyenne, écart type

G-3 : création d’une feuille de données, saisie de données, assignation d’un nom pour les observations (cas), ajout/élimination variables/ observations statistiques de blocs

EXERCICES : GESTION de DONNÉES

le fichier « nouveau » contient toujours 10 variables (colonnes) par 10 observations. (lignes) Il faudra ajouter 2 lignes Utilisez le bouton "Observations".

Page 63: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

63

63

Sauvegarder la feuille avec la commande "Enregistrez sous…" . (c) Nommer les observations avec la variable ID2. Employer "Gestionnaire de Noms d’Observations" (d) Éliminer la colonne 10. Employez le bouton "Variables". (e) Définir, dans les colonnes 6 à 9, les variables R (colonne 6 ), S (colonne 7) , T (colonne 8)

U (colonne 9) . Les équations de définition sont :

R = X + Y + Z ; S = Log10( R 2 ) ; T = R2 + Rnd(100) ; U = 100+RndNormal(10)

Ouvrer la boîte de dialogue à l'aide d'un double clic sur le nom de la variable Rnd (100) : données simulées selon loi uniforme sur (0,100) RndNormal(10) : données simulées selon loi normale de moyenne 0 et d’écart type 10

Sauvegarder la feuille sous le même nom. (f) Ajouter 5 rangées (cases) additionnelles après la rangée 12. Employez le bouton "Observations". (g) Saisir le bloc formé par les colonnes ID2, X, Y, Z et les rangées 1, 2, 3, 4, 5 (le bloc est en noir) et copier ce bloc ("Copier de Edition") et collez le bloc ("Coller de Edition") dans les rangées 13 à 17 et les colonnes ID2, X, Y, Z. (h) Déplacer les variables R, S, T, U après la colonne ID2. Faites une sauvegarde du fichier sous le nom EXG3-A. L’opérations suivante (i) sera exécutée sur ce fichier. (i) Obtenir toutes les statistiques : MIN -MAX – MOYENNE - ÉCART TYPE des variables X, Y, Z avec la commande "Statistiques de blocs" du bouton Statistiques de la barre principale de STATISTICA. Sauvegardez le résultat sous le nom EXG3-B.

(a) Créer une nouvelle feuille de données avec le nom EX-G4.sta (5v par 100c). Nommer les variables : ID JOUR MOIS AN MACHINE (dans cet ordre)

ID variable numérique avec une décimale. JOUR, AN variables de type entier.

MOIS variable de type texte avec les codes numériques suivants : janvier =1 février = 2 mars = 3 avril = 4 MACHINE variable de type texte. (a) Sauvegarder le fichier. (b) Compléter la feuille de données selon les informations suivantes.

1. ID commence à 10.0 et se poursuit avec 10.1, 10.2, …….

2. JOUR : valeur de 15 pour les observations 1 à 20 valeur de 16 pour les observations 21 à 40 valeur de 17 pour les observations 41 à 60

valeur de 18 pour les observations 61 à 80 valeur de 19 pour les observations 81 à 100

3. MOIS : janvier pour les cas 1 à 5 février pour les cas 6 à 10 mars pour les cas 11 à 15 avril pour les cas 16 à 20 recommencer la structure précédente pour les cas 21 à 40,…., 81 à 100

4. AN : commencer en 1901 suivie de 1902, 1903,…., 2000

5. MACHINE : cas 1 à 25 machine = A cas 26 à 75 machine = B cas 76 à 100 machine = A

(c) Ajouter une sixième variable : DATE combinant les variables JOUR /MOIS /AN en une seule colonne dans un format d’affichage « date » de Statistica.

G-4 : type de variables valeurs de date, saisie rapide des données par extrapolation

Page 64: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

64

64

Ouvrir la feuille de données : Baseball.sta ( 7v par 40c) (a) Trier les données par année (YEAR) en ordre croissant et, pour chaque année, en ordre décroissant de la variable BA (moyenne au bâton). (b) À quel numéro de cas correspond la meilleure moyenne au bâton en 1967? (c) Introduire une nouvelle variable SCORE dans la feuille

SCORE = 1000* (RUNS + DP) / WALKS. (d) Introduire une nouvelle variable TYPE de match dans la feuille : Score < 1600 TYPE = ennuyeux 1600 ≤ Score < 1900 TYPE = normal 1900 ≤ Score TYPE = excitant Durant la période de 1965 à 1968, y a-t-il eu plus de matchs ennuyeux que de matchs excitants ?

Ouvrir la feuille de données : Expérience mémoire.sta ( 8v par 48c) Mettre tous les résultats de cet exercice dans une filière que l’on nommera : Expérience .mémoire.stw

(a) variable STRESS - Calculer la moyenne l’écart type, le 5ième percentile, le 95ième percentile (b) variable STRESS - La variable est-elle normalement distribuée ? (c) variable STRESS - Calculer la moyenne et la variance selon la variable SEXE. (d) variable STRESS - Si on veut comparer les moyennes de STRESS pour les hommes et les femmes allez vous employer un test t (par groupe) ou un test non paramétrique?

Ouvrir la feuille de données : Textile2.sta ( 5v par 27c) Il s’agit de données obtenues par l’exécution d’un plan expérimental avec 3 facteurs variant à 3 modalités.

(a) Trouver les coefficients de corrélations entre les variables LOAD, AMPLITUDE, LENGHT, LOG_CYCL. Les trois premières variables sont les facteurs contrôlés de l’expérience et LOG_CYCL représente la variable de réponse. (b) Quels sont les coefficients qui sont statistiquement significatif au seuil de 0.05? (c) Tracer le nuage de points de LENGTH et LOG_CYCL. (d) Créer le graphique de réponse de LOG_CYCL.en fonction de LENGTH et LOAD. Quel est le comportement de la réponse lorsque LOAD décroît et que LENGTH croit? (e) Tracer le graphique de normalité des variables CYCLES et LOG_CYCL. Les variables suivent –elles loi normale? (f) Tracer le graphique Quantile-Quantile et le graphique Probabilité-Probabilité. Comparer les graphiques de la question (f) avec les graphiques de la question (e).

Ouvrir la feuille de données : Machine.sta ( 5v par 55c) (a) Comparer les 2 machines avec un test t pour 2 échantillons indépendants. Faites le test avec les variables des 2 premières colonnes seulement. Les hypothèses de base pour exécuter d’un test t sont-elles vérifiées? (b) Résumer le résultat du test t avec un diagramme boîte à moustaches. (c) Les colonnes 3 et 4 contiennent les mêmes données que les colonnes 1 et 2 mais organisées différemment. Exécuter le test t de comparaison des machines en employant les colonnes 4 et 5.

G - 5 : ajout de variables, recodification, tri, statistiques de blocs, formules

EXERCICES : ANALYSE STATISTIQUE de BASE Module Statistiques Élémentaires et fonctions Graphiques

S -1 : statistiques descriptives, décompositions , vérification normalité, test –t

S – 2 : corrélations, tests de significatifs, p-level

S – 3 : test t pour échantillons indépendants, diagramme Boîte à Moustaches

Page 65: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

65

65

Comparer avec le résultat obtenu avec le résultat obtenu en (a).

Ouvrir la feuille de données : Ventes GSC Inc.sta (13v par 130c) (a) Représenter avec un seul graphique, le volume (axe vertical) par période (axe horizontal) pour chaque région. Suggestion : employer les variables des colonnes 8 à 13. (b) Employer la procédure Décompositions & ANOVA à 1 facteur du module Statistiques Élémentaires pour comparer le volume des ventes des 6 régions entre les années 1996 et 2000. Le volume moyen du volume des ventes est-il statistiquement différent au seuil de 0.05? (c) Obtenir les différents graphiques qui permettent de visualiser les données et de vérifier si les données suivent une distribution normale. (d) Obtenir le résultat du test de comparaison Post Hoc ( a posteriori) HSD de Tukey permettant de comparer les régions 2 à 2.

Ouvrir la feuille de données : Funmage.sta (2 v par 50 c) (a) Obtenir une table de fréquences pour la variable catégorie d’age. (b) L’age est-elle liée à l’habitude de fumer? En d’autres termes existe t- il une relation entre la variable catégorie d’age et le fait d’être un fumeur? Suggestion : exécuter un test du khi deux. (c) Obtenir un graphique d’interaction des fréquences.

Ouvrir la feuille de données : Animaux.sta (2 v par 24 c)

(a) Vérifier au moyen d’un graphique que la variable POIDS ne suit pas une distribution normale. (b) Exécuter un test de Mann-Whitney pour comparer le groupe contrôle avec le groupe traitement. Fixer le seuil à 0.10. (c) Représenter les données au moyen d’un diagramme Boîte à Moustaches.

Ouvrir la feuille de données : Accidents.sta (3v par 12 c)

(a) Créer des noms d’observations à l’aide de la variable MOIS. (b) Les données d’accidents de chaque mois constituent –elles 2 échantillons indépendants? (c) Exécuter un test des signes sur les données. (d) Exécuter un test de Wilcoxon pour les données appariées. La différence est-elle significative?

L’analyse macro s’appliquera sur une feuille de données dont les deux premières variables sont quantitatives.

Ouvrir une feuille de données, par exemple Diamètres.sta (3v par 100c) (a) Créer une analyse macro de session qui fera la séquence des opérations suivantes sur chacune

des 2 premières variables de la feuille. Nommer la macro MACROTEST. 1. le calcul de la moyenne et de l’écart type; 2. l’histogramme; 3. le diagramme Boîtes à Moustaches; 4. le calcul de la matrice de corrélation; 5. le test t de comparaison des moyennes en considérant les deux variables comme deux échantillons dépendants (appariés). Enregistrer la macro sous le nom de MACROTEST.

(b) Exécuter MACROTEST sur la feuille de données IRIS.sta ( 5v par 150c)

S – 4 : décompositions, statistiques de groupes, ANOVA, comparaison a posteriori

S – 5 : tableaux et tris croisé, test du khi deux, graphique d’interaction d’effectifs

S – 6 : tests non paramétriques

S- 7 : Test des signes, test de Wilcoxon

S – 8 : création et exécution d’une analyse macro de session

Page 66: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

66

66

remarque : repose sur une connaissance des lois de probabilités

Aller à la fonction « Calculateur » du module STATISTIQUES ÉLÉMENTAIRES. Compléter le tableau ici-bas.

DISTRIBUTION

PARAMÈTRES DE LA DISTRIBUTION

PROBABILITÉ (p)

VALEUR DU PERCENTILE

z (Normal)

moyenne = 100 écart type = 10

0.85

X = ?

z (Normal)

moyenne = 100

écart type = 10

p = ?

X = 85

t (Student)

dl = 5

0.95

t = ?

t (Student)

dl = 10

p = ?

t = 2.00

F (Fisher)

df1 = 3 df2 = 7

p = 0.80

F = ?

F (Fisher)

df1 = 5 df2 = 15

p = ?

F = 1.55

S-9 : distributions de probabilité : z (Normale) t (Student) F (Fisher)

Page 67: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

67

67

NOUVELLES FONCTIONNALITÉS : version 6 § Interface-utilisateur simplifiée et optimisée, entièrement personnalisable, avec des onglets « Base »

n'offrant que les options les plus essentielles.

§ Personnalisation de la plupart des aspects du programme.

§ Nouvelles gestion flexible des sorties sous forme de classeurs et éditeurs de rapports puissants, d'une capacité illimitée, de tableaux multimédia, intégration de tous les documents STATISTICA.

§ Élimination de la plupart des limitations du système : nombre illimité de variables et d'observations, taille illimitée des noms de variables, étiquettes, valeurs-texte; possibilité d'ouvrir et traiter simultanément plusieurs fichiers de données, dans une ou plusieurs applications STATISTICA.

§ Amélioration des graphiques avec de nouveaux types de graphiques et des centaines de nouvelles fonctionnalités : un système pour gérer les styles de graphiques, l’exploration interactive 3D, des outils d'habillage et de zoom.

§ Langage Visual Basic totalement intégré, permettant aux novices d'enregistrer simplement des macros, et aux programmeurs de développer des applications complexes pouvant accéder à tous les aspects du programme Visual Basic.

§ Amélioration de la vitesse de traitement de toutes les procédures.

§ Nouveau requêteur puissant de bases de données relationnelles, options d'importation/exportation; les versions entreprises permettent de traiter des bases de données distantes directement sans avoir à importer les données localement.

§ Nouvelles procédures statistiques d'avant-garde : par exemple, pour le data mining et la modélisation ; et amélioration significative des procédures existantes avec élimination de la plupart des limites de taille.

§ Autres améliorations accessibles par des onglets et contrôles que vous n'activez que si vous en avez besoin.

§ Intégration avec le Web pour toutes les entrées et sorties avec le produit complémentaire STATISTICA Web Server.

§ Disparition du Commutateur de Modules. Tous les modules de STATISTICA sont désormais accessibles depuis une même application. On peut ouvrir plusieurs applications de STATISTICA simultanément, chacune pouvant traiter plusieurs analyses différentes sur des fichiers distincts. Par exemple, on peut réaliser 4 analyses de régression totalement indépendantes (ou plus) sur des fichiers de données différents, et 2 ANOVA sur un autre fichier de données commun.

§ La distinction entre les tableaux d'entrée et de sortie disparaît.

§ De nouvelles fonctions statistiques intelligentes, tenant compte automatiquement des valeurs manquantes sont désormais disponibles dans les formules des feuilles de données et ailleurs. Elles facilitent ainsi la spécification de listes d'arguments ; par exemple: = mean (v1 : 20 , v25 , v30 : 35 , sqrt (v4 ), time1, time3 ) calcule la moyenne des variables 1-20, 25, 30-35 , etc.

§ Un Gestionnaire de Configuration vous permet de passer d'une configuration de STATISTICA à une autre.

§ Tous les résultats peuvent être organisés de différentes façons. Par exemple, sous forme de rapports ou de fenêtres de résultats indépendantes, dans des classeurs, et peuvent être utilisés instantanément en entrée d'une autre analyse.

§ Les fichiers MS Excel, MS Word, ou autres fichiers externes peuvent être ouverts dans STATISTICA et intégrés dans les entrées ou les résultats.

Page 68: Fitted Surface; Variable: Y REND DV: Y REND 80 78 …cours.polymtl.ca/mth6301/ind3501/NotesCours/Initiation...STATISTIQUES DE BLOCS RECODAGE Une opération utile et fréquente dans

Initiation à Statistica 6

Copyright © Génistat Conseils Inc. 2004

68

68

§ Un éditeur de format de type Excel est utilisé dans tout le programme pour contrôler l'affichage des valeurs : cellules des tableaux, valeurs d'échelle, dans les graphiques, etc.

§ Un nouveau système flexible de Types de Graphiques simplifie radicalement la personnalisation des graphiques.

§ Les graphiques peuvent être enregistrés sous divers formats, notamment les formats JPG et PNG (le nouvel équivalent du GIF) pour les applications Internet)

§ Tous les graphiques sont entièrement programmables en Visual Basic.

§ Toutes les fonctions de gestion des données sont désormais accessibles à tout moment de l'analyse (disparition du module de Gestion des Données dans STATISTICA 6)

§ De nouvelles options d'importation (par exemple, une nouvelle fenêtre d'aperçu avant importation, des options pour ignorer les intitulés des fichiers ASCII, afin, par exemple, de ne pas importer les deux premières lignes), et une nouvelle application puissante et intégrée, STATISTICA Query, avec des outils conviviaux pour construire des requêtes complexes sur des bases de données.

§ Les classeurs constituent une manière intuitive et pratique d'organiser vos résultats et permettent de stocker un nombre illimité de documents (non seulement des tableaux et graphiques STATISTICA mais aussi des documents MS Office ou autre). Les classeurs sont organisés et gérés comme les contrôles MS Windows standard pour l'étude des dossiers et des fichiers.

§ Les classeurs contiennent une "table des matières" dans le volet gauche, et sont organisés automatiquement de façon hiérarchique pour rendre compte des différentes analyses, graphiques ou analyses réalisés sur les différents fichiers de données, etc. Les dossiers du classeur (représentant par exemple différentes analyses) peuvent être réduits ou développés d'un simple clic, par exemple pour montrer tous les documents d'entrée et résultats associés à l'analyse respective.

§ Chaque classeur peut être enregistré dans un seul fichier ; tous les résultats, graphiques, fichiers de données, etc. peuvent être ouverts ultérieurement tels qu'ils ont été insérés initialement ; par exemple, vous pouvez enregistrer un projet d'analyse entier dans un même classeur contenant tous les fichiers de données, graphiques, résultats de différentes analyses, rapports mis en forme avec des graphiques et tableaux incorporés, annotations vocales, etc. dans un seul fichier que vous pouvez envoyer par e-mail à un collègue.

§ Les noms de variables ou d'observations, étiquettes, en-têtes, etc... peuvent être de taille quasiment illimitée et contenir tout caractère, formatage de caractère, etc... ; ces attributs spéciaux, tailles de police, couleurs, etc... sont préservés (utilisés) pour l'étiquetage des résultats dans les graphiques, feuilles de données, classeurs, rapports, etc.

§ Vous pouvez aisément gérer, modifier ou intégrer chacune des dix barres d'outils prédéfinies et autant de barres d'outils personnalisées que vous le souhaitez, en fonction de vos différentes configurations de STATISTICA, etc.

§ STATISTICA enregistre automatiquement les scripts Visual Basic de toutes les analyses que vous réalisez ; vous pouvez donc enregistrer de longues séquences d'opérations pour les exécuter à nouveau ultérieurement ou les modifier, et les incorporer dans vos propres applications.