régression linéaire bases - gfurst.netgfurst.net/docs/furst_2013_regression_lineaire.pdf · vue...
Post on 11-Sep-2018
233 Views
Preview:
TRANSCRIPT
Vue d’ensemble
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 2
Variable Latente 1
i1 i2 i3 i4 i5
Variable Latente 2
i6 i7 i8 i9 i10
Passation des questionnaires
Analyse factorielle
Régression Linéaire (Simple ou Multiple)
Analyse de la fidélité
Analyse de la validité
Analyse des propriétés psychométriques des questionnaires
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Variance: représente la moyenne des écarts à la moyenne . Mesure de la diversité. Une variable sans variance est une constante.
• Covariance: représente la variance partagée entre deux variables. Indices non normé, peut varier entre -∞ et +∞.
• Scores z (standardisés): Mesure de position standardisée. Situe chaque observation par rapport à la moyenne, en unité d’écart-type.
• Corrélation: Covariance standardisée. Bornée entre -1 et +1. La covariance entre deux variables standardisées (scores z) est une corrélation.
Rappel: variance, covariance, corrélation
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 3
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• La significativité statistique indique si un effet est différent de 0.
• La taille d’effet donne plus d’information sur la magnitude de cet effet.
• Ces deux informations sont différentes et indépendante l’une de l’autre
• (L’estimation de la taille d’effet dépend de la fidélité de la mesure.)
Rappel: taille d’effet et significativité
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 4
Pas d’effet Relation assez forte Relation très forte
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• La régression simple permet de tester le lien entre deux variables:
– La variable dépendante (VD) toujours est continue
– La variable indépendante (VI) est continue ou dichotomique/muette (avec des valeurs de 0 ou 1)
• Par défaut, le lien testé en deux variables continues est linéaire (mais certaines méthode permettent de tester des relations non-linéaires)
• La régression simple avec une variable dichotomique est équivalente au test t.
• La régression simple avec deux variables continues est similaire à la corrélation.
• Le principe général est d’estimer une droite qui passe au mieux au travers de toutes les données
• Paramètres estimés:
– Intercepte: scores sur la VD pour les personnes qui ont 0 sur la VI;
– Pente: progression moyenne sur la VD pour une valeur de 1 sur la VI;
– Résidus: partie de la variance non expliquée par la le lien entre VI et VD.
La régression simple (RLS): principe
http://hadm.sph.sc.edu/courses/J716/demos/leastsquares/leastsquaresdemo.html
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 5
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
La régression simple (RLS): principe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 6
Relation linéaire entre variables continues
Relation entre une variable dichotomique et une continue
Relation non- linéaire entre variables continues
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Equation dans la population:
Yi = β0 + β1*xi + εi
• Equation dans l’échantillon
Yi = b0 + b1*xi + ri
• Hypothèses nulles
– Pour l’intercepte:
• H0 : β0 = 0
• H1 : β0 ≠ 0
– Pour la pente:
• H0 : β1 = 0
• H1 : β1 ≠ 0
RLS – Modèle et hypothèses nulles
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 7
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Valeurs extrêmes : surveiller les valeurs extrêmes, avec un grand résidu, qui peut influencer l’estimation)
RLS – Postulats et résidus
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 8
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Graphs à faire :
– Histogramme des résidus. On attends la normalité.
– Scatterplot « valeurs prédites vs. résidus ». Homogénéité de la variance
• Postulats:
– Indépendance des observations
– Normalité des résidus
– Homogénéité de la variance
– Pas de valeurs extrêmes
• Intercepte
– Taille d’effet: b0
– Significativité: testée avec un test t.
• Pente
– Taille d’effet: bx ou « Betax » (standardisé)
– Significativité: testée avec un test t.
• R2: Proportion de variance expliquée
– Paramètre standardisé par nature.
– Varie entre 0 et 1. S’exprimer aussi en %
– Significativité testée avec un test F.
RLS – Paramètres estimés
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 9
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Le sens VI et VD est motivé théoriquement.
• Ce sens n’a que très peu d’incidence sur l’analyse statistique.
• La régression ne démontre JAMAIS la causalité.
• La causalité se démontre/contrôle méthodologiquement; trois points clés:
1. Lien entre deux variable
2. Antériorité temporelle de la cause
3. Exclusion de tous les autres facteurs potentiels
Horrible mais pourtant vrai :
Aucune analyse statistique
ne peut démontrer la causalité
Régression et causalité
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 10
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
• Point communs avec la RLS
– Même principe, même estimation.
– Mêmes postulats, même diagnostique.
Régression Linéaire Multiple (RLM)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 11
• Points spécifiques:
– Plus de paramètres estimées
– Equation avec plusieurs pentes
Yi = β0 + β1*xi + β2*xi + … + εi
– Espace en « n » dimension au lieu de 2
– Les estimations des pentes ne sont plus directement analogues à la corrélation
– Attention à la multi-colinéarité. Vérifier la tolérance (= 1 – R2). Doit être supérieure à .10.
http://la-dimension4.com/Hyperplans.html
Rappels – Principe de la RLS – Postulats – Paramètres – Causalité – RLM
Lectures
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 2, dia. 12
• Field, A. (2007). Discovering Statistics Using SPSS. SAGE Publications Ltd.
– Chapitre 5 “Exploring assumptions”, pp. 131-136
– Chapitre 6 “Correlation”, pp. 166-172
– Chapitre 7 “Regression”, pp. 197-209
• Videos Qualtrics: http://www.youtube.com/watch?v=Q9YW9RAM9jQ&list=PLFF2F7C1E49A04697
Inférence – vue d’ensemble des tests
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 14
Nom du test / Analyse statistique
Distribution pour le test de significativté Degré de liberté
Indice de la taille d'effet
Chi carré Χ2 Nb de catégorie -1 Cohen’s w
Test t t (ng1+ng2) - 2 Cohen’s d
ANOVA F ddl1: Ng-1, ddl2: n-Ng η2
Corrélation t N – 2 r ou r2
Exemple des formules pour le test t :
http://wiki.opossem.org/index.php?title=Statistical_distributions
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Taille d’effet et significativité en régression
• Rappel pour la corrélation
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 15
• Pour l’intercepte en RLS:
• Pour la pente en RLS:
T
T
T
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
R2 et R2 ajusté
• Le R2 représente la taille d’effet totale, la variance expliquée de Y
R2 = 1 - 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑡𝑜𝑡𝑎𝑙𝑒
• Le test F permet de tester si le R2 est différent de 0:
F = 𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑒𝑥𝑝𝑙𝑖𝑞𝑢é𝑒
𝑣𝑎𝑟𝑖𝑎𝑛𝑐𝑒 𝑟é𝑠𝑖𝑑𝑢𝑒𝑙𝑙𝑒
dl1: p-1, ddl2: n-p
• R2 ajusté:
Permet de prendre en compte:
– La taille d’échantillon (n)
– Le nombre de paramètre dans le modèle (p)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 16
http://en.wikipedia.org/wiki/F-distribution
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Intervalle de confiance: principe
• Caractéristiques générales de l’IC :
– L’IC permet d’estimer un intervalle dans lequel se trouve probablement la vraie valeur de la population
– L’IC dépend de l’erreur standard d’un paramètre, l’erreur d’estimation.
– Plus l’échantillon (n) est grand, plus petite sera l’erreur d’estimation
– Plus la taille de l’échantillon (n) est grande, plus l’IC sera étroit.
– Plus l’IC est étroit, plus nous avons confiance que l’estimation ponctuelle est proche de la vraie valeur de la population.
IC(95%) = [limité inférieure; limite supérieure]
Limite inférieure= point estimé du paramètre – Quantile de la loi t (n-p) * Erreur standard du paramètre
Limite supérieure= point estimé du paramètre + Quantile de la loi t (n-p) * Erreur standard du paramètre
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 17
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Exemple – paramètres estimés
• Intercepte – b0≈ 0
– t(108) ≈ 0; p ≈ 1
– IC(95%)=[-0.27; 0.27]
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 18
• R2
– R2 = 0.17
– R2 ajusté = 0.16
– F(2,108)=11.63; p < .001
• Pente de Generation – b1 (brute) = 0.76
– b1 (standardisée) = 0.43
– t(108)= 4.8; p < .001
– IC(95%)=[-0.45; 1.08]
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Détecter les valeurs extrêmes
• Graphiques exploratoires avant l’analyse (insuffisant pour la RLM)
• Taille des résidus (mais ce n’est pas la meilleure méthode)
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 19
• Distance de Cook Représente l’influence d’une observation sur l’estimation. Doit être inférieure à 1 pour toutes les observations.
• Distance de Mahalanobis Distance qui représente l’éloignement à la moyenne. Voir les recommandations ci-contre pour les valeurs limites.
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Exemple – Valeurs extrêmes
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 20
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Normalité
• Utiliser avant tout les graphiques
• Skewness et Kurtosis
– Estimations inférieures à |1|
– Estimation/erreur standard < 2
• Tests de normalité (Kolmogorov-Smirnov)
– Permet de savoir si notre distribution est significativement différente d’une normale
– On veut une p-valeur non-significative.
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 21
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Transformations
• On distingue:
– Transformation linéaire: ne modifie pas la distribution (p. ex. score z)
– Transformation non-linéaire: modifie la distribution
• Souvent utilisé pour corriger l’asymétrie – Transformation log
– Transformation racine carré
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 22
• Après transformation, l’équation n’est plus la même. Par exemple:
Log(Y) = b0 + b1*xi Y = Exp(b0) + Exp(b1*xi )
• La relation entre les variables n’est plus linéaire
• Voir aussi
– Field (2007), chap. 5, pp. 153-156
– http://stattrek.com/regression/linear-transformation.aspx
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Transformations – normalité univariée
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 23
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Transformations – relation non-linéaire
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 24
http://researchnetwork.pearson.com/digital-data-analytics-and-adaptive-learning/look-at-your-data
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Transformations – relation non-linéaire
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 3, dia. 25
htt
p:/
/ww
w3
.nd
.ed
u/~
rwill
iam
/sta
ts2
/l6
1.p
df
Intro – Fidélité – Inférence – Valeurs extrêmes – Normalité – Transformations
Variable muette – cas simple classique
• Contexte:
– Une variable continue (VD)
– Une variable nominale à 2 modalités (VI)
=> Il s’agit du cas typique pour un test t ou une ANOVA
• Mais on peut aussi faire :
– Une corrélation bisérielle de point
– Et, bien sûr, une régression!
• Principe de base: On recode la variable nominale:
– On attribue la valeur de 0 à un groupe
– Et la valeur de 1 à l’autre groupe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 26
variable
originale
variable
recodée
oui 1
oui 1
oui 1
non 0
oui 1… …
Voir aussi A. Field, pp. 253-256
Variable muette – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 27
• Corrélation et régression
Variable muette – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 28
• Test t et ANOVA
Régression hiérarchique – principe
• Appelée aussi régression stewipse ou par étape.
• A ne pas confondre avec modèle hiérarchique (multi-niveaux).
• Principe: on ne met pas tous les prédicteurs d’un seul coup; on entre les prédicteurs par étapes dans le modèle de régression :
– soit par importance théorique (cf. exemple ci-dessous);
– soit par importance statistique (e.g., prédicteurs les plus forts en premiers).
• Intérêt: permet de donner une priorité théorique à certains prédicteurs.
• Utile seulement si les prédicteurs corrèlent.
• Exemple de stratégie guidée par la théorie:
– Entrer d’abord les variables contrôles
– Entrer ensuite les prédicteurs principaux, éventuellement avec interaction
– Entrer éventuellement d’autre prédicteurs pour voir si on peut augmenter le R2
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 29
Tester une différence de R2
• Pour tester la pertinence de l’ajout de prédicteurs supplémentaires, on compare les modèles (variance expliquée).
• Utile si plusieurs prédicteurs sont ajoutés (pour l’ajout d’un seul prédicteur, le test de différence de R2 est redondant avec le test de la pente).
• La comparaison peut se faire:
– Avec le R2 ajusté : si le R2 ajusté ne change pas ou très peu, on peut conclure que dans l’ensemble les prédicteurs ne sont pas utiles
– Avec un test de différence de R2 : si le résultat du test est significatif, on peut conclure que l’ajout de prédicteur permet vraiment d’améliorer la quantité de variance.
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 30
Tester une différence de R2
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 31
Interaction – principe et test
• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par un autre prédicteur.
• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction
• Exemples d’interaction
– Vitesse et alcool au volant
– Pilule et cigarette
– Motivation et récompense
• Marche à suivre pour tester une interaction
– Centrer ou standardiser les 2 prédicteurs
– Créer une nouvelle variable, produit de ces 2 prédicteurs
– Tester les 3 effets en RLM
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 32
RLM: vue d’ensemble
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 34
• Analyses exploratoires et descriptives (séance 1-3)
– Histogramme (et boxplot)
– Scatterplot
– Statistiques descriptives (moyenne, écart-type, min. et max., asymétrie, aplatissement)
– (test de normalité)
• Estimation du modèle (séance 2 et 3)
– Introduire les bonnes variables
– Évent. créer une variable d'interaction
– voir les options dans cours séance 3
• Diagnostic (séance 2 et 3)
– Normalité des résidus (graphs, skewness, kurtosis, test de normalité)
– Homogénéité de la variance (graph)
– Valeurs extrêmes (Cook, Mahalanobis)
• Interprétation (séance 2-4)
– Quels prédicteurs sont significatifs?
– Taille d'effet des prédicteurs significatifs
– Quel est le prédicteur le plus important?
– Variance totale expliquée (R2)
• A faire éventuelle en plus
– Ré-estimation du modèle après transformation (séance 4)
• Pour résoudre un problème de résidus
• Et/ou pour tester un effet non-linéaire
– Ré-estimation du modèle sans valeurs extrêmes (séance 3-5)
– Comparaison de modèle (si régression hiérarchique) (séance 4)
• Différence de R2
• Test de différence de R2
– Graph d’interaction (séance 5)
– Estimation de plusieurs modèles pour tester un effet de médiation (séance 5)
Médiation et interaction
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 4, dia. 35
Interaction – principe et test
• Il y a interaction lorsque que l’effet d’un prédicteur sur une VD est modifié par un autre prédicteur.
• Les 2 deux effets principaux des prédicteurs sont bien dissociables de l’interaction
• Exemples d’interaction
– Vitesse et alcool au volant
– Pilule et cigarette
– Motivation et récompense
• Marche à suivre pour tester une interaction
– Centrer ou standardiser les 2 prédicteurs
– Créer une nouvelle variable, produit de ces 2 prédicteurs
– Tester les 3 effets en RLM
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 36
Interaction – Gaph. 1
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 37
• Intercepte: b0 = 1.54
• Pentes standardisées: – bExtraversion = -0.41
– bNeuroticisme = 0.31
– bInteraction = -0.16
Interaction – Graph. 2
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 38
• Feuille Excel (répertoire séance 5 -> analyses) interaction_2-way_standardised.xls
• Permet de faire le graph d’interaction à partir des coefficients sdandardisés
• « high » représente une personne avec un score d’un écart-type supérieur à la moyenne (score de +1).
• « low » représente une personne avec un score d’un écart-type inférieur à la moyenne (score de -1).
Médiation – principe
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 39
• Il y a médiation lorsque la relation entre deux variables X et Y est expliquée par une troisième variable M.
• Exemples de médiation
– Motivation -> Temps passé -> Performance
– Stress -> Rumination -> Dépression
• Pour tester une médiation, il faut estimer plusieurs modèles:
1. Relation entre variable X et Y
2. Relation entre M et Y
3. Relation entre X et M
4. Prédiction de Y par M et X
• Plusieurs issues possibles
– Les conditions minimales ne sont pas remplies (cf. 3 premiers points ci-contre)
– Médiation partielle (les deux effets de X et M sur Y sont significatif au point 4)
– Médiation totale (seul l’effet de M est significatif au point 4)
Médiation – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 40
Intelligence
Vocabulaire
Fluidité
Médiation – exemple
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 41
Intelligence
Vocabulaire
Fluidité
Médiation – test de Sobel
Régression Linéaire Multiple (RLM2013) – Guillaume Fürst, Université de Neuchâtel, IPTO – Automne 2013 – Séance 5, dia. 42
http://www.danielsoper.com/statcalc3/calc.aspx?id=31
• Permet de tester la significativité de l’effet indirect
top related