le traitement des données manquantes dans les enqu êtes à grande é chelle
DESCRIPTION
Le traitement des données manquantes dans les enqu êtes à grande é chelle. Michel Rousseau, PhD Directeur de l’évaluation VDPDPC. Plan de la présentation. Typologie Prévention Diagnostic Traitement Publication. Typologie. Définition: - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/1.jpg)
Le traitement des données manquantes dans les enquêtes à
grande échelle
Michel Rousseau, PhDDirecteur de l’évaluationVDPDPC
![Page 2: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/2.jpg)
2
Plan de la présentation
TypologiePréventionDiagnosticTraitementPublication
![Page 3: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/3.jpg)
3
Typologie
Définition:Une donnée est considérée comme étant manquante si
aucune information n’est observée alors qu’il serait logique d’y avoir une information.
Problème:La plupart des méthodes d’analyse statistique ont été
développées pour traiter des matrices de données complètes
![Page 4: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/4.jpg)
4
Typologie
MAH MH NMH
Sujet Élève est malade le jour du test
Élève plus faible en math. ne se présente pas au test de math.
Occasion Élève est malade T2 de l’étude
Élève ayant eu un faible score au T1 est absent au T2
Valeur Élève oublie de répondre à un item
Les garçons vont plus souvent oublier de répondre à un item
![Page 5: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/5.jpg)
5
Prévention
Population viséeNiveau de langageNature des informations demandées
Outils de mesureLongueur des questionnairesMise en page
Procédures de correction et de saisieFacteurs humainsProcédures informatisées
![Page 6: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/6.jpg)
6
Diagnostic
Calcul de la proportion de données manquantesTaux de participationCalcul par individu/variable
Identification de la raison et du mécanismeMéthode de Little (1988)
![Page 7: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/7.jpg)
7
Traitement
Exemple pour illustrer les méthodes
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 514,46 4,65
science 526,12 89,31
envir 0,154 1,00 27,65 5,06
plaisir 0,103 1,14 22,27 4,43
ses 0,201 0,82 25,38 5,77
![Page 8: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/8.jpg)
8
Traitement
Méthodes des cas complets – listwise deletion
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 516,21 7,91
envir 0,383 0,92 23,72 7,70
plaisir -0,175 1,05 27,05 6,77
ses 0,356 0,79 24,72 9,65
![Page 9: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/9.jpg)
9
Traitement
Méthodes des cas complets – pairwise deletion
Variable Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 510,07 7,06
envir 24,52 6,64
plaisir 24,85 5,96
ses 30,93 7,60
![Page 10: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/10.jpg)
10
Traitement
Méthodes d’imputationExplicite
Méthodes intersujetsMéthodes intrasujetsMéthodes inter et intra
ImpliciteMéthodes Hot-deck et Cold-Deck
![Page 11: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/11.jpg)
11
Traitement
Méthodes d’imputation – Moyenne de la variable
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 509,00 5,99
envir 0,383 0,84 25,51 5,93
plaisir -0,175 0,95 27,00 5,29
ses 0,356 0,72 33,92 6,89
![Page 12: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/12.jpg)
12
Traitement
Méthodes d’imputation – Régression
Variable Moyenne Écart-type Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 510,74 5,51
envir 0,340 0,90 26,40 5,45
plaisir -1,471 1,05 26,43 4,70
ses 0,359 0,78 28,67 6, 15
![Page 13: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/13.jpg)
13
Traitement
Imputation multiple
m
j
jQmQ1
)(1 ˆ
m
j
jUmU1
)(1
m
j
j QQmB1
2)(1 ˆ)1(
BmUT )1( 1
![Page 14: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/14.jpg)
14
Traitement
Moyenne des coefficients de régression
1 2 3 4 5 Moyenne
B0 – Intercept 510,35 511,23 512,80 511,98 511,35 511,54
B1 – envir 26,92 27,90 23,87 28,88 26,41 26,80
B2 – plaisir 24,27 27,56 25,26 26,26 24,90 25,65
B3 – ses 26,13 26,66 28,18 29,80 27,94 27,74
![Page 15: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/15.jpg)
15
Traitement
Variation intra-imputation
1 2 3 4 5 Variance intra-
imputation
B0 – Intercept 5,44 5,31 5,24 5,37 5,35 5,34
B1 – envir 5,30 4,96 5,30 5,14 5,27 5,19
B2 – plaisir 4,77 4,67 4,87 4,78 4,73 4,76
B3 – ses 5,90 6,07 5,99 6,10 6,30 6,07
![Page 16: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/16.jpg)
16
Traitement
Variation inter-imputation
1 2 3 4 5 Variance inter-
imputation
B0 – Intercept -1,19 -0,31 1,26 0,44 -0,19 0,83
B1 – envir 0,12 1,10 -2,93 2,08 -0,39 3,57
B2 – plaisir -1,38 1,91 -0,39 0,61 -0,75 1,66
B3 – ses -1,61 -1,08 0,44 2,06 0,20 2,06
![Page 17: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/17.jpg)
17
Traitement
Imputation multiple
Variable Coefficient de
régression non-
standardisé (B)
Erreur-type du
coefficient B
Intercept 511,54 6,34
envir 26,80 9,47
plaisir 25,65 6,75
ses 27,74 8,54
![Page 18: Le traitement des données manquantes dans les enqu êtes à grande é chelle](https://reader035.vdocuments.us/reader035/viewer/2022070404/56813adb550346895da32423/html5/thumbnails/18.jpg)
18
Publication
Reconnaître le problème Identifier les DM selon le typePrésenter le % de DM pour chaque typeDiscuter les causes des DMPrésenter la méthode de traitement utiliséeDiscuter des impacts de la méthode de traitement