regression logistique conditionnelle pour´ donnees corr´ el´ ees´ · 2005. 12. 7. ·...
TRANSCRIPT
-
Régression logistique conditionnelle pourdonnées corrélées
Thierry Duchesne1
Département de mathématiques et de statistiqueUniversité Laval
En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)
Séminaire de statistiqueUniversité de Sherbrooke, 8 décembre 2005
1Travail supporté par CRSNG et FQRNT
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Aperçu
1 IntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes
2 Équations d’estimation généralisées (GEE)Introduction: rappel sur les GEE
3 GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d’estimation généraliséesSélection de modèle: critère QIC
4 Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis
5 ConclusionRecherche future
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Type de données à analyser
Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).
On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Type de données à analyser
Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Type de données à analyser
Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).
Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Modèle de régression logistique conditionnelle
Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose
un effet aléatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindépendantes (sachant θs);
P[Ysi = 1|xsi,θs] =exp{θs +β>xsi}
1+ exp{θs +β>xsi}, i = 1, . . . ,ns,
où β> = (β1, . . . ,βp) est le paramètre d’intérêt.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Distribution de Ys1, . . . ,Ysns sachant leur somme
Sachant ∑nsi=1Ysi = ms (que l’on dénotera “|ms”), on a que
P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp{
∑nsi=1 β>xsiysi
}∑
(nsms)l=1 exp
{∑nsi=1 β>xsivli
} ,où ∑
(nsms)l=1 représente la somme sur tous les vecteurs possibles
de taille ns constitués de ms ‘1’ et ns−ms ‘0’ et où vli est le ieélément du le tel vecteur, vl.
L’effet aléatoire θs disparait en conditionnant sur ∑iYsi = ms!!
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Distribution de Ys1, . . . ,Ysns sachant leur somme
Sachant ∑nsi=1Ysi = ms (que l’on dénotera “|ms”), on a que
P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp{
∑nsi=1 β>xsiysi
}∑
(nsms)l=1 exp
{∑nsi=1 β>xsivli
} ,où ∑
(nsms)l=1 représente la somme sur tous les vecteurs possibles
de taille ns constitués de ms ‘1’ et ns−ms ‘0’ et où vli est le ieélément du le tel vecteur, vl.
L’effet aléatoire θs disparait en conditionnant sur ∑iYsi = ms!!
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Fonction de vraisemblance
En supposant les strates indépendantes, on a queLFull(β ) = ∏nss=1 L
(s)Full(β ), où L
(s)Full(β ) est
P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page précédente.
Lemme
Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a queL(s)Full(β ) = L
(s)(− j)(β ), où
L(s)(− j)(β ) =exp{
∑i6= j β>x(− j)si ysi
}∑
(nsms)l=1 exp
{∑i 6= j β>x
(− j)si vli
} .Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)(−1)(β ).
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Fonction de vraisemblance
En supposant les strates indépendantes, on a queLFull(β ) = ∏nss=1 L
(s)Full(β ), où L
(s)Full(β ) est
P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page précédente.
Lemme
Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a queL(s)Full(β ) = L
(s)(− j)(β ), où
L(s)(− j)(β ) =exp{
∑i6= j β>x(− j)si ysi
}∑
(nsms)l=1 exp
{∑i 6= j β>x
(− j)si vli
} .Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)(−1)(β ).
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Régression logistique conditionnelle
Fonction de vraisemblance
On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:
L(β ) =S
∏s=1
exp{
∑nsi=2 β>x∗siysi
}∑
(nsms)l=1 exp
{∑nsi=2 β>x∗sivli
}l(β ) =
S
∑s=1
ns∑i=2
β>x∗siysi− ln(nsms)∑l=1
exp
{ns
∑i=2
β>x∗sivli
}U(β ) =
S
∑s=1
ns∑i=2
x∗siysi−∑
(nsms)l=1 vlix
∗si exp
{∑nsi=2 β
>x∗sivli}
∑(nsms)l=1 exp
{∑nsi=2 β>x∗sivli
} .
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Problème: strates corrélées par grappes
Et si les strates sont corrélées par grappes?
La fonction de vraisemblance suppose que
Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,
c.-à-d. que les réponses de strates différentes sont noncorrélées.Que faire si ce n’est pas le cas?
Exemple des wapitis
Chaque strate correspond à 201 choix possibles dedéplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un même animal possiblementcorrélées?
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Équations d’estimation
Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.
Régression linéaire
β̂ = argminβ
n
∑i=1
(Yi−β>xi)2
⇔ U(β̂ ) ≡n
∑i=1
xi(Yi− β̂>xi) = 0.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Équations d’estimation
Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.
Estimation par maximum de vraisemblance
θ̂ = argmaxθ
n
∏i=1
Li(θ ;Yi,xi)
en général ... ⇔ U(β̂ ) ≡n
∑i=1
∂∂θ
lnLi(θ ;Yi,xi)∣∣∣∣θ=θ̂
= 0.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Équations d’estimation généralisées
On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et g{µi j(β )}= β>xi j, où g estune fonction de lien connue.On choisit une structure de corrélation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).On estime β par β̂GEE qui résoud
UGEE(β̂GEE)≡n
∑i=1
D>i V−1i {Yi−µi(β̂GEE)}= 0,
où Di = AiXi et Vi = A1/2i Ri(α)A
1/2i .
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Introduction: rappel sur les GEE
Propriétés de β̂GEE
L’estimateur β̂GEE qui résoud UGEE(β̂GEE) = 0 a les propriétéssuivantes, même si notre choix de Ri(α) n’est pas parfait:
β̂GEE ≈ N(β ,Σ);Σ est estimée de façon convergente par la variancesandwich robuste, V̂S = V̂T ĈEV̂T , où
V̂T =
(n
∑i=1
D>i V−1i Di
)−1∣∣∣∣∣∣ α=α̂β=β̂
et
ĈE =
[n
∑i=1
D>i V−1i {Yi−µi(β )}{Yi−µi(β )}
>V−1i Di
]∣∣∣∣∣ α=α̂β=β̂
.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Espérance et variance conditionnelle
Objectif à atteindre
Nous désirons appliquer l’approche GEE à la régressionlogistique conditionnelle, c.-à-d. dans le cas où
on observe (Y (g)si ,x∗(g)si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S
(g)
(strates), i = 2, . . . ,n(g)s (observations individuelles);
on sait avant de recueillir les données que ∑n(g)s
i=1Y(g)si = m
(g)s ;
on suppose que Corr∗(Y (g)si ,Y(g′)s′i′ ) = 0 mais que
Corr∗(Y (g)si ,Y(g)s′i′ ) n’est pas nécessairement 0.
Note: À partir d’ici, un ∗ sur E, Var, Cov ou Corr dénote uneopération conditionnelle aux variables explicatives et à lasomme des Y dans les strates.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Espérance et variance conditionnelle
Espérance conditionnelle
Nous aurons besoin de µ(g)si ≡ E[Y(g)si |m
(g)s ,x
∗(g)si ] et
µ(g)si,s j ≡ E[Y(g)si Y
(g)s j |m
(g)s ,x
(g)si ,x
(g)s j ].
Lemme(En omettant les (g) et les s ...)
µi =∑
(nm)l=1 vli exp
{∑nk=2 β>x∗kvlk
}∑
(nm)l=1 exp
{∑nk=2 β>x∗kvlk
}µi, j =
∑(nm)l=1 vlivl j exp
{∑nk=2 β>x∗kvlk
}∑
(nm)l=1 exp
{∑nk=2 β>x∗kvlk
} .
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Structure de corrélation de travail
Matrice de variance des Y
Des hypothèses énoncées précédemment, on a que
Cov∗(Y (g)si ,Y(g′)s′i′ ) =
0, g 6= g′
µ(g)si,si′−µ(g)si µ
(g)si′ , g = g
′, s = s′
ρ∗(Y (g)si ,Y(g)s′i′ )√
µ(g)si (1−µ(g)si )µ
(g)s′i′ (1−µ
(g)s′i′ ),
où ρ∗(Y (g)si ,Y(g)s′i′ ) = Corr
∗(Y (g)si ,Y(g)s′i′ ), g = g
′, s 6= s′.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Structure de corrélation de travail
Structures de corrélation
Si on pose ρ∗(Y (g)si ,Y(g)s′i′ ) = 0, on obtient V
(g)Indep ≡Var∗[Y(g)]diagonale par blocs:
V(g)Indep =
B(g)1 0 · · · 0
0 B(g)2. . .
......
. . . . . . 00 · · · 0 B(g)
S(g)
.
On pose alors(
A(g)s)1/2
=(
B(g)s)1/2
,(A(g)
)1/2= diag
{(A(g)s
)1/2,s = 1, . . . ,S(g)
}et on a que
V(g)Indep =(A(g)
)1/2 I(A(g))1/2. ⇒ On remplace I par R(g)(α) . . .
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Équations d’estimation généralisées
Équations d’estimation généralisées
Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>S(g)
), µ(g)(β )> = (µ(g)>
1 , . . . ,µ(g)>
S(g)) et
D(g) = ∂ µ(g)(β )/∂β>.
GEE pour régression logistique conditionnelle
U(β ) =G
∑g=1
D(g)>(
V(g))−1{
Y(g)−µ(g)(β )}
= 0.
Les résultats classiques (normalité asymptotique et varianceestimée de façon convergente par la variance sandwichrobuste) sont toujours valides.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Sélection de modèle: critère QIC
Choix des variables explicatives
1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.
2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Sélection de modèle: critère QIC
Choix des variables explicatives
1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.
2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Sélection de modèle: critère QIC
Choix des variables explicatives
1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.
2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!
3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Sélection de modèle: critère QIC
Le critère QIC
Posons ΩI = ∑Gg=1 D(g)>(V(g)Indep
)−1 D(g) et soit β̂ (R) obtenu enrésolvant les GEE sous une structure de corrélation de travail Ret V̂(R), la variance sandwich correspondante.
QIC, Pan (Biometrics, 2001)
Dans le cas de la régression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est définipar
QIC =−2Q{β̂ (R)}+2trace{ΩIV̂(R)},
où Q{β̂ (R)} représente la log-vraisemblance (sous R = I)évaluée en β = β̂ (R).
On choisit le modèle au QIC le plus faible.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Sélection de modèle: critère QIC
Le critère QIC
Posons ΩI = ∑Gg=1 D(g)>(V(g)Indep
)−1 D(g) et soit β̂ (R) obtenu enrésolvant les GEE sous une structure de corrélation de travail Ret V̂(R), la variance sandwich correspondante.
QIC, Pan (Biometrics, 2001)
Dans le cas de la régression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est définipar
QIC =−2Q{β̂ (R)}+2trace{ΩIV̂(R)},
où Q{β̂ (R)} représente la log-vraisemblance (sous R = I)évaluée en β = β̂ (R).
On choisit le modèle au QIC le plus faible.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
Où est Yellowstone?
MontanaParc nationalde Yellowstone Wyoming
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
But de l’analyse
Objectif
• Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
Ce que l’on tente de prouver
Prédiction
• L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
Les strates
Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
Les strates
Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Exemple sur les déplacements des wapitis
Résultats, GEE et méthode d’exclusion
Variable βDrtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg3 -0.885Forestend × Wavg3 0.313Wavg3 0.240
Indice de présence des loups
Pro
babi
lité
rela
tive
PeuplierForêtOuvert
Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone
-
Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion
Recherche future
Que reste-t-il à faire?
Quelques simulations pour tester si QIC meilleur queméthode d’exclusion.Étude plus approfondie des choix possibles de corrélationde travail.Améliorer l’estimation des paramètres des matrices decorrélation.
AperçuIntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes
Équations d'estimation généralisées (GEE)Introduction: rappel sur les GEE
GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d'estimation généraliséesSélection de modèle: critère QIC
Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis
ConclusionRecherche future