regression logistique conditionnelle pour´ donnees corr´ el´ ees´ · 2005. 12. 7. ·...

Régression logistique conditionnelle pourdonnées corrélées

Thierry Duchesne1

Département de mathématiques et de statistiqueUniversité Laval

[email protected]

En collaboration avec Radu Craiu (Statistics, Toronto)et Daniel Fortin (Biologie, Laval)

Séminaire de statistiqueUniversité de Sherbrooke, 8 décembre 2005

1Travail supporté par CRSNG et FQRNT

Aperçu Introduction GEE GEE pour régression logistique conditionnelle Application Conclusion

Aperçu

1 IntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes

2 Équations d’estimation généralisées (GEE)Introduction: rappel sur les GEE

3 GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d’estimation généraliséesSélection de modèle: critère QIC

4 Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis

5 ConclusionRecherche future


Régression logistique conditionnelle

Type de données à analyser

Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).

On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.



Type de données à analyser

Jeu de données de la forme (Ysi,xsi), i = 1, . . . ,ns,s = 1, . . . ,S, où x>si = (xsi1, . . . ,xsip) sont des variablesexogènes et Ysi sont des variables réponses binaires (0 ou1).On suppose ∑nsi=1Ysi = ms fixée d’avance dans chacune desS strates (e.g., étude cas-témoin: ns = 2, ms = 1).

Pour estimer les effets des xsi j sur les Ysi, nous utilisons larégression logistique conditionnelle.



Modèle de régression logistique conditionnelle

Hosmer & Lemeshow (1989)Pour chaque strate s, on suppose

un effet aléatoire θs;(Ys1|xs1,θs), . . . ,(Ysns |xsns ,θs) conditionnellementindépendantes (sachant θs);

P[Ysi = 1|xsi,θs] =exp{θs +β>xsi}

1+ exp{θs +β>xsi}, i = 1, . . . ,ns,

où β> = (β1, . . . ,βp) est le paramètre d’intérêt.



Distribution de Ys1, . . . ,Ysns sachant leur somme

Sachant ∑nsi=1Ysi = ms (que l’on dénotera “|ms”), on a que

P [Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs ] =exp{

∑nsi=1 β>xsiysi

}∑

(nsms)l=1 exp

{∑nsi=1 β>xsivli

} ,où ∑

(nsms)l=1 représente la somme sur tous les vecteurs possibles

de taille ns constitués de ms ‘1’ et ns−ms ‘0’ et où vli est le ieélément du le tel vecteur, vl.

L’effet aléatoire θs disparait en conditionnant sur ∑iYsi = ms!!



Fonction de vraisemblance

En supposant les strates indépendantes, on a queLFull(β ) = ∏nss=1 L

(s)Full(β ), où L

(s)Full(β ) est

P[Ys1 = ys1, . . . ,Ysns = ysns |ms,Xs] de la page précédente.

Lemme

Posons x(− j)si ≡ xsi−xs j. Alors pour tout choix de j, on a queL(s)Full(β ) = L

(s)(− j)(β ), où

L(s)(− j)(β ) =exp{

∑i6= j β>x(− j)si ysi

}∑

(nsms)l=1 exp

{∑i 6= j β>x

(− j)si vli

} .Nous poserons x∗si ≡ xsi−xs1 et ne travaillerons qu’avecL(s)(β )≡ L(s)(−1)(β ).



Fonction de vraisemblance

On aura donc les fonctions de vraisemblance,log-vraisemblance et de score suivantes:

L(β ) =S

∏s=1

exp{

∑nsi=2 β>x∗siysi

}∑

(nsms)l=1 exp

{∑nsi=2 β>x∗sivli

}l(β ) =

S

∑s=1

ns∑i=2

β>x∗siysi− ln(nsms)∑l=1

exp

{ns

∑i=2

β>x∗sivli

}U(β ) =

S

∑s=1

ns∑i=2

x∗siysi−∑

(nsms)l=1 vlix

∗si exp

{∑nsi=2 β

>x∗sivli}

∑(nsms)l=1 exp

{∑nsi=2 β>x∗sivli

} .


Problème: strates corrélées par grappes

Et si les strates sont corrélées par grappes?

La fonction de vraisemblance suppose que

Cov(Ysi,Ys′i′ |ms,ms′ ,xsi,xs′i′) = 0, s 6= s′,

c.-à-d. que les réponses de strates différentes sont noncorrélées.Que faire si ce n’est pas le cas?

Exemple des wapitis

Chaque strate correspond à 201 choix possibles dedéplacements d’un wapiti. Plusieurs strates sont obtenues pourchaque wapiti ⇒ strates pour un même animal possiblementcorrélées?


Introduction: rappel sur les GEE

Équations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.

Régression linéaire

β̂ = argminβ

n

∑i=1

(Yi−β>xi)2

⇔ U(β̂ ) ≡n

∑i=1

xi(Yi− β̂>xi) = 0.



Équations d’estimation

Dans la plupart de nos analyses en statistique, nous estimonsles paramètres d’intérêt en résolvant des équationsd’estimation.

Estimation par maximum de vraisemblance

θ̂ = argmaxθ

n

∏i=1

Li(θ ;Yi,xi)

en général ... ⇔ U(β̂ ) ≡n

∑i=1

∂∂θ

lnLi(θ ;Yi,xi)∣∣∣∣θ=θ̂

= 0.



Équations d’estimation généralisées

On suppose Yi j|xi j ∼ f (y|xi j), f dans la familleexponentielle.On pose µi j(β ) = E[Yi j|xi j] et g{µi j(β )}= β>xi j, où g estune fonction de lien connue.On choisit une structure de corrélation de travailRi(α)≈Corr[Yi|Xi].On pose Ai = diag(Var[Yi j|xi j], j = 1, . . . ,ni).On estime β par β̂GEE qui résoud

UGEE(β̂GEE)≡n

∑i=1

D>i V−1i {Yi−µi(β̂GEE)}= 0,

où Di = AiXi et Vi = A1/2i Ri(α)A

1/2i .



Propriétés de β̂GEE

L’estimateur β̂GEE qui résoud UGEE(β̂GEE) = 0 a les propriétéssuivantes, même si notre choix de Ri(α) n’est pas parfait:

β̂GEE ≈ N(β ,Σ);Σ est estimée de façon convergente par la variancesandwich robuste, V̂S = V̂T ĈEV̂T , où

V̂T =

(n

∑i=1

D>i V−1i Di

)−1∣∣∣∣∣∣ α=α̂β=β̂

et

ĈE =

[n

∑i=1

D>i V−1i {Yi−µi(β )}{Yi−µi(β )}

>V−1i Di

]∣∣∣∣∣ α=α̂β=β̂

.


Espérance et variance conditionnelle

Objectif à atteindre

Nous désirons appliquer l’approche GEE à la régressionlogistique conditionnelle, c.-à-d. dans le cas où

on observe (Y (g)si ,x∗(g)si ), g = 1, . . . ,G (grappes), s = 1, . . . ,S

(g)

(strates), i = 2, . . . ,n(g)s (observations individuelles);

on sait avant de recueillir les données que ∑n(g)s

i=1Y(g)si = m

(g)s ;

on suppose que Corr∗(Y (g)si ,Y(g′)s′i′ ) = 0 mais que

Corr∗(Y (g)si ,Y(g)s′i′ ) n’est pas nécessairement 0.

Note: À partir d’ici, un ∗ sur E, Var, Cov ou Corr dénote uneopération conditionnelle aux variables explicatives et à lasomme des Y dans les strates.


Espérance et variance conditionnelle

Espérance conditionnelle

Nous aurons besoin de µ(g)si ≡ E[Y(g)si |m

(g)s ,x

∗(g)si ] et

µ(g)si,s j ≡ E[Y(g)si Y

(g)s j |m

(g)s ,x

(g)si ,x

(g)s j ].

Lemme(En omettant les (g) et les s ...)

µi =∑

(nm)l=1 vli exp

{∑nk=2 β>x∗kvlk

}∑

(nm)l=1 exp


}µi, j =

∑(nm)l=1 vlivl j exp


}∑

(nm)l=1 exp


} .


Structure de corrélation de travail

Matrice de variance des Y

Des hypothèses énoncées précédemment, on a que

Cov∗(Y (g)si ,Y(g′)s′i′ ) =

0, g 6= g′

µ(g)si,si′−µ(g)si µ

(g)si′ , g = g

′, s = s′

ρ∗(Y (g)si ,Y(g)s′i′ )√

µ(g)si (1−µ(g)si )µ

(g)s′i′ (1−µ

(g)s′i′ ),

où ρ∗(Y (g)si ,Y(g)s′i′ ) = Corr

∗(Y (g)si ,Y(g)s′i′ ), g = g

′, s 6= s′.


Structure de corrélation de travail

Structures de corrélation

Si on pose ρ∗(Y (g)si ,Y(g)s′i′ ) = 0, on obtient V

(g)Indep ≡Var∗[Y(g)]diagonale par blocs:

V(g)Indep =

B(g)1 0 · · · 0

0 B(g)2. . .

......

. . . . . . 00 · · · 0 B(g)

S(g)

.

On pose alors(

A(g)s)1/2

=(

B(g)s)1/2

,(A(g)

)1/2= diag

{(A(g)s

)1/2,s = 1, . . . ,S(g)

}et on a que

V(g)Indep =(A(g)

)1/2 I(A(g))1/2. ⇒ On remplace I par R(g)(α) . . .




Posons Y(g)> = (Y(g)>1 , . . . ,Y(g)>S(g)

), µ(g)(β )> = (µ(g)>

1 , . . . ,µ(g)>

S(g)) et

D(g) = ∂ µ(g)(β )/∂β>.

GEE pour régression logistique conditionnelle

U(β ) =G

∑g=1

D(g)>(

V(g))−1{

Y(g)−µ(g)(β )}

= 0.

Les résultats classiques (normalité asymptotique et varianceestimée de façon convergente par la variance sandwichrobuste) sont toujours valides.


Sélection de modèle: critère QIC

Choix des variables explicatives

1 Procédure d’exclusion (backward selection) basée sur leserreurs standards sandwich robustes ⇒ Approche valide,mais approche qui compare tous les sous-modèlespréférable.

2 Ajuster tous les sous-modèles possibles et prendre lemodèle avec meilleur critère AIC (ça devient d’ailleurs latendance en biologie) ⇒ Pas valide ici car basé sur lalog-vraisemblance, donc sur l’indépendance entre lesstrates!

3 Comme en 2, mais remplacer l’AIC par un critère valide ⇒Le critère QIC de Pan (Biometrics, 2001)?


Sélection de modèle: critère QIC

Le critère QIC

Posons ΩI = ∑Gg=1 D(g)>(V(g)Indep

)−1 D(g) et soit β̂ (R) obtenu enrésolvant les GEE sous une structure de corrélation de travail Ret V̂(R), la variance sandwich correspondante.

QIC, Pan (Biometrics, 2001)

Dans le cas de la régression logistique conditionnelle, le“quasi-likelihood under independence criterion” (QIC) est définipar

QIC =−2Q{β̂ (R)}+2trace{ΩIV̂(R)},

où Q{β̂ (R)} représente la log-vraisemblance (sous R = I)évaluée en β = β̂ (R).

On choisit le modèle au QIC le plus faible.


Exemple sur les déplacements des wapitis

Où est Yellowstone?

MontanaParc nationalde Yellowstone Wyoming



But de l’analyse

Objectif

• Déterminer si la cascade trophiqueobservée dans le parc pouvait être causéepar l’influence des loups sur les patrons de déplacements des wapitis.



Ce que l’on tente de prouver

Prédiction

• L’augmentation des risques de rencontrer des loups diminue la probabilité que les wapitis visitent des peuplements de peupliers faux-tremble.



Les strates

Step Selection Functions. Fortin et al. 2005 Ecology 86(5): 1320-1330



Résultats, GEE et méthode d’exclusion

Variable βDrtmin 0.744Drtmin2 -0.056Aspenend 0.338Forestend -0.289Forestprop -0.770Sslope -2.189Aspenend × Wavg3 -0.885Forestend × Wavg3 0.313Wavg3 0.240

Indice de présence des loups

Pro

babi

lité

rela

tive

PeuplierForêtOuvert

Fonction de sélection des Pas du wapiti durant l’hiver à Yellowstone


Recherche future

Que reste-t-il à faire?

Quelques simulations pour tester si QIC meilleur queméthode d’exclusion.Étude plus approfondie des choix possibles de corrélationde travail.Améliorer l’estimation des paramètres des matrices decorrélation.

AperçuIntroductionRégression logistique conditionnelleProblème: strates corrélées par grappes

Équations d'estimation généralisées (GEE)Introduction: rappel sur les GEE

GEE pour régression logistique conditionnelleEspérance et variance conditionnelleStructure de corrélation de travailÉquations d'estimation généraliséesSélection de modèle: critère QIC

Application: Déplacement des wapitis à YellowstoneExemple sur les déplacements des wapitis

ConclusionRecherche future

regression logistique conditionnelle pour´ donnees corr´ el´ ees´ · 2005. 12. 7. ·...

Documents