miguel a. gómez-villegas 1, isabel salazar 2 y luis sanz 1 1 departamento de estadística e...
TRANSCRIPT
Miguel A. Gómez-Villegas1, Isabel Salazar2 y Luis Sanz1
1 Departamento de Estadística e Investigación Operativa, Universidad Complutense de Madrid2 Departamento de Producción Animal, Universidad Complutense de Madrid
Workshop Métodos Bayesianos’14. Madrid
Noviembre 2014
A Bayesian Decision Procedure to Test Simultaneous Multiple Hypotheses in DNA Microarray
(2014). Statistical Applications in Genetics and Molecular Biology, 13, 49-65
1. Criterios de decisión: regla bayes y criterio FNH
2. Propiedades del criterio FNH
3. Medidas de error
4. Modelo Gaussiano
5. Ejemplos ilustrativos
6. Conclusiones
Contenidos
1.1 Regla bayes
Sea P
- La regla bayes: elegir, para cada x, la acción bayes a posteriori
que minimiza la pérdida esperada a posteriori,
- Cuando se contrasta una sola hipótesis:
El espacio paramétrico es
El espacio de acciones es A
1. Criterios de decisión. Regla bayes
.θ ,f ~ Xθ
Θ
),(xa
,ππρ dθ )|(θ)θ,L()),|(θ( xx aa
, - θ :H frente θ :H0100
ΘΘΘ
1}}.{H 0},{{H00
Θ
}. ,{ 10
aa
La función de pérdida:
Las pérdidas esperadas a posteriori de :
La decisión será elegir la acción con menor pérdida esperada
a posteriori.
1. Criterios de decisión. Regla bayes
)( 1} {0, ΘθC
Θθ0θ
i jj i,consi
si
ji
i) ,L(i
a
)|Pr(ΘC ),|Pr(ΘC 0110 xx
10 aa y
- Cuando se contrastan simultáneamente N hipótesis:
El espacio paramétrico es
donde siendo cuando H0i es cierta y
cuando H0i es falsa.
El espacio de acciones es
donde siendo cuando se acepta H0i y
cuando se rechaza H0i.
1. Criterios de decisión. Regla bayes
N. , ... 1, i , - θ :H frente θ :H0ii1i0ii0i
ΘΘΘ
,N2
1jj
Θ Θ
,εH N
1iij0ij
Θ 0ε
ij 1ε
ij
,AAN2
1jj
,AN
1iej i
ij
a 0eij 1e
ij
(Duncan (1965) y Lewis y Thayer (2004)
La función de pérdida:
Pérdida esperada a posteriori individual de :
Pérdida esperada a posteriori individual de :
1. Criterios de decisión. Regla bayes
donde ),ε(HL) A,L(i
ijeik
N
1i0iijk
a
Θ
ikije
ikijeik0ii εeC
εe0),ε(HL
iij
iij
a
1ia
0ia ).|1Pr(HC
0i0ix
).|0Pr(HC0i1i
x
La acción es preferible a la acción , para cada i, si
1. Criterios de decisión. Regla bayes
).|1Pr(HC )|0Pr(HC0i0i0i1i
xx
0ia
1ia
Reñññ Para cada x rechazar todas las hipótesis H0i nulas tales que
Regla bayes: Para cada x rechazar todas las hipótesis H0i nulas tales que
y aceptar el resto, dados C0i y C1i.
1i0i
0i0i CC
C )|0Pr(H
x
1.2 Criterio basado en la estimación del número de hipótesis nulas falsas (FNH)
Sea el número de hipótesis nulas falsas
1. Criterios de decisión. Criterio FNH
1N
El criterio consiste en rechazar las hipótesis nulas falsas con
menor probabilidad a posteriori de ser ciertas
1N
Estimador bayesiano de N1:
Suponemos que las H0i son independientes, i = 1,…, N.
1. Criterios de decisión. Criterio FNH
N
1i0i1
HN
p),1Binomial(N~p|NEntonces,1
N1,..., i ),x,...,(xi
y ),...,( donde ini1N1 tttt
p)-1Bernoulli(~ p|H p)|1Pr(Hp-1p)|0Pr(Hp 0i0i0i
ˆˆ )p,1Binomial(N~p|N1
[p],Ep),,|(p βαπ
ˆt
)pN(1]p|E[NN11
ˆ ˆ ˆ
1.
donde son las probabilidades a posteriori
ordenadas.
2. Propiedades del criterio FNH
),|0Pr(H p 11
N(0Nt ˆˆ
)FNHCutoff, CC
C
1i0i
0i
RBayesCutoff
)|0Pr(H(0i
t )
Entonces, si
la regla bayes y el criterio FNH proporcionan resultados
equivalentes.
p
p-1
C
C
1
1
N
N
0i
1i
ˆ
ˆ
2. Si , donde pk es la probabilidad final más alta con la que se
rechazan k hipótesis nulas.
- Para valores fijos de los costes por falsos negativos C0i, i = 1, …, N, la
pérdida esperada a posteriori para la regla bayes que rechaza k
hipótesis, , es una función decreciente en k, el número de
hipótesis nulas rechazadas:
Donde es la acción bayes a posteriori que nos lleva a rechazar
k hipótesis nulas.
2. Propiedades del criterio FNH
p
p-1
C
C
k
k
0i
1i
Si k1 < k2, entonces
)),|(( kaxθπρ
)21
kk aa ),|(()),|(( xθxθ πρ πρ
ka
- Si los costes por falsos negativos son iguales y positivos, C0i = C > 0
para i = 1, ..., N, entonces, .
2. Propiedades del criterio FNH
N1 es el número más pequeño de hipótesis nulas rechazadas con
el que se podría obtener una pérdida esperada a posteriori cero.
0 k πρ )),|(( axθ
3. Rechazando el número de hipótesis nulas falsas, , con menor
probabilidad a posteriori de ser ciertas se obtiene el mismo número
Esperado a posteriori de falsos positivos y de falsos negativos, ,
Donde y ,
Siendo , zi = 0 si es cierta y zi = 1 si
es falsa, y si es rechazada y si es aceptada.
Por tanto,
2. Propiedades del criterio FNH
1N
iFP δ
N
1ii)z - 1( , )δ - (1
1iFN
N
ii z 0iH
1N
1i(0i)
|0 Pr(H )t FP
FNFP
NFN
1
1Ni
(0i) |1 Pr(H )t
1 δ i 0iH 0 δ i
Aplicando el criterio FNH se obtienen unas estimaciones del
número
esperado a posteriori de falsos positivos y de falsos negativos muy
similares.
3. Medidas de error
- The family-wise error rate (FWER):
- The false discovery rate (FDR) (Benjamini and Hochberg, 1995):
Nº de hipótesis aceptadas rechazadas Total
nulas ciertas U V N0
nulas falsas T S N1
W R N
1 VPrFWER
0Rsi0
0RsiV/REFDR
3. Medidas de error
- The realized FDR y the realized FNR (Genovese and Wasserman,
2002, 2003):
donde zi = 0 si es cierta y zi = 1 si es falsa, y si es rechazada y
si es aceptada.
Consideran:
δ
δ
N
1i
N
1ii)z - (1
i
i
rFDR
)δ - (1
)δ - (1
N
1i
N
1ii
z
i
i
rFNR
0iH0iH 1 δ i
0 δ i
0iH
,
δ
δ
|rFDRE
N
1i
N
1i0i
)|0 Pr(H
i
i
rFDR
t
t
)δ - (1
)δ - (1
|rFNRE
N
1i
N
1i0i
)|1 Pr(H
i
i
rFNR
t
t
3. Medidas de error
- The number of false discoveries and false negatives realized:
donde zi = 0 si es cierta y zi = 1 si es falsa, y si es
rechazada y si es aceptada.
Consideramos
donde y .
0iH0iH 1 δ i
0 δ i
0iH
iFP δ
N
1ii)z - 1( , )δ - (1
1i FN
N
ii z
, δ
N
1i0i
|0 Pr(H )i
|FPE FP tt )δ1( 1
i
N|FNE FN
i(0i)
|1 Pr(H )tt
)pN(1 ]p|E[NN11
ˆˆ ˆ 10
NN ˆ - ˆ N
0NFPr FP
1NFN r FN
4. Modelo Gaussiano
Consideramos el siguiente problema de contrastes múltiples:
Suponemos que
- Para cada hipótesis observamos un estadístico Ti
- Ti |H0i , desconocida
- Ti |H1i , i, i = 1, … N, son los parámetros de interés
- Ti i.i.d. , f0 y f1 son las
densidades
bajo H0i y H1i, respectivamente
N. , ... 1, i , :H frente :Hi1ii0i
0 μ0 μ
)1/ N(0,
)μ 1/ ,N( i
)(( )( ,μ|tf p)(1)|tf p ,μ p,|tf ii1i0ii
4. Modelo Gaussiano
La verosimilitud:
donde , y
Como distribución a priori, , consideramos las siguientes
distribuciones conjugadas:
p
i|
N
1i ii1i0N
1i i ) ,μ|tf p)(1|tf pθ|tf| ()()()( tθl
)μ, ... ,μ , ,( N1 pθ ), ... ,( N1 ttt ), ... ,( ini1ii xxTt
)π(θ
)β ,α( Beta
)2/ ,2/( baGamma
N1,...,ic1/ 0,N )(
4. Modelo Gaussiano
La distribución a posteriori:
Se aplicó un Gibbs sampling para estimar los parámetros del modelo y
la probabilidad a posteriori de cada hipótesis nula es cierta.
También se aplicó una aproximación Empírico Bayes para estimar el
parámetro c asociado a la varianza de la distribución a priori de i
(Ausín et al., 2011).
)π( )( )π( θtθtθ || l
5. Ejemplos ilustrativos. Datos simulados
- Se realizó una simulación con N = 5000 hipótesis y n = 5
observaciones por hipótesis
- Se generaron tres conjuntos de datos: con probabilidad p y
con probabilidad 1 – p, para i = 1, …, 5000 y j = 1, …, 5 y
para valores de p = 0,7, 0,8 y 0,9
- Para i, i = 1, …, 5000, se eligieron diferentes valores en [-10, 10]
- Para cada conjunto de datos: , i = 1, …, 5000, de modo que
ti , con p = 0,7, 0,8 y 0,9
- (α, ) = (1, 1) y
ijx )( 1 0, N
ijx )(μ 1 , N i
5
1j iji x51t
) (μ)( )( 51/,N p - 151/ 0, Np i
)()( 0 0, , ba
5. Ejemplos ilustrativos. Datos simulados. Resultados
p = 0,7 0,0053 0,67 5,61
p = 0,8 0,0034 0,78 5,88
p = 0,9 0,0066 0,88 5,25
p c
Estimación a posteriori de c, p y ϕ, para diferentes valores de p y con distribuciones a priori p Beta(1,1) y ∼ ϕ ∼ Gamma(0,0)
5. Ejemplos ilustrativos. Datos simulados. Resultados
Regla bayes (C0i = C1i):
Rechazamos H0i, i = 1, …, 5000, si
Donde , , RB es
el número de hipótesis rechazadas según la regla bayes con C0i = C1i,
i = 1, …, 5000 y .
0,5 ˆ 0i
P
BR - N
rFNR
N
1i0i
PI( 1i
P 0,5) ˆˆ
^
1N
rFN ˆ
0,5) ˆˆ
N
1i0i
PI( 1i
P ^
1N - N
rFP ˆ
0,5) ˆˆ
N
1i0i
PI( 0i
P
BR
rFDR
N
1i0i
PI( 0i
P 0,5) ˆˆ
^
^
)c , ,|0 r(HPP 0i0iˆˆˆ ba β, α, , t )c , ,|1 r(HPP 0i1i
ˆˆˆ ba β, α, , t
)ˆ(ˆˆ p1N ]p|E[N 1 1N
5. Ejemplos ilustrativos. Datos simulados. Resultados
Criterio FNH:
Rechazamos las hipótesis nulas falsas con menor probabilidad a
posteriori de ser ciertas
Donde , ,
y RFNH es el número de hipótesis rechazadas
según el criterio FNH.
FNH
N
R - N
p
rFNR 1
N
1i0i
PI( 1i
P ) ˆˆˆ^
1
N
N
)p
rFN 1
ˆ
ˆˆ
ˆ
N
1i0i
PI( 1i
P ^
1
N
N - N
)p
rFP 1
ˆ
ˆˆ
ˆ
N
1i0i
PI( 0i
P
FNH
N
R
p
rFDR 1
N
1i0i
PI( 0i
P ) ˆˆˆ^
^
)c , ,|0 r(HPP 0i0iˆˆˆ ba β, α, , t )c , ,|1 r(HPP 0i1i
ˆˆˆ ba β, α, , t
1N
), ,|0r(HP p11
N(0Nc , , β, α,
)ˆ ˆ ˆˆ bat
5. Ejemplos ilustrativos. Datos simulados. Resultados
R (%)
p = 0,7Regla bayes 28,80 0,0092 0,1501 0,0214 0,0699
Criterio FNH 33,18 0,0559 0,1121 0,1127 0,0556
p = 0,8Regla bayes 18,96 0,0047 0,1438 0,0195 0,0385
Criterio FNH 21,72 0,0302 0,1085 0,1088 0,0301
p = 0,9Regla bayes 9,76 0,0018 0,1906 0,0163 0,0251
Criterio FNH 11,88 0,0201 0,1480 0,1493 0,0199
rFNR ^ rFDR
^ rFN ^ r FP ^
5. Ejemplos ilustrativos. Datos simulados. Resultados
a) (solid line) y (thick line), b) (solid line) y (thick line) y c) (solid line)
y (thick line) como función del número de hipótesis nulas rechazadas con p = 0,9
rFDR ^ rFNR ^ FP ^ FN ^ r FP
rFN ^
5. Ejemplos ilustrativos. Datos simulados. Resultados
Pérdida esperada a posteriori, con C0i = 1, i = 1, …, 5000, como función del número de
hipótesis nulas rechazadas, para los diferentes valores de p
5. Ejemplos ilustrativos. Datos reales
Identificación de genes con expresión diferencial
Datos sobre cáncer de colon de Alon et al. (1999)
x1 1, ....... ,x1 22, x1 23, ……. ,x1 62
x2 1, ....... ,x2 22, x2 23, ……. ,x2 62
. . . .
. . . .
. . . .
x2000 1, … ,x 2000 22, x 2000 23, … ,x 2000 62
Tejido normal Tejido tumoral
Ge
nes
5. Ejemplos ilustrativos. Datos reales
- Ti |H0i , desconocida
- Ti |H1i , i, i = 1, … 2000, son los parámetros de interés
- Ti i.i.d. , f0 y f1 son las
densidades
bajo H0i y H1i, respectivamente
- , : p
i|
)1/ N(0,
)μ 1/ ,N( i
)(( )( ,μ|tf p)(1)|tf p ,μ p,|tf ii1i0ii
)μ, ... ,μ , ,( N1 pθ )π(θ )1 ,1( Beta
)0 ,0( Gamma
1,...,2000i ,c1/ 0,N )(
2000 , ... 1, i , :H frente :Hi1ii0i
0 μ0 μ
62
23jij(t)i
22
1jij(n)i
,(t)i
- (n)ii
x401 X y x
221 X donde ,2000, ... 1, iXX T Estadístico:
5. Ejemplos ilustrativos. Datos reales
= 0,0041, = 0,75 y = 0,00059p c
R (%)
Regla bayes (C0i = C1i) 21,95 0,0195 0,1782 0,0669 0,0567
Criterio FNH 24,90 0,0434 0,1297 0,1310 0,0429
rFNR ^ rFDR
^ rFN ^ r FP ^
5. Ejemplos ilustrativos. Datos reales
a) (solid line) y (thick line), b) (solid line) y (thick line) y c)
(solid line) y (thick line) como función del número de hipótesis nulas
rechazadas
rFDR ^ rFNR ^ ^ ^ ^FP FN r FP
rFN ^
5. Ejemplos ilustrativos. Datos reales
Pérdida esperada a posteriori como función del número de hipótesis nulas
rechazadas:
6. Conclusiones
- El criterio de decisión FNH, basado en la estimación del número de hipótesis
nulas falsas, detecta más hipótesis nulas falsas que la regla bayes (tomando
C0i = C1i para i = 1, . . .,N), ya que se obtiene una proporción menor de falsos
negativos, manteniéndose la proporción de falsos positivos en niveles
aceptables.
6. Conclusiones
- El criterio de decisión FNH, basado en la estimación del número de hipótesis
nulas falsas, detecta más hipótesis nulas falsas que la regla bayes (tomando
C0i = C1i para i = 1, . . .,N), ya que se obtiene una proporción menor de falsos
negativos, manteniéndose la proporción de falsos positivos en niveles
aceptables.
- Si los costes por falsos negativos son iguales y positivos, C0i = C > 0, i = 1, … ,
N, entonces el número de hipótesis nulas falsas, N1, es el número más pequeño
de hipótesis nulas rechazadas con el que se podría obtener pérdida
esperada a posteriori cero.
6. Conclusiones
- El criterio de decisión FNH, basado en la estimación del número de hipótesis
nulas falsas, detecta más hipótesis nulas falsas que la regla bayes (tomando
C0i = C1i para i = 1, . . .,N), ya que se obtiene una proporción menor de falsos
negativos, manteniéndose la proporción de falsos positivos en niveles
aceptables.
- Si los costes por falsos negativos son iguales y positivos, C0i = C, i = 1, … , N,
entonces el número de hipótesis nulas falsas, N1, es el número más pequeño
de hipótesis nulas rechazadas con el que se podría obtener pérdida
esperada a posteriori cero.
- Rechazando el número de hipótesis nulas falsas, N1, con menor probabilidad a
posteriori de ser ciertas se obtiene el mismo número esperado a posteriori de
falsos positivos y de falsos negativos, .
FNFP
6. Conclusiones
- Con el criterio de decisión FNH no hay que fijar, para cada hipótesis, los costes
C0i y C1i que son necesarios para poder aplicar la regla bayes y que no siempre
son fáciles de fijar.
6. Conclusiones
- Con el criterio de decisión FNH no hay que fijar, para cada hipótesis, los costes
C0i y C1i que son necesarios para poder aplicar la regla bayes y que no siempre
son fáciles de fijar.
- El criterio FNH con las medidas de error y resultan más apropiadas
que la regla bayes con (con C0i = C1i para i = 1, . . .,N) y las medidas de error
y
, en nuestros ejemplos y especialmente en los experimentos con microarrays
de ADN.
r FP rFN
rFNR
rFDR
Referencias
- Alon, U. Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D. and Levine, A. J. (1999). Broad
patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by
oligonucleotide arrays. Proc. Natn. Acad. Sci. USA, 96: 6745–6750.
- Ausín, M. C., Gómez-Villegas, M. A., González-Pérez, B, Rodríguez-Bernal, M. T., Salazar, I. and Sanz, L.
(2011). Bayesian analysis of multiple hypothesis testing with applications to microarray experiments.
Communications in Statistics–Theory and Methods, 40(13): 2276–2291.
- Benjamini, Y., and Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful
approach to multiple testing. J. R. Stat. Soc. Ser. B, 57: 289-300.
- Duncan, D. B. (1965). A Bayesian approach to multiple comparisons. Technometrics, 7: 171–222.
- Genovese, C. and Wasserman, L. (2002). Operating characteristics and extensions of the false discovery
rate procedure. J. Roy. Statist. Soc. Ser. B, 64: 499–517.
- Genovese, C. and Wasserman, L. (2003). Bayesian and frequentist multiple testing. In Bayesian
Statistics 7, eds. J. M. Bernardo, M. Bayarri, J. O. Berger, A. P. Dawid, D. Heckerman, A. F. M. Smith
and M. West, 145–162. Oxford, U.K.: Oxford University Press.
- Lewis, C. and Thayer, D. T. (2004). A loss function related to the FDR for random effects multiple
comparisons. J. Statist. Plann. Inference, 125: 49–58.
Muchas gracias