miguel a. gómez-villegas 1, isabel salazar 2 y luis sanz 1 1 departamento de estadística e...

Miguel A. Gómez-Villegas1, Isabel Salazar2 y Luis Sanz1

1 Departamento de Estadística e Investigación Operativa, Universidad Complutense de Madrid2 Departamento de Producción Animal, Universidad Complutense de Madrid

Workshop Métodos Bayesianos’14. Madrid

Noviembre 2014

A Bayesian Decision Procedure to Test Simultaneous Multiple Hypotheses in DNA Microarray

(2014). Statistical Applications in Genetics and Molecular Biology, 13, 49-65

1. Criterios de decisión: regla bayes y criterio FNH

2. Propiedades del criterio FNH

3. Medidas de error

4. Modelo Gaussiano

5. Ejemplos ilustrativos

6. Conclusiones

Contenidos

1.1 Regla bayes

Sea P

- La regla bayes: elegir, para cada x, la acción bayes a posteriori

que minimiza la pérdida esperada a posteriori,

- Cuando se contrasta una sola hipótesis:

El espacio paramétrico es

El espacio de acciones es A

1. Criterios de decisión. Regla bayes

.θ ,f ~ Xθ

Θ

),(xa

,ππρ dθ )|(θ)θ,L()),|(θ( xx aa

, - θ :H frente θ :H0100

ΘΘΘ

1}}.{H 0},{{H00

Θ

}. ,{ 10

aa

La función de pérdida:

Las pérdidas esperadas a posteriori de :

La decisión será elegir la acción con menor pérdida esperada

a posteriori.


)( 1} {0, ΘθC

Θθ0θ

i jj i,consi

si

ji

i) ,L(i

a

)|Pr(ΘC ),|Pr(ΘC 0110 xx

10 aa y

- Cuando se contrastan simultáneamente N hipótesis:

El espacio paramétrico es

donde siendo cuando H0i es cierta y

cuando H0i es falsa.

El espacio de acciones es

donde siendo cuando se acepta H0i y

cuando se rechaza H0i.


N. , ... 1, i , - θ :H frente θ :H0ii1i0ii0i

ΘΘΘ

,N2

1jj

Θ Θ

,εH N

1iij0ij

Θ 0ε

ij 1ε

ij

,AAN2

1jj

,AN

1iej i

ij

a 0eij 1e

ij

(Duncan (1965) y Lewis y Thayer (2004)

La función de pérdida:

Pérdida esperada a posteriori individual de :

Pérdida esperada a posteriori individual de :


donde ),ε(HL) A,L(i

ijeik

N

1i0iijk

a

Θ

ikije

ikijeik0ii εeC

εe0),ε(HL

iij

iij

a

1ia

0ia ).|1Pr(HC

0i0ix

).|0Pr(HC0i1i

x

La acción es preferible a la acción , para cada i, si


).|1Pr(HC )|0Pr(HC0i0i0i1i

xx

0ia

1ia

Reñññ Para cada x rechazar todas las hipótesis H0i nulas tales que

Regla bayes: Para cada x rechazar todas las hipótesis H0i nulas tales que

y aceptar el resto, dados C0i y C1i.

1i0i

0i0i CC

C )|0Pr(H

x

1.2 Criterio basado en la estimación del número de hipótesis nulas falsas (FNH)

Sea el número de hipótesis nulas falsas

1. Criterios de decisión. Criterio FNH

1N

El criterio consiste en rechazar las hipótesis nulas falsas con

menor probabilidad a posteriori de ser ciertas

1N

Estimador bayesiano de N1:

Suponemos que las H0i son independientes, i = 1,…, N.

1. Criterios de decisión. Criterio FNH

N

1i0i1

HN

p),1Binomial(N~p|NEntonces,1

N1,..., i ),x,...,(xi

y ),...,( donde ini1N1 tttt

p)-1Bernoulli(~ p|H p)|1Pr(Hp-1p)|0Pr(Hp 0i0i0i

ˆˆ )p,1Binomial(N~p|N1

[p],Ep),,|(p βαπ

ˆt

)pN(1]p|E[NN11

ˆ ˆ ˆ

1.

donde son las probabilidades a posteriori

ordenadas.


),|0Pr(H p 11

N(0Nt ˆˆ

)FNHCutoff, CC

C

1i0i

0i

RBayesCutoff

)|0Pr(H(0i

t )

Entonces, si

la regla bayes y el criterio FNH proporcionan resultados

equivalentes.

p

p-1

C

C

1

1

N

N

0i

1i

ˆ

ˆ

2. Si , donde pk es la probabilidad final más alta con la que se

rechazan k hipótesis nulas.

- Para valores fijos de los costes por falsos negativos C0i, i = 1, …, N, la

pérdida esperada a posteriori para la regla bayes que rechaza k

hipótesis, , es una función decreciente en k, el número de

hipótesis nulas rechazadas:

Donde es la acción bayes a posteriori que nos lleva a rechazar

k hipótesis nulas.


p

p-1

C

C

k

k

0i

1i

Si k1 < k2, entonces

)),|(( kaxθπρ

)21

kk aa ),|(()),|(( xθxθ πρ πρ

ka

- Si los costes por falsos negativos son iguales y positivos, C0i = C > 0

para i = 1, ..., N, entonces, .


N1 es el número más pequeño de hipótesis nulas rechazadas con

el que se podría obtener una pérdida esperada a posteriori cero.

0 k πρ )),|(( axθ

3. Rechazando el número de hipótesis nulas falsas, , con menor

probabilidad a posteriori de ser ciertas se obtiene el mismo número

Esperado a posteriori de falsos positivos y de falsos negativos, ,

Donde y ,

Siendo , zi = 0 si es cierta y zi = 1 si

es falsa, y si es rechazada y si es aceptada.

Por tanto,


1N

iFP δ

N

1ii)z - 1( , )δ - (1

1iFN

N

ii z 0iH

1N

1i(0i)

|0 Pr(H )t FP

FNFP

NFN

1

1Ni

(0i) |1 Pr(H )t

1 δ i 0iH 0 δ i

Aplicando el criterio FNH se obtienen unas estimaciones del

número

esperado a posteriori de falsos positivos y de falsos negativos muy

similares.

3. Medidas de error

- The family-wise error rate (FWER):

- The false discovery rate (FDR) (Benjamini and Hochberg, 1995):

Nº de hipótesis aceptadas rechazadas Total

nulas ciertas U V N0

nulas falsas T S N1

W R N

1 VPrFWER

0Rsi0

0RsiV/REFDR

3. Medidas de error

- The realized FDR y the realized FNR (Genovese and Wasserman,

2002, 2003):

donde zi = 0 si es cierta y zi = 1 si es falsa, y si es rechazada y

si es aceptada.

Consideran:

δ

δ

N

1i

N

1ii)z - (1

i

i

rFDR

)δ - (1

)δ - (1

N

1i

N

1ii

z

i

i

rFNR

0iH0iH 1 δ i

0 δ i

0iH

,

δ

δ

|rFDRE

N

1i

N

1i0i

)|0 Pr(H

i

i

rFDR

t

t

)δ - (1

)δ - (1

|rFNRE

N

1i

N

1i0i

)|1 Pr(H

i

i

rFNR

t

t

3. Medidas de error

- The number of false discoveries and false negatives realized:

donde zi = 0 si es cierta y zi = 1 si es falsa, y si es

rechazada y si es aceptada.

Consideramos

donde y .

0iH0iH 1 δ i

0 δ i

0iH

iFP δ

N

1ii)z - 1( , )δ - (1

1i FN

N

ii z

, δ

N

1i0i

|0 Pr(H )i

|FPE FP tt )δ1( 1

i

N|FNE FN

i(0i)

|1 Pr(H )tt

)pN(1 ]p|E[NN11

ˆˆ ˆ 10

NN ˆ - ˆ N

0NFPr FP

1NFN r FN

4. Modelo Gaussiano

Consideramos el siguiente problema de contrastes múltiples:

Suponemos que

- Para cada hipótesis observamos un estadístico Ti

- Ti |H0i , desconocida

- Ti |H1i , i, i = 1, … N, son los parámetros de interés

- Ti i.i.d. , f0 y f1 son las

densidades

bajo H0i y H1i, respectivamente

N. , ... 1, i , :H frente :Hi1ii0i

0 μ0 μ

)1/ N(0,

)μ 1/ ,N( i

)(( )( ,μ|tf p)(1)|tf p ,μ p,|tf ii1i0ii

4. Modelo Gaussiano

La verosimilitud:

donde , y

Como distribución a priori, , consideramos las siguientes

distribuciones conjugadas:

p

i|

N

1i ii1i0N

1i i ) ,μ|tf p)(1|tf pθ|tf| ()()()( tθl

)μ, ... ,μ , ,( N1 pθ ), ... ,( N1 ttt ), ... ,( ini1ii xxTt

)π(θ

)β ,α( Beta

)2/ ,2/( baGamma

N1,...,ic1/ 0,N )(

4. Modelo Gaussiano

La distribución a posteriori:

Se aplicó un Gibbs sampling para estimar los parámetros del modelo y

la probabilidad a posteriori de cada hipótesis nula es cierta.

También se aplicó una aproximación Empírico Bayes para estimar el

parámetro c asociado a la varianza de la distribución a priori de i

(Ausín et al., 2011).

)π( )( )π( θtθtθ || l

5. Ejemplos ilustrativos. Datos simulados

- Se realizó una simulación con N = 5000 hipótesis y n = 5

observaciones por hipótesis

- Se generaron tres conjuntos de datos: con probabilidad p y

con probabilidad 1 – p, para i = 1, …, 5000 y j = 1, …, 5 y

para valores de p = 0,7, 0,8 y 0,9

- Para i, i = 1, …, 5000, se eligieron diferentes valores en [-10, 10]

- Para cada conjunto de datos: , i = 1, …, 5000, de modo que

ti , con p = 0,7, 0,8 y 0,9

- (α, ) = (1, 1) y

ijx )( 1 0, N

ijx )(μ 1 , N i

5

1j iji x51t

) (μ)( )( 51/,N p - 151/ 0, Np i

)()( 0 0, , ba

5. Ejemplos ilustrativos. Datos simulados. Resultados

p = 0,7 0,0053 0,67 5,61

p = 0,8 0,0034 0,78 5,88

p = 0,9 0,0066 0,88 5,25

p c

Estimación a posteriori de c, p y ϕ, para diferentes valores de p y con distribuciones a priori p Beta(1,1) y ∼ ϕ ∼ Gamma(0,0)


Regla bayes (C0i = C1i):

Rechazamos H0i, i = 1, …, 5000, si

Donde , , RB es

el número de hipótesis rechazadas según la regla bayes con C0i = C1i,

i = 1, …, 5000 y .

0,5 ˆ 0i

P

BR - N

rFNR

N

1i0i

PI( 1i

P 0,5) ˆˆ

^

1N

rFN ˆ

0,5) ˆˆ

N

1i0i

PI( 1i

P ^

1N - N

rFP ˆ

0,5) ˆˆ

N

1i0i

PI( 0i

P

BR

rFDR

N

1i0i

PI( 0i

P 0,5) ˆˆ

^

^

)c , ,|0 r(HPP 0i0iˆˆˆ ba β, α, , t )c , ,|1 r(HPP 0i1i

ˆˆˆ ba β, α, , t

)ˆ(ˆˆ p1N ]p|E[N 1 1N


Criterio FNH:

Rechazamos las hipótesis nulas falsas con menor probabilidad a

posteriori de ser ciertas

Donde , ,

y RFNH es el número de hipótesis rechazadas

según el criterio FNH.

FNH

N

R - N

p

rFNR 1

N

1i0i

PI( 1i

P ) ˆˆˆ^

1

N

N

)p

rFN 1

ˆ

ˆˆ

ˆ

N

1i0i

PI( 1i

P ^

1

N

N - N

)p

rFP 1

ˆ

ˆˆ

ˆ

N

1i0i

PI( 0i

P

FNH

N

R

p

rFDR 1

N

1i0i

PI( 0i

P ) ˆˆˆ^

^

)c , ,|0 r(HPP 0i0iˆˆˆ ba β, α, , t )c , ,|1 r(HPP 0i1i

ˆˆˆ ba β, α, , t

1N

), ,|0r(HP p11

N(0Nc , , β, α,

)ˆ ˆ ˆˆ bat


R (%)

p = 0,7Regla bayes 28,80 0,0092 0,1501 0,0214 0,0699

Criterio FNH 33,18 0,0559 0,1121 0,1127 0,0556

p = 0,8Regla bayes 18,96 0,0047 0,1438 0,0195 0,0385

Criterio FNH 21,72 0,0302 0,1085 0,1088 0,0301

p = 0,9Regla bayes 9,76 0,0018 0,1906 0,0163 0,0251

Criterio FNH 11,88 0,0201 0,1480 0,1493 0,0199

rFNR ^ rFDR

^ rFN ^ r FP ^


a) (solid line) y (thick line), b) (solid line) y (thick line) y c) (solid line)

y (thick line) como función del número de hipótesis nulas rechazadas con p = 0,9

rFDR ^ rFNR ^ FP ^ FN ^ r FP

rFN ^


Pérdida esperada a posteriori, con C0i = 1, i = 1, …, 5000, como función del número de

hipótesis nulas rechazadas, para los diferentes valores de p

5. Ejemplos ilustrativos. Datos reales

Identificación de genes con expresión diferencial

Datos sobre cáncer de colon de Alon et al. (1999)

x1 1, ....... ,x1 22, x1 23, ……. ,x1 62

x2 1, ....... ,x2 22, x2 23, ……. ,x2 62

. . . .

. . . .

. . . .

x2000 1, … ,x 2000 22, x 2000 23, … ,x 2000 62

Tejido normal Tejido tumoral

Ge

nes


- Ti |H0i , desconocida

- Ti |H1i , i, i = 1, … 2000, son los parámetros de interés

- Ti i.i.d. , f0 y f1 son las

densidades

bajo H0i y H1i, respectivamente

- , : p

i|

)1/ N(0,

)μ 1/ ,N( i

)(( )( ,μ|tf p)(1)|tf p ,μ p,|tf ii1i0ii

)μ, ... ,μ , ,( N1 pθ )π(θ )1 ,1( Beta

)0 ,0( Gamma

1,...,2000i ,c1/ 0,N )(

2000 , ... 1, i , :H frente :Hi1ii0i

0 μ0 μ

62

23jij(t)i

22

1jij(n)i

,(t)i

- (n)ii

x401 X y x

221 X donde ,2000, ... 1, iXX T Estadístico:


= 0,0041, = 0,75 y = 0,00059p c

R (%)

Regla bayes (C0i = C1i) 21,95 0,0195 0,1782 0,0669 0,0567

Criterio FNH 24,90 0,0434 0,1297 0,1310 0,0429

rFNR ^ rFDR

^ rFN ^ r FP ^


a) (solid line) y (thick line), b) (solid line) y (thick line) y c)

(solid line) y (thick line) como función del número de hipótesis nulas

rechazadas

rFDR ^ rFNR ^ ^ ^ ^FP FN r FP

rFN ^


Pérdida esperada a posteriori como función del número de hipótesis nulas

rechazadas:

6. Conclusiones

- El criterio de decisión FNH, basado en la estimación del número de hipótesis

nulas falsas, detecta más hipótesis nulas falsas que la regla bayes (tomando

C0i = C1i para i = 1, . . .,N), ya que se obtiene una proporción menor de falsos

negativos, manteniéndose la proporción de falsos positivos en niveles

aceptables.

6. Conclusiones





aceptables.

- Si los costes por falsos negativos son iguales y positivos, C0i = C > 0, i = 1, … ,

N, entonces el número de hipótesis nulas falsas, N1, es el número más pequeño

de hipótesis nulas rechazadas con el que se podría obtener pérdida

esperada a posteriori cero.

6. Conclusiones





aceptables.

- Si los costes por falsos negativos son iguales y positivos, C0i = C, i = 1, … , N,

entonces el número de hipótesis nulas falsas, N1, es el número más pequeño

de hipótesis nulas rechazadas con el que se podría obtener pérdida

esperada a posteriori cero.

- Rechazando el número de hipótesis nulas falsas, N1, con menor probabilidad a

posteriori de ser ciertas se obtiene el mismo número esperado a posteriori de

falsos positivos y de falsos negativos, .

FNFP

6. Conclusiones

- Con el criterio de decisión FNH no hay que fijar, para cada hipótesis, los costes

C0i y C1i que son necesarios para poder aplicar la regla bayes y que no siempre

son fáciles de fijar.

6. Conclusiones

- Con el criterio de decisión FNH no hay que fijar, para cada hipótesis, los costes

C0i y C1i que son necesarios para poder aplicar la regla bayes y que no siempre

son fáciles de fijar.

- El criterio FNH con las medidas de error y resultan más apropiadas

que la regla bayes con (con C0i = C1i para i = 1, . . .,N) y las medidas de error

y

, en nuestros ejemplos y especialmente en los experimentos con microarrays

de ADN.

r FP rFN

rFNR

rFDR

Referencias

- Alon, U. Barkai, N., Notterman, D. A., Gish, K., Ybarra, S., Mack, D. and Levine, A. J. (1999). Broad

patterns of gene expression revealed by clustering analysis of tumor and normal colon tissues probed by

oligonucleotide arrays. Proc. Natn. Acad. Sci. USA, 96: 6745–6750.

- Ausín, M. C., Gómez-Villegas, M. A., González-Pérez, B, Rodríguez-Bernal, M. T., Salazar, I. and Sanz, L.

(2011). Bayesian analysis of multiple hypothesis testing with applications to microarray experiments.

Communications in Statistics–Theory and Methods, 40(13): 2276–2291.

- Benjamini, Y., and Hochberg, Y. (1995). Controlling the false discovery rate: a practical and powerful

approach to multiple testing. J. R. Stat. Soc. Ser. B, 57: 289-300.

- Duncan, D. B. (1965). A Bayesian approach to multiple comparisons. Technometrics, 7: 171–222.

- Genovese, C. and Wasserman, L. (2002). Operating characteristics and extensions of the false discovery

rate procedure. J. Roy. Statist. Soc. Ser. B, 64: 499–517.

- Genovese, C. and Wasserman, L. (2003). Bayesian and frequentist multiple testing. In Bayesian

Statistics 7, eds. J. M. Bernardo, M. Bayarri, J. O. Berger, A. P. Dawid, D. Heckerman, A. F. M. Smith

and M. West, 145–162. Oxford, U.K.: Oxford University Press.

- Lewis, C. and Thayer, D. T. (2004). A loss function related to the FDR for random effects multiple

comparisons. J. Statist. Plann. Inference, 125: 49–58.

Muchas gracias

miguel a. gómez-villegas 1, isabel salazar 2 y luis sanz 1 1 departamento de estadística e...

Documents

i nulas

criterio fnh diapositiva

criterio fnh n

nulas falsas fnh

criterio basado

posteriori individual

funcin de prdida

menor prdida esperada