m©todos de remuestreo tema 2. conceptos relacionados con la distribuci³n emprica

29
etodos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci´ on Emp´ ırica basado en B. Efron, R. Tibshirani (1993). An Introduction to the bootstrap. O. Kirchkamp (2017). Resampling methods. Curso 2017/18 1/29

Upload: others

Post on 11-Sep-2021

21 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Metodos de RemuestreoTema 2. Conceptos relacionados con la

Distribucion Empırica

basado enB. Efron, R. Tibshirani (1993). An Introduction to the bootstrap.

O. Kirchkamp (2017). Resampling methods.

Curso 2017/18

1/29

Page 2: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Parametros, distribuciones y el principio de plug-in

I El mejor modo de visualizar una muestra aleatoria es en terminos deuna poblacion finita: un universo U de unidades individualesU1,U2, . . . ,UN cada una de las cuales tiene la misma probabilidadde ser seleccionada.

I En cada unidad Ui se mide una variable de interes Xi de modo quese obtiene un censo X1,X2, . . . ,XN , es decir, X.

I Una muestra aleatoria de tamano n es una coleccion de n unidadesu1, u2, . . . , un seleccionadas al azar del universo U.

I En cada unidad seleccionada ui se toma una medida de interes xi demodo que una muestra se denota como x.

I Los problemas en estadıstica en general se refieren a estimar algunaspecto de la distribucion de probabilidad F en base a una muestra.

2/29

Page 3: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Ejemplo sobre el principio de plug-in

I Se toma el ejemplo de las universidades con master en leyes que estaincluido en el libro de Efron y Tibshirani.

I Se trata de una poblacion compuesta por 82 universidades enrelacion un master en Leyes (esta en la librerıa bootstrap de R conel nombre law82), donde GPA es la puntuacion media en los cursosde grado, y LSAT es la calificacion de admision.

I La muestra contiene 15 observaciones.

library ( bootstrap )

with(law82 , plot (100*GPA ∼ LSAT , ylab="GPA"))with(law , points (100*GPA ∼ LSAT , pch =3))legend (" bottomright ", c(" poblacion ", " muestra "),pch=c(1 ,3))

3/29

Page 4: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

4/29

Page 5: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Ejemplo sobre el principio de plug-inI Interesa calcular la correlacion entre GPA (la puntuacion media en

los cursos de grado) y LSAT (calificacion de admision).

I Con la verdadera puntuacion poblacional:

with(law82 , cor(GPA ,LSAT ))

[1] 0 .7599979

I El estimador plug-in es

with(law , cor(GPA ,LSAT ))

[1] 0 .7763745

5/29

Page 6: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

I La distribucion empırica denominada F es un estimador simple de lafuncion de distribucion teorica F .

I El principio de plug-in consiste en estimar algun aspecto de F comola media, mediana etc. mediante F .

I El bootstrap es una aplicacion directa de este principio.

I Supongamos que se observa una muestra aleatoria de tamano n confuncion de distribucion F

F → (x1, x2, . . . , xn)

6/29

Page 7: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

I La funcion de distribucion empırica F se define como la distribuciondiscreta que asigna probabilidad 1

n a cada valor xi tal quei = 1, 2, . . . , n

I De este modo F asigna a un conjunto A del espacio muestral de x laprobabilidad empırica

P(A) = # {xi ∈ A}n

I Esa es la proporcion de la muestra observada x que ocurre en A.

7/29

Page 8: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

# Simulo datos de calificaciones

mu = 6.5sigma = 0.5

y = rnorm (n=20 , mean=mu , sd= sigma )y = round (y ,3)t = mean(y)

cat("La muestra ordenada es", sort(y),"\n y se obtiene una media muestral igual a ",t, "\n")

La muestra ordenada es 5.72 5.738 5.948 6.163 6.171 6.357 6.4986.576 6.607 6.613 6.615 6.686 6.7 6.749 6.847 6.908 6.9267.2 7.22 7.306

y se obtiene una media muestral igual a 6 .5774

8/29

Page 9: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

Se puede dibujar la correspondiente funcion de distribucion empırica

# EDF

plot.ecdf (x=y, verticals =TRUE , do.p=FALSE ,main="EDF de Calificaciones ", lwd =2,panel.first =grid(col="gray",lty=" dotted "),ylab=" Empirical F")

9/29

Page 10: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

10/29

Page 11: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

Se puede dibujar la correspondiente funcion de distribucion empıricajunto con la curva de la funcion de distribucion real.

plot.ecdf (x=y, verticals =TRUE , do.p=FALSE ,main=" Empirical vs Real F", lwd =2, xlab="x",panel.first = grid(nx=NULL , ny=NULL ,col="gray", lty=" dotted "), ylab="EDF")

curve (expr= pnorm (x, mean=mu , sd= sigma ), col="red",add=TRUE , lw =3)

11/29

Page 12: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

12/29

Page 13: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

I Se define la funcion de distribucion empırica como

Fn(x) = Numero de elementos de la muestra ≤ xn = 1

n

n∑i=1

I {xi ≤ x}

donde I {A} es la funcion indicatriz del suceso A.

I En general, Fn(x) se puede considerar como una funcion dedistribucion discreta que asigna probabilidad igual a 1

n a cada uno delos n valores x1, . . . , xn.

I Ası Fn(x) es una funcion escalon con un salto de tamano 1n en cada

punto xi para i = 1, . . . , n.

13/29

Page 14: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Funcion de distribucion empırica

I Si se ordenan los valores de la muestra de menor a mayorx(1) < x(2) < · · · < x(n) entonces then Fn(x) = 0 para x < x(1)

I Fn(x) salta al valor 1/n en x = x(1) y se mantiene igual a 1/n parax(1) ≤ x < x(2)

I Fn(x) salta al valor 2/n en x = x(2) y se mantiene igual a 2/n parax(2) ≤ x < x(3) y ası sucesivamente

I Si se fija el valor de x entonces la variable aleatoria I {xi ≤ x} es unav.a. Bernoulli de parametro p = F (x)

I Entonces nFn(x) es una v.a binomial de media nF (x) y varianzanF (x)(1− F (x)).

14/29

Page 15: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empıricaI Ası,

E[nF (x)

]= nF (x)⇒ E

[F (x)

]= F (x)

Var[nF (x)

]= nF (x)(1− F (x))⇒ Var

[F (x)

]= 1

n F (x)(1− F (x))

de modo que F (x) es un estimador insesgado de F (x).I Si se denota como F (x) la funcion de distribucion de la v.a. de la

que procede la muestra entonces, para todo numero(−∞ < x <∞), la probabilidad de que una observacion dada Xi seamenor o igual que x es F (x).

I Por tanto, por la ley de los grandes numeros, cuando n→∞, laproporcion Fn(x) de observaciones en la muestra que son menores oiguales que x convergen en probabilidad a F (x).

Fn(x) p→ F (x) −∞ < x <∞15/29

Page 16: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I Pero se tiene un resultado mas potente: Fn(x) converge a F (x) demanera uniforme para todos los valores de x

I Lema de Glivenko-Cantelli Sea Fn(x) una funcion de distribucionempırica de una m.a.s X1, . . . ,Xn de una funcion de distribucion Fentonces,

Dn = Sup−∞<x<∞

∣∣∣Fn(x)− F (x)∣∣∣ p→ 0

I Nota: Antes de que los valores X1, . . . ,Xn hayan sido observados Dn

es una v.a.

I Cuando el tamano muestral n es grande la funcion de distribucionempırica Fn(x) esta muy proxima a F (x) sobre la recta real.

I Ası, cuando se desconoce la funcion de distribucion F (x) se puedeconsiderar que Fn(x) es un estimador muy eficiente de F (x).

16/29

Page 17: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Simulaciones de la funcion de distribucion empıricaI Se define una funcion para calcular la funcion de distribucion

empırica en cada punto:x = rpois (20 ,3) # ej. tomas una m.a.s de una PoissonP = ecdf(x)P(3)

[1] 0.5

acumula.dist = function (muestra , z){cuento = 0for(t in muestra ){ if(t <=z) cuento = cuento +1 }return ( cuento / length ( muestra ))

}acumula.dist (x, 3)

I Para simular de la funcion de distribucion empırica una vezobservado vector x , se puede usar la funcion sample.

sample (x, size =20 , replace =TRUE)

17/29

Page 18: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I Supongamos que se tiene un conjunto de observaciones X1, . . . ,Xn

procedente de una m.a.s. de una poblacion con funcion dedistribucion F .

I Dado un un estadıstico de interes Tn = Tn (X1, . . . ,Xn), se trata deestimar la distribucion de una funcion de F y Tn, digamosRn (Tn,F ):

Hn(x) = P {Rn ≤ x} ,

I Por ejemplo, Rn podrıa ser la cantidad pivotal que se usa paraconstruir los intervalos para la media asumiendo normalidad:

Rn = X n − µσ0/√

n

18/29

Page 19: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I Entonces, se obtienen muestras bootstrap X∗1 , . . . ,X∗n de ladistribucion empırica basada en X1, . . . ,Xn de modo que se puededefinir T ∗n = Tn (X∗1 , . . . ,X∗n ) y R∗n = Rn (T ∗n ,Fn) , donde Fn es lafuncion de distribucion empırica.

I El estimador bootstrap de Hn se calcula como

Hn(x) = P∗ {R∗n ≤ x} ,

donde P∗ es la distribucion basada en las muestras bootstrap.

I Se observa que Hn(x) depende de la distribucion empırica Fn.Ası, Hn(x) cambia cuando los datos {x1, . . . , xn} varıan.

19/29

Page 20: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I Supongamos que se trata de estimar la varianza de un estimadorθ = θ(x1, . . . , xn).

I La varianza teorica viene dada por

Var(θ) =∫· · ·∫ {

θ(x1, . . . , xn)− E (θ)}2

dF (x1) · · · dF (xn)

donde

E (θ) =∫· · ·∫θ(x1, . . . , xn)dF (x1) · · · dF (xn)

20/29

Page 21: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I La solucion natural es usar como estimador plug-in la distribucionempırica F

Var(θ) =∫· · ·∫ {

θ(x1, . . . , xn)− E (θ)}2

dF (x1) · · · dF (xn)

I es decir, al ser F una distribucion discreta

Var(θ) = 1nn

∑j

{θ(x j

1, . . . , x jn)− E (θ)

}2

donde (x j1, . . . , x j

n) varıa entre todas las posibles combinaciones delos datos muestrales.

21/29

Page 22: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I A no ser que n sea pequeno, los calculos anteriores pueden llevarbastante tiempo computacional.

I Sin embargo, se pueden aproximar las expresiones medianteintegracion Monte Carlo.

I Se aproxima la integral tomando muestras aleatorias de tamano n dela funcion F y calculando la media muestral del integrando.

I Por la Ley de los Grandes Numeros esta aproximacion converge alverdadero valor de la integral cuando n→∞.

22/29

Page 23: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Propiedades de la funcion de distribucion empırica

I ¿A que se parece una muestra aleatoria tomada de F ?

I Como F asigna igual masa de probabilidad a cada valor observadoxi , el hecho de tomar una muestra aleatoria de F es equivalente atomar n valores con reemplazamiento de x1, . . . , xn.

I De hecho, a la tecnica de tomar nuevas muestras a partir de lamuestra original es a lo que realmente se denomina remuestreo.

23/29

Page 24: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Intervalos de confianza basados en la funcion dedistribucion empırica

I Teorema de Dvoretzky-Kiefer-Wolfowitz (DKW):

Sea X1, . . . ,Xn una muestra aleatoria de una v.a. con funcion dedistribucion F . Entonces, para todo ε > 0

P(

supx

∣∣∣F (x)− Fn(x)∣∣∣ > ε

)≤ 2e−2nε2

I Se pueden construir ası los intervalos de confianza para F .

24/29

Page 25: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Intervalos de confianza basados en la funcion dedistribucion empırica

I Se define

L(x) = max{

Fn(x)− εn, 0}

U(x) = mın{

Fn(x) + εn, 1}

donde εn =√

12n log

( 2α

)I de este modo, para toda funcion de distribucion F y para todo x se

tiene queP (L(x) ≤ F (x) ≤ U(x)) ≥ 1− α

25/29

Page 26: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Intervalos de confianza basados en la funcion dedistribucion empırica

library ( sfsmisc )

# Simulas datos de una v.a. chi cuadrado con 3 g.l.x = rchisq (50 ,3)

X11 ()ecdf.ksCI (x, ci.col ="blue", lwd =2)

Se pueden programar facilmente las cotas, pero los intervalos son ampliospara tamanos muestrales pequenos.

26/29

Page 27: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

27/29

Page 28: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

Intervalos de confianza basados en la funcion dedistribucion empırica

dkw_cota = function (datos , x, alfa ){P = ecdf( datos )F_ boina = P(x)epsilon = sqrt(log (2/alfa)/(2* length ( datos )))inf_cota = pmax(F_ boina - epsilon , 0)sup_cota = pmin(F_ boina + epsilon , 1)return (c(inf_cota , sup_cota ))

}

datos = rt (20 ,3) # Simulas de una t de Student

dkw_cota(datos , -0.5 , 0.05)

0 .04631927 0 .65368073

ecdf.ksCI (datos , ci.col ="pink", lwd =2)

28/29

Page 29: M©todos de Remuestreo Tema 2. Conceptos relacionados con la Distribuci³n Emprica

29/29