introduccion al tema 9 - uc3mhalweb.uc3m.es/esp/personal/personas/amalonso/esp/ietema9.pdf1...
TRANSCRIPT
1
Introduccion al Tema 9
Tema 1. Introducción.Tema 2. Análisis de datos univariantes.Tema 3. Análisis de datos bivariantes.Tema 4. Correlación y regresión.Tema 5. Series temporales y números índice.
Tema 5. Probabilidad.Tema 6. Variables aleatorias unidimensionales.Tema 7. Modelos probabilísticos discretos.Tema 8. Modelos probabilísticos continuos.Tema 9. Variables aleatorias multidimensionales.
Descripción de variables y datos socioeconómicos
Modelización de la incertidumbre en las variables socieconómicas
Tema 5Tema 6Tema 7Tema 8
W Introduccion a la ProbabilidadVariables aleatorias unidimensionales:• Definicion y propiedades• Ejemplos.
Tema 9 W Variables aleatorias multidimensionales :
• Definicion y propiedades• Ejemplos.
⇑Estudiar situaciones mas realistas
Introduccion a la Estadıstica Andres M. Alonso
2
Tema 9. Variables aleatorias multidimensionales
Los contenidos a desarrollar en este tema son los siguientes:
Variables aleatorias multidimensionales.
Distribuciones conjuntas, marginales y condicionales.
Independencia.
Media y matriz de varianzas y covarianzas.
Media condicionada.
Distribucion normal multivariante.
Lecturas recomendadas: Capıtulo 6 del libro de Pena (2005) y las secciones3.7, 4.4 y 5.4 de Newbold (2001).
Introduccion a la Estadıstica Andres M. Alonso
3
Ejemplo 1. Se lanzan tres monedas distintas con probabilidades de cara de0,5, 0,4 y 0,3 respectivamente. Sean X el numero de caras (c) en las primerasdos monedas e Y el numero de cruces (x) en las ultimas dos lanzadas.
Los posibles resultados del experimento, sus probabilidades y los valores de lasvariables X e Y son los siguientes.
Resultado Prob. X Y{c, c, c} 0,06 2 0{c, c, x} 0,14 2 1{c, x, c} 0,09 1 1{c, x, x} 0,21 1 2{x, c, c} 0,06 1 0{x, c, x} 0,14 1 1{x, x, c} 0,09 0 1{x, x, x} 0,21 0 2
Hacemos una tabla de doble entrada mostrando la distribucion conjunta de lasdos variables.
Introduccion a la Estadıstica Andres M. Alonso
4
Distribucion conjunta de X e Y
Definicion 1. Para dos variables discretas X e Y , la distribucion conjuntade XXX e YYY es el conjunto de probabilidades Pr(X = x, Y = y) para todos losposibles valores de x e y.
Ejemplo 1.
Y0 1 2
0 0,00 0,09 0,21X 1 0,06 0,23 0,21
2 0,06 0,14 0,00
I Observamos que ∑x
∑y
Pr(X = x, Y = y) = 1.
Introduccion a la Estadıstica Andres M. Alonso
5
Distribuciones marginales de X e Y
Definicion 2. Para dos variables discretas X e Y con distribucion conjuntaPr(X = x, Y = y) para todos los posibles valores de x e y, la distribucionmarginal de XXX es
Pr(X = x) =∑
y
Pr(X = x, Y = y),
y la distribucion marginal de YYY es
Pr(Y = y) =∑
x
Pr(X = x, Y = y).
Ejemplo 1.Y
0 1 20 0,00 0,09 0,21 0,3
X 1 0,06 0,23 0,21 0,52 0,06 0,14 0,00 0,2
0,12 0,46 0,42 1,0
La distribucion marginal de X es
Pr(X = x) =
0,3 si x = 00,5 si x = 10,2 si x = 2
0 si no
Ejercicio: Distribucion marginal de Y .
Introduccion a la Estadıstica Andres M. Alonso
6
Distribucion condicionada
Definicion 3. Para dos variables discretas X e Y con distribucion conjuntaPr(X = x, Y = y) para todos los posibles valores de x e y, la distribucioncondicionada de XXX dado Y = yY = yY = y es
Pr(X = x|Y = y) =Pr(X = x, Y = y)
Pr(Y = y),
y la distribucion condicionada de YYY dado X = xX = xX = x es
Pr(Y = y|X = x) =Pr(X = x, Y = y)
Pr(X = x),
Ejemplo 1. La distribucion condicionada de Y dado X = 2 es
P (Y = y|X = 2) =
0,3 si y = 00,7 si y = 1
0 si no
Ejercicio: Distribucion condicionada de X dado Y = 0.
Introduccion a la Estadıstica Andres M. Alonso
7
Independencia
Definicion 4. Se dicen que dos variables (discretas) X e Y sonindependientes si
Pr(X = x, Y = y) = Pr(X = x) Pr(Y = y)
para todos los valores de x e y.
I Esta definicion equivale a decir que
Pr(X = x|Y = y) = Pr(X = x) o
Pr(Y = y|X = x) = Pr(Y = y),
para todos los valores de x e y.
Ejemplo 1. X e Y no son independientes pues, por ejemplo:
Pr(X = 0, Y = 0) = 0,00 6= 0,30× 0,12 = Pr(X = 0)Pr(Y = 0).
Introduccion a la Estadıstica Andres M. Alonso
8
Vector de esperanzas
Definicion 5. Para dos variables discretas X e Y con distribucion conjuntaPr(X = x, Y = y) para todos los posibles valores de x e y, la esperanza de(X, Y )′(X, Y )′(X, Y )′ es
µµµ = E
[(XY
)]=∑
x
∑y
(xy
)Pr(X = x, Y = y).
E
[(XY
)]=(∑
x
∑y xPr(X = x, Y = y)∑
x
∑y y Pr(X = x, Y = y)
)=(∑
x x∑
y Pr(X = x, Y = y)∑y y∑
x Pr(X = x, Y = y)
)=(∑
x xPr(X = x)∑y y Pr(X = x)
)=(
E[X]E[Y ]
).
I La esperanza de un vector, (X, Y )′, es el vector de las esperanzas de suscomponentes.
Introduccion a la Estadıstica Andres M. Alonso
9
Esperanza de g(X, Y )
I La esperanza de una funcion de la variable o vector aleatorio, (X, Y )′, quetiene distribucion conjunta Pr(X = x, Y = y) para todos los posibles valoresde x e y es:
E[g(X, Y )] =∑
x
∑y
g(x, y) Pr(X = x, Y = y).
Ejemplo 2. Con los datos del Ejemplo 1, calcule E[XY ].Y
0 1 20 0,00 0,09 0,21 0,3
X 1 0,06 0,23 0,21 0,52 0,06 0,14 0,00 0,2
0,12 0,46 0,42 1,0
Entonces,
E[XY ] = (0× 0)× 0,00 + (0× 1)× 0,09 + · · ·+ (2× 2)× 0,00 = 0,93.
Introduccion a la Estadıstica Andres M. Alonso
10
Covarianza
Definicion 6. Para dos variables X e Y , la covarianza entre XXX e YYY es
Cov(X, Y ) = E[(X − E[X])(Y − E[Y ])]
I A menudo, se escribe σXY para representar la covarianza.
I En la practica, normalmente, se evalua la covarianza a traves de otra formulaequivalente:
Teorema 1.Cov[X, Y ] = E[XY ]− E[X]E[Y ]
I Cov(X, Y ) = E[(Y − E[Y ])(X − E[X])] = Cov(Y, X).
Introduccion a la Estadıstica Andres M. Alonso
11
Matriz de varianzas y covarianzas
Definicion 7. Para dos variables X e Y , la matriz de varianzas y covari-anzas entre XXX e YYY es
SSS =[
V (X) Cov(X, Y )Cov(Y, X) V (Y )
].
Ejemplo 3. Volvemos al Ejemplo 1. Tenemos:E[X] = 0× 0,3 + 1× 0,5 + 2× 0,2 = 0,9
E[Y ] = 0× 0,12 + 1× 0,46 + 2× 0,52 = 1,5
E[X2]
= 02 × 0,3 + 12 × 0,5 + 22 × 0,2 = 1,3
V [X] = 1,3− 0,92 = 0,49
E[Y 2]
= 02 × 0,12 + 12 × 0,46 + 22 × 0,52 = 2,54
V [Y ] = 2,54− 0,932 = 1,6751
E[XY ] = 0× 0× 0,00 + 0× 1× 0,09 + . . . + 2× 2× 0 = 0,93
Cov[X, Y ] = 0,93− 0,9× 1,5 = −0,42 ¿µµµ y SSS?
Introduccion a la Estadıstica Andres M. Alonso
12
Suma y diferencia de variables aleatorias
Proposicion 1. Sean X e Y dos variables con distribucion conjuntaPr(X = x, Y = y), y sea Z = X + Y , entonces:
i) E[Z] = E[X + Y ] = E[X] + E[Y ].ii) V (Z) = V (X) + V (Y ) + 2Cov(X, Y ).
Demostracion
E[Z] =∑
x
∑y
(x + y) Pr(X = x, Y = y)
=∑
x
∑y
xPr(X = x, Y = y) +∑
x
∑y
y Pr(X = x, Y = y)
=∑
x
x∑
y
Pr(X = x, Y = y) +∑
y
y∑
x
Pr(X = x, Y = y)
=∑
x
xPr(X = x) +∑
y
y Pr(Y = y) = E[X] + E[Y ].
Introduccion a la Estadıstica Andres M. Alonso
13
Suma y diferencia de variables aleatorias
V (Z) = E[Z2]− E[Z]2 =∑
x
∑y
(x + y)2 Pr(X = x, Y = y) − (E[X] + E[Y ])2
=∑
x
∑y(x
2 + 2xy + y2) Pr(X = x, Y = y) − (E[X] + E[Y ])2
= E[X2] + 2E[XY ] + E[Y 2] − (E[X]2 + 2E[X]E[Y ] + E[Y ]2)
= V (X) + 2Cov(X, Y ) + V (Y ).
I Analogamente se prueba que
Proposicion 2. Sean X e Y dos variables con distribucion conjuntaPr(X = x, Y = y), y sea Z = X − Y , entonces:
i) E[Z] = E[X + Y ] = E[X]− E[Y ].ii) V (Z) = V (X) + V (Y )− 2Cov(X, Y ).
Introduccion a la Estadıstica Andres M. Alonso
14
Correlacion
Definicion 8. La correlacion entre XXX e YYY es
ρXY = Corr[X, Y ] =Cov[X, Y ]
DT [X]DT [Y ]
Definicion 9. Para dos variables X e Y , la matriz de correlaciones entreXXX e YYY es
RRR =[
1 Corr(X, Y )Corr(Y, X) 1
].
Ejemplo 4. Tenemos (ver Ejemplo 3)
DT [X] = 0,7
DT [Y ] = 1,294
Cov[X, Y ] = −0,42
Corr[X, Y ] =−0,42
0,7× 1,294≈ −0,464.
Hay una relacion negativa entre las dos variables.
Introduccion a la Estadıstica Andres M. Alonso
15
Propiedades de la correlacion
1. −1 ≤ ρXY ≤ 1
2. La correlacion es igual a 1 si y solo si existe una relacion lineal positiva entreX e Y , es decir
Y = α + βX, donde β > 0.
3. La correlacion es −1 si y solo si existe una relacion lineal negativa
Y = α− βX donde β < 0.
4. Si X e Y son independientes, ρXY = 0.
I El recıproco del ultimo resultado no es cierto: existen variables incorreladaspero dependientes.
Introduccion a la Estadıstica Andres M. Alonso
16
Esperanza condicionada
Definicion 10. Para dos variables discretas X e Y con distribucion conjuntaPr(X = x, Y = y) para todos los posibles valores de x e y, la esperanzacondicionada de XXX dado Y = yY = yY = y es
E[X|Y = y] =∑
x
xPr(X = x|Y = y),
y la esperanza condicionada de YYY dado X = xX = xX = x es:
E[Y |X = x] =∑
y
y Pr(Y = y|X = x).
Ejemplo 5. Volvemos al Ejemplo 1. La media condicionada de Y dado X = 2es
E[Y |X = 2] = 0,3× 0 + 0,7× 1 = 0,7.
Introduccion a la Estadıstica Andres M. Alonso
17
Ley de las esperanzas iteradas
Proposicion 3. E[E[X|Y ]] = E[X].
Demostracion
Primero, debemos notar que E[X|Y ] es una v.a. que depende de Y , por tantose aplica el resultado E[g(Y )] =
∑y g(y) Pr(Y = y):
E[E[X|Y = y]] =∑
y
(∑x
xPr(X = x|Y = y)
)Pr(Y = y)
=∑
y
∑x
xPr(X = x, Y = y)
=∑
x
x∑
y
Pr(X = x, Y = y) =∑
x
xPr(X = x) = E[X].
I Analogamente, E[Y ] = E[E[Y |X]].
Introduccion a la Estadıstica Andres M. Alonso
18
Tema 9. Variables aleatorias multidimensionales
Variables aleatorias multidimensionales.
Distribuciones conjuntas, marginales ycondicionales.
Independencia.
Media y matriz de varianzas y covarianzas.
Media condicionada.
Distribucion normal multivariante.
V.A. Discretas
V.A. Continuas
Introduccion a la Estadıstica Andres M. Alonso
19
Generalizacion para variables continuas
Definicion 11. Para dos variables aleatorias cualesquiera, se define la funcionde distribucion conjunta por
F (x, y) = P (X ≤ x, Y ≤ y)
y en el caso de v.a. continuas se define la funcion de densidad conjunta por
f(x, y) =∂2
∂x∂yF (x, y).
I Se tiene que ∫ x
−∞
∫ y
−∞f(x, y) dx dy = F (x, y).
I Se calculan la distribuciones marginales, condicionadas, media, covarianza,etc. de manera similar al calculo para variables discretas sustituyendo integralespor las sumas donde sea necesario.
Introduccion a la Estadıstica Andres M. Alonso
20
Ejemplo 6. Verificar que la siguiente funcion bivariante es una densidad
f (x, y) = 6xy2, 0 < x < 1, 0 < y < 1,
En primer lugar observamos que f(x, y) ≥ 0 y en segundo lugar, debemoscomprobar que la densidad integra a 1.
∫ 1
0
∫ 1
0
6xy2dxdy =∫ 1
0
6x
[y3
3
]10
dx
=∫ 1
0
6x13dx = 2
[x2
2
]10
= 1.
Introduccion a la Estadıstica Andres M. Alonso
21
Densidades marginales
La densidad marginal de X es f(x) =∫
f(x, y) dy
La densidad marginal de X es f(x) =∫
f(x, y) dy
Ejemplo 6. Tenemos
f(x) =∫ 1
0
6xy2 dy =[6x
y3
3
]10
= 2x para 0 < x < 1
Igualmente, la densidad marginal de Y es
f(y) =∫ 1
0
6xy2 dx =[6x2
2y2
]10
= 3y2 para 0 < y < 1
Introduccion a la Estadıstica Andres M. Alonso
22
Independencia
Definicion 12. Se dicen que dos variables X e Y son independientes si
F (x, y) = F (x)F (y),
para todos los valores de x e y.
I Para v.a. continuas independientes tenemos, equivalentemente, que
f(x, y) = f(x)f(y) para todos los valores de x e y.
Ejemplo 6. Observamos que
f(x, y) = 6xy2
= 2x× 3y2
= f(x)f(y)
Entonces, X e Y son independientes.
Introduccion a la Estadıstica Andres M. Alonso
23
Independencia y correlacion
Proposicion 4. Si X y Y son v.a. independientes, entonces
Cov(X, Y ) = Corr(X, Y ) = 0.
El resultado recıproco no es cierto
Ejemplo 7. Sea X una v.a. distribuida N (0, 1), e Y = X2, entonces:
E[X] = 0
E[Y ] = E[X2] = 1
E[XY ] = E[X3] = 0 por ser una distribucion simetrica
Cov(X, Y ) = E[XY ]− E[X]E[Y ] = 0.
Y, sin embargo, X e Y son claramente dependientes.
Introduccion a la Estadıstica Andres M. Alonso
24
Tema 9. Variables aleatorias multidimensionales
Variables aleatorias multidimensionales.
Distribuciones conjuntas, marginales y condicionales.
Independencia.
Media y matriz de varianzas y covarianzas.
Media condicionada.
X
Distribucion normal multivariante.
Introduccion a la Estadıstica Andres M. Alonso
25
Distribucion normal multivariante
Definicion 13. Una variable aleatoria multivariante XXX = (X1, X2, . . . , Xp)′
sigue una distribucion normal multivariante si tiene como funcion dedensidad a
f(xxx) =1
(2π)p/2|ΣΣΣ|1/2exp
{−1
2(xxx−µµµ)′ΣΣΣ−1(xxx−µµµ)
},
donde µµµ = (µ1, µ2, . . . , µp)′, y
ΣΣΣ =
σ2
1 σ12 · · · σ1p
σ21 σ22 · · · σ2p
... ... . . . ...σp1 σp2 · · · σ2p
.
I Si XXX tiene una distribucion normal multivariante, se escribe XXX ∼ N (µµµ,ΣΣΣ).
Introduccion a la Estadıstica Andres M. Alonso
26
Propiedades de la distribucion normal multivariante
1. La funcion de densidad es simetrica alrededor de µµµ.
2. La media del vector aleatorio XXX es µµµ, i.e., E [XXX] = µµµ.
3. La matriz de varianzas y covarianzas del vector aleatorio XXX es ΣΣΣ, i.e.,E [(XXX − µ)(XXX − µ)′] = ΣΣΣ.
4. Cualquier subconjunto de h variables univariantes del vector xxx, conh < p, sigue una distribucion normal h-dimensional. En particular, lasdistribuciones marginales son normales univariantes.
5. Si definimos un vector YYY = AAAYYY , donde AAA es una matriz de constantes realesde dimension k×p, entonces YYY sigue una distribucion normal k-dimensional.
Introduccion a la Estadıstica Andres M. Alonso
27
Propiedades de la distribucion normal multivariante
I Podemos completar la propiedad anterior con los siguientes resultados validospara vectores aleatorios cualesquiera:
Sea XXX un vector aleatorio p-dimensional tal que E [XXX] = µµµ yE [(XXX −µµµ)(XXX −µµµ)′] = ΣΣΣ. Sea YYY = AAAXXX, donde AAA es una matriz deconstantes reales de dimension k × p entonces:
� E [YYY ] = AAAµµµ.� E [(YYY −AAAµµµ)(YYY −AAAµµµ)′] = AAAΣΣΣAAA′.
I Re-escribimos la propiedad 5 como:
5. Si definimos un vector YYY = AAAXXX, donde AAA es una matriz de constantes realesde dimension k×p, entonces YYY sigue una distribucion normal k-dimensional,Nk(AAAµµµ,AAAΣΣΣAAA′).
Introduccion a la Estadıstica Andres M. Alonso
28
El siguiente grafico muestra la funcion de densidad conjunta de una distribucionnormal bivariante estandar, con media µµµ = (0, 0)T y matriz de varianzas ycovarianzas ΣΣΣ = I.
−3−2
−10
12
3
−3
−2
−1
0
1
2
30
0.02
0.04
0.06
0.08
0.1
0.12
0.14
0.16
Introduccion a la Estadıstica Andres M. Alonso
29
Independencia y correlacion bajo normalidad
Proposicion 5. Si (X, Y ) es un vector aleatorio normal, y X e Y sonincorrelados (Cov(X,Y) = 0) entonces X e Y son independientes.
I Recordar que
Independientes ⇒ Correlacion = 0
Independientes : Correlacion = 0
Independientes ⇐Correlacion = 0
+Normalidad
Ejemplo 8. Sea (X, Y ) un vector normal bivariante de media µµµ = (4, 6)′ y
matriz de varianza y covarianzas ΣΣΣ =[
2 11 5
]. Sean Z = X+Y
3 y T = 2X−Y3 .
Compruebe que Z y T son independientes.
Introduccion a la Estadıstica Andres M. Alonso
30
Ejemplo 9. (Junio/2002 modificado) Las calificaciones obtenidas en dospruebas distintas A y B por los alumnos presentados a la Selectividad, son(¿in?)dependientes y siguen las distribuciones normales: NA(µ = 62; σ = 20),NB(µ = 52; σ = 10). La covarianza entre ellas es 100. La prueba se considerasuperada con 50 puntos. Calcular:
(a) La probabilidad de que un alumno en la prueba A haya obtenido unapuntuacion menor que 40. X
(b) La probabilidad que haya superado la prueba B. X
(c) Si para el acceso a una Universidad se necesita que la media aritmetica delas dos notas anteriores sea mayor que 70, ¿cual es la probabilidad de que unalumno escogido al azar pueda acceder a dicha Universidad?
� Sea X la nota en la prueba A e Y la nota en la prueba B.
� Sea T = X+Y2 .
Introduccion a la Estadıstica Andres M. Alonso
31
¿Que sabemos? [XY
]∼ N
([6252
];[400 100100 100
]).
y
T = [0,5 0,5][XY
]∼ N
([0,5 0,5]
[6252
]; [0,5 0,5]
[400 100100 100
] [0,50,5
])∼ N
(57;
√175)
.
Por tanto,
Pr(M > 70) = Pr(
M − 57√175
>70− 57√
175
)≈ Pr(Z > 0,98) = Pr(Z < −0,98) = 0,1635.
Introduccion a la Estadıstica Andres M. Alonso
32
Recapitulacion
Tema 9. Variables aleatorias multidimensionales
Variables aleatorias multidimensionales.Distribuciones conjuntas, marginales ycondicionales.Independencia.Media y matriz de varianzas y covarian-zas.Media condicionada.
W Extension del conceptode variable aleatoriay su caracterizacion.
Distribucion normal multivariante.W Extension multivariante
de la distribucion normal
Introduccion a la Estadıstica Andres M. Alonso