teoría estadística ii.pdf
TRANSCRIPT
UNIVERSIDAD PABLO DE OLAVIDE
Facultad de Ciencias Empresariales
DEPARTAMENTO DE ECONOMIA, METODOS
CUANTITATICOS E HISTORIA ECONOMICA
AREA DE METODOS CUANTITATIVOS
ASIGNATURA:
ESTADISTICAPARA FINANZAS II
Coordinadores:
Alfredo Garcıa Hernandez-Dıaz
Raul Brey Sanchez
Indice
INDICE GENERAL III
1. Modelos Probabilısticos discretos y continuos 1
1.1. Modelos probabilısticos de variables aleatorias de tipo discreto. . 1
1.1.1. Bernouilli: B(p) . . . . . . . . . . . . . . . . . . . . . . . 1
1.1.2. Binomial: B(n, p) . . . . . . . . . . . . . . . . . . . . . . 2
1.1.3. Geometrica: G(p) . . . . . . . . . . . . . . . . . . . . . . 2
1.1.4. Binomial Negativa: BN(r, p) . . . . . . . . . . . . . . . . 3
1.1.5. Hipergeometrica: H(N, n, p) p = N1
N. . . . . . . . . . . . 3
1.1.6. Poisson: P (λ) . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.7. Multinomial: M(n, p1, p2, . . . , pk) . . . . . . . . . . . . . 5
1.2. Variables Aleatorias Continuas: Distribucion Normal . . . . . . 6
1.3. Modelos asociados a la Normal . . . . . . . . . . . . . . . . . . 10
iii
iv INDICE
1.3.1. χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2. t de Student . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3. F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . 12
1.4. Ejercicios de autoevaluacion (Capıtulo 1) . . . . . . . . . . . . . 14
2. Distribuciones en el muestreo 29
2.1. Muestra aleatoria. Parametros poblacionales y estadısticos mues-
trales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.1.1. Parametros poblacionales y estadısticos muestrales . . . 32
2.2. Distribucion muestral de estadısticos . . . . . . . . . . . . . . . 34
2.3. Media y varianza de algunos estadısticos . . . . . . . . . . . . . 38
2.4. Distribucion de estadısticos muestrales de poblaciones normales 40
2.4.1. Distribucion de la media muestral cuando se conoce la
varianza poblacional . . . . . . . . . . . . . . . . . . . . 40
2.4.2. Distribucion de la media muestral cuando no se conoce
la varianza poblacional . . . . . . . . . . . . . . . . . . . 42
2.4.3. Distribucion de la varianza muestral . . . . . . . . . . . 43
2.4.4. Distribucion de la diferencia de medias muestrales cuan-
do se conoce la varianza poblacional . . . . . . . . . . . 44
2.4.5. Distribucion de la diferencia de medias cuando no se
conoce la varianza poblacional . . . . . . . . . . . . . . . 46
INDICE v
2.4.6. Distribucion del cociente de varianzas . . . . . . . . . . . 48
2.5. Distribucion de la proporcion muestral . . . . . . . . . . . . . . 50
2.6. Distribucion de la diferencia de proporciones . . . . . . . . . . . 51
2.7. Ejercicios de autoevaluacion (Capıtulo 2) . . . . . . . . . . . . . 52
3. Estimacion Puntual 59
3.1. Introduccion a la Inferencia Estadıstica . . . . . . . . . . . . . . 59
3.2. El Problema de la estimacion. Estimacion puntual . . . . . . . . 61
3.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . 62
3.3.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . 65
3.3.2. Estimador UMVUE . . . . . . . . . . . . . . . . . . . . . 66
3.3.3. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . 66
3.3.4. Estimador consistente . . . . . . . . . . . . . . . . . . . 69
3.3.5. Estimador suficiente . . . . . . . . . . . . . . . . . . . . 70
3.3.6. Estimador robusto . . . . . . . . . . . . . . . . . . . . . 70
3.3.7. Estimador invariante . . . . . . . . . . . . . . . . . . . . 71
3.4. Obtencion de estimadores . . . . . . . . . . . . . . . . . . . . . 71
3.4.1. El metodo de los momentos . . . . . . . . . . . . . . . . 71
vi INDICE
3.4.2. Metodo de la maxima verosimilitud . . . . . . . . . . . . 73
3.5. Ejercicios de autoevaluacion (Capıtulo 3) . . . . . . . . . . . . . 75
4. Estimacion por intervalos 81
4.1. Construccion de intervalos de confianza . . . . . . . . . . . . . . 81
4.2. Intervalos de confianza en poblaciones normales . . . . . . . . . 85
4.2.1. Intervalo de confianza para la media de una poblacion
normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
4.2.2. Intervalo de confianza de la varianza . . . . . . . . . . . 93
4.2.3. Intervalo de confianza para la diferencia de medias (mues-
tras independientes) . . . . . . . . . . . . . . . . . . . . 97
4.2.4. Intervalo de confianza para la diferencia de medias (mues-
tras apareadas) . . . . . . . . . . . . . . . . . . . . . . . 100
4.2.5. Intervalo de confianza para el cociente de varianzas . . . 103
4.3. Intervalos de confianza en poblaciones no normales . . . . . . . 106
4.3.1. Aplicacion de la desigualdad de Chebychev para la ob-
tencion de intervalos de confianza . . . . . . . . . . . . . 106
4.3.2. Intervalos de confianza para muestras grandes . . . . . . 108
4.4. Ejercicios de autoevaluacion (Capıtulo 4) . . . . . . . . . . . . . 110
5. Contrastes de hipotesis 117
INDICE vii
5.1. Concepto y tipos de hipotesis . . . . . . . . . . . . . . . . . . . 117
5.2. Region crıtica y region de aceptacion . . . . . . . . . . . . . . . 120
5.3. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . 123
5.4. Fases a seguir en un test de hipotesis . . . . . . . . . . . . . . . 127
5.4.1. P -valor . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
5.5. Potencia y funcion de potencia del contraste . . . . . . . . . . . 135
5.6. Ejercicios de autoevaluacion (Capıtulo 5) . . . . . . . . . . . . . 138
6. Contrastes parametricos 145
6.1. Contrastes para la varianza . . . . . . . . . . . . . . . . . . . . 146
6.1.1. Caso media desconocida . . . . . . . . . . . . . . . . . . 146
6.1.2. Caso media conocida . . . . . . . . . . . . . . . . . . . . 149
6.2. Contrastes de igualdad de varianzas . . . . . . . . . . . . . . . . 150
6.2.1. Caso medias desconocidas . . . . . . . . . . . . . . . . . 150
6.2.2. Caso medias conocidas . . . . . . . . . . . . . . . . . . . 155
6.3. Contrastes para la media . . . . . . . . . . . . . . . . . . . . . . 156
6.3.1. Caso desviacion tıpica desconocida . . . . . . . . . . . . 156
6.3.2. Caso desviacion tıpica conocida . . . . . . . . . . . . . . 161
viii INDICE
6.4. Contraste para la media de dos poblaciones . . . . . . . . . . . 164
6.4.1. Caso varianzas conocidas . . . . . . . . . . . . . . . . . . 167
6.4.2. Caso varianzas desconocidas, pero iguales . . . . . . . . . 170
6.4.3. Caso varianzas desconocidas y distintas . . . . . . . . . . 176
6.5. Contraste de proporciones . . . . . . . . . . . . . . . . . . . . . 185
6.6. Comparacion de proporciones . . . . . . . . . . . . . . . . . . . 188
6.7. Ejercicios de autoevaluacion (Capıtulo 6) . . . . . . . . . . . . . 191
7. Contrastes no parametricos 205
7.1. Contrastes de Aleatoriedad . . . . . . . . . . . . . . . . . . . . . 206
7.2. Contrastes de Localizacion . . . . . . . . . . . . . . . . . . . . . 210
7.2.1. Contraste de rangos-signos de Wilcoxon . . . . . . . . . 211
7.3. Contrastes de Comparacion de Poblaciones . . . . . . . . . . . . 214
7.3.1. Contraste de Wilcoxon-Mann-Whitney . . . . . . . . . . 215
7.3.2. Contraste de Kruskal-Wallis para la comparacion de mas
de dos poblaciones . . . . . . . . . . . . . . . . . . . . . 223
7.3.3. Test de Dunn para comparaciones multiples . . . . . . . 227
7.4. Contrastes de Bondad de Ajuste . . . . . . . . . . . . . . . . . . 233
7.4.1. Test χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . 234
INDICE ix
7.4.2. Contrastes de Normalidad . . . . . . . . . . . . . . . . . 239
7.5. Tablas de Contingencia . . . . . . . . . . . . . . . . . . . . . . . 240
7.5.1. Contrastes de Independencia . . . . . . . . . . . . . . . . 241
7.5.2. Contrastes de Homogeneidad . . . . . . . . . . . . . . . 246
7.6. Ejercicios de autoevaluacion (Capıtulo 7) . . . . . . . . . . . . . 250
Capıtulo 1
Modelos Probabilısticos
discretos y continuos
1.1. Modelos probabilısticos de variables aleato-
rias de tipo discreto.
1.1.1. Bernouilli: B(p)
X =
1 si exito
0 si fracaso
P [X = 1] = p: Probabillidad de exito.
P [X = 0] = q = 1− p: Probabillidad de fracaso.
1
2 CAPITULO 1. MODELOS PROBABILISTICOS
1.1.2. Binomial: B(n, p)
X: Numero de exitos en n repeticiones independientes de un experimento
Bernoulli.
X =n∑
i=1
Xi Xi ∈ B(p)
X = 0, 1, 2, . . . , n
P [X = x] =
(n
x
)px(1− p)n−x
1. E[X] = np
2. var(X) = npq
3. gX(t) = E[etX ] = (q + pet)n
4. Si X ∈ B(n1, p) e Y ∈ B(n2, p) y son independientes, entonces X + Y ∈B(n1 + n2, p) (Reproductiva en el parametro n)
1.1.3. Geometrica: G(p)
X: Numero de fracasos antes del primer exito en repeticiones independi-
entes de un experimento Bernoulli.
X = 0, 1, 2, . . .
P [X = x] = p(1− p)x
1. F (x) = 1− qx+1 ∀x ≥ 0
2. gX(t) = E[etX ] = p1−qet
3. E[X] = qp
1.1. VARIABLES ALEATORIAS DISCRETAS 3
4. V ar(X) = qp2
5. Falta de memoria: P [X ≥ h+ k|X≥h] = P [X ≥ k]
1.1.4. Binomial Negativa: BN(r, p)
X: Numero de fracasos antes del primer r-esimo exito en repeticiones in-
dependientes de un experimento Bernoulli.
X = 1, 2, . . .
P [X = x] =
(x+ r − 1
x
)pr(1− p)x
1. gX(t) = E[etX ] =(
p1−qet
)r2. E[X] = rq
p
3. V ar(X) = rqp2
4. Si X ∈ BN(r1, p) e Y ∈ BN(r2, p), independientes, entonces X + Y ∈BN(r1 + r2, p)
1.1.5. Hipergeometrica: H(N,n, p) p = N1
N
X: Numero de elementos que se obtienen de una de las dos subpobla-
ciones cuando se extrae sin reemplazamiento una muestra de tamano n, X =
1, 2, . . . , N1.
P [X = x] =
(N1
x
)(N −N1
n− x
)(
N
n
)
4 CAPITULO 1. MODELOS PROBABILISTICOS
1. max0, n−N2 ≤ x ≤ mınn,N1
2. E[X] = np
3. var(X) = npqN−nN−1
4. H(N, n, p)N→∞−→ B(N, p), (N > 50;n ≤ 0,1N)
B(n,p)
H(N, n, p)
6N > 50nN
< 0,1
1.1.6. Poisson: P (λ)
X: Numero de resultados o sucesos que ocurren en un intervalo o region.
P [X = x] =λx
x!e−λ
donde λ es el numero medio de resultados que ocurren en el intervalo.
1. E[X] = λ
2. var(X) = λ
3. gX(t) = E[etX ] = eλ(et−1)
4. Si X ∈ P (λ1) e Y ∈ P (λ2), entonces X + Y ∈ P (λ1 + λ2)
5. Si X e Y son independientes y X + Y es una variable Poisson, entonces
X e Y son Poisson
6. B(N, p)N→∞−→ P (λ) , λ = np, (n > 30; p ≤ 0,1)
1.1. VARIABLES ALEATORIAS DISCRETAS 5
B(n,p)
H(N, n, p)
6
n > 30
nN
< 0,1
- P (λ)p < 0,1
N > 50
λ = np
1.1.7. Multinomial: M(n, p1, p2, . . . , pk)
X: Numero de veces que se presenta cada uno de los k posibles resultados
del experimento en n repeticiones del mismo.
P [X1 = x1, X2 = x2, . . . , Xk = xk] =n!
x1!x2! . . . xk!px11 px2
2 . . . pxkk
1. g(t1, t2, . . . , tk) = E[et1X1+t2X2+...+tkXk ] =(∑k
i=1 pieti
)n2. E[Xi] = npi
3. V ar(X) = npi(1− pi)
4. Covar(Xi, Xj) = −npipj
5. Si X ∈ M(n, p1, p2, . . . , pk) e Y ∈ M(m, p1, p2, . . . , pk), entonces X+Y ∈M(n+m, p1, p2, . . . , pk)
Ejemplo 1.1.1 En un hipotetico paıs el arco parlamentario esta compuesto
de la siguiente manera:
Partido A1 300/0
Partido A2 300/0
Partido A3 250/0
Partido A4 150/0
6 CAPITULO 1. MODELOS PROBABILISTICOS
Si elegimos al azar una comision de 8 miembros, ¿cual es la probabilidad de
que dicha comision resulte paritaria?
Solucion: X = (X1, X2, X3, X4) donde Xi i = 1, 2, 3, 4 es el numero de miem-
bros del partido Ai en la comision.
P [X1 = 2, X2 = 2, X3 = 2, X4 = 2] =8!
2!2!2!2!0,320,320,2520,152 = 0,0287
1.2. Variables Aleatorias Continuas: Distribu-
cion Normal
X ∈ N(µ, σ) De Moivre 1733 como lımite de la Binomial. Gauss 1809,
Laplace 1912 empıricamente.
f(x) =1
σ√2π
e−(x−µ)2
2σ2 −∞ < x < +∞
f(x) es continua
Simetrica respecto a µ: f(µ− x) = f(µ+ x) ∀x ∈ IR
Asıntota horizontal: lımx→∞
f(x) = lımx→−∞
f(x) = 0
f(x) es creciente para valores inferiores a µ y decreciente para valores
superiores a µ.
f(x) tiene un maximo en x = µ donde la funcion vale 1σ√2π
f(x) tiene dos puntos de inflexion: x = µ+ σ y x = µ− σ
Propiedades:
1. Si X ∈ N(µ, σ), entonces Z = X−µσ
∈ N(0, 1) y FZ(z) = FX(µ+ σz)
1.2. DISRIBUCION NORMAL 7
2. Si Z ∈ N(0, 1), entonces X = µ+ σZ ∈ N(µ, σ) y FX(x) = Fz(X−µσ
)
Ejemplo 1.2.1 : Sea X ∈ N(µ, σ), de la que se conoce:
P [X > 95] = 0,8413
P [X ≤ 90] = 0,0228
Calcular µ y σ.
Solucion:
P [X > 95] = 0,8413 ⇒ P [Z >95− µ
σ] = 0,8413 ⇒ 95− µ
σ= −1
P [X ≤ 90] = 0,0228 ⇒ P [Z ≤ 90− µ
σ] = 0,0228 ⇒ 90− µ
σ= −2
Por lo tanto σ = 5 y µ = 100
3. FX(x) = P [X ≤ x] =∫ x
−∞1
σ√2π
e−(x−µ)2
2σ2
4. gX(t) = E[etx] = etµ+12t2σ2
5. E[X] = µ y V ar(X) = σ2
6. Si Z ∈ N(0, 1), entonces E[Z2r+1] = 0
7. Si Xi ∈ N(µi, σi) i = 1, 2, . . . , n y son independientes, entonces
Y = a1X1 + a2X2 + . . .+ anXn + b ∈
∈ N
(a1µ1 + a2µ2 + . . .+ anµn + b,
√a21σ
21 + a22σ
22 + . . . a2nσ
2n
)Si Xi ∈ N(µi, σi) i = 1, 2, . . . , n y son independientes, entonces
Y = X1+X2+. . .+Xn ∈ N
(µ1 + µ2 + . . .+ µn,
√σ21 + σ2
2 + . . . σ2n
)(Propiedad Reproductiva)
8 CAPITULO 1. MODELOS PROBABILISTICOS
Si Xi ∈ N(µ, σ) i = 1, 2, . . . , n y son independientes, entonces
Y = X1 +X2 + . . .+Xn ∈ N(nµ,
√nσ)
Si Xi ∈ N(µ, σ) i = 1, 2, . . . , n y son independientes, entonces
X =X1 +X2 + . . .+Xn
n∈ N
(µ,
σ√n
)Ejemplo 1.2.2 La cotizacion diaria de un activo se distribuye con-
forme a una normal de media 58 y desviacion tıpica 16. Si tomamos
una muestra aleatoria de 16 dıas, ¿cual es la probabilidad de que la
media muestral este comprendida entre 50 y 70?
Solucion: X ∈ N(µ, σ), X ∈ N(µ, σ√
n
)≡ N
(58, 16√
16
)≡ N (58, 4)
P [50 ≤ X ≤ 70] = P [50− 58
4≤ Z ≤ 70− 58
4] = P [−2 ≤ Z ≤ 3] =
= F (3)− F (−2) = 0,9987− 0,0228 = 0,9759
8. Si X ∈ B(n, p), entonces Z = X−np√npq
→n→∞
N(0, 1), es decir,
B(n, p) → N(np,√npq)
(Teorema de Moivre)
Correccion de continuidad de Ficher:
P [X = x] = P [x− 12≤ X ≤ x+ 1
2]
P [X ≤ x] = P [X ≤ x+ 12]
P [a ≤ X ≤ b] = P [a− 12≤ X ≤ b+ 1
2]
P [X ≥ x] = P [X ≥ x− 12]
9. Si X ∈ P (λ), entonces Z = X−λ√λ
→n→∞
N(0, 1), es decir,
P (λ) → N(λ,√λ)
1.2. DISRIBUCION NORMAL 9
B(n,p)
H(N, n, p)
6
n > 30
nN
< 0,1
- P (λ)p < 0,1
N > 50
N(µ, σ)
3 knp > 5 p ≤ 12
nq > 5 p > 12
λ ≥ 10
µ = np σ2 = npq µ = λ σ2 = λ
10. SiX1, X2, . . . , Xn son variables independientes e identicamente distribuidas,
y Sn = X1 +X2 + . . .+Xn, entonces
Z =Sn − E[Sn]
σ(Sn)=
Sn − nµ√nσ
→n→∞
N(0, 1),
es decir,
Sn → N(nµ,√nσ)
(Teorema Central del Lımite)
Ejemplo 1.2.3 El peso neto de un paquete de arroz de una determinada
marca sigue de manera aceptable una distribucion normal. Los controles
de calidad revelan que un tercio de los paquetes pesan menos de 870 gr.
y solo dos de cada mil paquetes pesan mas de 1 kg. Se pide:
a) Calcular la probabilidad de que un paquete elegido al azar pese mas
de 850 gr.
b) Si en una semana salen al mercado 40000 paquetes, ¿cuantos cabe
esperar que pesen mas de 900 gr.?
Solucion: X: peso de un paquete de arroz
P [X < 870] = 0,3333 ⇒ P [Z <870− µ
σ] = 0,3333 ⇒ 870− µ
σ= −0,43
P [X > 1000] = 0,002 ⇒ P [Z >1000− µ
σ] = 0,002 ⇒ 1000− µ
σ= 2,88
10 CAPITULO 1. MODELOS PROBABILISTICOS
Por lo tanto σ = 39,275 y µ = 886,888
Entonces X ∈ N(886,888, 39,275)
a) P [X > 850] = P [Z > −0,939] = 1− F (−0,939) = 0,83
b) Y : Numero de paquetes que pesan mas de 900 g de los 40000 que
salen al mercado esa semana.
Y ∈ B(40000, p) donde p = P [X > 900] = P [Z > 0,33] = 1 −F (0,33) = 0,37
E[Y ] = 40000p = 14828
1.3. Modelos asociados a la Normal
1.3.1. χ2 de Pearson
Xi ∈ N(0, 1) i = 1, 2, . . . , n independientes ⇒ X =n∑
i=1
X2i ∈ χ2
n ≡ Γ
(n
2,1
2
)
f(x) =
( 12)n2
Γ(n2)x
n2−1e−
12x si x > 0
0 si x ≤ 0
1. E[X] = n
2. V ar(X) = 2n
3. gX(t) = (1− 2t)−n2
4. Es reproductiva en n:
X ∈ χ2n
Y ∈ χ2m
⇒ X + Y ∈ χ2
n+m
1.3. MODELOS ASOCIADOS A LA NORMAL 11
5. X ∈ χ2n ⇒n>30
√2X ∈ N(
√2n+ 1, 1)
Ejemplo 1.3.1 Para detectar la independencia que pueda haber entre el reg-
imen jurıdico de las empresas y su grado de solvencia, se puede emplear, con
datos procedentes de una muestra piloto, un estadıstico que sigue una ley χ2
de Pearson con seis grados de libertad. Si el estadıstico supera un determinado
punto crıtico de la ley, se rechaza la independencia entre aquellas dos carac-
terısticas. ¿Cual debe ser este punto para que la probabilidad de rechazo sea del
5%? ¿Ydel 1%?
Solucion:
X ∈ χ26
P [X > χ20,05] = 0, 05 ⇒ χ2
0,05 = 12, 59
P [X > χ20,01] = 0, 01 ⇒ χ2
0,01 = 16, 81
1.3.2. t de Student
W.S. Gosset 1908
U ∈ N(0, 1)
V ∈ χ2n
⇒ T =
U√Vn
∈ tn
Una definicion equivalente es:
X,X1, X2, . . . , Xn ∈ N(0, σ) independientes ⇒ T =X√
1n(X2
1 +X22 + . . .+X2
n)∈ tn
f(t) =Γ(n+12
)Γ(n2
)√nπ
(1 +
t2
n
)− 12(n+1)
−∞ < t < +∞
1. E[T ] = 0
12 CAPITULO 1. MODELOS PROBABILISTICOS
2. V ar(T ) = nn−2
, n > 2
Ejemplo 1.3.2 Dada una distribucion t con quince grados de libertad, hallar
el valor critico que separa las siguientes areas bajo la curva:
1. El 1% superior.
2. El 5% superior.
3. El 97,5% superior.
4. El 10% inferior.
Solucion:
X ∈ t15
1. P [X > t15;0,01] = 0, 01 ⇒ t15;0,01 = 2, 602
2. P [X > t15;0,05] = 0, 05 ⇒ t15;0,05 = 1, 753
3. P [X > t15;0,975] = 0, 975 ⇒ t15;0,975 = −2, 131
4. P [X > t15;0,95] = 0, 95 ⇒ t15;0,95 = −1, 753
5. P [X > t15;0,9] = 0, 9 ⇒ t15;0,9 = −1, 341
1.3.3. F de Snedecor
U ∈ χ2n1
V ∈ χ2n2
U y V son independientes
⇒ X =Un1
Vn2
∈ Fn1,n2
1.3. MODELOS ASOCIADOS A LA NORMAL 13
Una definicion equivalente es la siguiente: Si X1, X2, . . . , Xn1 e Y1, Y2, . . . , Yn2
son n1 + n2 variables independientes e identicamente distribuidas segun una
ley N(0, σ), entonces:
X =1n1
(X2
1 +X22 + . . .+X2
n1
)1n2
(Y 21 + Y 2
2 + . . .+ Y 2n2
) ∈ Fn1,n2
f(x) =Γ(n1+n2
2
)Γ(n1
2
)Γ(n2
2
) (n1
n2
)n12
xn12−1
(1 +
n1
n2
x
)−n1+n22
, x > 0
1. E[X] = n2
n2−2. para n2 > 2. Observese que no depende del parametro n1.
2. V ar(X) =2n2
2(n1+n2−2)
n1(n2−4)(n2−2)2, para n > 4
3. Propiedad de reciprocidad:
Si X ∈ Fn1,n2 , entonces Y = 1X
∈ Fn2,n1 y ademas se verifica:
P [X ≤ Fn1,n2,p] = 1− P
[Y ≤ 1
Fn1,n2,p
]= P
[Y >
1
Fn1,n2,p
]
Ejemplo 1.3.3 Calcular los valores crıticos que dejan por encima las proba-
bilidades de la tabla si X ∈ Fn1;n2:
n1 n2 Probabilidad (p)
P [X > Fn1;n2;p] 6 8 0,01
P [X > Fn1;n2;p] 10 12 0,01
P [X > Fn1;n2;p] 10 20 0,99
Solucion:
1. X ∈ F6;8; P [X > F6;8;0,01] = 0, 01 ⇒ F6;8;0,01 = 6, 37
2. X ∈ F10;12; P [X > F10;12;0,01] = 0, 01 ⇒ F10;12;0,01 = 4, 3
14 CAPITULO 1. MODELOS PROBABILISTICOS
3. X ∈ F10;20; P [X > F10;20;0,99] = 0, 99 ⇒ P [X ≤ F10;20;0,99] = 0, 01.
Aplicamos la propiedad de reciprocidad:
0, 01 = P [X ≤ F10;20;0,99] = 1−P
[Y ≤ 1
F10;20;0,99
]= P
[Y >
1
F10;20;0,99
]donde Y ∈ F20;10. Por tanto:
1
F10;20;0,99
= 4, 41 ⇒ F10;20;0,99 =1
4, 41= 0, 227
1.4. Ejercicios de autoevaluacion (Capıtulo 1)
1. Un agente de seguros vende polizas a cinco individuos de igual edad. De
acuerdo con las tablas actuariales, la probabilidad de que un individuo
con esa edad viva 30 anos mas es de 3/5. Determine la probabilidad de
que dentro de 30 anos vivan:
a) Los cinco individuos.
b) Al menos tres.
c) Solo dos.
d) Al menos uno.
Solucion:
a) SeaX = no de individuos que viviran 30 anos o mas.X ∼ B(5, 3/5).
Luego P(X=5)=0,0778
b) P (X ≥ 3) = 1 − P (X < 3) = 1 − F (2) = 1 − 0, 3174 = 0, 6826,
segun las tablas.
c) P (X = 2) = 0, 2304
d) P (X ≥ 1) = 1− P (X = 0) = 0, 9898.
EJERCICIOS DE AUTOEVALUACION 15
2. Una editora publica 300 libros diarios, de los cuales seis son defectuosos.
¿Cual es la probabilidad de que al comprar un libro al azar de dicha
tirada no sea defectuoso? ¿Y cual es la probabilidad de que al comprar
cinco libros no resulte ninguno defectuoso?
Solucion: P (def) = 6/300 = 0, 02 y P (nodef) = 294/300 = 0, 98;
Sea ahora X = numero de libros defectuosos en una compra de 5 libros
de los 300 publicados, sabiendo que de ellos, 6 son defectuosos. X ∼H(300; 5; 0, 02). Luego
P (X = 0) =
(6
0
)(300− 6
5− 0
)(
300
5
) = 0, 9033
3. Considere un test compuesto por 6 preguntas, cada una de las cuales
ofrece 3 posibles respuestas, siendo solamente una de ellas la correcta.
a) ¿Cual es la probabilidad de que el estudiante tenga al menos 5 pre-
guntas correctas si contesta el examen sin saber nada del temario?
b) Si el alumno no ha estudiado el examen y contesta todas las pre-
guntas, ¿cuantas respuestas correctas se espera que tenga?
c) Si ningun alumno ha estudiado el examen pero todos responden
a las preguntas, ¿cuantos examenes tendra que evaluar el profesor
en promedio hasta encontrar el primer examen donde un alumno
tiene al menos 5 preguntas correctas? ¿Y hasta encontrar el tercer
examen?
d) ¿Cual es la probabilidad de que en una clase con 40 alumnos, que
no han estudiado el examen pero responden a las 6 preguntas, nadie
consiga al menos 5 preguntas correctas?
Solucion:
16 CAPITULO 1. MODELOS PROBABILISTICOS
a) X = no de respuestas correctas en un test; X ∼ B(6, 1/3).
P (X ≥ 5) = 0, 01783.
b) E(X) = n · p = 2.
c) Y = no de examenes a evaluar hasta encontrar el primero que...
Y ∼ G(0, 01783). E(Y ) = q/p = 55, 085, luego la solucion es 56, 085
examenes.
Si Z = no de examenes a evaluar hasta encontrar el tercero que...
Z ∼ BN(3, 0,01783), E(Z) = r · q/p = 165, 25 y la solucion es
168,25 examenes.
d) T = no de alumnos de la clase de 40 que... Entonces T ∼ B(40, 1−0,1783) y P (T = 0) = 0, 4869.
4. De los 68 clientes de una empresa con implantacion en todo el territorio
nacional se elegira al azar una muestra de 12, a los que se les realizara una
labor de seguimiento comercial. ¿Cual es la probabilidad de que en la
muestra esten los tres clientes de una cierta provincia?
Solucion: Sea ahora X = numero de clientes de dicha provincia de entre
los 12 que componen la muestra. Entonces X ∼ H(68, 3, 3/68) y
P (X = 3) =
(3
3
)(68− 3
12− 3
)(
68
12
) = 0, 004389.
5. ¿Cual es la probabilidad de aprobar el permiso de conducir en el cuarto
intento si la probabilidad de pasar dichos examenes es de 0,65?
Solucion: Sea ahora X = numero de veces que se presenta al carnet de
conducir y suspende hasta que aprueba. X ∼ G(0, 65) y P (X = 3) =
0, 65 · 0, 353 = 0, 027868.
6. En una marca de galletas de chocolate se incluyen cupones de regalo
de otra caja igual a la adquirida. Si existen cupones en uno de cada seis
EJERCICIOS DE AUTOEVALUACION 17
paquetes de galletas, ¿cual es el numero medio de paquetes de galletas que
se deberıa comprar para obtener tres de regalo?¿Cual es la probabilidad
de obtener dos regalos si solo tengo dinero para comprar como maximo
seis cajas de galletas?
Solucion: Sea ahora X = numero de cajas de galleta compradas y que
no dan premio hasta obtener la tercera que da cupon de regalo. X ∼BN(3, 1/6). Entonces, E[X] = rq/p = 15. Luego, el numero medio de
paquetes de galletas que se deberıa comprar para obtener tres de regalo
serıa 18 paquetes.
Sea ahora Y = numero de cajas de galleta compradas y que no dan
premio hasta obtener la segunda que da cupon de regalo. Entonces, Y ∼BN(2, 1/6) y P (X ≤ 4) = P (X = 0) + P (X = 1) + · · · + P (X = 4) =
0, 26322.
7. Si el numero de individuos que llegan a la cola del Teatro de la Maes-
tranza por minuto sigue una ley de Poisson de media 5, determine la
probabilidad de que lleguen mas de 5 individuos por minuto ası como la
probabilidad de que el numero de individuos que vayan llegando este com-
prendido entre 2 y 8 personas, ambos inclusive.
Solucion: Sea X = el numero de individuos que llegan a la cola del
Teatro de la Maestranza por minuto. Entonces, X ∼ P (5) y P (X >
5) = 1−P (X ≤ 5) = 1−F (5) = 1− 0, 616 = 0, 384, segun las tablas. Y
P (2 ≤ X ≤ 8) = F (8)−F (2)+P (X = 2) = 0, 9319−0, 1247+0, 0842 =
0, 8914.
8. Las erratas de imprenta de las paginas de un cierto libro siguen una
distribucion de Poisson con dos erratas de media por pagina. En un libro
de 300 paginas, calcule la probabilidad de que en una o mas paginas
existan mas de cinco erratas.
Solucion: Sea X = erratas de imprenta de las paginas de un cierto libro.
X ∼ P (2).
18 CAPITULO 1. MODELOS PROBABILISTICOS
Sea ahora Y = no de paginas con mas de 5 erratas de un libro de 300
paginas. Y ∼ B(300, p), donde p = P (X > 5) = 1 − P (X ≤ 5) =
1−F (5) = 1−0, 9834 = 0, 0166, segun tablas. Ası, P (Y ≥ 1) = 1−P (Y <
1) = 1− P (Y = 0) = 1− 0, 006593 = 0, 993407.
9. El propietario de una tienda de televisores sabe por experiencia que el
50% de los clientes que entren en su tienda compraran un televisor LCD,
el 20% un televisor de plasma, el 1% un televisor tradicional con su
tubo de rayo catodico y el resto no comprara nada. Si un dıa entran 5
clientes en su almacen, ¿cual es la probabilidad de que 2 de ellos compren
televisores LCD, uno un televisor de plasma y el resto nada?
Solucion: X = (X1, X2, X3, X4), donde X1 = no de clientes que com-
praran televisores LCD; X2 = no de clientes que compraran televisores
de plasma; X3 = no de clientes que compraran televisores tradicionales
y X4 = no de clientes que no compraran nada. Entonces,
X ∼ M(5; 0, 5; 0, 2; 0, 01; 0, 29) y P (X1 = 2, X2 = 1, X3 = 0, X4 = 2) =
0, 12615.
10. Un agricultor planta 15 semillas en un campo. Por su experiencia sabe
que pasado un ano, independientemente del comportamiento de las otras
semillas, cada una tiene una probabilidad del 50% de crecer y dar fruto
el ano proximo, una probabilidad del 20% de crecer pero no dar fruto y
una probabilidad del 30% de ni crecer ni dar fruto.
a) ¿Cual es el numero esperado de semillas en cada una de las tres
categorıas, transcurrido un ano?
b) ¿Cual es la probabilidad de que 10 semillas crezcan y den fruto, 2
crezcan pero no den fruto y el resto ni crezca ni den fruto?
Solucion:
a) X = (X1, X2, X3), dondeX1 = no de semillas que crecen y dan fru-
to; X2 = no de semillas que crecen pero no dan fruto y X3 = no de
EJERCICIOS DE AUTOEVALUACION 19
semillas que ni crecen ni dan fruto. Ahora X ∼ M(15; 0, 5; 0, 2; 0, 3)
con E(X1) = n·p1 = 7, 5; E(X2) = n·p2 = 3; E(X3) = n·p3 = 4, 5.
b) P (X1 = 10, X2 = 2, X3 = 3) = 0, 0316.
11. Utilizando las tablas estadısticas de la distribucion normal y tambien
usando la hoja de calculo EXCEL se proponer comprobar las siguientes
afirmaciones:
a) Si Z ∈ N(0; 1):
1) P (Z < 1,44) = 0,9251
2) P (Z > −0,89) = 0,8133
3) P (−2,16 < Z < −0,65) = 0,2425
4) P (Z < −1,39) = 0,0823
5) P (Z > 1,96) = 0,0250
6) P (−0,48 < Z < 1,74) = 0,6435
b) Si X ∈ N(18; 2,5),
1) P (X < 15) = 0,1151
2) P (17 < X < 21) = 0,5404
3) Calcular el valor de k tal que P (X < k) = 0,2236
(k = 16,10)
4) Calcular el valor de k tal que P (X > k) = 0,1814
(k = 20,275)
12. Si X se distribuye normalmente de manera que P (X <= 0) = 1/3 y
P (X <= 1) = 2/3.
a) ¿Cuanto vale la media y la desviacion tıpica de X?
b) ¿Y si P (X <= 1) = 3/4?
Solucion:
a) µ = 0,5 y σ = 1,16
20 CAPITULO 1. MODELOS PROBABILISTICOS
b) µ = 0,39 y σ = 0,9
13. Un investigador cientıfico ha demostrado que unos ratones viven un
promedio de 40 meses cuando sus dietas se restringen drasticamente y
despues se enriquecen con vitaminas y proteınas. Suponiendo que la vida
de tales ratones se distribuye normalmente con una desviacion estandar
de 6.3 meses, encuentre la probabilidad de que un raton dado viva
a) mas de 32 meses.
b) menos de 28 meses.
c) entre 37 y 49 meses.
Solucion:
a) P (X > 32) = 1 − P (Z < (32 − 40)/6,3) = 1 − P (Z < −1,27) =
1− 0,1020 = 0,8980
b) P (X < 28) = P (Z < (28− 40)/6,3) = P (Z < −1,90) = 0,0287
c) P (37 < X < 49) = P (Z < (49−40)/6,3)−P (Z < (37−40)/6,3) =
P (Z < 1,43)− P (Z < −0,48) = 0,923641− 0,315614 = 0,6080
14. Se regula una maquina expendedora de refresco para que sirva un prome-
dio de 200 mililitros por vaso. Si la cantidad de bebida se distribuye
normalmente con una desviacion estandar igual a 15 mililitros,
a) ¿que porcentaje de los vasos servidos contendran mas de 224 milil-
itros?
b) ¿cual es la probabilidad de que un vaso contenga entre 191 y 209
mililitros?
c) ¿cuantos vasos probablemente se derramaran si se utilizan vasos de
230 mililitros para las siguientes 1000 bebidas?
d) ¿por debajo de que valor se encuentra el contenido del 25% de los
vasos en los que se sirve menor cantidad?
EJERCICIOS DE AUTOEVALUACION 21
Solucion:
a) P (X > 224) = 1 − P (Z < (224 − 200)/15) = 1 − P (Z < 1,60) =
1− 0,945201 = 0,0548
b) P (191 < X < 209) = P (Z < (209 − 200)/15) − P (Z < (191 −200)/15) = P (Z < 0,60)− P (Z < −0,60) = 0,725747− 0,274253 =
0,4515.
c) P (X > 230) = 1−P (Z < (230−200)/15) = 1−P (Z < 2,00) = 1−0,977250 = 0,0228. Por tanto, el total de vasos sera de 1000*0.0228
= 22.8 (aproximadamente 23).
d) El percentil 25 de la normal estandar es P (Z < z) = 0,25 si z =
−0,67. Luego el percentil 25 de X es x = zµ + σ = (−0,67)(15) +
200 = 189,88.
15. Un abogado va todos los dıas desde su casa en las afueras a su oficina
en el centro de la ciudad. El tiempo promedio para un viaje de ida es
24 minutos, con una desviacion estandar de 3.8 minutos. Suponga que la
distribucion de los tiempos de viaje esta distribuida normalmente.
a) ¿Cual es la probabilidad de que un viaje dure al menos media hora?
b) Si la oficina abre a las 9:00 am y sale a diario de su casa a las 8:45
am, ¿que porcentaje de las veces llega tarde al trabajo?
c) Si sale de su casa a las 8:35 am y el cafe se sirve en la oficina de
8:50 a 9:00 am, ¿cual es la probabilidad de que se pierda el cafe?
d) Encuentre el periodo de tiempo a partir del cual encontramos al
15% de los viajes mas lentos.
Solucion:
a) P (X > 30) = 1 − P (Z < (30 − 24)/3,8) = 1 − P (Z < 1,58) =
1− 0,942947 = 0,0571.
22 CAPITULO 1. MODELOS PROBABILISTICOS
b) P (X > 15) = 1 − P (Z < (15 − 24)/3,8) = 1 − P (Z < −2,37) =
1− 0,008894 = 0,9911.
c) P (X > 25) = 1 − P (Z < (25 − 24)/3,8) = 1 − P (Z < 0,26) =
1− 0,602568 = 0,3974.
d) El percentil 85 de la distribucion N(0; 1) es z = 1,04 aproximada-
mente. Por tanto, el percentil 85 de X es x = zµ+ σ = 1,04 ∗ 3,8 +24 = 27,94 minutos, aproximadamente.
16. La vida promedio de cierto tipo de motor pequeno es de 10 anos con
una desviacion tıpica de dos anos. El fabricante reemplaza gratis todos
los motores que fallen dentro del tiempo de garantıa. Si esta dispuesto a
reemplazar solo el 3% de los motores que fallan, ¿de que duracion debe
ser la garantıa que ofrezca? Suponga que la duracion de un motor sigue
una distribucion normal.
Solucion:
El percentil 3 de N(0; 1) es z = −1,88 aproximadamente. Por tanto, el
percentil 3 de N(10; 2) es x = zµ + σ = −1,88 ∗ 2 + 10 = 6,24 anos,
aproximadamente.
17. En una universidad se ha observado que el 60% de los estudiantes que
se matriculan lo hacen en una carrera de Ciencias, mientras que el otro
40% lo hacen en carreras de Humanidades. Si un determinado dıa se
realizan 200 matrıculas, calcule:
a) La probabilidad de que haya igual numero de matrıculas en Ciencias
y en Humanidades (compare el valor exacto con el aproximado por
un modelo normal);
b) La probabilidad de que el numero de matrıculas en Ciencias sea
menor que en Humanidades;
c) La probabilidad de que haya al menos 80 matrıculas en Ciencias;
EJERCICIOS DE AUTOEVALUACION 23
d) Si las diez primeras matrıculas son de Humanidades, calcular de nue-
vo la probabilidad de que en total haya igual numero de matrıculas
en Ciencias y en Humanidades. Comparar esta probabilidad con la
del primer apartado.
Solucion:
a) Para calcular el valor exacto: X sigue B(200; 0,4) = Numero de
matriculados en una carrera de Humanidades de los 200. P (X =
100) =(200100
)0,4100 ∗ 0,6100 = 0,000950617.
Para el valor aproximado, usaremos que la distribucion B(200;0.4) se
aproxima a N(200∗0,4;√200 ∗ 0,4 ∗ 0,6) = N(80; 6,92820323). Ası,
una vez aplicada la correccion por continuidad de Fisher, P (X =
100) = P (99,5 < X < 100,5) = P (Z < (100,5− 80)/6,92820323)−P (Z < (99,5 − 80)/6,92820323) = P (Z < 2,96) − P (Z < 2,81) =
0,998462− 0,997523 = 0,000939.
b) Para calcular P (X > 100) resulta mas apropiado usar la aprox-
imacion por el modelo normal. Ası, P (X > 100) = 1 − P (X <=
100) = 1−P (X <= 100,5) = 1−P (Z <= ((100,5−80)/6,92820323) =
1− P (Z < 2,96) = 1− 0,998462 = 0,0015 aproximadamente.
c) Para calcular P (X <= 120) resulta mas apropiado usar la aprox-
imacion por el modelo normal. Ası, P (X <= 120) = P (X <=
120,5) = P (Z <= ((120,5 − 80)/6,92820323) = P (Z < 5,85) = 1
aproximadamente.
d) Si las 10 primeras matrıculas son en Humanidades, como las sigu-
ientes 190 son independientes de estas, procederemos de la mis-
ma forma que en el primer apartado. Para calcular el valor exac-
to: X sigue B(190; 0,4) = Numero de matriculados en una carrera
de Humanidades de los 190. P (X = 95) =(19095
)0,495 ∗ 0,695 =
0,001196. Para el valor aproximado, usaremos que B(190; 0,4) se
asemeja a N(190 ∗ 0,4;√190 ∗ 0,4 ∗ 0,6) = N(76; 6,752777). Ası,
24 CAPITULO 1. MODELOS PROBABILISTICOS
una vez aplicada la correccion por continuidad de Fisher, P (X =
95) = P (94,5 < X < 95,5) = P (Z < (95,5 − 76)/6,752777) −P (Z < (94,5 − 76)/6,752777) = P (Z < 2,89) − P (Z < 2,74) =
0,998074 − 0,996928 = 0,0011. Se aprecia un aumento respecto al
primer apartado.
18. Una empresa electronica observa que el numero de componentes que fa-
llan antes de cumplir 100 horas de funcionamiento es una variable aleato-
ria de Poisson. Si el numero promedio de estos fallos es 15,
a) ¿cual es la probabilidad de que falle un componente en 100 horas?
Compare el valor exacto con el obtenido mediante el valor aproxi-
mado por una normal.
b) ¿y de que fallen mas de dos componentes en 100 horas?
Solucion:
a) Para calcular el valor exacto: X sigue P (15) = Numero de compo-
nentes que fallan antes de cumplir 100 horas. P (X = 1) = 151 ∗e−15
1!= 0,000004588. Para el valor aproximado, usaremos que P(15)
se aproxima a N(15;√15) = N(15; 3,872983). Ası, una vez aplicada
la correccion por continuidad de Fisher, P (X = 1) = P (0,5 < X <
1,5) = P (Z < (1,5−15)/3,872983)−P (Z < (0,5−15)/3,872983) =
P (Z < −3,49) − P (Z < −3,74) = 0,000242 − 0,0000 = 0,000242
aproximadamente.
b) Para calcular P (X > 2) resulta mas apropiado usar la aproximacion
por el modelo normal. Ası, P (X > 2) = 1 − P (X <= 2) = 1 −P (X <= 2,5) = 1 − P (Z <= ((2,5 − 15)/3,872983) = 1 − P (Z <
−3,23) = 1− 0,000619 = 0,9994 aproximadamente.
19. La vida media de una pila de linterna es de 24 horas y esta distribuida
normalmente con una desviacion de 3 horas. Suponiendo que las pilas no
EJERCICIOS DE AUTOEVALUACION 25
se usan a la vez, ¿cual es la probabilidad de que una muestra aleatoria
de 100 pilas tenga una vida total superior a los 102 dıas?
Solucion:
La vida de una pila se distribuye segun una N(24; 3). Ası, la vida to-
tal de 100 pilas sera la suma de 100 distribuciones independientes e
identicamente distribuidas segun una N(24; 3); X = X1 + . . . + X100
que se distribuye segun N(24∗100; 3∗√100) = N(2400; 30). Ası, P (X >
102∗24) = 1−P (X < 2448) = 1−P (Z < (2448−2400)/30) = 1−P (Z <
1,6) = 0,945201 = 0,0548.
20. Se toman 36 observaciones de una maquina de acunar monedas conmem-
orativas. Si el espesor promedio de las monedas es de 0.20 cm con una
desviacion de 0.01 cm, ¿cual es la probabilidad de que el promedio del
espesor de las 36 monedas supere los 0.21 cm?
Solucion:
El espesor de una moneda se distribuye segun una N(0,20; 0,01). Ası, el
espesor medio de 36 monedas sera la media de 36 distribuciones indepen-
dientes e identicamente distribuidas segun una N(0,20; 0,01); X = (X1+
. . .+X36)/36 que se distribuye segunN(0,20; 0,01/√36) = N(0,20; 0,00027).
Ası, P (X > 0,21) = 1−P (X < 0,21) = 1−P (Z < (0,21−0,20)/0,0002777) =
1− P (Z < 36,01) = 1− 1 = 0.
21. Completar la siguiente tabla usando las tablas de las distribuciones aso-
ciadas a la normal y tambien utilizando la hoja de calculo EXCEL.
Chi-cuadrado t-student F-Snedecor
P (χ22 < x) = 0,1 P (t2 < t) = 0,1 P (F4,6 < f) = 0,9
P (χ25 > x) = 0,01 P (t5 > t) = 0,01 P (F10,14 < f) = 0,975
P (χ24 ≤ x) = 0,95 P (t4 ≤ t) = 0,95 P (F20,30 ≥ f) = 0,001
P (χ27 < 6,3458) = P (t7 < 2,3646) = P (F10,12 < 4,2961) =
P (χ22 > 39,9968) = P (t20 > 0,86) = P (F22,10 < f) = 0,05
Solucion:
26 CAPITULO 1. MODELOS PROBABILISTICOS
Chi-cuadrado t-student F-Snedecor
P (χ22 < 0,2107) = 0,1 P (t2 < 1,8856) = 0,1 P (F4,6 < 3,1808) = 0,9
P (χ25 > 15,0863) = 0,01 P (t5 > 3,3649) = 0,01 P (F10,14 < 3,1469) = 0,975
P (χ24 ≤ 9,4877) = 0,95 P (t4 ≤ 2,1318) = 0,95 P (F20,30 ≥ 3,492784) = 0,001
P (χ27 < 6,3458) = 0,5 P (t7 < 2,3646) = 0,975 P (F10,12 < 4,2961) = 0,99
P (χ22 > 39,9968) = 0,005 P (t20 > 0,86) = 0,2 P (F22,10 < 1/2,2967) = 0,05
22. La variable X se distribuye segun una chi-cuadrado con 10 grados de
libertad. Si se extrae un sujeto al azar:
a) Calcule la probabilidad de que no supere 9.342.
b) Calcule el valor de X tal que la probabilidad de obtener como maxi-
mo ese valor sea 0.75.
c) Calcule la probabilidad de obtener un valor de X entre 3.9403 y
18.3070.
d) Calcule el percentil 90 de X.
Solucion:
a) P (X < 9,342) = 0,5
b) P (X < x) = 0,7 si x = 12,5489
c) P (3,9403 < X < 18,3070) = P (X < 18,3070) − P (X < 3,9403) =
0,95− 0,05 = 0,9.
d) P (X < x) = 0,9six = 15,9872.
23. La variable X se distribuye segun una t de Student con 25 grados de
libertad. Si se extrae un sujeto al azar:
a) Calcule la probabilidad de que no supere 2.06.
b) Calcule el valor de X tal que la probabilidad de obtener como maxi-
mo ese valor sea 0.7.
c) Calcule la probabilidad de obtener un valor de X entre −1,316 y
41,316.
d) ¿Que valor corresponde a la mediana de X?
EJERCICIOS DE AUTOEVALUACION 27
Solucion:
a) P (X < 2,06) = 0,975.
b) P (X < x) = 0,7 si x = 0,5312.
c) P (−1,316 < X < 1,316) = P (X < 1,316) − P (X < −1,316) =
0,9− 0,1 = 0,8.
d) P (X < x) = 0,5 si x = 0 pues X es simetrica en x = 0.
24. La variable X se distribuye segun una F de Snedecor con 7 y 8 grados de
libertad. Si se extrae un sujeto al azar:
a) Calcule la probabilidad de que no supere 3.5.
b) Calcule el valor de X tal que la probabilidad de obtener como maxi-
mo ese valor sea 0.975.
c) Calcule la probabilidad de obtener un valor de X entre 2,6241 y
6,1776.
d) ¿Que valor corresponde al primer percentil de X?
Solucion:
a) P (X < 3,5) = 0,95
b) P (X < x) = 0,975 si x = 4,5286
c) P (2,6241 < X < 6,1776) = P (X < 6,1776) − P (X < 2,6241) =
0,99− 0,9 = 0,09.
d) P (X < x) = 0,01 si x = 1/6,84 pues P (F8,7 < 6,84) = 0,99
(Propiedad de Reciprocidad).
Capıtulo 2
Distribuciones en el muestreo
1. Muestra aleatoria. Parametros poblacionales y estadısticos muestrales.
2. Distribucion muestral de estadısticos.
3. Media y varianza de algunos estadısticos.
4. Distribucion de estadısticos muestrales de poblaciones normales.
5. Distribucion de la proporcion muestral.
6. Distribucion de la diferencia de proporciones.
2.1. Muestra aleatoria. Parametros poblacionales
y estadısticos muestrales
Cuando se habla de muestra nos referiremos a la observacion parcial de la
poblacion que se analiza, o dicho de otra forma, nos basaremos en la informa-
cion que se obtenga de un subconjunto o parte de la poblacion.
29
30 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Los elementos que componen la muestra representan a toda la poblacion,
por lo que las caracterısticas que se estudian en la muestra seran similares a
las que se observarıan en la poblacion.
Ası por ejemplo, supongamos que se desea conocer el precio medio de la
vivienda en Sevilla en un determinado ano, para lo que se necesitarıa conocer
el precio de venta de cada una de las viviendas vendidas en Sevilla durante
el periodo de tiempo que se desea estudiar. La lista completa de viviendas
con sus precios serıa la poblacion que se quiere investigar, mientras que la
caracterıstica es el precio de la vivienda. En esta situacion sera complicado
y sobre todo costoso (tiempo y recursos economicos), obtener la informacion
deseada de toda la poblacion. Lo que sı se puede obtener de manera mas facil
es la informacion del precio de la vivienda para una muestra representativa de
la poblacion, y a partir de ahı obtener conclusiones que se puedan inferir a la
caracterıstica de la poblacion.
Siguiendo con el ejemplo, al hablar de representatividad de la muestra, si la
seleccion de viviendas se hiciera ıntegramente en una zona marginal de Sevil-
la, es evidente que la muestra seleccionada no representarıa adecuadamente
el precio de la vivienda en Sevilla. Para evitar estos problemas y para que
la inferencia sobre la poblacion sea correcta es necesario que se garantice la
aleatoriedad de la muestra.
La medida de una caracterıstica determinada de una poblacion viene dada
por una variable aleatoria X, con funcion de distribucion F (x). Cuando se
selecciona aleatoriamente un primer elemento de la poblacion, se observa la
caracterıstica medible que se estudia, X1; una vez hecho esto se devuelve el
elemento a la poblacion, despues se selecciona un segundo elemento y de nuevo
se observa la caracterıstica medible dando lugar a la observacion X2; repetimos
esto n veces y tenemos n observaciones (X1, X2, . . . , Xn) de la caracterıstica
X que se investiga de la poblacion. Observese que X1,X2,...,Xn son variables
aleatorias independientes e identicamente distribuidas, ya que el hecho de que
2.1. MUESTRA ALEATORIA 31
una observacion haya sido seleccionada no depende de las que se han selec-
cionado anteriormente, puesto que los elementos se devuelven a la poblacion
y la probabilidad de seleccion de estos permanece constante durante todo el
experimento.
(X1, X2, . . . , Xn) constituye lo que se denomina una muestra aleatoria sim-
ple, (m.a.s.), es decir, una muestra aleatoria simple de tamano n es un conjunto
de n variables aleatorias independientes e identicamente distribuidas.
Cuando se ejecuta el experimento, se tiene la realizacion de la muestra y
cada una de las variables aleatorias tomara un valor numerico. De esta forma y
siguiendo con el ejemplo de la vivienda, se tendrıa por ejemplo tras la seleccion
de una muestra de tama no 200 viviendas:
x1 = 118000e , x2 = 84000e , . . . , x200 = 94000e .
Al ser las variables aleatorias X1,X2,...,Xn independientes, la funcion de dis-
tribucion conjunta sera el producto de las funciones de distribucion marginales:
F (x1, x2, . . . , xn) =n∏
i=1
F (xi).
Si la poblacion es de tipo discreto y la funcion de probabilidad de esta es:
pi = P [X = xi] ; i = 1, 2, . . . , r.
En este caso la funcion de probabilidad conjunta sera:
P [X1 = x1, X2 = x2, . . . , Xn = xn] =n∏
i=1
P [X = xi] =n∏
i=1
pi.
Si la poblacion es de tipo continuo con funcion de densidad f(x), en este
caso la funcion de densidad de la muestra sera:
f(x1, x2, . . . , xn) =n∏
i=1
f(xi)
32 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
2.1.1. Parametros poblacionales y estadısticos muestrales
Supongamos que interesa investigar el volumen anual de ventas de un de-
terminado producto en el mercado mayorista espanol y que esta caracterıstica
sigue una distribucion normal, N(µ, σ), con funcion de densidad:
f(x) =1
σ√2π
e−(x−µ)2
2σ2 ,
La media, µ, representa el volumen medio de ventas y la varianza σ2 la disper-
sion de las ventas en los distintos establecimientos. Estos valores se obtienen
manejando todos los datos de ventas en el comercio mayorista espanol. Como
es difıcil disponer de todos estos datos y sobre todo es muy costoso, desde
el punto de vista economico, se trabaja con una m.a.s. y se considera que µ
y σ son parametros poblacionales desconocidos. A partir de la m.a.s. se ob-
tienen estimadores de estos parametros a traves de funciones de la muestra
denominadas estadısticos muestrales, que son funciones reales de las variables
aleatorias que integran la muestra.
Parametros poblacionales
Media:
La media poblacional, µ, de una distribucion es el centro de gravedad de la
distribucion. Constituye un parametro desconocido de la distribucion porque
o bien no es posible calcularlo (caso de poblaciones infinitas) o es muy costoso
hacerlo. En el caso de una poblacion finita de tamano N el parametro media
poblacional vendrıa dado por:
µ =1
N
N∑i=1
xi,
donde xi, i = 1, 2, . . . , N , son todos los posibles valores que miden la carac-
terıstica que estamos observando en la poblacion.
2.1. MUESTRA ALEATORIA 33
Varianza:
La varianza poblacional, σ2, es un parametro que mide la dispersion de los
datos con respecto a la media. Para el caso de una poblacion finita:
σ2 =1
N
N∑i=1
(xi − µ)2.
Proporcion:
Si estamos midiendo si los individuos de una poblacion presentan o no una
determinada caracterıstica, la variable aleatoria que estamos considerando es
de tipo Bernouilli, X ∈ Be(p), y el parametro proporcion poblacional, p, rep-
resenta el porcentaje de individuos de la poblacion con dicha caracterıstica.
p =no de individuos que presentan la caracterıstica
no total de individuos
Estadısticos muestrales
Para una muestra aleatoria simple de tamano n, (X1, X2, . . . , Xn), los es-
tadısticos media, varianza y proporcion muestral se definen como:
Media:
µ = X =1
n
n∑i=1
Xi
Varianza:
σ2 = S2 =1
n− 1
n∑i=1
(Xi − X)2
Proporcion:
La proporcion muestral es el cociente entre el numero de exitos (individuos
que presentan la caracterıstica X) y el numero de pruebas (tamano muestral).
34 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Como X1 ∈ Be(p), el estimador de la proporcion muestral es entonces:
p = X =1
n
∑i=1
nXi =no de exitos en n pruebas
no de pruebas
Notese que la variable numero de exıtos en n pruebas es una variable de tipo
binomial:
Y =n∑
i=1
Xi ∈ B(n, p).
Si en lugar de considerar las n variables aleatorias independientes e identi-
camente distribuidas (X1, X2, . . . , Xn) que constituyen la muestra aleatoria
simple, se considera una realizacion concreta de la muestra (x1, x2, . . . , xn)
entonces los valores concretos de los estadısticos muestrales se llaman estima-
ciones:
Media:
x =1
n·
n∑i=1
xi
Varianza:
s2 =1
n− 1·
n∑i=1
(xi − x)2
Proporcion:
pX =y
n=
1
n
n∑i=1
xi
2.2. Distribucion muestral de estadısticos
Los estadısticos muestrales son variables aleatorias que se utilizan para
estimar los correspondientes parametros poblacionales. En el siguiente ejemplo
se analiza la distribucion de la muestra y de dichos estadısticos muestrales.
2.2. DISTRIBUCION MUESTRAL DE ESTADISTICOS 35
Ejemplo 2.2.1 Supongamos una poblacion formada por los empleados de una
empresa. La caracterıstica que se desea investigar es el numero de dıas de
retraso en el cobro de la nomina de los empleados en el ultimo mes, y que
representaremos por X. Los valores poblacionales se muestran en la tabla que
se muestra a continuacion:
Dıas de retraso Numero de empleados
1 25
2 20
3 5
La distribucion de probabilidad de X es la siguiente:
X P[X = x]
1 P[X = 1] = 2550
= 0’5
2 P[X = 2] = 2050
= 0’4
3 P[X = 3] = 550
= 0’1
De esta forma la media y varianza poblacionales seran:
µ = E[X] = 1 · 0′5 + 2 · 0′4 + 3 · 0′1 = 1′6 dıas.
σ2 = V ar[X] = E[(X − µ)2]
Buscamos la varianza a traves de la tabla:
X − µ (X − µ)2
1-1’6 = -0’6 0’36
2-1’6 = 0’4 0’16
3-1’6 = 1’4 1’96
36 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
σ2 = 0′36 · 0′5 + 0′16 · 0′4 + 1′96 · 0′1 = 0′44 dıas2.
Supongamos que se extraen muestras aleatorias simples de tamano 2. En la
tabla que se muestra a continuacion aparecen todas las posibles muestras rea-
lizaciones de la muestra, ası como sus probabilidades y el valor del estadıstico
media y varianza muestral:
Muestras X S2 P[X1 = x1, X2 = x2] = P(X1 = x1) · P (X2 = x2)
(1,1) 1 0 0’25
(1,2) 1’5 0’5 0’2
(1,3) 2 2 0’05
(2,1) 1’5 0’5 0’2
(2,2) 2 0 0’16
(2,3) 2’5 0’5 0’04
(3,1) 2 2 0’05
(3,2) 2’5 0’5 0’04
(3,3) 3 0 0’01
A continuacion obtenemos la distribucion de probabilidad del estadıstico
media muestral X:
x P[X = x]
1 0’25
1’5 0’4
2 0’26
2’5 0’08
3 0’01
donde, por ejemplo, P [X = 2] = 0′05 + 0′16 + 0′05 = 0′26.
2.2. DISTRIBUCION MUESTRAL DE ESTADISTICOS 37
De la misma manera se obtiene la distribucion de probabilidad del estadısti-
co varianza muestral S2:
s2 P[S2 = s2]
0 0’42
0’5 0’48
2 0’10
donde, por ejemplo, P[S2 = 0] = 0’25 + 0’16 + 0’01 = 0’42.
Por ultimo obtenemos la media y varianza del estadıstico media muestral:
µX = E[X] =∑i
xi · P [X = xi] =
= 1 · 0′25 + 1′5 · 0′4 + 2 · 0′26 + 2′5 · 0′08 + 3 · 0′01 = 1′6 dıas.
σ2X = E[(X − µX)
2] =∑i
(xi − 1′6)2 · P [X = xi] =
= (1− 1′6)2 · 0′25 + (1′5− 1′6)2 · 0′4 + . . . = 0′22 dıas2.
Actuamos de forma analoga a la seguida con el estadıstico media muestral,
obteniendo la media y varianza del estadıstico varianza muestral:
µS2 = E[S2] =∑i
s2i · P [S2 = s2i ] =
= 0 · 0′42 + 0′5 · 0′48 + 2 · 0′1 = 0′44 dıas.
σ2S2 = E[(S2 − µS2)2] =
∑i
(s2i − 0′44)2 · P [S2 = s2i ] =
= (0− 0′44)2 · 0′42 + (0′5− 0′44)2 · 0′48 + (2− 0′44)2 · 0′1 = 0′32 dıas2.
Como se ve para muestras pequenas como el ejemplo que se ha desarro-
llado se hace largo el obtener la distribucion de probabilidad de estadısticos
muestrales. Habra que buscar resultados que faciliten estos calculos.
38 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
2.3. Media y varianza de algunos estadısticos
Teorema 2.3.1 Sea (X1, X2, . . . , Xn) una muestra aleatoria simple de tamano
n procedente de una poblacion definida por la variable aleatoria X, que viene
caracterizada por la media E[X] = µ y por la varianza V ar(X) = σ2, entonces:
E[X] = µ
V ar(X) =σ2
n
Demostracion: Puesto que partimos de una muestra aleatoria simple, las vari-
ables aleatorias X1, . . . , Xn son independientes, por lo que todas las variables
tienen la misma distribucion de probabilidad que la de X por lo que:
E[X1] = . . . = E[Xn] = E[X] = µ
V ar(X1) = . . . = V ar(Xn) = V ar(X) = σ2
Buscamos la esperanza matematica del estadıstico media muestral:
X =1
n
n∑i=1
Xi =X1 + . . .+Xn
n
E[X] = E
[X1 + . . .+Xn
n
]=
1
nE[X1 + . . .+Xn] =
=1
n(E[X1] + . . .+ E[Xn]) =
1
n(µ+ . . .+ µ) =
nµ
n= µ
Actuando de la misma forma para la varianza se tiene:
V ar(X) = V ar
(X1 + . . .+Xn
n
)=
1
n2V ar(X1 + . . .+Xn) =
=1
n2(V ar(X1) + . . .+ V ar(Xn)) =
1
n2(σ2 + . . .+ σ2) =
nσ2
n2=
σ2
n
2
2.3. MEDIA Y VARIANZA DE ALGUNOS ESTADISTICOS 39
Con estos resultados se puede obtener la media y varianza del estadıstico
media muestral sin necesidad de conocer la distribucion de probabilidad del
estadıstico media muestral.
Vamos a denominar error estandar de la media muestral a la desviacion
tıpica de la media muestral, σ√n.
Los resultados dados anteriormente son validos cuando el muestreo se rea-
liza en una poblacion infinita o en una poblacion finita, pero el muestreo se
hace con reemplazamiento (de esta forma las variables aleatorias X1, . . . , Xn
son independientes). Si el muestreo se hace sin reemplazamiento y el tamano
de la poblacion es N , las variables aleatorias X1, . . . , Xn no son independientes
y:
E[X] = µ
V ar(X) =σ2
n· N − n
N − 1
donde N−nN−1
se denomina factor de correccion de poblacion finita.
Cabe resaltar que a medida que el tamano muestral, n, aumenta, la dis-
persion en torno a la media poblacional, µ, disminuira, es decir, cuanto mayor
sea n menor sera V ar(X). Sin embargo, existe un lımite, es decir, llega un mo-
mento en el que aunque el tamano de la muestra siga creciendo, la dispersion
apenas disminuye.
En cuanto a la varianza muestral tenemos el siguiente resultado:
Teorema 2.3.2 Sea (X1, . . . , Xn) una muestra aleatoria simple de tamano
n, procedente de una poblacion que esta definida por la variable aleatoria X
(E[X] = µ, V ar(X) = σ2). Se verifica:
E[S2] = σ2
V ar(S2) =µ4
n+
3− n
n(n− 1)σ4
40 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
donde µ4 es el momento central de orden cuatro. En caso de que la poblacion
fuese N(µ, σ) entonces µ4 = 3σ4, siendo en este caso V ar(S2) = 2σ4
n−1. 2
2.4. Distribucion de estadısticos muestrales de
poblaciones normales
Sea X una variable aleatoria normal, X ∈ N(µ, σ). Consideremos una
muestra aleatoria simple de tamano n, (X1, X2, . . . , Xn).
2.4.1. Distribucion de la media muestral cuando se conoce
la varianza poblacional
Teorema 2.4.1 X ∈ N(µ, σ√
n
)y por tanto Z = X−µ
σ√n
∈ N(0, 1).
Demostracion: La demostracion la vamos a llevar a cabo a traves de la funcion
generatriz de momentos. La f.g.m. de una variable aleatoria X cuya distribu-
cion es N(µ, σ) es:
gX(t) = E[etX ] = etµ+12t2σ2
Las variables Xi son independientes y todas tienen la misma distribucion
N(µ, σ). De esta forma, la f.g.m. del estadıstico media muestral es:
gX(t) = E[etX ] = E[et(∑n
i=1Xin
)] = E[et(X1n
+...+Xnn
)] = E[etnX1 ] . . . E[e
tnXn ] =
= (etnµ+ 1
2t2
n2 σ2
) . . . (etnµ+ 1
2t2
n2 σ2
) = (etnµ+ 1
2t2
n2 σ2
)n = etµ+12
t2
nσ2
que es la funcion generatriz de momentos de una variable aleatoria distribuida
segun una N(µ, σ√n). Por tanto X ∈ N(µ, σ√
n). 2
1.4. POBLACIONES NORMALES 41
A veces la poblacion inicial de la que se extrae la muestra no es normal. En
estas situaciones, siempre que el tamano muestral sea suficientemente grande
(n ≥ 30), aplicando el Teorema Central del Lımite, tambien puede considerarse
que el estadıstico media muestral se distribuye normalmente:
X ∈ N(µ,σ√n)
Ejemplo 2.4.2 El gasto mensual en ocio por individuo (cientos de euros),
sigue una variable aleatoria cuya distribucion no se conoce, con una desviacion
tıpica de 1’6. Seleccionamos una muestra aleatoria de 70 individuos. Determi-
nar la probabilidad de que el gasto medio en ocio por individuo difiera, a lo
sumo, 20ede la verdadera media poblacional.
Solucion: La variable aleatoria es X ≡ gasto mensual en ocio por individuo
(cientos de euros).
No sabemos nada sobre cual es la distribucion de la poblacion pero, al ser
el tamano muestral bastante grande n = 70 (bastante superior de 30), en este
caso la distribucion de la media muestral puede aproximarse a una normal,
X ∈ N(µ, σ√n), que en nuestro caso sera X ∈ N(µ, 1′6√
70).
De la misma forma tenemos la distribucion de la variable aleatoria tipifi-
cada:
Z =X − µ
σ√n
=X − µ
1′6√70
∈ N(0, 1).
La probabilidad que se nos pide es la siguiente:
P (|X − µ| ≤ 0′2) = P (−0′2 ≤ X − µ ≤ 0′2) =
= P
(−0′2
1′6/√70
≤ X − µ
1′6/√70
≤ 0′2
1′6/√70
)=
= P (−1′04 ≤ Z ≤ 1′04) = P (Z ≤ 1′04)− P (Z ≤ −1′04) =
42 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
= F (1′04)− F (−1′04) = 0′8508− 0′1492 = 0′7016
La probabilidad de que el gasto medio en ocio por individuo, que se obtiene a
partir de una muestra de tamano 70, se encuentre a 20e de la media de gasto
en ocio real de la poblacion es del 70% aproximadamente.
Ejemplo 2.4.3 Supongamos ahora que la variable aleatoria gasto en ocio men-
sual por individuo (cientos de euros) se distribuye segun una normal de desviacion
tıpica 1’6. Determinar el tamano muestral para que la media muestral se en-
cuentre a lo sumo a 30e de la media poblacional con una probabilidad del
99%.
Solucion: Se debe cumplir que P (|X − µ| ≤ 0′3) = P (−0′3 ≤ X − µ ≤ 0′3) =
0′99.
Tipificamos en la expresion anterior, para lo cual dividimos los terminos
de la desigualdad por 1′6√n:
P
(−0′3
1′6/√n≤ X − µ
1′6/√n≤ 0′3
1′6/√n
)= P (−0′1875
√n ≤ Z ≤ 0′1875
√n) = 0′99
P (Z ≤ 0′1875√n)− P (Z ≤ −0′1875
√n) = 2P (Z ≤ 0′1875
√n)− 1 =
= 2F (0′1875√n)− 1 = 0′99 ⇒ F (0′1875
√n) = 0′995
Utilizando las tablas estadısticas tenemos,
0′1875√n = 2′575 ⇒ n =
(2′575
0′1875
)2
≃ 189 individuos.
2.4.2. Distribucion de la media muestral cuando no se
conoce la varianza poblacional
Teorema 2.4.4 X−µS/
√n∈ tn−1.
1.4. POBLACIONES NORMALES 43
Demostracion: Utilizaremos:
X ∈ N(µ, σ√n) y por lo tanto X−µ
σ/√n∈ N(0, 1).
(n−1)S2
σ2 ∈ χ2n−1 (Teorema de Fisher).
X y S2 son independientes.
Recordamos la definicion de la variable aleatoria t-Student. Si U y V variables
aleatorias independientes, U ∈ N(0, 1) y V ∈ χ2n, se define la variable aleatoria
t-Student como:
T =U√V/n
∈ tn
En nuestro caso:
X−µσ/
√n√
(n− 1)S2/σ2(n− 1)=
(X − µ)√n/σ
S/σ=
X − µ
S/√n
∈ tn−1
2
2.4.3. Distribucion de la varianza muestral
Se utiliza el Teorema de Ficher.
Ejemplo 2.4.5 En una fabrica de piensos para animales se sabe que el peso
de los sacos en los que se almacena el pienso se distribuye segun una normal.
Se extrae una muestra de 25 sacos de pienso y se desea saber por debajo de
que porcentaje de la varianza muestral se encuentra la varianza poblacional
con una probabilidad del 90%.
Solucion: La variable aleatoria se define como X ≡ peso del saco de pienso.
Sabemos que X ∈ N(µ, σ) y desconocemos los parametros µ y σ. El tamano
muestral es de n = 25 y se pide obtener k para que P [σ2 ≤ kS2] = 0′9.
44 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Dividimos ambos miembros de la desigualdad por la varianza poblacional y
por k:
P
[1 ≤ kS2
σ2
]= 0′9 ⇒ P
[1
k≤ S2
σ2
]= 0′9.
A continuacion multiplicamos ambos miembros de la desigualdad por (n−1)
y tenemos:
P
[(n− 1)S2
σ2≥ n− 1
k
]= 0′9 ⇒ P
[24S2
σ2≥ 24
k
]= 0′9.
Como:(n− 1)S2
σ2=
24S2
σ2∈ χ2
n−1 = χ224,
entonces
P
[24S2
σ2≥ 24
k
]= 0′9 ⇔ P
[24S2
σ2≤ 24
k
]= 0′1
y buscando en las tablas de la χ224, tenemos:
24
k= 15′66 ⇒ k = 1′53.
2.4.4. Distribucion de la diferencia de medias muestrales
cuando se conoce la varianza poblacional
Sean (X1, . . . , XnX) e (Y1, . . . , YnY
) dos muestras aleatorias simples e inde-
pendientes de tamanos nX y nY , procedentes de las poblaciones N(µX , σX) y
N(µY , σY ) respectivamente.
Teorema 2.4.6 X − Y ∈ N
(µX − µY ,
√σ2X
nX+
σ2Y
nY
)El estadıstico que se obtiene tras tipificar sera,
Z =(X − Y )− (µX − µY )√
σ2X
nX+
σ2Y
nY
∈ N(0, 1)
1.4. POBLACIONES NORMALES 45
Demostracion: Partimos de X ∈ N(µX ,σX√nX
) y Y ∈ N(µY ,σY√nY
) y de sus
funciones generatrices de momentos:
gX(t) = E[etX ] = etµX+ 1
2t2
σ2X
nX
gY (t) = E[etY ] = etµY + 1
2t2
σ2Y
nY
Entonces:
gX−Y (t) = E[et(X−Y )] = E[etX ]E[e−tY ] = etµX+ 1
2t2
σ2X
nX e−tµY + 1
2t2
σ2Y
nY =
= et(µX−µY )+ 1
2t2(
σ2X
nX+
σ2Y
nY),
y por tanto:
X − Y ∈ N
µX − µY ,
√σ2X
nX
+σ2Y
nY
2
Ejemplo 2.4.7 Se analizan los ingresos anuales familiares en dos provincias
distintas (A y B). Se sabe que el ingreso medio en la provincia A es de 12900e
con una varianza de 250e 2, mientras que en la provincia B el ingreso medio
anual es de 11800e con una varianza de 287e 2. Se toma una muestra aleato-
ria de 42 familias en la provincia A y de 48 familias en la provincia B. Deter-
minar la probabilidad de que la muestra extraıda en la provincia A tenga unos
ingresos medios que sean al menos 1110e superiores a los ingresos medios de
la provincia B.
Solucion: En el enunciado no se ha dicho que las poblaciones sean normales,
sin embargo, no es necesario ya que ambos tamanos muestrales son mayores
de 30 por lo que la aproximacion a la distribucion normal es buena. Sean:
X ≡ ingreso familiar anual en la provincia A
46 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Y ≡ ingreso familiar anual en la provincia B
X ∈ N(12900,
√250√42
)
Y ∈ N(11800,
√287√48
)
Como nX = 42 y nY = 48, la distribucion muestral de la diferencia de los
ingresos medios muestrales X − Y es:
X − Y ∈ N(12900− 11800,
√250
42+
287
48) ≡ N(1100, 3′45)
Se pide calcular la siguiente probabilidad:
P [X − Y ≥ 1110] = P
[(X − Y )− 1100
3′45≥ 1110− 1100
3′45
]= P [Z ≥ 2′89] =
= 1− P [Z ≤ 2′89] = 1− 0′9981 = 0′0019
La probabilidad de que el ingreso medio muestral en la provincia A supere en
1110e o mas al ingreso medio muestral en la provincia B es de 0′19%.
2.4.5. Distribucion de la diferencia de medias cuando
no se conoce la varianza poblacional
Caso de varianzas poblacionales desconocidas pero iguales, σX =
σY = σ
Teorema 2.4.8 T = (X−Y )−(µX−µY )√(nX−1)S2
X+(nY −1)S2Y
·√nX+nY −2
√nXnY√
nX+nY∈ tnX+nY −2
Demostracion: Utilizaremos:
X ∈ N(µX ,
σ√nX
)y Y ∈ N
(µY ,
σ√nY
).
1.4. POBLACIONES NORMALES 47
(nX−1)S2X
σ2 ∈ χ2nX−1 y
(nY −1)S2Y
σ2 ∈ χ2nY −1.
W =(nX−1)S2
X
σ2 +(nY −1)S2
Y
σ2 ∈ χ2nX+nY −2 (propiedad reproductiva de la
distribucion χ2).
Z = (X−Y )−(µX−µY )√σ2
nX+ σ2
nY
∈ N(0, 1).
Como las variables aleatorias Z yW son independientes, aplicando la definicion
de la variable t-Student podemos definir el estadıstico:
T =Z√W
nX+nY −2
∈ tnX+nY −2,
y por lo tanto:
T =(X − Y )− (µX − µY )√(nX − 1)S2
X + (nY − 1)S2Y
·√nX + nY − 2
√nXnY√
nX + nY
∈ tnX+nY −2
2
Caso de varianzas poblacionales desconocidas pero iguales, σX = σY
Teorema 2.4.9 Se verifica:
1. Si los tamanos muestrales son grandes, nX ≥ 30 y nY ≥ 30, en este caso
el estadıstico:
Z =(X − Y )− (µX − µY )√
S2X
nX+
S2Y
nY
∈ N(0, 1)
ya que S2X y S2
Y son buenos estimadores de σ2X y σ2
Y .
2. Si los tamanos muestrales no son suficientemente grandes, es decir, ten-
emos muestras pequenas, en este caso el estadıstico:
(X − Y )− (µX − µY )√S2X
nX+
S2Y
nY
∈ tν
48 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
donde los grados de libertad de la t-Student vienen dados por:
ν =(S2X
nX+
S2Y
nY)2
(S2X/nX)2
nX−1+
(S2Y /nY )2
nY −1
y tomaremos por valor de ν el valor entero mas proximo.
2
2.4.6. Distribucion del cociente de varianzas
Caso de medias poblacionales conocidas
Teorema 2.4.10 F =
nXS∗2X
σ2X
/nX
nY S∗2Y
σ2Y
/nY
=S∗2X
S∗2Y
· σ2Y
σ2X∈ FnX ,nY
, donde:
S∗2X =
1
nX
nX∑i=1
(Xi − µX)2
S∗2Y =
1
nY
nY∑i=1
(Yi − µY )2,
Demostracion: Los estadısticos anteriores podemos expresarlos:
nXS∗2X =
nX∑i=1
(Xi − µX)2 ⇒ nXS
∗2X
σ2X
=
nX∑i=1
(Xi − µX
σX
)2
∈ χ2nX
nY S∗2Y =
nY∑i=1
(Yi − µY )2 ⇒ nY S
∗2Y
σ2Y
=
nY∑i=1
(Yi − µY
σY
)2
∈ χ2nY
,
resultado que se extrae de la definicion de variable aleatoria χ2n (suma de
n variables aleatorias N(0, 1)). Recordemos ademas, la definicion de variable
aleatoria F de Snedecor con nX y nY grados de libertad que se obtiene como
1.4. POBLACIONES NORMALES 49
cociente de dos variables aleatorias χ2 independientes divididas por sus grados
de libertad, por lo que si aplicamos esto al estadıstico que hemos definido antes
tendrıamos:
F =
nXS∗2X
σ2X
/nX
nY S∗2Y
σ2Y
/nY
=S∗2X
S∗2Y
· σ2Y
σ2X
∈ FnX ,nY
2
Caso de medias poblacionales desconocidas
Puesto que µX y µY son desconocidas utilizaremos los estadısticos:
S2X =
1
nX − 1
nX∑i=1
(Xi − X)2
S2Y =
1
nY − 1
nY∑i=1
(Yi − Y )2
que son independientes, al igual que hicimos en el caso anterior vamos a operar
en los estadısticos:
(nX − 1)S2X =
nX∑i=1
(Xi − X)2 ⇒ (nX − 1)S2X
σ2X
=
nX∑i=1
(Xi − X
σX
)2
⇒ χ2nX−1
(nY − 1)S2Y =
nY∑i=1
(Yi − Y )2 ⇒ (nY − 1)S2Y
σ2Y
=
nY∑i=1
(Yi − Y
σY
)2
∈ χ2nY −1
Actuando de la misma forma que en el caso anterior, obtenemos:
F =
(nX−1)S2X
σ2X
/(nX − 1)
(nY −1)S2Y
σ2Y
/(nY − 1)=
S2X
S2Y
· σ2Y
σ2X
∈ FnX−1,nY −1
Y desde aquı se podrıa obtener la distribucion del cociente de varianzas.
50 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
2.5. Distribucion de la proporcion muestral
Sea (X1, . . . , Xn) una muestra aleatoria simple de tamano n, procedente
de una variable X de tipo Bernouilli, X ∈ Be(p). El estadıstico proporcion
muestral, p, se define como una variable aleatoria que viene dado por X.
Para una realizacion concreta de la muestra (x1, . . . , xn) el estadıstico
sera p =∑n
i=1 xi
n, donde el numerador indica el numero de elementos de la
muestra que presentan la caracterıstica que se estudia.
Como la distribucion binomial se puede aproximar a la normal cuando n es
grande (n ≥ 30) podremos decir si se cumple esta condicion que el estadıstico
proporcion muestral sigue una distribucion normal.
E[p] = E[X] = E
[∑ni=1 Xi
n
]=
1
nE
[n∑
i=1
Xi
]=
1
n
n∑i=1
E[Xi] =1
nnE[Xi] = p
V ar[p] = V ar[X] = V ar
[∑ni=1 Xi
n
]=
1
n2
n∑i=1
V ar[Xi] =1
n2npq =
pq
n
En conclusion,
p = X ∈ N
(p,
√pq
n
),
y por lo tanto para muestras grandes:
Z =X − p√
pqn
∈ N(0, 1).
Definimos el error estandar de la proporcion muestral como√
pqn. El error
estandar de la proporcion muestral disminuye a medida que aumenta el tamano
muestral, es decir, la distribucion del estadıstico proporcion muestral esta mas
concentrada en torno a la media a medida que crece el tamano de la muestra.
Ejemplo 2.5.1 Supongamos que el 20% las familias andaluzas tienen mas de
una vivienda en propiedad. Se desea conocer mas informacion sobre esto, para
2.6. DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES 51
lo cual se decide tomar una muestra de 600 familias. Determinar la probabil-
idad de que la proporcion de familias de la muestra con mas de una vivienda
se encuentre entre el 15% y el 27% .
Solucion: Conocemos que la proporcion poblacional es de p = 0′2. Puesto que
el tamano muestral es grande sabemos que la proporcion muestral p = X ∈N(p,
√pqn) ≡ N(0′2;
√0′2·0′8600
) ≡ N(0′2; 0′016)
La probabilidad que deseamos determinar es la siguiente:
P [0′15 ≤ p ≤ 0′27] = P
[0′15− p√
pqn
≤ p− p√pqn
≤ 0′27− p√pqn
]=
= P
[0′15− 0′2
0′016≤ Z ≤ 0′27− 0′2
0′016] = P [−3′125 ≤ Z ≤ 4′375
]=
= P [Z ≤ 4′375]−P [Z ≤ −3′125] = F (4′375)−F (−3′125) ≃ 1−0′0009 ≃ 0′9991.
La proporcion muestral de familias que tienen mas de una vivienda en
propiedad estara entre el 15% y el 27% para el 99% de las muestras de tamano
600 procedentes de la poblacion Andaluza.
2.6. Distribucion de la diferencia de propor-
ciones
Consideramos X ∈ Be(pX), Y ∈ Be(pY ). Se extraen muestras aleatorias
simples de tamano nX y nY respectivamente, que son independientes. En este
caso definimos la diferencia de las proporciones muestrales como:
pX − pY = X − Y =1
nX
nX∑i=1
Xi −1
nY
nY∑i=1
Yi,
52 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
En el caso de tamanos muestrales (nX y nY ) grandes, esa diferencia se
distribuira aproximadamente segun una normal de la forma:
pX − pY ∈ N
(pX − pY ,
√pXqXnX
+pY qYnY
).
2.7. Ejercicios de autoevaluacion (Capıtulo 2)
1. Se ha estudiado el ahorro anual (deuda en caso de valores negativos)
de las familias de una determinada localidad, caracterizandose por una
distribucion normal con desviacion tıpica de 2000 euros. Se elige una
muestra aleatoria simple de 25 familias. Calcule:
a) La probabilidad de que la media muestral difiera de la media pobla-
cional a lo sumo en 0,5 miles de euros.
b) El tamano muestral necesario para que dicha diferencia sea a lo sumo
0,5 miles de euros con una probabilidad de 0,95.
Solucion:
a) P[|X − µ| ≤ 0,5
]= 0,788.
b) n ≃ 61,46 ≃ 62 familias.
2. Se sabe que el peso de los coches de una determinada companıa sigue una
distribucion normal con media 1000 kg. y desviacion tıpica 80 kg. Para
llevar un control sobre la calidad de sus automoviles, cada dıa la com-
panıa elige aleatoriamente 400 de los coches fabricados. Si el peso medio
muestral es inferior a 992 kg. o superior a 1008 kg., la companıa consi-
dera que la produccion esta fuera de control. ¿Cual es la probabilidad de
que un dıa la produccion se encuentre fuera de control?
Solucion: P [produccion fuera de control] ≃ 0,0456.
EJERCICIOS DE AUTOEVALUACION 53
3. En una determinada ciudad, la cantidad mensual de gasolina utilizada
por cada vehıculo sigue una distribucion normal con media 160 litros.
Si se toma una muestra aleatoria de 9 observaciones y se obtiene una
varianza muestral de 81 (litros)2. Calcular:
a) ¿La probabilidad de que la media muestral sea superior a 164,776?
b) ¿La probabilidad de que la media muestral este comprendida entre
155,224 y 164,776 litros?
Solucion:
a) P[X > 164,776
]≃ 0,075.
b) P[155,224 ≤ X ≤ 164,776
]≃ 0,85.
Solucion:
4. De una poblacion normal con media desconocida y varianza 12, se extrae
una muestra aleatoria simple de tamano 6. Calcular la probabilidad de
que la varianza muestral este comprendida entre 6,42 y 22,176.
Solucion:P [6,42 ≤ S2 ≤ 22,176] ≃ 0,650.
5. Cuando las ventas medias de una determinada marca de relojes caen por
debajo de 174000 euros anuales, se considera razon suficiente para lan-
zar una campana publicitaria que active las ventas de esta marca. Para
conocer la evolucion de ventas, el departamento de marketing realiza
una encuesta a 51 establecimientos autorizados, seleccionados aleatoria-
mente, que facilitan las ventas del ultimo ano en relojes de esta marca.
Se obtienen los siguientes resultados:
51∑i=1
xi = 8640 miles de euros51∑i=1
x2i = 1517600 (miles de euros)2
Suponiendo que las ventas por establecimiento se distribuyen normal-
mente. ¿Se considera oportuno lanzar una nueva campana publicitaria?
Solucion:La probabilidad es de 0,8413.
54 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
6. De estudios previos se sabe que los ingresos anuales por individuo, tienen
una desviacion tıpica de 1,2. Si se selecciona una muestra aleatoria de 70
individuos, determinar:
a) La probabilidad de que el numero medio de ingresos anuales por in-
dividuo se encuentre a lo sumo a 0,1 de la verdadera media pobla-
cional.
b) Calcular el tamano muestral necesario para que la media muestral se
encuentre a lo sumo a 0,1 de la media poblacional con una proba-
bilidad de 0,99.
Solucion:
a) P[|X − µ| ≤ 0,1
]= 0,5098.
b) n ≃ 966,23 ≃ 967 individuos.
7. Para la fabricacion de un automovil se utilizan dos tipos de piezas. Se
sabe que la vida media de la pieza tipo A es de 6,5 anos y su desviacion
tıpica de 0,9 anos, mientras que estos parametros para la pieza tipo B
toman los valores 6 y 0,8 anos, respectivamente. Se extrae una muestra
aleatoria de 36 piezas del tipo A y otra de 49 piezas del tipo B.
a) Calcular la probabilidad de que la vida media muestral de las piezas
del tipo A sea inferior a 7 anos.
b) Calcular la probabilidad de que la vida media muestral de las piezas
del tipo A sea mayor en al menos un ano a la vida media muestral
de las piezas del tipo B.
Solucion:
a) P[X1 < 7
]= 0,9996.
b) P[X1 −X2 ≥ 1
]= 0,0038.
EJERCICIOS DE AUTOEVALUACION 55
8. Una cadena de grandes almacenes esta considerando la decision de adquirir
nuevas maquinas etiquetadoras. Para comprobar si las nuevas maquinas
mejoran la eficacia de los empleados, se selecciona aleatoriamente a dos
grupos de 9 trabajadores cada uno, realizandose un control sobre el
numero de etiquetas colocadas en perıodos de 5 minutos. En uno de
los grupos se utilizan las antiguas maquinas (grupo1) y en el otro las
nuevas (grupo2), tras un perıodo de adaptacion de sus empleados. Con-
siderando que el numero de etiquetas colocadas cada 5 minutos sigue una
distribucion normalque, que las varianzas son iguales y desconocidas, y
conocidos los siguientes resultados:
µgrupo1 = 285,23 s2grupo1 = 464,19
µgrupo2 = 299 s2grupo2 = 192,5
¿Con que probabilidad mejoran las nuevas maquinas la eficacia de sus
empleados?
Solucion: La probabilidad es de 0,925.
9. Para estudiar las necesidades de tesorerıa de un banco en una determina-
da zona, se ha analizado el saldo diario en una serie de sucursales. Este
saldo diario en caja de una sucursal sigue una distribucion normal con
desviacion tıpica poblacional igual a 1 (en miles de euros). Se ha tomado
la siguiente muestra aleatoria de 12 dıas en dos sucursales (en miles de
euros):
Sucursal 1 10 11 13 15 17 10 9 14 13 12 10 16
Sucursal 2 11 10 9 8 10 7 9 10 11 8 6 12
a) ¿Entre que valores simetricos respecto de 12500 euros esta el saldo
medio de la sucursal 1 con una probabilidad del 95%?
b) Si suponemos que el saldo medio en ambas sucursales es el mismo,
¿cual es la probabilidad de que la diferencia entre las medias mues-
trales de ambas sucursales supere los 500 euros?
56 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Solucion:
a) Entre 5,71 y 19,29.
b) P [X1 −X2 > 0,5] = 0,0126.
10. Se tienen dos poblaciones cuya distribucion es normal con varianzas,
σ2x = 12 y σ2
y = 18, respectivamente. De dichas poblaciones se extraen
dos muestras aleatorias simples de tamanos nx = 61 y ny = 31. Calcular:
a) P[S2x/S
2y > 1,16
], donde S2
x y S2y son las varianzas muestrales.
b) Suponga ahora que σ2x es desconocida. ¿Por debajo de que porcentaje
de la varianza muestral, S2x, se encuentra la varianza poblacional,
σ2x, con una probabilidad del 90%?
Solucion:
a) P[S2x/S
2y > 1,16
]= 0,95.
b) El porcentaje es de k = 1,29.
11. Segun la Consejerıa de Agricultura de una Comunidad Autonoma, la
subvencion media percibida por un agricultor en la provincia A, supera
en mas de 200 euros a la subvencion media percibida en la provincia B.
Seleccionadas dos muestras aleatorias de 10 agricultores en cada una de
las provincias, se obtienen los siguientes resultados expresados en miles
de euros:
Provincia A Provincia B
x = 1,4 y = 0,9
s2x = 0,25 s2y = 0,0025
Suponiendo que la cuantıa de las subvenciones en ambas provincias siguen
distribuciones normales con varianza distinta. Se pide:
a) ¿Con que probabilidad se puede admitir la afirmacion de la Conse-
jerıa?
EJERCICIOS DE AUTOEVALUACION 57
b) ¿Cual es la probabilidad de que la subvencion media percibida por
un agricultor en la provincia B sea superior a 1500 euros?
Solucion:
a) La probabilidad es de 0,95.
b) La probabilidad es aproximadamente 0.
12. Se conoce por estudios previos que el 70% de las familias sevillanas tiene
vivienda en propiedad frente al 30% que viven en alquiler. Se realiza una
encuesta, preguntandose aleatoriamente a 84 familias sobre esta cuestion.
a) ¿Con que probabilidad podemos afirmar que la proporcion de familias
de la muestra que tiene vivienda en propiedad estara entre el 64%
y 76%?
b) El tamano muestral necesario para que dicha probabilidad sea igual
a 0,95.
Solucion:
a) P [0,64 ≤ p ≤ 0,76] = 0,7698.
b) n ≃ 224,19 ≃ 225 familias.
13. Suponiendo que la proporcion de altos directivos espanoles que ha cur-
sado un master especializado es del 30%, ¿cual es la probabilidad de que
al elegir aleatoriamente 500 de estos directivos, encontremos entre 100 y
300 con master especializado?
Solucion: La probabilidad es de 0,0287.
14. Una multinacional del sector automovilıstico produce unicamente dos
tipos de coches (tipo I y tipo II). Se sabe que aproximadamente vende
la misma cantidad de vehıculos de ambos tipos. ¿Cual es la probabilidad
de que entre los 200 ultimos coches vendidos mas del 40% sean del tipo
II?
58 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO
Solucion: P [p > 0,4] = 0,9977.
15. La proporcion real de hombres en desacuerdo con la creacion de un cen-
so de pederastas en Espana es del 40%, mientras que la proporcion de
mujeres en desacuerdo es del 25%. Aleatoriamente, se entrevistan a 500
hombres y 400 mujeres y sus respuestas individuales se consideran co-
mo los valores de variables independientes que tienen distribuciones de
Bernouilli con los respectivos parametros p1 = 0,4 y p2 = 0,25. Calcular:
a) La probabilidad de que la proporcion muestral de mujeres en de-
sacuerdo con el citado censo se encuentre entre 0,2 y 0,5.
b) La probabilidad de que la proporcion muestral de hombres en de-
sacuerdo con la realizacion del censo supere en mas de un 15% a la
proporcion muestral de mujeres en desacuerdo.
Solucion:
a) P [0,2 ≤ p2 ≤ 0,5] ≃ 0,9896.
b) P [p1 − p2 > 0,15] = 0,5.
Capıtulo 3
Estimacion Puntual
1. Introduccion a la Inferencia Estadıstica.
2. El problema de la estimacion: estimacion puntual.
3. Propiedades de los estimadores puntuales.
4. Obtencion de estimadores: metodo de los momentos, metodo de la maxi-
ma verosimilitud.
3.1. Introduccion a la Inferencia Estadıstica
En este tema vamos a centrar la atencion en los valores de algunos pa-
rametros poblacionales que caracterizan, en cierta forma, la distribucion. Por
ejemplo, si estamos estudiando la renta familiar en la Comunidad Andaluza,
estaremos interesados en el parametro media poblacional, cuyo valor va a re-
presentar la renta de las familias andaluzas. Tambien estaremos interesados en
el parametro varianza poblacional, cuyo valor va a representar la dispersion de
la renta familiar.
59
60 CAPITULO 3. ESTIMACION PUNTUAL
Para conocer realmente los parametros poblacionales serıa necesario analizar
todos los valores poblacionales. Pero este analisis puede costar mucho tiempo
y mucho dinero. Por tanto, la solucion es utilizar la inferencia estadıstica
que consiste en obtener informacion sobre los valores de los parametros pobla-
cionales, basandose en la informacion contenida en una muestra aleatoria. Por
ejemplo para tener informacion sobre la renta familiar en Andalucıa tomare-
mos una muestra suficientemente grande de familias andaluzas y calcularemos
la renta media de dichas familias. Esta media muestral es una aproximacion al
verdadero valor del parametro, la renta media en Andalucıa.
Consideremos, entonces, una variable aleatoria,X, cuya distribucion, F (x, θ),
depende de uno o varios parametros desconocidos representados por θ. Estos
parametros toman distintos valores dentro de lo que denominamos espacio
parametrico que vamos a representar por Ω (diremos θ ∈ Ω). Para tener
informacion sobre el parametro o parametros de la distribucion, consideremos
una muestra aleatoria simple (m.a.s.), (X1, X2, . . . , Xn). Seleccionaremos una
funcion de las variables aleatorias muestrales X1, X2, . . . , Xn, que denotaremos
por θ = g(X1, X2, . . . , Xn) y la utilizaremos para inferir el valor del parametro
θ. La funcion θ es un estadıstico, que denominamos estimador, cuyo valor
depende de los valores de las variables aleatorias muestrales X1, X2, . . . , Xn y
por tanto depende de las observaciones muestrales. Al valor obtenido, medi-
ante el estimador, para una realizacion concreta de la muestra lo llamaremos
estimacion del parametro. En la Figura 3.1 expresamos diferentes parametros
poblacionales, sus estimadores y sus estimaciones.
3.2. EL PROBLEMA DE LA ESTIMACION. ESTIMACION PUNTUAL 61
Variable aleatoria, X, con distribucion F (x; θ)
(X1, X2, . . . , Xn), m.a.s. de tamano n
Parametro Poblacional (θ) Estimador (θ) Estimacion
Media µ µ = X = 1n
n∑i=1
Xi x = 1n
n∑i=1
xi
Varianza σ2 σ2 = S2 = 1n−1
n∑i=1
(Xi − X)2 s2 = 1n−1
n∑i=1
(xi − x)2
Figura 3.1: Parametros poblacionales, estimadores y estimaciones
3.2. El Problema de la estimacion. Estimacion
puntual
En la tabla de la Figura 3.1 hemos considerado que la estimacion consiste
en obtener un unico numero, calculado a partir de las observaciones muestrales
y que es utilizado como aproximacion al verdadero valor del parametro. Este
procedimiento de inferencia se denomina estimacion puntual. Mas adelante
analizaremos la estimacion por intervalos que es un procedimiento de in-
ferencia similar en el que se obtienen dos puntos (un extremo inferior y un
extremo superior) que definen un intervalo que contendra, con cierta seguri-
dad, el valor del parametro poblacional.
Estos dos procedimientos de estimacion son bastante similares. Mas ade-
lante analizaremos otro procedimiento de inferencia denominado contrastacion
de hipotesis.
Ejemplo 3.2.1 Con objeto de estudiar las ventas de las grandes superficies
en Espana, se ha obtenido una muestra de diez hipermercados de los que se
obtuvieron las ventas de una determinada semana que resultaron ser: 16, 10,
8, 12, 4, 6, 5, 4, 10 y 5 millones de euros respectivamente. Obtener estima-
ciones puntuales de las ventas medias semanales y de la varianza de las ventas.
Obtener tambien una estimacion de la proporcion de estos establecimientos
cuyas ventas son superiores a 5 millones de euros.
62 CAPITULO 3. ESTIMACION PUNTUAL
Solucion: Consideremos la variable aleatoria X: “ventas semanales de las
grandes superficies en Espana” y una muestra aleatoria simple de tamano 10,
(X1, X2, . . . , X10); una realizacion de esta muestra es (16, 10, 8, 12, 4, 6, 5, 4, 10, 5).
Como un estimador de la media poblacional es la media muestral, µ = X, una
estimacion de las ventas semanales en grandes superficies es:
x =1
n
n∑i=1
xi =80
10= 8.
La estimacion puntual de la varianza poblacional es la varianza muestral,
σ2 = S2. Por tanto una estimacion de la varianza de las ventas semanales
en hipermercados en Espana es:
s2 =1
n− 1
n∑i=1
(xi − x)2 =1
n− 1
(n∑
i=1
x2i − nx2
)=
1
9(782− 10 · 82) = 15′8.
Consideremos las variables aleatorias Yi, i = 1, 2, . . . , 10, de tipo Bernoulli,
que toman el valor 1 si si Xi > 5 y el valor 0 en otro caso. El estimador de
la proporcion poblacional, PY , es la proporcion muestral, pY . Por tanto una
estimacion de la proporcion de grandes superficies cuyas ventas son superiores
a 5 millones de euros es:
pY =y
n=
6
10= 0′6.
El sesenta por ciento de las grandes superficies en Espana tienen unas ventas
semanales superiores a cinco millones de euros.
3.3. Propiedades de los estimadores puntuales
Cuando se utiliza la estimacion puntual para inferir el valor de un parametro
poblacional, hemos de analizar la bondad de la estimacion. Una medida de
esta bondad es el error cuadratico medio del estimador, definido de la
siguiente manera:
ECM(θ) = E[(θ − θ)2].
3.3. PROPIEDADES DE LOS ESTIMADORES PUNTUALES 63
Si desarrollamos esta expresion,
ECM(θ) = E[(θ − θ)2] = E[θ2 − 2θθ + θ2] =
= E[θ2]− 2θE[θ] + θ2 − (E[θ])2 + (E[θ])2 =
= E[θ2]− (E[θ])2 +(θ2 + (E[θ])2 − 2θE[θ]
)=
= Var(θ) + (E[θ]− θ)2 = V ar(θ) + (sesgo(θ))2,
obtenemos que el error cuadratico medio es suma de la varianza del estimador
y el cuadrado del sesgo que se define como sesgo(θ) = E[θ]− θ.
Segun esta medida de la bondad de un estimador, tendrıamos que elegir
aquel con un error cuadratico medio mınimo. Pero no siempre existira un
estimador, θ, que haga mınimo el error cuadratico medio para todos los valores
posibles de θ.
Ejemplo 3.3.1 Consideremos una variable aleatoria positiva, cuya distribu-
cion depende del parametro conocido varianza poblacional, σ2 = 25, y del
parametro desconocido media poblacional, µ. Como posibles estimadores de
µ, consideramos los siguientes estimadores:
µ1 =1
4(X1 + 2X2 +X3)
µ2 =1
5(X1 + 2X2 +X3).
Obtener los errores cuadraticos medios de µ1 y µ2 y comparar sus valores para
los diferentes valores del parametro µ.
Solucion: Calculamos, en primer lugar, la media de ambos estimadores:
E[µ1] = E
[1
4(X1 + 2X2 +X3)
]=
1
4(E[X1]+2E[X2]+E[X3]) =
1
4(µ+2µ+µ) = µ.
Entonces sesgo(µ1) = 0.
E[µ2] = E
[1
5(X1 + 2X2 +X3)
]=
1
5(E[X1]+2E[X2]+E[X3]) =
1
5(µ+2µ+µ) =
4µ
5.
64 CAPITULO 3. ESTIMACION PUNTUAL
Entonces sesgo(µ2) = −µ5.
A continuacion calculamos las varianzas de ambos estimadores:
Var(µ1) = Var
(1
4(X1 + 2X2 +X3)
)=
1
16(Var(X1) + 4Var(X2) + Var(X3)) =
=1
16
(σ2 + 4σ2 + σ2
)=
3σ2
8=
75
8
Var(µ2) = Var
(1
5(X1 + 2X2 +X3)
)=
1
25(Var(X1) + 4Var(X2) + Var(X3)) =
=1
25
(σ2 + 4σ2 + σ2
)=
6σ2
25= 6.
Los errores cuadraticos medios para ambos estimadores son, entonces:
ECM(µ1) = Var(µ1) + (sesgo(µ1))2 =
75
8+ 0 =
75
8
ECM(µ2) = Var(µ2) + (sesgo(µ2))2 = 6 +
µ2
25.
Observamos que ninguno de los dos estimadores es mejor que el otro para todos
los valores del parametro µ. Si igualamos ambos errores cuadraticos medios
obtenemos:
ECM(µ1) = ECM(µ2)
75
8= 6 +
µ2
25
µ =
√675
8Por lo tanto:
µ <
√675
8⇒ ECM(µ1) > ECM(µ2)
µ =
√675
8⇒ ECM(µ1) = ECM(µ2)
µ >
√675
8⇒ ECM(µ1) < ECM(µ2),
y que un estimador sea mejor o peor que el otro (si medimos la bondad de
la estimacion por el error cuadratico medio) depende de cual sea el verdadero
valor del parametro.
3.3. PROPIEDADES DE LOS ESTIMADORES PUNTUALES 65
Resulta, por tanto, que, ademas de la utilizacion del error cuadratico medio
para la eleccion de un estimador, es necesario dar otros criterios o propiedades
adicionales para la seleccion de un buen estimador puntual.
3.3.1. Estimador insesgado
Hemos definido el sesgo de un estimador θ como sesgo(θ) = E[θ]− θ. Dire-
mos que θ es un estimador insesgado o centrado del parametro poblacional
θ si E[θ] = θ, es decir, sesgo(θ) = 0 para todos los valores del parametro θ. En
caso contrario diremos que el estimador es sesgado o descentrado.
Ejemplo 3.3.2 Sea X una variable aleatoria en cuya distribucion el parametro
media poblacional es µ = E[X] y donde σ2 = E[(X−µ)2] es el parametro var-
ianza poblacional. Se pide:
1. Probar que la media muestral, X = 1n
n∑i=1
Xi, es un estimador insesgado
de la media poblacional.
2. Probar que la varianza muestral, S2 = 1n−1
n∑i=1
(Xi−X)2, es un estimador
insesgado de la varianza poblacional.
3. Probar que el estadıstico S∗2 = 1n
n∑i=1
(Xi−µ)2, es un estimador insesgado
de la varianza poblacional.
4. Probar que el estadıstico, S ′2 = 1n
n∑i=1
(Xi − X)2, no es un estimador
insesgado de la varianza poblacional.
66 CAPITULO 3. ESTIMACION PUNTUAL
3.3.2. Estimador UMVUE
Diremos que un estimador, θ∗, insesgado del parametro θ es insesgado uni-
formemente de mınima varianza (UMVUE (uniformly minimum-variance
unbiased estimator)) para el parametro θ, si dado cualquier otro estimador
insesgado, θ, del parametro θ, se verifica que Var(θ∗) ≤ Var(θ), ∀ θ ∈ Ω.
3.3.3. Estimador eficiente
Diremos que un estimador, θ, del parametro θ es eficiente si es insesgado
y ademas cumple:1
Var(θ) =1
E[(
∂ln dFn
∂θ
)2] =1
nE
[(∂ln f(x;θ)
∂θ
)2]Este valor se llama cota de Frechet-Cramer-Rao (F-C-R) y constituye una cota
inferior para la varianza de cualquier estimador insesgado del parametro θ, si
se aceptan ciertas condiciones de regularidad.
El denominador de esta fraccion se llama cantidad de informacion sobre
el parametro contenida en la muestra, es decir, la varianza de cualquier
estimador insesgado es siempre mayor que el inverso de la cantidad de infor-
macion que la muestra proporciona sobre el parametro. Como consecuencia,
un estimador que sea eficiente es un UMVUE, aunque un estimador puede ser
UMVUE sin que su varianza alcance la cota de F-C-R y, por tanto, sin que
sea un estimador eficiente.
Una medida de la eficiencia de un estimador insesgado, θ, del parametro θ
1Como en una muestra aleatoria simple las variables aleatorias son independientes e
identicamente distribuidas con funcion de densidad f(x; θ)
3.3. PROPIEDADES DE LOS ESTIMADORES PUNTUALES 67
viene dada por la siguiente expresion:
eff(θ) =Cota F-C-R
Var(θ),
verificandose que eff(θ) ≤ 1.
De aquı que si tenemos dos estimadores insesgados, θ1 y θ2, del parametro
θ, diremos que el θ1 es mas eficiente que el estimador θ2 si se verifica
eff(θ1) ≥eff(θ2), es decir, si se verifica que Var(θ1) ≤Var(θ2), en donde las de-
sigualdades en sentido estricto se deben cumplir para algun valor del parametro
θ.
Para comparar la eficiencia de dos estimadores insesgados del parametro θ
utilizamos el concepto de eficiencia relativa de θ1 a θ2:
eff relativa(θ1, θ2) =eff(θ1)
eff(θ2).
Si este cociente es menor, igual o mayor que la unidad, diremos que θ1 es
menos, igual o mas eficiente que θ2.
Observese que para el mismo tamano muestral se verifica
eff relativa(θ1, θ2) =Var(θ2)
Var(θ1).
Ejemplo 3.3.3 Sea X una variable aleatoria que sigue una distribucion nor-
mal de parametros µ y σ. Consideremos los estimadores media muestral X y
mediana muestral2, Xm, del parametro µ. Se pide:
1. ¿Son ambos son estimadores insesgados del parametro µ?
2Puede probarse que la mediana tiende a una distribucion normal de media µ y varianzaπ2σ2
n
68 CAPITULO 3. ESTIMACION PUNTUAL
2. Calcular la eficiencia de ambos estimadores.
3. Obtener la eficiencia relativa de la media a la mediana.
4. ¿Es la media muestral un estimador eficiente de la media poblacional?
¿Y la mediana?
Solucion:
1. Sı son ambos insesgados:
X ∈ N
(µ,
σ√n
)⇒ E[X] = µ
Xm ∈ N
(µ,
√π σ√2n
)⇒ E[Xm] = µ
2. Hay que calcular previamente la cota de Frechet, Cramer y Rao (Cota
F-C-R):
X ∈ N(µ, σ2) ⇒ f(x) =1
σ√2π
e−12(
x−µσ )
2
lnf(x) = −ln(σ√2π)− 1
2
(x− µ
σ
)2
∂lnf(x)
∂µ=
x− µ
σ2⇒ nE
[(∂lnf(x)
∂µ
)2]=
n
σ4E[(x− µ)2] =
n
σ2
Entonces:
Cota F-C-R =1
nE
[(∂lnf(x)
∂µ
)2] =σ2
n
Calculamos ahora la eficiencia de ambos estimadores:
eff(X) =Cota F-C-R
V ar(X)= 1
eff(Xm) =Cota F-C-R
V ar(Xm)=
σ2
nπ2σ2
n
=2
π
3.3. PROPIEDADES DE LOS ESTIMADORES PUNTUALES 69
3.
eff relativa(X,Xm) =eff(X)
eff(Xm)=
12π
=π
2
4. La media es eficiente pero la mediana no.
3.3.4. Estimador consistente
Como hemos dicho, un estimador es una funcion de la muestra aleatoria
simple, es decir, θ = g(X1, X2, . . . , Xn). Si consideramos la misma funcion
para los distintos tamanos muestrales, tenemos una sucesion de estimadores:
θ1 = g(X1), θ2 = g(X1, X2), . . ., θn = g(X1, X2, . . . , Xn), . . . Diremos que la
sucesion de estimadores es consistente si dicha sucesion converge al parametro
θ; en tal caso se dira que cada elemento de la sucesion es un estimador
consistente.
Como hay varios tipos de convergencia estadıstica, podemos hablar de var-
ios tipos de consistencia:
Estimador consistente en probabilidad:
lımn→∞
P [|θn − θ| < ϵ] = 1 ∀ θ
Estimador consistente en media cuadratica:
lımn→∞
E[(θn − θ)2] = 0 ∀ θ
Estimador consistente casi seguro:
P[lımn→∞
θn = θ]= 1 ∀ θ
70 CAPITULO 3. ESTIMACION PUNTUAL
3.3.5. Estimador suficiente
Cuando estimamos un parametro poblacional partimos de una muestra
aleatoria simple y elegimos una funcion de dicha muestra. De esta forma la
informacion sobre el parametro contenida en la muestra se resume en un unico
valor, el estimador. La pregunta que surge es si en este proceso de resumen,
se mantiene la informacion sobre el parametro contenida en la muestra o hay
una perdida de informacion.
Diremos que un estimador es suficiente para el parametro θ cuando utiliza
toda la informacion relevante contenida en la muestra, respecto al parametro θ,
y ningun otro estadıstico puede proporcionar mas informacion adicional sobre
el parametro poblacional θ. Esto ocurre cuando la distribucion condicionada
de la muestra, X1, X2, . . . , Xn, a un valor concreto del estimador no depende
del parametro θ.
Los estimadores eficientes son suficientes.
3.3.6. Estimador robusto
Diremos que un estimador es robusto cuando pequenos cambios en las
hipotesis de partida del procedimiento de estimacion considerado (normal-
mente, atribuir a la poblacion un determinado tipo de funcion de distribucion
que, en realidad, no es la correcta) no producen variaciones significativas en
los resultados obtenidos.
3.4. OBTENCION DE ESTIMADORES 71
3.3.7. Estimador invariante
Un estimador, θ, es invariante respecto a la funcion f(x), si f(θ) = f(θ).
Ası, si el estimador de la varianza poblacional, σ2, es la varianza muestral, S2,
considerando invariante el metodo de estimacion, debe suceder que el estimador
de la desviacion tıpica, σ, es la desviacion tıpica muestral, S.
Tambien diremos que el estimador es invariante ante cambios de origen
si θ(X1 + k,X2 + k, . . . , Xn + k) = θ(X1, X2, . . . , Xn), para cualquier k ∈ IR.
De la misma forma, diremos que el estimador es invariante ante cambios
de escala si θ(cX1, cX2, . . . , cXn) = θ(X1, X2, . . . , Xn), para cualquier c ∈ IR,
c = ∅.
3.4. Obtencion de estimadores
3.4.1. El metodo de los momentos
Introducido por K. Pearson, consiste en igualar tantos momentos mues-
trales como parametros haya que estimar a los momentos poblacionales cor-
respondientes3. Los estimadores obtenidos por este metodo (si los parametros
desconocidos y que pretendemos estimar son momentos poblacionales) son
asintoticamente normales4, consistentes e insesgados.5
3K. Pearson, para desarrollar este metodo se basa en el teorema de Khintchine, el cual
asegura, bajo condiciones muy generales, la convergencia en probabilidad de los momentos
muestrales a los correspondientes momentos poblacionales.4La distribucion del estimador, para tamanos muestrales grandes, se aproxima a la dis-
tribucion normal.5En general este metodo no proporciona estimadores insesgados, pero si los parametros
desconocidos y que pretendemos estimar son momentos poblacionales, sı lo son.
72 CAPITULO 3. ESTIMACION PUNTUAL
Ejemplo 3.4.1 Dada una distribucion Poisson de parametro λ, desconocido,
obtener un estimador del parametro λ utilizando el metodo de los momentos.
Solucion: El momento poblacional de primer orden es:
α1(λ) = E[X] =∞∑
xi=1
xiP [X = xi] =∞∑
xi=1
xiλxi
xi!e−λ = e−λλeλ = λ.
El momento muestral de primer orden es:
a1 = X =1
n
n∑i=1
Xi.
Si igualamos ambos momentos tenemos que λ = X.
Ejemplo 3.4.2 Dada una distribucion Gamma de parametros p y a, respec-
tivamente, obtener, por el metodo de los momentos6, los estimadores de los
parametros.
Solucion: Utilizando que
αr = E[Xr] =Γ(p+ r)
arΓ(p),
los momentos poblacionales de primer y segundo orden son:
α1 = E[X] =Γ(p+ 1)
aΓ(p)=
p
a
α2 = E[X2] =Γ(p+ 2)
a2Γ(p)=
(p+ 1)p
a2.
Igualandolos a los momentos muestrales:
a1 = X =p
a
a2 =1
n
n∑i=1
X2i =
(p+ 1)p
a2.
6Utilizar que αr = E[Xr] = Γ(p+r)αrΓ(p) y que Γ(q) = (q − 1)Γ(q − 1)
3.4. OBTENCION DE ESTIMADORES 73
Si resolvemos este sistema lineal, obtenemos:
a =
1n
n∑i=1
Xi
1n
∑ni=1 X
2i −
(1n
n∑i=1
Xi
)2 =X
X2 − X2=
X
S ′2
p = aX =X2
S ′2
3.4.2. Metodo de la maxima verosimilitud
Este metodo fue introducido por Fisher en 1922, aunque fue utilizado con
anterioridad por Gauss para casos particulares.
Consideremos una muestra aleatoria simple (X1, X2, . . . , Xn) procedente de
una poblacion con funcion de densidad f(x, θ)7.
La funcion de densidad (o de probabilidad) conjunta de la muestra se llama
funcion de verosimilitud y se representa por L(x; θ):
L(x; θ) = L(x1, x2, . . . , xn; θ) = f(x1, x2, . . . , xn; θ) =n∏
i=1
f(xi; θ)
El metodo de la maxima verosimilitud consiste en elegir como estimador
del parametro desconocido θ aquel valor θ(X1, X2, . . . , Xn) que hace maxima
la funcion de verosimilitud L(x1, x2, . . . , xn; θ). Es decir, consiste en encontrar
aquel θ(X1, X2, . . . , Xn) tal que:
L(x1, x2, . . . , xn; θ) = maxθ∈Ω
L(x1, x2, . . . , xn; θ)
7Suponemos una distribucion continua. Un razonamiento analogo se harıa para distribu-
ciones discretas con funcion de probabilidad P [xi; θ] , i = 1, 2, . . . , r
74 CAPITULO 3. ESTIMACION PUNTUAL
A este estimador, θ(X1, X2, . . . , Xn), se le llama estimador maximo-verosimil
o estimador de maxima verosimilitud (EMV) del parametro θ.
Los estimadores de maxima verosimilitud son consistentes y asintotica-
mente normales e invariantes ante transformaciones biunıvocas. Ademas si
existe un estimador eficiente, θ, del parametro θ, entonces tambien es de maxi-
ma verosimilitud y es unico.
Ejemplo 3.4.3 Las cotizaciones de un activo durante 20 dıas han sido tales
que:20∑i=1
xi = 357e20∑i=1
(xi − x)2 = 405
Suponiendo que la cotizacion de la accion se distribuye segun una N(µ, σ),
obtener los estimadores de maxima verosimilitud de µ y de σ, ası como sus
correspondientes estimaciones para la muestra dada.
Solucion:
L(x1, x2, . . . , x20;µ, σ) =
(1
σ√2π
)20
e
− 12
20∑i=1
(xi − µ
σ
)2
Como la funcion ln es creciente, vamos a maximizar, en vez de L(x1, x2, . . . , x20;µ, σ),
lnL(x1, x2, . . . , x20;µ, σ) = 20ln1
σ√2π
− 1
2
20∑i=1
(xi − µ
σ
)2
La condicion necesaria de optimalidad obliga a que las primeras derivadas sean
nulas. De igualar a cero la derivada parcial con respecto a µ, obtenemos:
∂
∂µlnL(x1, x2, . . . , x20;µ, σ) =
20∑i=1
xi − µ
σ2= 0 ⇔ µ = x
Al igualar a cero la derivada parcial con respecto al parametro σ y sustituir el
estimador de µ, se obtiene:
∂
∂σlnL(x1, x2, . . . , x20; µ, σ) = −20
σ+
1
σ3
20∑i=1
(xi−µ)2 = 0 ⇔ σ2 =1
20
20∑i=1
(xi−x)2 = s′2
EJERCICIOS DE AUTOEVALUACION 75
Utilizando la informacion que proporciona la muestra, resulta que las estima-
ciones maximo-verosımiles de los parametros µ y σ son:
µ =1
20
20∑i=1
xi =357
20= 17′85e
σ2 =1
20
20∑i=1
(xi − x)2 =405
20= 20′25
3.5. Ejercicios de autoevaluacion (Capıtulo 3)
1. Sea una poblacion normal con media µ y desviacion tıpica σ. Considere
los siguientes estimadores de la media poblacional:
a)
µ1 = X1 −X2
b)
µ2 =1
n− 1
n∑i=1
Xi
Compare la bondad de ambos estimadores, calculando el error cuadratico
medio en ambos casos.
Solucion:
a) Si 2n2+2−5n)2n−n2 ≤ µ2
σ2 ⇒ µ′1 es preferible a µ′2
b) En caso contrario,µ′2 es preferible a µ′1
76 CAPITULO 3. ESTIMACION PUNTUAL
2. Sea una poblacion con media µ y desviacion tıpica σ. Para estimar la
media de la poblacion se considera el estimador kx. Encontrar el valor
de k que minimiza el error cuadratico medio de la estimacion.
Solucion:
k =µ2
µ2 + σ2
n
3. Demostrar que cualquier combinacion lineal∑m
i=1 λiθi de estimadores
insesgados para un parametro θ, es tambien un estimador insesgado de
θ, si∑m
i=1 λi = 1.
Solucion:
E(∑m
i=1 λiθi) = θ ⇒ la combinacion lineal es tambien un estimador
insesgado.
4. Dada una muestra aleatoria de una poblacion normalN(µ, σ), comprobar
que el estimador σ2∗ =∑n
i=2(Xi−Xi−1)2
2(n−1)es un estimador insesgado de σ2.
Solucion:
E(σ2∗) = σ2
5. Sea una poblacion de la que se conoce que E(X) = θ y var(X) = θ2. Se
consideran los siguientes estimadores de θ:
θ1 =
∑ni=1 Xi −Xn+1
n− 1
θ2 =
∑n+1i=1 Xi
n+ 1Estudiar la insesgadez, consistencia y eficiencia relativa de ambos esti-
madores.
Solucion:
EJERCICIOS DE AUTOEVALUACION 77
a) Ambos estimadores son insesgados.
b) Ambos estimadores son consistentes.
c) θ2 es mas eficiente que θ1.
6. Dada una muestra de tamano n de una poblacion distribuida exponen-
cialmente, obtenga la cota de Frechet-Cramer-Rao para los estimadores
del parametro θ. La funcion de densidad de la poblacion es:
f(x; θ) =
1θe−(
xθ ) si x > 0
0 en el resto
Nota: tengase en cuenta que E(X) = θ y var(X) = θ2.
Solucion:
Cota F-C-R = θ2
n
7. La variable “duracion de cierta pieza” tiene distribucion caracterizada
por:
f(x; θ) =
2xθ2 si 0 ≤ x ≤ θ
0 en el resto
a) Estime el parametro θ por el metodo de los momentos.
b) Dada una muestra aleatoria con los valores 15, 17, 12, 16, 6 y 10,
determinar el valor del estimador de θ.
Solucion:
a) θ = 5
√32x
b) θ = 1,8
8. En un estudio sociologico se ha observado que la proporcion X de la
renta que una familia gasta en bienes de primera necesidad sigue una
distribucion con densidad θxθ−1 para 0 < x < 1, donde θ es un parametro
78 CAPITULO 3. ESTIMACION PUNTUAL
que mide la pobreza de la sociedad. A partir de una muestra aleatoria
de tamano n, calcular el estimador de maxima verosimilitud de θ.
Solucion:
θ = − n∑ni=1 ln(xi)
9. Dada una poblacion con distribucion geometrica de parametro p, hallar
el estimador de maxima verosimilitud de p.
Solucion:
p =1
1 + x
10. Sean dos poblaciones normales N(µ1, σ) y N(µ2, σ). Dadas dos muestras
independientes de tamanos n1 y n2, respectivamente, obtener el esti-
mador de maxima verosimilitud de la varianza comun σ2.
Solucion:σ2 =(n1−1)s21+(n2−1)s22
n1+n2
11. Sea una muestra aleatoria de tamano 20 extraıda de una poblacion con
funcion de probabilidad
P (X = x) =
p2 si x = 0
2p(1− p) si x = 1
(1− p)2 si x = 2
siendo 0 < p < 1. Estime por el metodo de maxima verosimilitud el valor
del parametro p, sabiendo que en la muestra se han obtenido 5 ceros, 10
unos y 5 doses.
Solucion:
p = 0,5
EJERCICIOS DE AUTOEVALUACION 79
12. El equipo de analistas de la campana de un candidato polıtico consid-
era que los votantes de una determinada zona se pueden clasificar en
seguidores, indecisos y detractores. Las proporciones teoricas se suponen
en un determinado momento en p1 = 0,05, p2 = 0,90 y p3 = 0,05, re-
spectivamente. Tras la realizacion de varios mıtines en la zona por los
diferentes candidatos polıticos, se sospecha que la intencion de voto ha
cambiado, situandose en p1 = 0,05 + θ, p2 = 0,90 − 2θ y p3 = 0,05 + θ.
En una encuesta de 5.000 votantes, se obtuvo que n1 = 278, n2 = 4,428
y n3 = 294 de cada clase. Estimar mediante el metodo de maxima
verosimilitud el valor del parametro θ, sabiendo que 0 < θ < 1.
Solucion:
θ ≃ 0,0072
Capıtulo 4
Estimacion por intervalos
1. Construccion de intervalos de confianza.
2. Intervalos de confianza en poblaciones normales.
3. Intervalos de confianza en poblaciones no necesariamente normales.
4.1. Construccion de intervalos de confianza
Cuando se obtiene el estimador puntual, θ, para una muestra concreta,
no hay informacion sobre lo que este valor difiere del verdadero valor del
parametro, θ. Serıa conveniente acompanar la estimacion con otra medida que
recoja la confianza de que el verdadero valor del parametro se encuentre entre
dos valores numericos concretos. Esto lo conseguiremos con la construccion de
lo que se llama un intervalo de confianza.
Es importante destacar que los lımites del intervalo variaran de forma
aleatoria de una muestra a otra, puesto que el intervalo que se construira va
81
82 CAPITULO 4. ESTIMACION POR INTERVALOS
a depender de los elementos de la muestra. La finalidad de los intervalos de
confianza es construir un intervalo de poca amplitud y con una probabilidad lo
mas elevada posible de que el verdadero valor del parametro se encuentre en-
tre los extremos del intervalo. Cada intervalo tendra asociado un coeficiente de
confianza, 1−α, que indica la probabilidad de que el parametro θ se encuentre
en el intervalo. Al porcentaje 100(1− α)% se le llama nivel de confianza. Los
valores mas frecuentes, en la practica, del nivel de confianza son el 90%, 95%
y el 99%.
En conclusion, si queremos dar una estimacion del parametro poblacional θ
mediante un intervalo de confianza, habra que obtener dos estadısticos θ(X1, . . . , Xn),
que sera el extremo inferior del intervalo, y θ(X1, . . . , Xn), que sera el extremo
superior de forma que:
P[θ(X1, . . . , Xn) ≤ θ ≤ θ(X1, . . . , Xn)
]= 1− α
Algunas caracterısticas del intervalo son:
θ y θ son variables aleatorias por lo que el intervalo sera aleatorio (de-
pende de la muestra seleccionada).
El parametro poblacional θ es desconocido.
En cuanto a la probabilidad de que el intervalo de confianza contenga
al verdadero valor del parametro, supongamos que seleccionamos un
numero elevado de muestras todas ellas del mismo tamano y obtenemos
para cada una de ellas los lımites del intervalo de confianza, entonces se
puede decir que el parametro θ estara dentro del intervalo construido en
aproximadamente el 100(1− α)% de los casos y no estara en el 100α%
de los casos. Denominaremos al intervalo (θ, θ) intervalo de confianza al
nivel de confianza del 100(1− α)%.
4.1. CONSTRUCCION DE INTERVALOS DE CONFIANZA 83
Los intervalos de confianza pueden ser de dos tipos:
Bilaterales, que presentan la forma:
[θ(X1, . . . , Xn); θ(X1, . . . , Xn)]
Unilaterales, que pueden presentar la forma:
[θ(X1, . . . , Xn); +∞) ;(−∞; θ(X1, . . . , Xn)
].
Cuanto mas pequeno sea el intervalo de confianza (menor amplitud) para
un nivel de confianza fijo, mejor sera la estimacion obtenida. Recıprocamente,
dados dos intervalos de confianza con la misma amplitud, uno constituye una
estimacion mejor que la que proporciona el otro si su nivel de confianza es
mayor.
Para construir un intervalo de confianza utilizaremos el metodo de la can-
tidad pivotal. Dada una distribucion F (x; θ), donde θ es un parametro de-
sconocido, una cantidad pivotal o pivote, T (X1, . . . , Xn; θ), es una funcion del
parametro y de las observaciones de la muestra, cuya distribucion muestral no
depende del parametro.
El metodo consiste en obtener un pivote a partir del cual construir el in-
tervalo de confianza. Veamos un ejemplo:
Ejemplo 4.1.1 Sea (X1, . . . , Xn) una muestra aleatoria procedente de una
poblacion N(µ, σ) con σ conocida. Construir para el parametro poblacional
µ un intervalo de confianza al nivel del 100(1− α)%.
Solucion: La media muestral, X, es un estimador puntual adecuado para la
media poblacional µ. Ademas sabemos que el estadıstico:
Z =X − µ
σ/√n
84 CAPITULO 4. ESTIMACION POR INTERVALOS
sigue una distribucion N(0, 1). Por lo tanto, el estadıstico Z puede ser la can-
tidad pivotal o pivote, ya que depende de las observaciones muestrales y del
parametro µ y su distribucion no depende del parametro µ, es decir,
T (X1, . . . , Xn;µ) =X − µ
σ/√n.
Para construir un intervalo de confianza a nivel (1−α)% para el parametro
µ, buscamos µ(X1, . . . , Xn) y µ(X1, . . . , Xn) tales que:
1− α = P[µ(X1, . . . , Xn) ≤ Z ≤ µ(X1, . . . , Xn)
]Se toman dos valores simetricos, −zα/2 y zα/2, en vez de dos valores cua-
lesquiera porque ası la amplitud del intervalo es mas pequena.
zα2
0
z ∈ N(0, 1)
1− α
−zα2
α2
α2
1− α = P[−zα/2 ≤ Z ≤ zα/2
]= P
[−zα/2 ≤
X − µ
σ/√n
≤ zα/2
]=
= P
[−zα/2 ·
σ√n≤ X − µ ≤ zα/2 ·
σ√n
]= P
[X − zα/2 ·
σ√n≤ µ ≤ X + zα/2 ·
σ√n
]Por lo que el intervalo de confianza con un nivel de confianza del
100(1− α)% para el parametro poblacional µ es:
Iµ =[X − zα/2 · σ√
n; X + zα/2 · σ√
n
]
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 85
4.2. Intervalos de confianza en poblaciones nor-
males
A continuacion estudiamos el caso en el que la poblacion sea normal y
a traves del metodo pivotal obtendremos intervalos de confianza para los
parametros poblacionales en el caso de una y de dos muestras.
4.2.1. Intervalo de confianza para la media de una poblacion
normal
Desviacion tıpica, σ, conocida
La poblacion de partida es N(µ, σ) con el parametro µ desconocido. Bus-
camos un intervalo de confianza para el parametro µ al nivel de confianza del
100(1− α)%.
Seleccionamos una muestra aleatoria (X1, . . . , Xn) de tamano n. Puesto que
vamos a aplicar el metodo de la cantidad pivotal, buscamos un estadıstico que
dependa del parametro µ y de un estimador suyo y cuya distribucion muestral
no dependa de µ.
El estadıstico que utilizaremos es:
Z =X − µ
σ/√n
∈ N(0, 1)
Para el intervalo de confianza necesitamos encontrar dos valores λ1 y λ2 que
cumplen:
P
[λ1 ≤
X − µ
σ/√n
≤ λ2
]= 1− α
86 CAPITULO 4. ESTIMACION POR INTERVALOS
operando en la expresion:
P
[λ1 ·
σ√n≤ X − µ ≤ λ2 ·
σ√n
]= 1− α
P
[−X + λ1 ·
σ√n≤ −µ ≤ −X + λ2 ·
σ√n
]= 1− α
multiplicando por -1:
P
[X − λ1 ·
σ√n≥ µ ≥ X − λ2 ·
σ√n
]= 1− α
es decir,
P
[X − λ2 ·
σ√n≤ µ ≤ X − λ1 ·
σ√n
]= 1− α
Tendremos que elegir λ1 y λ2 que hagan mınima la longitud del intervalo, es
decir,
L =
(X − λ1 ·
σ√n
)−(X − λ2 ·
σ√n
)=
σ√n(λ2 − λ1)
Sujeto a la condicion:
P [λ1 ≤ Z ≤ λ2] =
∫ λ2
λ1
1√2Π
· e−12x2
dx = 1− α
Para hacer mınima la funcion sujeta a una restriccion aplicamos el metodo de
los multiplicadores de Lagrange:
ϕ =σ√n· (λ2 − λ1) + γ
[∫ λ2
λ1
1√2Π
· e−12x2
dx− (1− α)
]∂ϕ
∂λ1
=−σ√n− γ · 1√
2Π· e
−12λ21 = 0
∂ϕ
∂λ2
=σ√n+ γ · 1√
2Π· e
−12λ22 = 0
operando en las ecuaciones anteriores llegamos a:
e12λ21 = e
12λ22 ⇒ λ2
1 = λ22
Por tanto, los posible valores de λ1 y λ2 son:
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 87
λ1 = λ2, que no es valido porque en ese caso la longitud del intervalo
serıa cero y esto no es posible.
λ1 = −λ2 en este caso el intervalo de longitud mınima sera simetrico en
la N(0, 1), es decir:∫ λ2
λ1
f(x) = 1− α ⇒ λ1 = −zα2, λ2 = zα
2.
Graficamente serıa:
λ2 = zα2
0
z ∈ N(0, 1)
1− α
λ1 = −zα2
α2
α2
Sustituyendo el valor de λ1 y λ2, el intervalo de confianza para la media µ de
una poblacion N(µ, σ) en el caso de σ conocida es:
Iµ =
[x− zα/2 ·
σ√n;x+ zα/2 ·
σ√n
]
Ejemplo 4.2.1 Se sabe de estudios anteriores que el consumo semanal de
agua por persona en Espana es una distribucion normal con desviacion tıpica
8 litros. Se selecciona una muestra aleatoria de 160 personas, siendo la media
de consumo en agua de 48 litros por persona. Se pide:
1. Obtener un intervalo de confianza para la media de consumo semanal de
agua en Espana a un nivel de confianza del 90%.
2. Repetir el ejercicio si el tamano muestral aumenta a 280 personas.
3. Con tamano de muestra n = 160, 1−α = 0′90 pero, ahora la desviacion
tıpica es de σ = 12
88 CAPITULO 4. ESTIMACION POR INTERVALOS
4. Con n = 160, σ = 8 pero, el nuevo nivel de confianza es del 95%.
Solucion: Sea X ≡ consumo semanal de agua por persona. Sabemos que X ∈N(µ, 8) y que el tamano de la muestra es n = 160
1. La expresion que nos da el intervalo de confianza que se nos pide es:[x− zα/2 ·
σ√n; x+ zα/2 ·
σ√n
]Conocemos x = 48, σ = 8 y 1−α = 0′90 por lo que α
2= 0′05 y por tanto
zα2= z0′05 = 1′645
El intervalo de confianza lo obtenemos sustituyendo en la expresion an-
terior:[48− 1′645 · 8√
160; 48 + 1′645 · 8√
160
]= [46′9596, 49′0403]
En conclusion, el verdadero valor del consumo medio semanal de agua
se encuentra entre [46’9596, 49’0403] con una confianza del 90%.
2. Los datos de partida son x = 48, σ = 8, 1 − α = 0′90, n = 280. Susti-
tuyendo en el intervalo de confianza tenemos que:[48− 1′645 · 8√
280; 48 + 1′645 · 8√
280
]= [47′2135, 48′7864].
3. Para x = 48, σ = 12, 1− α = 0′90, n = 160[48− 1′645 · 12√
160; 48 + 1′645 · 12√
160
]= [46′4394, 49′5605].
4. Para x = 48, σ = 8, 1 − α = 0′95, n = 160, en este caso α2= 0′025 y
z0′025 = 1′96.[48− 1′96 · 8√
160; 48 + 1′96 · 8√
160
]= [46′7603, 49′2396]
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 89
Podemos extraer una serie de conclusiones:
Cuando aumenta el tamano de la muestra, la amplitud del intervalo
disminuye y, consecuentemente aumenta la precision de la estimacion
realizada.
Cuando aumenta la desviacion tıpica, aumenta la amplitud del intervalo
por lo que disminuye la precision de la estimacion.
Cuando aumenta el nivel de confianza, aumenta la amplitud del intervalo,
por lo que disminuye la precision de la estimacion.
Desviacion tıpica, σ, desconocida
Sea una poblacion N(µ, σ) con µ y con σ desconocidos, queremos obtener
un intervalo de confianza para el parametro µ al nivel de confianza del 100(1−α)%.
Partimos de una muestra aleatoria de tamano n, (X1, . . . , Xn). La cantidad
pivotal en este caso es:
T =X − µ
S/√n
∈ tn−1
El estadıstico T se distribuye segun una t-Student con n − 1 grados de
libertad. Buscamos el intervalo de confianza de la forma:
P
[t1 ≤
X − µ
S/√n
≤ t2
]= 1− α
en la expresion anterior buscamos entre que dos valores se encuentra µ, por lo
que despejamos:
P
[t1
S√n≤ X − µ ≤ t2
S√n
]= 1− α
90 CAPITULO 4. ESTIMACION POR INTERVALOS
P
[−X + t1
S√n≤ −µ ≤ −X + t2
S√n
]= 1− α
P
[X − t2
S√n≤ µ ≤ X − t1
S√n
]= 1− α
El intervalo de confianza que se ha obtenido es:[X − t2
S√n, X − t1
S√n
]donde t1 y t2 son los valores que hacen mınima la amplitud del intervalo:
L =
(X − t1
S√n
)−(X − t2
S√n
)= (t2 − t1)
S√n.
Esta funcion es la que hay que minimizar pero, ademas esta sujeta a una
restriccion:
P [t1 ≤ T ≤ t2] =
∫ t2
t1
Γ(n2
)Γ(n−12
)·√(n− 1)Π
(1 +
t2
n− 1
)−n/2
dt =
= k
∫ t2
t1
(1 +
t2
n− 1
)−n/2
dt = 1− α
Habra que resolver el problema aplicando el metodo de los multiplicadores
de Lagrange. La expresion que hay que minimizar es:
ϕ = (t2 − t1)S√n+ γ
[k
∫ t2
t1
(1 +
t2
n− 1
)−n/2
dt− (1− α)
]derivamos:
∂ϕ
∂t1= − S√
n− γk
(1 +
t21n− 1
)−n/2
= 0
∂ϕ
∂t2=
S√n+ γk
(1 +
t22n− 1
)−n/2
= 0
de donde: (1 +
t21n− 1
)−n/2
=
(1 +
t22n− 1
)−n/2
⇒ t21 = t22
Las soluciones que se deducen son:
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 91
t1 = t2, que es imposible puesto en este caso el intervalo tendrıa amplitud
nula.
t1 = −t2 y el intervalo de longitud mınima sera simetrico en la tn−1, es
decir, t2 = tα2, y t1 = −tα
2.
Graficamente serıa:
tα2
0
t ∈ tn−1
1− α
−tα2
α2
α2
En conclusion, el intervalo de confianza para la media µ de una poblacion
N(µ, σ) con σ desconocida viene dado por:
Iµ =
[X − tα
2· S√
n, X + tα
2· S√
n
]donde S2 es la varianza muestral.
Ejemplo 4.2.2 Los directivos de las empresas de construccion andaluzas estan
interesados en conocer el gasto medio en material para la construccion de una
vivienda, para lo cual se decide extraer una muestra aleatoria de 15 viviendas.
Se deduce de la muestra que el gasto en miles de euros en cada una de las
viviendas es de:
48’7, 57’4, 96, 51’3, 62, 42, 65’4, 71’3, 62’9, 39’9, 57, 63’1, 83’6, 49’2,
69’7
Se sabe que el gasto en material para la construccion de la vivienda se
distribuye segun una normal. Construir un intervalo de confianza para el gasto
92 CAPITULO 4. ESTIMACION POR INTERVALOS
medio en material para la construccion de la vivienda. Tomar un nivel de
confianza del 95%.
Solucion: Sea X ≡ Gasto en la construccion de la vivienda (miles de euros).
Sabemos que X ∈ N(µ, σ) donde tanto µ como σ son desconocidos.
El intervalo de confianza que buscamos viene dado por:[X − tα
2· S√
n, X + tα
2· S√
n
]
En esta ocasion vamos a ayudarnos del paquete estadıstico SPSS para
obtener el intervalo de confianza al 95% de confianza, siendo el resultado:
Calculamos la media y desviacion tıpica muestral:
Para 1− α = 0′95 tenemos que P [t14 > t0′025] = 0′025 ⇒ t0′025 = 2′145
Y con estos resultados sustituimos:[61′3− 2′145
15′034√15
, 61′3 + 2′14515′034√
15
]= [52′9735, 69′6264]
Tambien se llegarıa a este resultado directamente haciendo una prueba de
comparacion de medias para una muestra:
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 93
El verdadero gasto medio en material para la construccion de una vivienda
en Andalucıa se encuentra dentro del intervalo construido con un nivel de
confianza del 95%.
4.2.2. Intervalo de confianza de la varianza
Media poblacional, µ, desconocida
Sea una poblacion N(µ, σ) donde µ y σ son desconocidos y queremos un
intervalo de confianza para la varianza poblacional, σ2, al nivel de confianza
del 100(1 − α)%. Actuamos de la misma forma que hicimos en el caso del
parametro µ, para lo que necesitamos una muestra aleatoria de tamano n
(X1, . . . , Xn). El pivote sera ahora:
(n− 1)S2
σ2∈ χ2
n−1
se distribuye segun una χ2 de Pearson, con n− 1 grados de libertad.
94 CAPITULO 4. ESTIMACION POR INTERVALOS
El intervalo de confianza para σ2 al nivel de confianza 100(1− α)% viene
dado por:
Iσ2 =
[(n− 1)S2
χ2n−1;1−α
2
;(n− 1)S2
χ2n−1;α
2
]donde se verifica que:
P[χ2n−1 ≤ χ2
n−1;1−α2
]= 1− α
2
P[χ2n−1 ≤ χ2
n−1;α2
]=
α
2.
Graficamente serıa1:
Ejemplo 4.2.3 El numero de artıculos vendidos de una determinada marca
deportiva en 10 tiendas elegidas aleatoriamente han sido:
682 , 553 , 555 , 666 , 657 , 649 , 522 , 568 , 700 , 552.
Suponiendo que las ventas siguen una distribucion normal, ¿se puede admi-
tir que la media de unidades vendidas es de 520? ¿puede aceptarse que la
desviacion tıpica del nivel de ventas es de 79 unidades? Utilizar un 95% de
confianza.
1Se toma χ2n−1;α2
y χ2n−1;1−α
2para que la longitud del intervalo sea mınima
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 95
Solucion: Sea X ≡ unidades vendidas del artıculo deportiva. X ∈ N(µ, σ)
donde tanto µ como σ son desconocidas. Vamos a resolver la primera cuestion
utilizando SPSS, los resultados son:
Claramente 520 /∈ [563′13; 657′67], esto significa que no puede admitirse al
95% de confianza que la media de unidades vendidas sea de 520.
Para la segunda cuestion sabemos que n = 10 y necesitamos la estimacion
de la media muestral, x, y de la varianza muestral s2:
s2 =1
n− 1·
[n∑
i=1
x2i − nx2
]= 4366′037
x =1
n·
n∑i=1
xi = 610′4.
Ademas necesitamos determinar χ2n−1;1−α
2y χ2
n−1;α2:
P[χ2n−1 ≤ χ2
n−1;1−α2
]= 1− α
2= 1− 0′025 = 0′975
P[χ2n−1 ≤ χ2
n−1;α2
]=
α
2= 0′025.
96 CAPITULO 4. ESTIMACION POR INTERVALOS
Buscando en las tablas obtenemos:
χ29,1−α
2= 19′02; χ2
9,α2= 2′7
Sustituimos:
Iσ2 =
[(n− 1)S2
χ2n−1;1−α
2
;(n− 1)S2
χ2n−1;α
2
]=
=
[(10− 1)4366′037
19′02;(10− 1)4366′037
2′7
]= [2065′948; 14553′456]
Pero se nos pregunta por la desviacion tıpica σ, y nosotros hemos obtenido el
intervalo de confianza para la varianza σ2, por lo que haciendo la raız cuadrada
llegamos a:
Iσ = [45′4527; 120′6377]
Observamos que 79 ∈ Iσ, por lo que puede admitirse con un 95% de confianza
que la desviacion tıpica del nivel de ventas es de 79 unidades.
Media poblacional µ conocida
La cantidad pivotal que consideramos para construir el intervalo va a ser:
nS∗2
σ2=
n∑i=1
(Xi − µ)2
σ2∈ χ2
n
Siguiendo el mismo razonamiento de los casos anteriores, el intervalo de confi-
anza para la σ2 cuando µ es conocida es:
Iσ2 =
n∑
i=1
(Xi − µ)2
χ2n,1−α
2
;
n∑i=1
(Xi − µ)2
χ2n,α
2
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 97
4.2.3. Intervalo de confianza para la diferencia de me-
dias (muestras independientes)
Varianzas poblacionales conocidas y distintas
Sean dos poblaciones N(µX , σX) y N(µY , σY ). Queremos obtener un inter-
valo de confianza para la diferencia de medias poblacionales µX − µY , al nivel
de confianza 100(1-α)%. Tomamos dos muestras independientes de tamanos
nX y nY .
Como
X − Y ∈ N
µX − µY ,
√σ2X
nX
+σ2Y
nY
,
la cantidad pivotal que vamos a considerar es:
Z =(X − Y )− (µX − µY )√
σ2X
nX+
σ2Y
nY
∈ N(0, 1)
Siguiendo el mismo razonamiento de apartados anteriores llegamos al in-
tervalo para la diferencia de medias:
IµX−µY=
(X − Y )− zα2·
√σ2X
nX
+σ2Y
nY
; (X − Y ) + zα2·
√σ2X
nX
+σ2Y
nY
donde P
[Z > zα
2
]= α
2y zα
2la determinamos a partir de la tabla de la N(0, 1).
Varianzas poblacionales conocidas e iguales
σX = σY = σ conocida. Las poblaciones de partida sonN(µX , σ) yN(µY , σ).
El intervalo resultante sera:
IµX−µY=
[(X − Y )− zα
2· σ√
1
nX
+1
nY
; (X − Y ) + zα2· σ√
1
nX
+1
nY
]
98 CAPITULO 4. ESTIMACION POR INTERVALOS
Varianzas poblacionales desconocidas y distintas
Sean dos poblaciones N(µX , σX) y N(µY , σY ) con σX = σY . La cantidad
pivotal que consideraremos sera:
T =(X − Y )− (µX − µY )√
S2X
nX+
S2Y
nY
∈ tν
El estadıstico T sigue una distribucion t-Student con ν grados de libertad,
donde
ν ≃(S2X
nX+
S2Y
nY)2
(S2X/nX)
2
nX−1+
(S2Y /nY )
2
nY −1
El intervalo de confianza para la diferencia de medias poblacionales µX − µY
al nivel de confianza del 100(1− α)% sera:
IµX−µY=
(X − Y )− tα2·
√S2X
nX
+S2Y
nY
; (X − Y ) + tα2·
√S2X
nX
+S2Y
nY
siendo tα
2tal que P [tν > tα
2] = α
2
Si los tamanos muestrales nX y nY son grandes (nX y nY > 30) el estadısti-
co T se distribuye aproximadamente como una N(0, 1).
Varianzas poblacionales desconocidas e iguales
σX = σY = σ desconocida. Las poblaciones de partida son N(µX , σ) y
N(µY , σ). El intervalo para la diferencia de medias µX − µY , al nivel de confi-
anza del 100(1− α)% es:
IµX−µY=
X − Y − tα2·
√(nX − 1)S2
X + (nY − 1)S2Y
nX + nY − 2·√
nX + nY
nXnY
;
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 99
X − Y + tα2·
√(nX − 1)S2
X + (nY − 1)S2Y
nX + nY − 2·√
nX + nY
nXnY
siendo tα
2tal que P [tnX+nY −2 > tα
2] = α
2
Ejemplo 4.2.4 En un estudio sobre hipotecas concedidas por dos entidades
bancarias se toma una muestra aleatoria de 14 hipotecas en la primera entidad
y una muestra aleatoria independiente de la primera de 12 hipotecas en la
segunda entidad. Se sabe que las dos distribuciones poblacionales de hipotecas
son normales con varianzas iguales. ¿Se puede admitir que el importe medio
de la hipoteca es el mismo en las dos entidades bancarias? Tomar un nivel de
confianza del 95%.
Entidad 1 Entidad 2
65230 45000
45200 62530
35200 26000
65200 29000
12200 46000
25200 36600
32350 15900
45800 39500
55200 61400
35250 19700
60200 26350
15200 38000
28300
37500
Solucion: Sean X ≡ importe de la hipoteca en la entidad 1, e Y ≡ importe
de la hipoteca en la entidad 2, donde X ∈ N(µX , σX), Y ∈ N(µY , σY ) y ademas
σX = σY desconocidas.
Vamos a obtener un intervalo de confianza para la diferencia de medias
poblaciones para varianzas poblacionales iguales y desconocidas; y para com-
probar si el importe medio de la hipoteca es el mismo en las dos entidades basta
con comprobar si el cero pertenece al intervalo construido.
100 CAPITULO 4. ESTIMACION POR INTERVALOS
El intervalo que buscamos viene dado por:X − Y − tα2·
√(nX − 1)S2
X + (nY − 1)S2Y
nX + nY − 2·√
nX + nY
nXnY
;
X − Y + tα2·
√(nX − 1)S2
X + (nY − 1)S2Y
nX + nY − 2·√
nX + nY
nXnY
Los resultados que proporciona SPSS son:
Puesto que 0 ∈ IµX−µY= [−10426′47; 15815′04] podemos admitir con un 95%
de confianza que el importe medio dela hipoteca es igual en las entidades ban-
carias.
4.2.4. Intervalo de confianza para la diferencia de me-
dias (muestras apareadas)
Las muestras extraıdas de las poblaciones no son independientes y las var-
ianzas poblacionales no tienen porque ser iguales.
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES101
Tenemos n pares de observaciones (X1, Y1),. . . ,(Xn, Yn) de poblaciones nor-
males con medias µX y µY respectivamente. Construimos una sola muestra
(D1, ..., Dn) de la forma Di = Xi − Yi, i = 1, . . . , n , obtenemos una muestra
de las diferencias. La muestra construida cumple:
• µD = E[D] = E[X − Y ] = E[X]− E[Y ] = µX − µY
• σ2D desconocida
• La varianza poblacional σ2D, se estima por la varianza muestral S2
D, donde
S2D =
1
n− 1
n∑i=1
(Di − D)2
con D =1
n
n∑i=1
Di.
La cantidad pivotal que vamos a utilizar para construir el intervalo de confianza
sera:
T =D − µD
SD/√n
∈ tn−1
El intervalo que se obtiene es:
P
[−tα
2≤ D − µD
SD/√n
≤ tα2
]= 1− α
P
[−tα
2· SD√
n≤ D − µD ≤ tα
2· SD√
n
]= 1− α
P
[−D − tα
2· SD√
n≤ −µD ≤ −D + tα
2· SD√
n
]= 1− α
P
[D − tα
2· SD√
n≤ µD ≤ D + tα
2· SD√
n
]= 1− α
sienso tα2tal que la P [tn−1 > tα
2] = α
2.
Ejemplo 4.2.5 Una empresa esta interesada en mejorar su produccion por
lo que decide revisar y arreglar la maquinaria que utiliza para la produccion
de automoviles. Se admite que la produccion diaria de coches se distribuye
normalmente. Se extrae una muestra aleatoria de coches producidos durante 7
102 CAPITULO 4. ESTIMACION POR INTERVALOS
dias y se mide la produccion antes y despues de la revision de la maquinaria.
Calcular un intervalo de confianza al 99% de confianza para la diferencia de
medias poblacionales.
Solucion:
Dıa Produc. antes de revision Produc. despues de revision Diferencias Di D2i
1 232 224 -8 64
2 240 241 1 1
3 226 217 -9 81
4 215 215 0 0
5 223 213 -10 100
6 230 233 3 9
7 242 240 -2 4
Hemos construido la variable D = X − Y , y el intervalo de confianza que
buscamos viene dado por:
IµD=
[D − tα
2· SD√
n≤ µD ≤ D + tα
2· SD√
n
]por lo que necesitamos obtener la media y la varianza de las diferencias Di:
D =1
n
n∑i=1
Di =1
7(−25) = −3′5714
s2D =1
n− 1
n∑i=1
(Di − D
)2=
1
n− 1
(n∑
i=1
D2i − nD2
)=
1
6(259−7(−3′5714)2) = 28′2859
⇒ sD = 5′3184
tα2lo obtenemos de las tablas de la t-Student:
P [t6 > t0′005] = 0′005 ⇒ t0′005 = 3′707
sustituyendo tendremos:
IµD=
[−3′5714− 3′707 · 5
′3184√7
;−3′5714 + 3′707 · 5′3184√
7
]= [−11′023; 3′8802]
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES103
4.2.5. Intervalo de confianza para el cociente de varian-
zas
Medias desconocidas
Sean dos muestras aleatorias independientes de tamanos nX y nY , X ∈N(µX , σX) e Y ∈ N(µY , σY ) con medias y varianzas desconocidas. Buscamos
un intervalo de confianza para el cociente de varianzasσ2X
σ2Y. Consideramos como
cantidad pivotal el siguiente estadıstico:
F =
(nX − 1)S2X
σ2X
/(nX − 1)
(nY − 1)S2Y
σ2Y
/(nY − 1)
=S2X
S2Y
· σ2Y
σ2X
∈ FnX−1,nY −1
que se distribuye segun una F-Snedecor con nX−1 y nY −1 grados de libertad.
Por tanto el intervalo de confianza se obtendra de:
P[FnX−1,nY −1;α
2≤ F ≤ FnX−1,nY −1;1−α
2
]= 1− α
P
[S2X
S2Y
· 1
FnX−1,nY −1;1−α2
≤ σ2X
σ2Y
≤ S2X
S2Y
· 1
FnX−1,nY −1;α2
]= 1− α
El intervalo de confianza al 100(1− α)% de confianza viene dado por:
Iσ2X/σ2
Y=
[S2X
S2Y
· 1
FnX−1,nY −1;1−α2
;S2X
S2Y
· 1
FnX−1,nY −1;α2
]
Conviene indicar la propiedad de reciprocidad de la F-Snedecor que indica:
FnX−1,nY −1;α2=
1
FnY −1,nX−1;1−α2
o bien
FnY −1,nX−1;1−α2=
1
FnX−1,nY −1;α2
104 CAPITULO 4. ESTIMACION POR INTERVALOS
Medias conocidas
La cantidad pivotal considerada va a ser:
F =
nXS∗2X
σ2X
/nX
nY S∗2Y
σ2Y
/nY
=S∗2X
S∗2Y
· σ2Y
σ2X
∈ FnX ,nY
El estadıstico se distribuye segun una F-Snedecor con nX y nY grados de
libertad. Siendo:
S∗2X =
1
nX
nX∑i=1
(Xi − µX)2
y
S∗2Y =
1
nY
nY∑i=1
(Yi − µY )2
El intervalo de confianza al nivel de confianza del 100(1− α)% es:
Iσ2X/σ2
Y=
[S∗2X
S∗2Y
· 1
FnX ,nY ;1−α2
;S∗2X
S∗2Y
· 1
FnX ,nY ;α2
]
Ejemplo 4.2.6 Se desea hacer un seguimiento de las notas de los alumnos
para la asignatura de Econometrıa en los dos grupos que se han formado. Se
selecciona una muestra aleatoria de 26 alumnos en el grupo A y otra muestra
de 31 alumnos en el grupo B, siendo las desviaciones tıpicas muestrales de
35 y 31 respectivamente. Se sabe que la distribucion de las notas en los dos
grupos es normal. ¿Se puede admitir al 90% de confianza que la igualdad de
las varianzas poblacionales en los dos grupos?
Solucion: Definimos las variables aleatorias que son: X ≡ calificacion en Econometrıa
en el grupo A; Y ≡ calificacion en Econometrıa en el grupo B, X ∈ N(µX , σX)
e Y ∈ N(µY , σY ). Ademas conocemos:
nX = 26, sX = 35 (s2X = 1225),
4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES105
nY = 31, sY = 31 (s2Y = 961).
En este caso las medias poblacionales son desconocidas por lo que el inter-
valo de confianza que se nos pide viene dado por:
[S2X
S2Y
· 1
FnX−1,nY −1;1−α2
;S2X
S2Y
· 1
FnX−1,nY −1;α2
]
1− α = 0′90 ⇒ α = 0′1 ⇒ α
2= 0′05
P [F ≤ F25,30;0′95] = 0′95 ⇒ F25,30;0′95 = 1′88
P [F ≤ F25,30;0′05] = 0′05, este valor no viene en las tablas de la F-Snedecor,
habra que aplicar la propiedad de reciprocidad para solucionar el problema:
F25,30;0′05 =1
F30,25;0′95=
1
1′92= 0′5208
Sustituyendo:
Iσ2X
σ2Y
=
[1225
961· 1
1′88;1225
961· 1
0′5208
]= [0′678; 2′447]
Si las varianzas son iguales su cociente valdra 1 por lo que, bastara con compro-
bar si el intervalo construido contiene dicho valor; 1 ∈ Iσ2X
σ2Y
, podemos admitir
con un 90% de confianza que las varianzas poblacionales de los dos grupos son
iguales.
106 CAPITULO 4. ESTIMACION POR INTERVALOS
4.3. Intervalos de confianza en poblaciones no
normales
4.3.1. Aplicacion de la desigualdad de Chebychev para
la obtencion de intervalos de confianza
La desigualdad de Chebychev puede utilizarse para obtener un intervalo de
confianza para la media µ de cualquier distribucion con varianza σ2 conocida.
Partimos de una muestra aleatoria simple (X1, . . . , Xn). Sabemos que un
buen estimador de la media poblacional µ es la media muestral X y ademas:
E[X] = µ
V ar(X) =σ2
n
Aplicamos la desigualdad de Chebychev:
P[|X − E[X]| ≤ k
]≥ 1− V ar(X)
k2= 1− σ2
nk2
P[|X − µ| ≤ k
]≥ 1− σ2
nk2
Imponemos un nivel de confianza mayor o igual al 100(1−α)% por lo que
imponemos 1− σ2
nk2= 1− α y despejamos k:
σ2
nk2= α ⇒ nk2 =
σ2
α⇒ k =
σ√nα
Sustituyendo en la desigualdad el valor de K:
P
[|X − µ| ≤ σ√
nα
]≥ 1− α
4.3. INTERVALOS DE CONFIANZA EN POBLACIONES NONORMALES107
de donde:
P
[− σ√
nα≤ X − µ ≤ σ√
nα
]≥ 1− α
P
[X − σ√
nα≤ µ ≤ X +
σ√nα
]≥ 1− α
El intervalo de confianza al nivel del 100(1− α)% o superior para µ es:[X − σ√
nα; X +
σ√nα
]
Ejemplo 4.3.1 Una empresa esta interesada en el nivel de aceptacion de un
nuevo producto, por lo que se desea estimar el ingreso medio debido a las ventas
del producto, para lo que se ha pensado en construir un intervalo de confianza
al 99% de confianza suponiendo:
1. Los ingresos se distribuyen normalmente con varianza 6, y se toma una
muestra de 20 establecimientos obteniendose un ingreso medio de 4000e.
2. No se conoce la distribucion que siguen los ingresos pero, se sabe que la
varianza de estos es de 6 y se toma una muestra de 20 establecimientos,
obteniendose un ingreso medio de 4000e.
Solucion: Sea X ≡ ingresos por ventas del nuevo producto (cientos de euros).
1. Sabemos que la variable se distribuye normalmente X ∈ N(µ,√6), ademas
n = 20 y x = 40. El intervalo que nos permitira estimar la media pobla-
cional viene dado por:
Iµ =
[X − σ√
n· zα
2; X +
σ√n· zα
2
]donde zα
2es tal que:
P [Z > zα2] =
α
2⇒ P [Z > z0′005] = 0′005 ⇒ z0′005 = 2′575
108 CAPITULO 4. ESTIMACION POR INTERVALOS
por lo que:
Iµ =
[40− 2′575 ·
√6
20; 40 + 2′575 ·
√6
20
]= [38′5896; 41′4103]
2. En esta ocasion no conocemos la distribucion de la variable, tendremos
que utilizar la desigualdad de Chebychev para obtener el intervalo de
confianza.
Iµ =
[X − σ√
nα; X +
σ√nα
]Sabemos que x = 40, n = 20, σ =
√6, y α = 0′01
Iµ =
[40−
√6
20 · 0′01; 40 +
√6
20 · 0′01
]= [34′5227; 45′4772]
4.3.2. Intervalos de confianza para muestras grandes
Con muestras grandes podremos utilizar para la obtencion de intervalos de
confianza metodos que se basan en la distribucion asintotica del estimador de
maxima verosimilitud o en el Teorema Central del Lımite.
Intervalos de confianza para muestras grandes a partir del estimador
de maxima verosimilitud (θ)
Si θ es un estimador de maxima verosimilitud del parametro θ entonces θ
es asintoticamente eficiente y asintoticamente normal.
θ →n→∞ N(θ,
√V ar(θ))
4.3. INTERVALOS DE CONFIANZA EN POBLACIONES NONORMALES109
por tanto:
Z =θ − θ√V ar(θ)
→n→∞ N(0, 1)
donde la V ar(θ) coincide con la cota de Frechet-Cramer-Rao:
V ar(θ) =1
nE[∂ln·f(x;θ)
∂θ
]2El estadıstico Z se puede utilizar como cantidad pivotal, y un intervalo de
confianza al 100(1− α)% para θ se puede obtener:
P
−zα2≤ θ − θ√
V ar(θ)≤ zα
2
= 1− α
P
[θ − zα
2
√V ar(θ) ≤ θ ≤ θ + zα
2
√V ar(θ)
]= 1− α
El intervalo de confianza para θ sera:
Iθ =
[θ − zα
2
√V ar(θ); θ + zα
2
√V ar(θ)
]con P
[Z > zα
2
]= α
2
Intervalos de confianza para muestras grandes aplicando el Teorema
Central del Lımite
Sea (X1, . . . , Xn) una muestra aleatoria simple suficientemente grande (n >
30), procedente de una poblacion con distribucion desconocida y varianza σ2
finita y conocida. Para calcular un intervalo de confianza al nivel 100(1−α)%
para la media µ de la poblacion podemos usar el teorema central del lımite
por el que el estadıstico:
Z =X − µ
σ/√n
110 CAPITULO 4. ESTIMACION POR INTERVALOS
tiene una distribucion aproximada N(0, 1) y por lo tanto:
P
[−zα
2≤ X − µ
σ/√n
≤ zα2
]≈ 1− α
A partir de esta expresion obtendrıamos un intervalo de confianza para µ:
Iµ =
[X − zα
2
σ√n; X + zα
2
σ√n
]con P [Z > zα
2] = α
2.
La diferencia basica con los intervalos que hemos obtenido hasta ahora es
que antes eran exactos y los que obtenemos ahora son aproximados.
En el caso en que σ2 sea desconocida, se tomara como aproximacion la
varianza muestral S2, y en este caso:
Iµ =
[X − zα
2
S√n; X + zα
2
S√n
].
Ocurre ası porque tn−1 →n→∞ N(0, 1).
4.4. Ejercicios de autoevaluacion (Capıtulo 4)
1. Un estudio llevado a cabo en una cadena de supermercados sobre el
numero de cliente que atiende en un dıa, sigue una distribucion normal
con varianza 490. A partir de una muestra de 45 dıas, se calculo la media
de los clientes que atendieron, x = 25000. Calcule un intervalo de confi-
anza bilateral, al 95% de confianza, para la media de clientes que pasan
por el supermercado. ¿Como seran los intervalos de confianza unilaterales
tambien al 95% de confianza?
Solucion:
Intervalo bilateral I = [24999, 7256; 25000, 2744]
Intervalos unilaterales I = [−∞; 25000, 2303] y I = [24999, 7697;+∞]
EJERCICIOS DE AUTOEVALUACION 111
2. Una empresa, con el fin de consumir menos litros de gasolina, estudia
el numero medio de litros que consumen sus repartidores. El gerente de
la empresa somete a 50 empleados, elegidos aleatoriamente, a un test de
consumo. Los resultados fueron:
Litros 42 44 46 48 50 52
No de Repartidores 5 6 2 10 15 12
Se sabe que el consumo de gasolina se distribuye segun una normal de
varianza poblacional 6. Construir un intervalo de confianza al 95% para
la media del numero de litros.
Solucion:
Intervalo bilateral I = [47, 7210; 49, 0789]
Intervalos unilaterales I = [−∞; 48, 9698] y I = [47, 8301;+∞]
3. Los periodos de duracion (en horas) de una m.a.s. de 20 linternas han
sido: 503, 480, 345, 427, 386, 432, 429, 378, 440, 434, 429, 436, 451, 466,
394, 422, 412, 507, 433, 480. Obtener un intervalo de confianza al 95% de
la vida media de la poblacion de linternas suponiendo que sus periodos
de duracion se distribuyen normalmente.
Solucion: Iµ = [415, 18; 453, 21]
4. Un fabricante de moviles de ultima generacion desea determinar el tiem-
po medio de las baterıas de estos moviles. Si en 20 moviles de prueba, se
obtuvo un tiempo medio de 482 dıas y una desviacion tıpica de 9’5 dıas,
construir un intervalo de confianza al 95% para la vida media de estos
moviles.
Solucion: Iµ = [477, 5518; 486, 4482]
5. El precio de un determinado artıculo perecedero en los comercios de
alimentacion de una ciudad sigue una distribucion normal. Se toma una
112 CAPITULO 4. ESTIMACION POR INTERVALOS
muestra aleatoria de 12 comercios y se observa el precio de ese artıculo,
obteniendo las siguientes observaciones:
1′32, 1′25, 1′30, 1′39, 1′26, 1′38, 1′24, 1′41, 1′51, 1′67, 1′48, 1′56
Obtener, al nivel de confianza del 95%, un intervalo de confianza para
la media poblacional y un intervalo de confianza para la varianza pobla-
cional.
Solucion:
Iµ = [1, 3115; 1, 4835]
Iσ = [0, 0092; 0, 0528]
6. Se sabe que el numero de prestamo de la Biblioteca de la Universidad
se distribuye segun una normal. Con el objeto de estudiar la varianza de
la distribucion, se extrae una m.a.s de 6 dıas. Sabiendo que la varianza
muestral es de 35, se pretende estimar la varianza poblacion mediante
un intervalo de confianza al 90%.
Solucion:
Iσ = [15, 8085; 152, 8384]
7. Para estudiar la calidad de un curso de verano de Tecnicas Modernas de
Direccion, que fue realizado para un grupo de directivos, se selecciona
aleatoriamente a un conjunto de 8 directivos, y se toma informacion sobre
su rendimiento antes de hacer el curso y despues de realizarlo.
Previo al curso 10 5 8 7 6 2 10 8
Posterior al curso 10 9 7 8 7 9 10 5
Construir un intervalo de confianza al 95% para la diferencia entre la
puntuaciones medias suponiendo que ambas son m.a.s procedentes de
poblaciones normales.
Solucion: Iµ1−µ2 = [−3, 0499; 0, 5499]
EJERCICIOS DE AUTOEVALUACION 113
8. Para llevar a cabo una accion comercial encaminada a la venta de una
nueva bebida refrescante, se realiza un estudio previo sobre una muestra
aleatoria de 25 consumidores en un centro comercial. Sea la variable X
el total de litros al mes consumidos por una familia, se obtienen los
siguientes datos:
25∑i=1
xi = 3200025∑i=1
x2i = 45440000
Calcule:
a. Un intervalo de confianza para el consumo medio de refresco por
familia un nivel de confianza del 95%. Suponga que la distribucion
del consumo de combustible es desconocida pero que se conoce que
σ = 432.
b. Supongamos ahora que por estudios previos se sabe que la distribu-
cion del consumo de este tipo de refresco es normal, ¿Cual serıa en
este caso el intervalo de confianza de confianza (al 95% de confian-
za) del consumo medio de refresco?
c. Si se conoce que la distribucion del consumo de refresco es nor-
mal con una desviacion tıpica de 475 litros, obtenga el intervalo de
confianza para el consumo medio de refresco (al 95%).
d. ¿En cuanto serıa necesario aumentar el tamano de muestra para que,
manteniendo el mismo nivel de confianza, el intervalo del apartado
anterior quede reducido a la mitad de la amplitud?
Solucion: a)Iµ = [893, 61; 1666, 39], b)Iµ = [1101, 65; 1458, 34],c)Iµ =
[1093, 80; 1466, 20], d) n = 100
9. Una empresa de fabricacion de munecas basa su control de produccion
en la revision de un punto de la cadena de montaje, extrayendo un total
de 300 unidades. Se ha definido por polıtica de empresa, que es necesario
revısar el sistema de produccion si el porcentaje de munecas defectuosas
114 CAPITULO 4. ESTIMACION POR INTERVALOS
supera el 3%. Un dıa se extrae un total de 17 munecas defectuosas, ¿es
necesario revisar el sistema de produccion?.
Nota: utilizar un nivel de significacion del 1%.
Solucion: Debe revisar el sistema de produccion.
10. Una empresa le interesa saber si existen diferencias significativas entre
las cantidades que se consumen de su producto y el de la competencia en
una ciudad. Para ello, contrata a una empresa que estudia las cantidades
que se consumen en una muestra aleatoria de supermercados. Se obtiene
una muestra de 15 supermercados, donde la media de productos consum-
idos de la empresa en cuestion es de 1200, y por otro lado, en otros 12
supermercados se obtiene que la media de la competencia es 1230. La
empresa tiene informacion sobre el consumo a nivel nacional, con una
varianza poblacional de su producto de 800 y de la competencia de 700.
Calcule un intervalo de confianza al 99% para la diferencia de ambos
consumos medios. ¿Se puede decir que el consumo de la competencia es
superior?
Solucion: a)Iµ1−µ2 = [−57, 21;−2, 79], S ı
11. Una empresa de cartuchos de impresora quiere estudiar la duracion de
sus dos tipos mas vendidos. Con este objetivo, tomo una muestra de
150 cartuchos de tipo A y otra muestra de 170 cartuchos de tipo B,
obteniendose que las de tipo A tiene una duracion de 25 horas de impre-
sion y una desviacion tıpica de 15, y las de tipo B una duracion de 20
horas de impresion y una desviacion tıpica de 10. A un 95% de nivel de
confianza:
a. Contruir un intervalo de confianza para estimar la diferencia de
medias.
b. ¿Se puede decir que las de tipo A supera en 2 horas a las de tipo
B?
EJERCICIOS DE AUTOEVALUACION 115
c. ¿Se puede decir que ambos tipos tienen las mismas horas de impre-
sion?
Solucion: a)Iµ1−µ2 = [−0, 11; 0, 18],b)No puede rechazarse que las de
tipo A son superiores en 2 horas a las de tipo B. c) No, por no encontrarse
el 0 dentro del intervalo obtenido.
12. Para conocer la predisposicion de los vecinos de dos aldeas para elegir
a un representante comun ante el pleno municipal, se realiza un son-
deo en cada aldea. En la aldea X se obtiene que 90 de 160 encuestados
estan de acuerdo con la eleccion del representante. En la aldea Z, 80 de
150 encuestados tambien estan de acuerdo. ¿Podemos afirmar a un 99%
de confianza que las proporciones reales favorables al representante de
vecinos de las dos aldeas es el mismo?
Solucion: a) Sı, Ip1−p2 = [−1, 11; 0, 18]
13. Para comparar los efectos de la crisis producidos en dos grupos empresar-
iales, se estudia el numero de puestos de trabajo destruidos en el ultimo
trimestre en una serie de empresas de cada uno de los grupos, que siguen
una distribucion normal. Con el fin de conocer cual ha sido el mas afecta-
do en esta crisis, se seleccionan dos muestras aleatorias e independientes
cuyos datos recogidos segun el grupo empresarial son:
Empresas 1 2 3 4 5 6
No de despidos por empresas (Grupo X) 10 11 18 27 14 13
No de despidos por empresas (Grupo Z) 19 17 18 20 28 23
A un 95%de confianza:
a. ¿Se admite que la desviacion tıpica del numero de despidos en ambos
grupos empresariales es el mismo?
b. ¿Se podrıa afirmar que el efecto de la crisis en ambos grupos em-
presariales ha sido igual?. Indique el intervalor de confianza.
Solucion: a) Sı, Iσ2 = [0, 34; 17, 35]. b) Sı, Iµ1−µ2 = [−16, 11; 7, 57].
116 CAPITULO 4. ESTIMACION POR INTERVALOS
14. Antes de adoptar una determinada polıtica de empleo en un municipio,
un alcalde desea conocer la opinion de sus conciudadanos. Para ello, toma
una muestra aleatoria de 98 vecinos del pueblo, observando que el 65%
estarıan de acuerdo. calcular el intervalo de confianza de su probabilidad
de acertar con la medida. ¿Podrıa decirse que mas de las tres cuartas
partes de los vecinos secundan dicha polıtica de empleo?
Solucion: a) Ip = [0, 556; 0, 744]. No, debido a que 0, 75 no esta incluido
en el intervalo de confianza.
Capıtulo 5
Contrastes de hipotesis
1. Concepto y tipos de hipotesis.
2. Region crıtica y region de aceptacion.
3. Tipos de errores.
4. Fases a seguir en un test de hipotesis.
5. Potencia y funcion de potencia del contraste.
5.1. Concepto y tipos de hipotesis
La teorıa estadıstica del contraste de hipotesis fue introducida inicialmente
por Fisher y desarrollada por Neyman y Pearson, siendo considerablemente
extendida y generalizada en los ultimos anos.
Una hipotesis estadıstica es una afirmacion o conjetura (verdadera o falsa)
sobre una caracterıstica desconocida de una o mas poblaciones. Si la hipotesis
117
118 CAPITULO 5. CONTRASTES DE HIPOTESIS
se refiere al valor del parametro desconocido θ de la poblacion, diremos que
se trata de un contraste parametrico, pero si la hipotesis se refiere a la forma
que tiene la funcion de cuantıa o de densidad f(x, θ) de la poblacion, entonces
hablaremos de contrastes no parametricos.
En un problema de contraste de hipotesis, existe una hipotesis preconcebida
relativa a la caracterıstica a analizar de la poblacion sometida a estudio; de
hecho, hay siempre dos teorıas o hipotesis implıcitas: la hipotesis que propone
el experimentador se denota por H1 y se llama hipotesis de investigacion o
alternativa. La negacion de la hipotesis alternativa se denota por H0 y se
llama hipotesis nula.
Cuando formulamos H0 y H1 hay que tener en cuenta:
Las hipotesis estadısticas se formulan siempre con la esperanza de que
sea posible rechazar H0 y, por consiguiente, aceptar H1.
Al definir el contraste, la igualdad formara parte de H0 y en H1 lo que
hay son desigualdades estrictas.
Si el contraste es parametrico, la hipotesis nula H0 consiste en suponer que
θ ∈ Ω0, siendo Ω0 un subconjunto del espacio parametrico Ω, es decir:
H0 : θ ∈ Ω0 ⊆ Ω
y en la hipotesis alternativa H1, se supone que θ ∈ Ω1, siendo Ω1 un sub-
conjunto del espacio parametrico Ω, tal que Ω0 ∪ Ω1 = Ω y Ω0 ∩ Ω1 = ∅, esdecir:
H1 : θ ∈ Ω1 = Ω− Ω0.
Por tanto la hipotesis nula se formulara de manera que:
5.1. CONCEPTO Y TIPOS DE HIPOTESIS 119
la hipotesis nula H0 es cierta cuando θ ∈ Ω0
la hipotesis nula H0 es falsa cuando θ ∈ Ω1
Tanto las hipotesis nula como la alternativa pueden ser simples o com-
puestas, segun los subconjuntos Ω0 y Ω1 tengan un solo punto o varios. Una
hipotesis (parametrica) se dice simple cuando se refiere a un unico valor del
parametro, es decir, a un solo punto del espacio parametrico, quedando to-
talmente especificada la forma de la funcion de cuantıa o de densidad de la
poblacion al conocer ese valor del parametro. En caso contrario la hipotesis
se denomina hipotesis compuesta. Si consideramos que la nota media de los
alumnos de LADE en la Licenciatura es 6′5, entonces la hipotesis sera µ=6′5,
que es una hipotesis simple. Si, por el contrario, consideramos que dicha no-
ta media es de Notable, nos referimos a una region del espacio parametrico,
7 ≤ µ < 9, y la hipotesis es compuesta.
Supongamos ahora que se esta evaluando la aptitud de los empleados del
sector turıstico en una region. Para ello se ha realizado una prueba de aptitud
a un conjunto de empleados del sector. Se espera que mas de la mitad de los
empleados superen esta prueba.
Para plantear alguna prueba estadıstica que apoye tal afirmacion, llamemos
p a la proporcion empleados del sector turıstico en la region con aptitud. En
este caso, el contraste se formularıa de la siguiente forma:
H0 : p ≤ 0′5
H1 : p > 0′5
Observese:
1. La afirmacion correspondiente a la igualdad es conveniente que forme
parte de la hipotesis nula.
2. Se espera que H0 sea rechazada.
120 CAPITULO 5. CONTRASTES DE HIPOTESIS
3. Tanto H0 como H1 son hipotesis compuestas.
Si se quisiera descartar que la proporcion empleados del sector turıstico en
la region con aptitud es de 14plantearıamos:
H0 : p = 0′25
H1 : P = 0′25
En este caso, la primera hipotesis es simple y la segunda compuesta.
Una vez se ha seleccionado una muestra y se han recogido los datos, debe
tomarse una decision. Esta sera rechazar H0 o aceptarla. La decision se toma
observando si el valor de algun estadıstico (funcion que depende de los datos
muestrales), cuya distribucion se conozca bajo la suposicion de que la hipotesis
nula es cierta, cae en la denominada region crıtica o en la llamada region de
aceptacion.
5.2. Region crıtica y region de aceptacion
En un contraste de hipotesis, ponemos en relacion la evidencia empırica de
la muestra con una determinada hipotesis de partida (hipotesis nula, H0). Es
como la presuncion de inocencia: inicialmente, se supone que quien es juzga-
do es inocente; se procede a observar las pruebas y los testimonios, escuchar
al abogado y al fiscal; si no hay evidencias de culpabilidad, se mantiene la
hipotesis de “inocencia”; por el contrario, si encontramos evidencias, se recha-
za la hipotesis de “inocencia”, condenando al acusado.
Las evidencias para rechazar o no la hipotesis nula de partida, H0, nos las
proporciona la informacion que nos da la muestra analizada. Por eso, en todo
contraste de hipotesis, se determinan dos regiones: la region crıtica, C, que
esta constituida por el conjunto de muestras para las cuales se rechaza H0 y
5.2. REGION CRITICA Y REGION DE ACEPTACION 121
la region de aceptacion, C, que esta constituida por el conjunto de muestras
para las cuales no hay evidencias para el rechazo y por tanto se acepta H0.
Para determinar si una muestra esta en la region crıtica o no se utiliza
un estadıstico llamado estadıstico de prueba. A partir de la muestra se calcula
el valor del estadıstico y de esta forma podemos representar las muestras en
una recta real. Las regiones crıtica, C, y de aceptacion, C, son entonces in-
tervalos de dicha recta. Los valores que separan la region crıtica de la region
de aceptacion (los puntos de la frontera de cualquiera de los dos conjuntos)
se conocen como valores crıticos. Cuando la region crıtica no esta acotada ni
inferior ni superiormente, se dice que el contraste es bilateral. Si esta acotada
inferior o superiormente, se dice unilateral.
Consideremos un contraste bilateral:
H0 : θ = θ0
H1 : θ = θ0
o
H0 : θ1 ≤ θ ≤ θ2
H1 : θ /∈ [θ1, θ2]
La region crıtica y de aceptacion en un contraste bilateral es:
Consideremos un contraste unilateral por la izquierda, es decir de la forma:
H0 : θ ≥ θ0
H1 : θ < θ0
122 CAPITULO 5. CONTRASTES DE HIPOTESIS
La region crıtica y de aceptacion sera del tipo:
Por ultimo, consideremos un contraste unilateral a la derecha, es decir de
la forma:
H0 : θ ≤ θ0
H1 : θ > θ0
La region crıtica y de aceptacion sera del tipo:
El problema de decision, segun lo anterior, se limita a conocer si el es-
tadıstico esta en una region. Pero no debe olvidarse que dicho estadıstico es
un valor aleatorio, pues depende de la muestra. Logicamente, esta aleatoriedad
genera una posibilidad de error en la decision.
5.3. TIPOS DE ERRORES 123
5.3. Tipos de errores
Cuando se realiza un contraste de hipotesis, se pueden cometer dos tipos
de errores:
El error de tipo I consiste en rechazar H0 siendo cierta dicha hipotesis.
El error de tipo II se produce al aceptar H0 siendo falsa dicha hipotesis.
Dichos errores se cuantifican en terminos de probabilidades. Para el error
tipo I, se calcula la probabilidad de rechazar H0 condicionada a que H0 es
cierta, que se suele denotar por α(θ):
α(θ) = P[rechazar H0|H0 es cierta
].
Para el error de tipo II, la probabilidad de aceptar H0 cuando H0 es falsa se
suele escribir:
β(θ) = P[aceptar H0|H0 es falsa
],
Observese que ambos errores dependen de cual sea el verdadero valor del
parametro, θ.
Definimos la Talla o Tamano para el error de tipo I, y lo denotamos por
α, como el maximo de la probabilidad de error de tipo I, es decir:
maxθ∈Ω0
P[rechazar H0|H0 es cierta
]= max
θ∈Ω0
α(θ) = α
Se le suele llamar tambien nivel de significacion o fiabilidad del test o del
contraste o tamano de la region crıtica. A la diferencia 1 − α se le denomina
nivel de confianza1.
1En el caso de hipotesis nula compuesta el maximo error de tipo I se alcanza en la frontera
de la region Ω0.
124 CAPITULO 5. CONTRASTES DE HIPOTESIS
Generalmente α es fijado de antemano por el investigador o por el decisor
y sirve para indicar como de importante considera ste equivocarse al rechazar
incorrectamente la hipotesis nula.
La talla o tamano para el error de tipo II, se define como el maximo de
probabilidad de error de tipo II y se denota por β, es decir:
maxθ∈Ω1
P[aceptar H0|H0 es falsa
]= max
θ∈Ω1
β(θ) = β
La bondad del contraste dependera de los valores de los errores de tipo I y
tipo II.
En un contraste de hipotesis hay tambien dos formas de acierto posibles:
Aceptar H0 cuando H0 cierta.
Rechazar H0 cuando H0 falsa.
Podemos resumir los tipos de errores y los aciertos anteriores ası como sus
probabilidades en una tabla:
H0 cierta H0 falsa
1− α β
Aceptar H0 Acierto Error tipo II
α 1− β
Rechazar H0 Error tipo I Acierto
A la probabilidad de rechazar H0 cuando H0 falsa, 1−β, se llama potencia
del test.
Ocurre (como vamos a ver en el siguiente ejemplo) que, si se mantiene fijo
el tamano de la muestra, n, conforme aumenta la probabilidad de error de uno
5.3. TIPOS DE ERRORES 125
de los tipos, disminuye la otra. Sin embargo, las variaciones que se producen
no tienen que ser forzosamente proporcionales. Es muy difıcil controlar estos
dos tipos de errores; generalmente, se controla la probabilidad α de cometer el
error de tipo I. El error de tipo II queda determinado por la forma de realizar
el contraste, esto es, por la eleccion que se haga de la region crıtica.
Ejemplo 5.3.1 A fin de solucionar los graves problemas ambientales que asolan
una region, los responsables polıticos deciden establecer un nuevo impuesto. Los
habitantes de la region estan concienciados de la gravedad del problema, pero
no se sabe como pueden responder si el impuesto es demasiado exigente. Por
eso, se decide sondear a los que tendrıan que pagarlo y preguntarles cuanto
estarıan dispuestos a pagar. Segun los resultados obtenidos en otros lugares, la
cuantıa seguira una distribucion Normal con desviacion tıpica de 10 e. Tras
realizar los sondeos, desde el Area de Medio Ambiente se afirma que 30 ees
la cifra media que se considera adecuada por los contribuyentes. Sin embargo,
los ecologistas sostienen que la cantidad debe ser de 40 epara hacer caso a
la mayorıa (sin falsear los resultados). Para contrastar la hipotesis de los 30
e, el Area de Medio Ambiente decide seleccionar al azar una muestra de 25
personas y se adopta la siguiente regla de decision: si la media muestral es
inferior o igual a 35 e, se considerara que lo adecuado es fijar un impuesto de
30 e.
Solucion: Sea X ≡ “Impuesto (en euros) que los contribuyentes estarıan dis-
puestos a pagar”. X ∈ N(µ, 10).
Planteamos el contraste: H0 : µ = 30.
H1 : µ = 40.
Ha de tenerse en cuenta que solo hay 2 valores posibles para µ; no hay otra
posibilidad distinta de las contempladas en el contraste.
126 CAPITULO 5. CONTRASTES DE HIPOTESIS
Se toma una muestra con n = 25. Si x ≤ 35, se acepta H0; si x > 35, se
rechaza H0. En la siguiente grafica se representa la distribucion de la variable
X en ambas hipotesis y las probabilidades de los errores de tipo I y de tipo II:
α = P[rechazar H0|H0 es cierta
]= P
[X > 35|µ=30
]= P
[Z >
35− 30
10/√25
]β = P
[aceptar H0|H0 es falsa
]= P
[X ≤ 35|µ=40
]= P
[Z ≤ 35− 40
10/√25
]En este caso, α y β son iguales.
Podemos calcular las regiones crıticas y de aceptacion cambiando el 35 por
otro valor. Por ejemplo, al cambiarlo por 37, disminuirıa α pero aumentarıa
β (y no en la misma cuantıa).
No es necesario que α y β sumen la unidad, pues las dos probabilidades no
son complementarias. Un cambio unitario en α no implica el correspondiente
5.4. FASES A SEGUIR EN UN TEST DE HIPOTESIS 127
cambio unitario en β y viceversa. Sin embargo, α y β no son independientes, ni
son independientes del tamano de la muestra. Cuando el tamano de la muestra
permanece constante, si α disminuye, β aumenta y viceversa. Si el tamano de
muestra aumenta, sı que es posible que α y β disminuyan simultaneamente.
Pero un aumento en el tamano de la muestra produce un incremento en el
coste de la investigacion, por ello el responsable en la investigacion tendra que
decidir cuanto dinero esta dispuesto a gastar incrementando el tamano de la
muestra para reducir los errores α y β.
Por ultimo observese que el aumento o la disminucion de α tiene una inci-
dencia directa sobre la region crıtica o region de rechazo.
5.4. Fases a seguir en un test de hipotesis
Para efectuar un contraste parametrico, conviene seguir una serie de pasos:
1. Formulacion de la hipotesis.
En todo problema de contraste de hipotesis se deben especificar clara-
mente las dos hipotesis H0 y H1. Las hipotesis deben ser mutuamente
excluyentes, y de manera que el verdadero valor del parametro pobla-
cional este incluido en la hipotesis nula o en la alternativa.
2. Obtencion del estadıstico adecuado para el contraste.
Se ha de obtener un estadıstico apropiado que se utilizara para rechazar
o aceptar la hipotesis nula H0 y recibe el nombre de test estadıstico o
estadıstico de la prueba.
El estadıstico seleccionado debera verificar las siguientes condiciones:
Su funcion de probabilidad debe ser conocida cuando se supone que
la hipotesis nula es cierta.
128 CAPITULO 5. CONTRASTES DE HIPOTESIS
Los restantes terminos que intervienen en su formulacion deben ser
conocidos o se pueden calcular a partir de la muestra.
3. Seleccion del nivel de significacion.
La seleccion del nivel de significacion α se ha de hacer teniendo en cuenta
que
α = maxθ∈Ω0
P [error de tipo I] = maxθ∈Ω0
P[rechazar H0|H0 es cierta
]siendo deseable que α tome el menor valor posible para tener una menor
probabilidad de rechazar una hipotesis nula H0 cuando es cierta. El val-
or del nivel de significacion α, indica la importancia o significado que el
investigador atribuye a las consecuencias asociadas rechazando incorrec-
tamente la hipotesis nula H0.
4. Determinacion de la region crıtica.
El conocimiento de la region crıtica nos permitira decidir si se acepta o
rechaza la hipoteis nula H0, en funcion del valor del estadıstico de prueba
elegido y del nivel de significacion, α, fijado.
5. Seleccion aleatoria de la muestra y calculo del estadıstico de prueba o
experimental.
Despues de seleccionar la muestra de forma aleatoria, se ha de ver si la
muestra obtenida cae en la region crıtica o en la region de aceptacion. Es
decir, a partir de las observaciones se calcula el valor del test estadıstico
o estadıstico de prueba y se ve si el valor de este estadıstico cae en la
region crıtica o en la region de aceptacion.
6. Utilizar la regla de decision para concluir el contraste.
Si el valor calculado del estadıstico de prueba cae dentro de la region
crıtica, entonces H0 se rechaza, y si el valor calculado cae dentro de la
region de aceptacion, entonces se acepta la hipotesis nula H0.
5.4. FASES A SEGUIR EN UN TEST DE HIPOTESIS 129
En ocasiones (sobre todo, con algun programa informatico de tratamiento
estadıstico de datos), este ultimo paso se refiere al P -valor y no a la region
crıtica.
5.4.1. P -valor
Ademas de resolver el test por medio de las regiones crıticas, podemos
fijarnos en un valor llamado P -value, P -valor o valor probabilıstico que, intui-
tivamente, es el menor nivel de significacion para el cual la hipotesis nula es
rechazada; esto es, una probabilidad a partir de la cual el valor experimental
cae en la region crıtica.
El P -valor esta entre 0 y 1 y se define como la probabilidad de la region
crıtica mas pequena segun la cual rechazarıamos la hipotesis nula con una
muestra.
En definitiva, un valor grande del P -valor indicara coherencia de la hipotesis
nula y un valor pequeno el rechazo de H0. Por tanto, fijado α:
Si P -valor ≤ α, entonces se rechaza H0 (con igualdad, se recomienda
aumentar el tamano muestral).
Si P -valor > α, entonces no hay evidencias para rechazar H0.
Ejemplo 5.4.1 Supongamos una poblacion normal de media µ, desconocida,
y desviacion tıpica σ = 18 y pretendemos contrastar la hipotesis de que la
media poblacional es µ = 8.
Solucion: Para resolver este contraste seguiremos las fases que hemos expuesto
anteriormente.
130 CAPITULO 5. CONTRASTES DE HIPOTESIS
1. Formulacion de la hipotesis.
H0 : µ = 8
H1 : µ = 8
2. Obtencion del estadıstico adecuado para el contraste.
Lo que haremos sera utilizar un estimador insesgado de mınima varianza
para el parametro cuyo valor queremos estimar. En este caso consider-
aremos la media muestral:
X =1
n
n∑i=1
Xi ∈ N
(µ,
σ√n
).
3. Seleccion del nivel de significacion.
Tomamos α = 0′1
4. Determinacion de la region crıtica. Para determinar la region crıtica
empezamos admitiendo que la hipotesis nula (µ = µ0 = 8) es cierta, es
decir:
X ∈ N
(µ0,
σ√n
)Imponemos:
P [X < xinf ] =α
2
P (X > xsup) =α
2
A continuacion mostramos una representacion grafica de la distribucion
de X centrada en torno al valor de la media poblacional dada por H0 :
µ = µ0 = 8.
5.4. FASES A SEGUIR EN UN TEST DE HIPOTESIS 131
Supongamos que el tamano muestral es n=16
Bajo el supuesto de que la hipotesis nula es cierta, se tiene:
X ∈ N
(8,
18√16
)Luego:
P[X < xinf |µ=8
]= P
[Z <
xinf − 818√16
]=
α
2= 0′05
P[X > xsup|µ=8
]= P
[Z >
xsup − 818√16
]=
α
2= 0′05
−zα2= −1, 645 =
xinf − 818√16
⇒ xinf = 0′59
zα2= 1′645 =
xsup − 818√16
⇒ xsup = 15′4
siendo la region crıtica o region de rechazo la formada por los intervalos
(−∞; 0′59) y (15′40;+∞) y la region de aceptacion sera [0′59; 15′40]
5. Seleccion aleatoria de la muestra y calculo del estadıstico de prueba o
experimental.
132 CAPITULO 5. CONTRASTES DE HIPOTESIS
Seleccionamos de la poblacion en estudio una muestra de forma aleatoria
de tamano 16. Supongamos que se obtienen las siguientes observaciones:
8, 15,−7, 0, 4, 45, 71,−15, 20, 23, 4, 32, 29, 48, 56, 25
Calculamos el valor del estadıstico media muestral:
x =
n∑i=1
Xi
n=
358
16= 22′375
o su valor tipificado, que llamaremos Z.
Z =x− µ0
σ/√n
=22′375− 8
4′5= 3′19
6. Utilizar la regla de decision para concluir el contraste.
La regla de desicion sera:
Rechazar H0 si x < 0′59 o x > 15′40
Aceptar H0 si 0′59 ≤ x ≤ 15′40
Como x = 22′375 > xsup = 15′40 ⇒Rechazamos H0
Tambien podrıamos dar la regla de decision utilizando el valor tipificado
del estadıstico.
Rechazamos H0 si z < −zα2o z > zα
2
Aceptamos H0 si −zα2≤ z ≤ zα
2
Como z = 3′19 > zα2= 1′645 rechazamos la hipotesis nula.
En este ejemplo el contraste o test de hipotesis es bilateral, de dos colas
o por los dos lados, ya que hay dos regiones de rechazo para la regla de
decision.
Ejemplo 5.4.2 Se ha estudiado el ahorro anual (deuda en caso de valores neg-
ativos) de las empresas del sector inmobiliario de una determinada localidad,
y se ha caracterizado por una distribucion normal con dos millones de euros
de desviacion tıpica. A partir de los datos de una muestra de 25 empresas que
arroja una media muestral x = 500000 e, se pide:
5.4. FASES A SEGUIR EN UN TEST DE HIPOTESIS 133
1. Determine el intervalo de confianza del 90 y 95 para el ahorro medio
anual de las empresas de la localidad de dicho sector.
2. ¿Serıa adecuado pensar que las empresas de esta localidad ahorran a-
nualmente?
3. Si se desea obtener un intervalo de confianza del 90% para el ahorro
medio con una amplitud de dos millones de euros, ¿que tamano de-
bera tener la muestra seleccionada?
Solucion:
1. Consideramos la variable aleatoria X que representa el ahorro anual, en
millones de euros, de las empresas del sector inmobiliario de esta locali-
dad. Sabemos que esta variable aleatoria se distribuye como una normal
con desviacion tıpica 2 millones de euros, es decir, X ∈ N(µ, 2 · 106).Se elige una m.a.s. de 25 empresas y la media anual obtenida fue x =
500000. Como la desviacion tıpica poblacional es conocida, el intervalo
de confianza para la media poblacional vendra dado como:
Iµ =
(x− zα
2· σ√
n, x+ zα
2· σ√
n
)Cuando α = 0′05, zα
2= 1′96 y el intervalo obtenido es
Iµ = (−284000, 1284000).
Cuando α = 0′1, zα2= 1′645 y el intervalo obtenido es
Iµ = (−158000, 1158000).
Observamos que el intervalo tiene mayor amplitud cuanto mayor es el
nivel de confianza exigido, permaneciendo intocables los demas datos.
134 CAPITULO 5. CONTRASTES DE HIPOTESIS
2. Planteamos el contraste:
H0 : µ ≤ 0
H1 : µ > 0
El estadıstico sera:
Z =X − 0
σ√n
que bajo H0 sigue una distribucion N(0,1).
El valor experimental del estadıstico serıa:
zexp =0′5− 0
2√25
= 1′25
Para un nivel de significacion del 5%, el valor crıtico serıa:
P (Z ≤ zα) = 1− α = 1− 0′05 = 0′95 ⇒ zα = 1′645
Luego rechazamos la hipotesis nula si:
zexp = 1′25 > 1, 645
Para un nivel de significacion del 10%, el valor crıtico serıa:
P (Z ≤ zα) = 1− α = 1− 0′1 = 0′90 ⇒ zα = 1′28
Luego rechazamos la hipotesis nula si:
zexp = 1′25 > 1′28
Observamos que en ambos casos llegamos a la misma conclusion, como
no existe evidencia para rechazar la hipotesis nula, aceptamos que las
empresas no ahorran anualmente (hipotesis alternativa).
5.5. POTENCIA Y FUNCION DE POTENCIA DEL CONTRASTE 135
3. El intervalo de confianza:
Iµ =
(x− zα
2· σ√
n, x+ zα
2· σ√
n
)tiene como amplitud L = 2 · zα
2· σ√
n. Luego el tamano muestral necesario
sera:
n =4 · z2α
2· σ2
L2
Como L = 2 y z0′05 = 1′645, el tamano muestral necesario serıa n =
10′8241 ≈ 11 empresas.
5.5. Potencia y funcion de potencia del con-
traste
El error de tipo I se fija al elegir la probabilidad que deseamos que tenga
la region crıtica, pero el error tipo II esta ıntimamente relacionado con lo que
llamaremos potencia del contraste.
Cuando la hipotesis alternativa es compuesta, el error de tipo II, β(θ), de-
pende del verdadero valor del parametro, θ ∈ Ω1. A esta funcion β(θ) se le
denomina funcion caracterıstica operativa del contraste y se puede representar
graficamente para los diferentes valores de θ ∈ Ω1, obteniendo la curva carac-
terıstica operativa del contraste. Esta funcion β(θ) nos da, para los diferentes
valores de θ ∈ Ω1 la probabilidad de aceptar la hipotesis nula H0 siendo falsa.
La diferencia 1 − β(θ) se llama potencia del contraste e indica el poder o la
potencia del contraste para rechazar correctamente la hipotesis nula, es decir,
para reconocer correctamente que la hipotesis nula es falsa y por tanto serıa
rechazada.
Definimos, entonces, la funcion de potencia del contraste y la denotamos
136 CAPITULO 5. CONTRASTES DE HIPOTESIS
por Pc, de la siguiente forma:
Pc(θ) = P [rechazar H0] =
α(θ) si θ ∈ Ω0
1− β(θ) si θ ∈ Ω1
Ejemplo 5.5.1 Supongamos un poblacion normal con media µ desconocida y
desviacion tıpica σ = 20. Para realizar un contraste bilateral o de dos colas:
H0 : µ = 10
H1 : µ = 10
tomamos una muestra aleatoria de tamano 25, obteniendo como media de la
muestra x = 19. Trabajamos con un nivel de significacion α = 0′05. Queremos
calcular la potencia del test.
Solucion: La region crıtica y la region de aceptacion la obtenemos calculando
los valores crıticos:
xinf = µ0 − zα2· σ√
n= 10− 1′96 · 20√
25= 2′16
xsup = µ0 + zα2· σ√
n= 10 + 1′96 · 20√
25= 17′84
La regla de decision sera rechazar H0 si x < 2′16 o x > 17′84 y aceptar H0 si
2′16 ≤ x ≤ 17′84.
Vamos a determinar la potencia. Calculamos en primer lugar β(µ).
β(µ) = P[Aceptar H0 |H0 es falsa
]= P
[Aceptar H0 |H1 es cierta
]Es decir, es una probabilidad condicionada que depende del valor µ que con-
sideremos en H1.
Supongamos que µ = 0
β(µ) = P [2′16 ≤ X ≤ 17′84|µ = 0] = P
[2′16− 0
20√25
≤ Z ≤ 17′84− 020√25
]=
5.5. POTENCIA Y FUNCION DE POTENCIA DEL CONTRASTE 137
= P [0′54 ≤ Z ≤ 4′46] = F (4′46)− F (0′54) = 0′2946.
Luego la potencia serıa: Pc(µ = 0) = 1− β(0) = 1− 0′2946 = 0′7054.
Si hacemos el mismo calculo para µ = 12, lo logico es que la potencia sea mas
pequena.
β(µ) = P[AceptarH0 |H0 es falsa
]= P [AceptarH0 |µ=12] =
= P [2′16 ≤ x ≤ 17′84|µ=12] = P
[2′16− 12
20√25
≤ Z ≤ 17′84− 1220√25
]=
= P [−2′46 ≤ Z ≤ 1′46] = F (1′46)− F (−2′46) = 0′921
Esto significa que cuando µ = 12, aceptamos incorrectamente la hipotesis nu-
la H0 : µ = 10 como verdadera en el 92’10% de las veces. La potencia del
contraste para µ = 12 es:
Pc(µ = 12) = 1− β(12) = P[RechazarH0 |H0 es falsa
]= 1− 0′921 = 0′079.
Los valores de β y la potencia 1 − β para los distintos valores de µ, α = 0′05
y n=25, se muestran en la siguiente tabla.
µ β(µ) 1-β(µ)
−5 0′0367 0′9633
0 0′2946 0′7054
5 0′7604 0′2396
10 0′9500 0′0500
12 0′9210 0′0790
15 0′7604 0′2396
20 0′2946 0′7054
25 0′0367 0′9633
Observamos que cuanto mayor es la diferencia entre el valor de la media µ
fijado por la hipotesis H0 y el fijado por la hipotesis alternativa H1, mayor es
la potencia 1-β del contraste y menor es el error de tipo II.
138 CAPITULO 5. CONTRASTES DE HIPOTESIS
Podemos concluir que:
Para un tamano de muestra fijo n, si aumenta la P (Error de tipo I)
entonces disminuye la P (Error de tipo II), pues α y β estan relacionados
de forma inversa, y por tanto tambien aumenta la potencia del contraste,
1− β.
Para un nivel de significacion α fijo, cuando el tamano de la muestra
n crece, entonces la potencia del contraste, 1 − β, aumenta puesto que
P (Error de tipo II)=β disminuye.
5.6. Ejercicios de autoevaluacion (Capıtulo 5)
1. Con anterioridad al lanzamiento de un producto, una empresa realiza un
estudio de mercado para recoger informacion sobre el precio que los com-
pradores estarıan dispuestos a pagar. Se supone que este precio sigue una
distribucion normal con desviacion tıpica 10e. Los tecnicos del depar-
tamento de marketing emiten un informe donde se afirma que el precio
medio que el publico considerarıa como adecuado serıa de 30e, y para
contrastar esta hipotesis frente a la de que el precio adecuado serıa de 40
euros, se decide seleccionar al azar una muestra de 25 personas y adoptar
la siguiente regla de decision: si la media muestral es inferior o igual a
35, se considerara que lo adecuado es fijar un precio de 30e. En caso
contrario, la decision es fijar el precio en 40e. Obtenga:
a) La probabilidad de cometer el error de tipo I.
b) La probabilidad de cometer el error de tipo II.
c) La representacion grafica de ambos tipos de errores.
d) La potencia del contrate y su representacion grafica.
EJERCICIOS DE AUTOEVALUACION 139
e) La region de rechazo, la de aceptacion para un nivel de significacion
del 1%. Responder a los apartados a), b), c) y d) con esta nueva
regla de decision.
Solucion:
a) α = 0′00621.
b) β = 0′00621.
c) No se incluye el dibujo.
d) Pc(µ = 40) = 0′99379.
e) RC: x > 34′6527. a) α = 0′01. b) β = 0′003752. d) 1− β = 0′996248.
2. En la Fabrica Nacional de Moneda y Timbre de un determinado pais, se
acepta la hipotesis de que las monedas que fabrican estan compensadas
si el numero de caras en una serie de 100 lanzamientos se encuentra entre
40 y 60, ambos inclusive; en caso contrario se rechaza la moneda.
a) Hallar la probabilidad de rechazar la hipotesis cuando en realidad
es cierta.
b) Interpretar graficamente la regla de decision y el resultado del aparta-
do anterior.
c) Conforme a la regla de decision, ¿que conclusiones se obtendrıan si
en la muestra de 100 lanzamientos se obtuviesen 40 caras? ¿Y si son
70 caras?
d) ¿Pueden ser erroneas las conclusiones del apartado anterior?
e) ¿Cual es la probabilidad de aceptar la hipotesis de que la moneda
esta bien hecha cuando la probabilidad real de obtener cara es 0′7?
Representar graficamente los valores de β y 1− β en este caso.
f ) Establecer una regla de decision para testar la hipotesis de que una
moneda no tiene defectos de fabricacion (esta compensada) a partir
de una muestra de 64 lanzamientos, tomando, respectivamente un
nivel de significacion de 0′05 y 0′01.
140 CAPITULO 5. CONTRASTES DE HIPOTESIS
Solucion:
a) La probabilidad es 0′0456.
b) Es la probabilidad de cometer el error tipo I.
c) Con 40 caras aceptarıamos que la modeda esta bien hecha, mientras
que con 70 rechazarıamos esta hipotesis.
d) Sı, es el error tipo II.
e) La probabilidad es 0′0146.
f ) 1) Se acepta la hipotesis de que la moneda esta bien hecha si el
numero de caras pertenece al intervalo [25, 39].
2) Se acepta la hipotesis de que la moneda esta bien hecha si el
numero de caras pertenece al intervalo [22, 42].
3. Para establecer una regla de decision que permita determinar si se puede
rechazar que una moneda este equilibrada porque salen ms caras que
cruces, se desea imponer las siguientes condiciones: (a) la probabilidad de
rechazar la hipotesis cuando sea realmente correcta debe ser, a lo sumo,
0′05; (b) la probabilidad de aceptar la hipotesis cuando la probabilidad
de obtener cara difiera de 0′5 en 0′1 o mas, debe ser, a lo sumo, 0′05.
Calcular el tamano mınimo de muestra necesario y establecer la regla de
decision resultante.
Solucion: n > 265′1156 ≃ 266. Se rechaza la hipotesis p ≤ 0′5 si el
numero de caras en 266 lanzamientos es mayor o igual que 147.
4. Dos revistas especializadas en temas de derecho laboral publican cada
una un estudio sobre el porcentaje de juicios ganados de los despachos
de abogados laboristas mas importantes del pais. En uno de los estudios
se recoge que la firma de abogados Lader gana el 40% de los juicios,
mientras que en la otra revista aparece un porcentaje del 50%. Un sindi-
cato se plantea contratar los servicios de esta firma de abogados y, para
tomar la decision, desea conocer que porcentaje es correcto. Con este fin
EJERCICIOS DE AUTOEVALUACION 141
se selecciona una muestra aleatoria de juicios defendidos por este despa-
cho y se obtiene el porcentaje de juicios ganados; si este porcentaje es
inferior a un nivel, k, el sindicato aceptara que el verdadero porcentaje es
del 40% y, en caso contrario, aceptara que es del 50%. Obtener el valor
de k y el numero de juicios, de entre todos los defendidos por Lader, que
sera necesario seleccionar para que los tamanos de los errores de tipo I y
II sean del 5% y del 15%, respectivamente.
Solucion: n = 175′3048 ≈ 176; k = 0′429757.
5. Consideremos la variable aleatoria con funcion de densidad θe−θx, para
θ > 0, x ≥ 0. Se quiere contrastar la hipotesis nula H0 : θ = 1 frente
a la alternativa H1 : θ = 5, mediante una muestra aleatoria de tamano
uno, siendo la region crıtica el intervalo 0 ≤ x1 ≤ k. Analiza la relacion
existente entre el valor que determina la region crıtica, k, y el nivel de
significacion, ası como entre este ultimo y la potencia del contraste.
Solucion: α = 1− e−k; 1− β = α+ e−k − e−5k.
6. Ante la poca utilizacion que hacen los automovilistas de cierta salida de
una autopista, la empresa concesionaria se plantea la posibilidad de cer-
rarla al trafico. Previamente a tomar esta medida, consulta al encargado
del peaje que informa que, salvo en las horas nocturnas, el numero medio
de vehıculos que acceden a la autopista por ese punto cada cinco minutos
es igual o superior a 4. Con el fin de averiguar la posible validez de tal afir-
macion, se decide realizar una investigacion por muestreo estadıstico, reg-
istrando el numero de coches que acceden a la autopista en 200 perıodos
de cinco minutos seleccionados al azar. Si para resolver la cuestion, se
plantea un test intuitivamente logico, construido sobre el estadıstico me-
dia muestral y la region crıtica C = (x1, x2, . . . , xn) | x < K, calcularK suponiendo que el nivel de significacion se fija en el 5%.
Solucion: K = 3′7674.
7. Sus defensores afirman que un nuevo molino de viento puede generar,
142 CAPITULO 5. CONTRASTES DE HIPOTESIS
en promedio, al menos 800 kilowatios de potencia diarios. Se asume que
la potencia generada diariamente por el molino tiene una distribucion
normal con desviacion tıpica de 120 kilovatios. Se toma una muestra de
100 dıas elegidos al azar y se aceptarıa la afirmacion si la media muestral
es 776 kilovatios o mas y se rechazarıa en otro caso.
a) ¿Cual es la talla del error Tipo I usando esta regla de decision?
b) ¿Cual es la probabilidad, β, de cometer un error Tipo II usando
esta regla de decision, si la media de la poblacion es, en realidad,
de 740 kilovatios?
c) Suponer que se usa la misma regla de decision pero con una muestra
de doscientos dıas en lugar de cien.
1) El valor de α sera ¿mayor, menor o igual que el encontrado en
(a)?
2) El valor de β sera ¿mayor, menor o igual que el encontrado en
(b)?
d) Suponer que se toma una muestra de 100 observaciones pero se
cambia la regla de decision de manera que se acepta la afirmacion
si la media muestral es al menos de 765 kilovatios.
1) El valor de α sera ¿mayor, menor o igual que el encontrado en
(a)?
2) El valor de β sera ¿mayor, menor o igual que el encontrado en
(b)?
Solucion:
a) α = 0′02275.
b) β = 0′00135.
c) Disminuyen ambos: α = 0′002339; β = 1′1 10−5.
d) Menor: α = 0′001769; Mayor: β = 0′01861.
EJERCICIOS DE AUTOEVALUACION 143
8. Decidir si cada una de las siguientes afirmaciones es verdadera o falsa:
a) El nivel de significacion de un contraste es la probabilidad de que
la hipotesis nula sea falsa.
b) Un error de Tipo I ocurre cuando se rechaza una hipotesis nula
cierta.
c) Una hipotesis nula es rechazada al nivel 0′025, pero es aceptada al
nivel 0′01. Esto significa que el p-valor del contraste esta entre 0′01
y 0′025.
d) La potencia de un contraste es la probabilidad de aceptar una
hipotesis nula que es cierta.
e) Si una hipotesis nula se rechaza frente a una alternativa al nivel del
5%, entonces, usando los mismos datos, debe rechazarse tambien al
nivel del 1%.
f ) Si una hipotesis nula se rechaza frente a una alternativa al nivel del
2%, entonces, usando los mismos datos, debe rechazarse tambien al
nivel del 5%.
g) El p-valor de un contraste es la probabilidad de que la hipotesis
nula sea cierta.
Solucion: F; V; V; F; F; V; F.
Capıtulo 6
Contrastes parametricos
1. Contrastes para la varianza
2. Contrastes de igualdad de varianzas
3. Contrastes para la media
4. Contraste para la media de dos poblaciones
5. Contraste de proporciones
6. Comparacion de proporciones
Los contrastes pueden ser de dos tipos: parametricos y no parametricos.
En un contraste parametrico, se supone que la informacion procede de una
distribucion conocida, cuyos parametros deseamos estimar y contrastar. Por
el contrario, en un contraste no parametrico, no se conoce la forma de la dis-
tribucion.
Las tecnicas parametricas son mas potentes que las no parametricas, pero
las primeras no siempre se pueden utilizar por no verificarse las hipotesis de
aplicacion.
145
146 CAPITULO 6. CONTRASTES PARAMETRICOS
Si se suponen obtenidos los datos a analizar (muestra), una vez decidido
el test parametrico que se va a utilizar y comprobadas las condiciones para su
aplicacion, solo queda la formulacion de las hipotesis, el calculo del estadıstico
y la toma de la decision en funcion del nivel de significacion. A continuacion
se presentan algunos contrastes parametricos y no parametricos1 y sus corre-
spondientes hipotesis, estadısticos y regiones crıticas.
En este apartado supondremos normalidad de las variables que representan
las caracterısticas en estudio.
6.1. Contrastes para la varianza
6.1.1. Caso media desconocida
Estadıstico de prueba:
χ2 =(n− 1)S2
σ20
que, bajo la hipotesis nula, se comporta como una χ2n−1 (χ2 de Pearson con
n− 1 grados de libertad).
1. Contraste bilateral
H0 : σ2 = σ20
H1 : σ2 = σ20
Region crıtica:
1Conviene advertir que a cada contraste parametrico suele corresponder uno no
parametrico que permite tomar la decision cuando no se verifiquen algunas de las condi-
ciones exigidas para la aplicacion del parametrico.
6.1. CONTRASTES PARA LA VARIANZA 147
χ2exp < χ2
n−1;α2
o
χ2exp > χ2
n−1;1−α2
donde χ2
n−1;α2∈ IR y es tal que P [χ2 < χ2
n−1;α2] = α
2.
2. Contraste unilateral por la derecha:
H0 : σ2 ≤ σ20
H1 : σ2 > σ20
Region crıtica:
χ2exp > χ2
n−1;1−α
donde χ2
n−1;1−α ∈ IR y es tal que P [χ2 < χ2n−1;1−α] = 1− α.
3. Contraste unilateral por la izquierda:
H0 : σ2 ≥ σ20
H1 : σ2 < σ20
Region crıtica:
χ2exp < χ2
n−1;α
donde χ2
n−1;α ∈ IR y es tal que P [χ2 < χ2n−1;α] = α.
Ejemplo 6.1.1 En dos departamentos de una empresa, A y B, se seleccionaron
muestras aleatorias e independientes del numero de empleados que habıan
recibido algun incentivo en el ultimo ano. Los datos son los siguientes:
No de incentivos
Departamento 1 2 3 4 5 6
A 3 4 1 9 5 5
B 8 9 1 2 1 7
148 CAPITULO 6. CONTRASTES PARAMETRICOS
Suponiendo que el numero de incentivos que recibieron en el ultimo ano los
empleados de cada departamento sigue una distribucion normal, ¿Se puede
descartar con un 95% de confianza que la desviacion tıpica del numero de
incentivos en el departamento B es igual a 2?
Solucion: Denotemos por Y a la variable aleatoria que mide el numero de
incentivos concedidos a los empleados del departamento B,Y ∈ N(µY , σY ).
Para descartar, al 95% de confianza, que la desviacion tıpica del numero de
incentivos en la provincia B es igual a 2, hay que hacer el siguiente contraste:
H0 : σ2Y = 4
H1 : σ2Y = 4
El estadıstico a utilizar es:
χ2 =(n− 1)S2
Y
σ20
que sigue una distribucion chi-cuadrado con n− 1 = 27 grados de libertad.
En nuestro ejemplo de los datos obtenidos tras la realizacion de la muestra
resulta que el tamano muestral es nY = 28, la media muestral es y = 3, la
varianza muestral s2Y = 4′074 y en consecuencia la desviacion tıpica muestral
es sY = 2′018.
Por tanto el estadıstico experimental serıa:
χ2exp =27 · 4′074
4= 27′4995
La Region crıtica para un nivel de significacion α = 0, 05 es:
6.1. CONTRASTES PARA LA VARIANZA 149
χ2exp < χ2
27;0,025
o
χ2exp > χ2
27;0,975
donde χ2
27;0,025 ∈ IR y es tal que P [χ2 < χ227;0,025] = 0, 025.
Si miramos en las tablas de la chi-cuadrado obtenemos que χ227;0,025 =
14′573 y χ227;0,975 = 43′19 y la region crıtica es:
χ2exp < 14′573
o
χ2exp > 43′19
Como χ2
exp = 27′4995 no pertenece a la region crıtica con un 95% de confi-
anza no se puede rechazar H0, es decir, no se puede rechazar que la desviacion
tıpica en el departamento B sea de 2, con una confianza del 95%.
6.1.2. Caso media conocida
Estadıstico de prueba:
χ2 =
n∑i=1
(Xi − µ)2
σ20
que, bajo la hipotesis nula, se comporta como una χ2n (χ2 de Pearson con n
grados de libertad).
1. Contraste bilateralH0 : σ2 = σ2
0
H1 : σ2 = σ20
150 CAPITULO 6. CONTRASTES PARAMETRICOS
Region crıtica:
χ2exp < χ2
n;α2
o
χ2exp > χ2
n;1−α2
donde χ2
n;α2∈ IR y es tal que P [χ2 < χ2
n;α2] = α
2.
2. Contraste unilateral por la derecha:
H0 : σ2 ≤ σ20
H1 : σ2 > σ20
Region crıtica:
χ2exp > χ2
1−α
donde χ2
n;1−α ∈ IR y es tal que P [χ2 < χ2n;1−α] = 1− α.
3. Contraste unilateral por la izquierda:
H0 : σ2 ≥ σ20
H1 : σ2 < σ20
Region crıtica:
χ2exp < χ2
α
donde χ2
n;α ∈ IR y es tal que P [χ2 < χ2n;α] = α.
6.2. Contrastes de igualdad de varianzas
6.2.1. Caso medias desconocidas
Estadıstico de prueba:
Fexp =S2X
S2Y
6.2. CONTRASTES DE IGUALDAD DE VARIANZAS 151
que, bajo la hipotesis nula se comporta como unaF de Snedecor, F ∈ FnX−1,nY −1.
1. Contraste bilateralH0 : σ2
X = σ2Y
H1 : σ2X = σ2
Y
Region crıtica:
Fexp < FnX−1,nY −1;α2
o
Fexp > FnX−1,nY −1;1−α2
donde:
FnX−1,nY −1;1−α2∈ IR, P [F < FnX−1,nY −1;1−α
2] = 1− α
2
FnX−1,nY −1;α2∈ IR, FnX−1,nY −1;α
2=
1
FnY −1,nX−1;1−α2
2. Contraste unilateral por la derecha:
H0 : σ2X ≤ σ2
Y
H1 : σ2X > σ2
Y
Region crıtica:
Fexp > FnX−1,nY −1;1−α
donde donde FnX−1,nY −1;1−α ∈ IR y es tal que P [F < FnX−1,nY −1;1−α] =
1− α
3. Contraste unilateral por la izquierda:
H0 : σ2X ≥ σ2
Y .
H1 : σ2X < σ2
Y .
Region crıtica:
152 CAPITULO 6. CONTRASTES PARAMETRICOS
Fexp < FnX−1,nY −1;α
donde FnX−1,nY −1;α ∈ IR y es tal que P [F < FnX−1,nY −1;α] = α y
FnX−1,nY −1;α = 1FnY −1,nX−1;1−α
.
Este tipo de contraste se puede resolver utilizando el programa SPSS. De
esta forma plantearıamos el contraste bilateral y utilizamos Analizar\ Es-
tadısticos Descriptivos\ Explorar y en la opcion Graficos le pedimos
Graficos con pruebas de normalidad. Aquı pedimos Dispersion por
nivel con prueba de Levene y ponemos la opcion No transformados.
Aparecera un cuadro de dialogo de la siguiente forma:
Pulsamos Aceptar y tendrıamos resuelto el contraste bilateral.
Ejemplo 6.2.1 Se esta llevando a cabo un estudio acerca de los dıas de baja de
los empleados de dos empresas del mismo sector. Se piensa que la variabilidad
de los dıas de baja en los empleados de la empresa A es superior a la de los
empleados de la empresa B. Los datos se han elegido de forma aleatoria y
proceden de poblaciones normales.
Empresa A 10 11 12 11 10 11 11
Empresa B 9 8 11 12 10 13 11 10 11
6.2. CONTRASTES DE IGUALDAD DE VARIANZAS 153
Realizar el contraste al nivel de significacion del 5% suponiendo que las
poblaciones son normales.
Solucion: Denotemos por X a la variable aleatoria que mide el numero de dıas
de baja de los empleados de la empresa A, X ∈ N(µX , σX). Denotemos por Y
a la variable aleatoria que mide el numero de dıas de baja de los empleados de
la empresa B, Y ∈ N(µY , σY ).
El contraste a realizar serıa:H0 : σ2
X ≤ σ2Y
H1 : σ2X > σ2
Y
⇔
H0 : σ
2X − σ2
Y ≤ 0
H1 : σ2X − σ2
Y > 0
El estadıstico para realizar el contraste serıa:
F =S2X
S2Y
que sigue una distribucion F de Snedecor con nX − 1 = 6 y nY − 1 = 8 grados
de libertad.
En nuestro ejemplo los datos obtenidos son los que se muestran a contin-
uacion:
nX = 7 x = 10′8571 s2X = 0′4761 sX = 0′69
nY = 9 y = 10′5555 s2Y = 2′2777 sY = 1′5092
Por tanto el estadıstico experimental serıa:
Fexp =0′4761
2′2777= 0′209
La region crıtica para un nivel de significacion α = 0, 05 es:
154 CAPITULO 6. CONTRASTES PARAMETRICOS
Fexp > F6,8;0,95
donde donde F6,8;0,95 ∈ IR y es tal que P [F < F6,8;0,95] = 0, 95
Si miramos en las tablas de la F de Snedecor obtenemos F6,8;0,95 = 3′58 y
la region crıtica es:
Fexp > 3′58
Como Fexp = 0′209 no pertenece a la region crıtica, no se puede rechazar H0,
es decir, con un 5% de significacion se acepta que la variabilidad del numero
de bajas de los empleados de la Empresa A es menor o igual que los de la
Empresa B.
Con SPSS podrıamos resolver el contraste bilateral, es decir, si las dos
varianzas son iguales o por el contrario difieren. Este programa utiliza como
estadıstico para resolver este contraste al estadıstico de Levene.
Nos fijamos en el resultado de Levene basandose en la media. El P-valor
obtenido es 0,086 que al ser superior a 0,05 rechazamos la hipotesis nula. Por
tanto, la variabilidad del numero de bajas en ambas empresas difieren.
6.2. CONTRASTES DE IGUALDAD DE VARIANZAS 155
6.2.2. Caso medias conocidas
Estadıstico de prueba:
F =
1nX
nX∑i=1
(Xi − µX)2
1nY
nY∑i=1
(Yi − µY )2
que, bajo H0, sigue una F de Snedecor, F ∈ FnX ,nY.
1. Contraste bilateralH0 : σ2
X = σ2Y
H1 : σ2X = σ2
Y
Region crıtica:
Fexp < FnX ,nY ;α2
o
Fexp > FnX ,nY ;1−α2
donde:
FnX ,nY ;1−α2∈ IR, P [F < FnX ,nY ;1−α
2] = 1− α
2
FnX ,nY ;α2∈ IR, FnX ,nY ;α
2=
1
FnY ,nX ;1−α2
2. Contraste unilateral por la derecha:
H0 : σ2X ≤ σ2
Y
H1 : σ2X > σ2
Y
Region crıtica:
Fexp > FnX ,nY ;1−α
156 CAPITULO 6. CONTRASTES PARAMETRICOS
donde donde FnX ,nY ;1−α ∈ IR y es tal que P [F < FnX ,nY ;1−α] = 1− α
3. Contraste unilateral por la izquierda:
H0 : σ2X ≥ σ2
Y .
H1 : σ2X < σ2
Y .
Region crıtica:
Fexp < FnX ,nY ;α
donde FnX ,nY ;α ∈ IR y es tal que P [F < FnX ,nY ;α] = α y FnX ,nY ;α =
1FnY ,nX ;1−α
.
6.3. Contrastes para la media
6.3.1. Caso desviacion tıpica desconocida
Estadıstico de prueba:
T =X − µ0
S√n
que, bajo la hipotesis nula, se distribuye segun una t de Student con n − 1
grados de libertad.
1. Contraste bilateral:H0 : µ = µ0
H1 : µ = µ0
Region crıtica:
Texp > tn−1;α2
o
Texp < −tn−1;α2
6.3. CONTRASTES PARA LA MEDIA 157
donde tn−1;α2∈ IR y es tal que P [T > tn−1;α
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : µ ≤ µ0
H1 : µ > µ0
Region crıtica:
Texp > tn−1;α
donde tn−1;α ∈ IR y es tal que P [T > tn−1;α] = α.
3. Contraste unilateral por la izquierda:
H0 : µ ≥ µ0
H1 : µ < µ0
Region crıtica:
Texp < −tn−1;α
donde −tn−1;α ∈ IR y es tal que P [T < −tn−1;α] = α.
Este tipo de contraste se puede resolver utilizando el programa SPSS. De
esta forma plantearıamos el mismo contraste y utilizamos Analizar\ Com-
parar medias \ Prueba T para una muestra y en la opcion Valor de la
prueba introducimos el valor µ0. En opciones se puede pedir un intervalo de
confianza para la media. Se obtendra el siguiente cuadro de dialogo:
158 CAPITULO 6. CONTRASTES PARAMETRICOS
Pulsamos Aceptar y tendrıamos resuelto el contraste.
Si el contraste que deseamos resolver es bilateral podemos observar el P-
valor obtenido. Si queremos resolver un contraste unilateral tenemos que fi-
jarnos en el valor del estadıstico dado por SPSS y construir la region crıtica
tal y como indicamos anteriormente, haciendo uso de las tablas estadısticas.
Ejemplo 6.3.1 El nivel de ahorro trimestral de las familias que habitan una
determinada region tiene una distribucion normal. Segun una encuesta realiza-
da a diez familias, su capacidad de ahorro trimestral es respectivamente: 682,
533, 555, 666, 657, 649, 522, 568, 700 y 552. Suponiendo que los datos han si-
do elegidos de forma aleatoria, ¿se podrıa descartar, con un 95% de confianza,
que el ahorro medio familiar en la region es de 600 e?
Solucion: Denotemos por X a la variable aleatoria que mide el nivel de ahorro
trimestral en la region, X ∈ N(µ, σ).
Para descartar, al 95% de confianza, que el ahorro medio familiar en la
region es de 600 e, hay que hacer el siguiente contraste:
H0 : µ = 600
H1 : µ = 600
Al ser σ desconocido el estadıstico que tenemos que utilizar sera:
T =X − 600
S√n
que sigue una distribucion t de student con n− 1 = 9 grados de libertad (T ∈t9).
En nuestro ejemplo de los datos obtenidos tras la realizacion de la muestra
resulta que la media muestral vale x = 608′4 y que la varianza muestral vale
s2 = 4661′1556, es decir, la desviacion tıpica muestral vale s = 68′2726.
6.3. CONTRASTES PARA LA MEDIA 159
Por tanto el estadıstico experimental serıa:
Texp =608′4− 600
68′2726√10
= 0′3891.
La Region crıtica para un nivel de significacion α = 0, 05 es:
Texp > t9;0,025
o
Texp < −t9;0,025
donde t9;0,025 ∈ IR y es tal que P [T > t9;0,025] = 0, 025, es decir, P [T ≤t9;0,025] = 0, 975.
Si miramos en las tablas de la t de Student obtenemos que t9;0,025 = 2, 262
y la region crıtica es:
Texp > 2, 262
o
Texp < −2, 262
Como Texp = 0, 3891 no pertenece a la region crıtica, concluimos que no se
puede rechazar Ho, es decir, con una confianza del 95% no se descarta que el
ahorro medio trimestral de las familias sea de 600 e.
Realizaremos el anterior contraste utilizando el programa SPSS. Si en el
enunciado no nos hubieran dicho que la variable objeto de estudio se ha elegido
de forma aleatoria y que sigue una distribucion normal habrıa que haberlo
comprobado. Con el programa SPSS lo comprobaremos todo.
160 CAPITULO 6. CONTRASTES PARAMETRICOS
En el test de Rachas el P-valor obtenido es 1, luego aceptamos que la muestra
ha sido elegida de forma aleatoria.
El P-valor en el test de Shapiro-Wilk es 0,108 que al ser superior a 0,05,
aceptamos la normalidad de los datos (esto ya lo sabıamos pues el enunciado
del problema lo decıa).
6.3. CONTRASTES PARA LA MEDIA 161
El P-valor obtenido es 0,706 superior a 0,05, luego al no existir evidencias para
rechazar aceptamos que el ahorro medio de las familias sea de 600 e. Asimis-
mo si observamos el intervalo de confianza para el parametro media poblacional
menos 600 observamos que el cero esta dentro del intervalo, llegando a la mis-
ma conclusion.
6.3.2. Caso desviacion tıpica conocida
Estadıstico de prueba:
Z =X − µ0
σ√n
que, bajo la hipotesis nula, se comporta como una distribucion normal de media
0 y desviacion tıpica 1, Z ∈ N(0, 1)
1. Contraste bilateral:
H0 : µ = µ0
H1 : µ = µ0
Region crıtica
162 CAPITULO 6. CONTRASTES PARAMETRICOS
Zexp > zα2
o
Zexp < −zα2
donde zα
2∈ IR y es tal que P [Z > zα
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : µ ≤ µ0
H1 : µ > µ0
Region crıtica
Zexp > zα
donde zα ∈ IR y es tal que P [Z > zα] = α.
3. Contraste unilateral por la izquierda:
H0 : µ ≥ µ0
H1 : µ < µ0
Region crıtica
Zexp < −zα
donde −zα ∈ IR y es tal que P [Z < −zα] = α.
Ejemplo 6.3.2 El importe de la factura electrica anual de un determinado
tipo de empresa se distribuye normalmente con desviacion tıpica de 21200 e.
El Ministerio de Energıa sostiene que el gasto medio anual en electricidad de
estas empresas no es inferior a 100000 ey que serıa conveniente elaborar un
plan de ahorro energetico para las mismas. Seleccionada una muestra aleatoria
de 100 empresas de este tipo, se obtiene un gasto medio anual de 125600 e. ¿Es
admisible, con un 2% de significacion, la hipotesis del Ministerio de Energıa?
6.3. CONTRASTES PARA LA MEDIA 163
Solucion: Denotemos por X a la variable aleatoria que mide el importe de la
factura electrica en euros, X ∈ N(µ, 21200).
Para contrastar al 98% de confianza, que el gasto medio de electricidad es
superior a 100000 euros anuales, hay que hacer el siguiente contraste:
H0 : µ ≤ 100000
H1 : µ > 100000
Al ser σ conocido el estadıstico que tenemos que utilizar sera:
Z =X − 100000
σ√n
que sigue una distribucion normal de media 0 y desviacion tıpica 1.
En nuestro ejemplo los datos obtenidos tras la realizacion de la muestra re-
sulta que la media muestral vale x = 125600 ey la desviacion tıpica poblacional
es σ = 21200 y el tamano muestral n = 100.
Por tanto el estadıstico experimental serıa:
Zexp =125600− 100000
21200√100
= 12′0755
La region crıtica para un nivel de significacion α = 0, 02 es:
Zexp > z0,02
donde z0,02 ∈ IR y es tal que P [Z > z0,02] = 0, 02. Si miramos en las tablas de
la normal tenemos que z0,02 = 2′05.
164 CAPITULO 6. CONTRASTES PARAMETRICOS
En nuestro ejemplo Zexp = 12′0755 > 2′05, por lo que rechazamos Ho, es
decir, el test es significativo y con una confianza del 98% podemos admitir la
hipotesis del Ministerio de Energıa.
6.4. Contraste para la media de dos pobla-
ciones
Si en un estudio se quiere comparar dos poblaciones, en principio, debe
comprobarse si las muestras extraıdas de cada una de las poblaciones son
apareadas o independientes.
Lasmuestras apareadas son aquellas en las que cada individuo perteneciente
a una de las muestras tiene un homologo en la otra muestra. Dos muestras se
dicen independientes cuando no son apareadas.
Ejemplos tıpicos de muestras apareadas son los estudios con gemelos, los
estudios antes y despues de administrar un farmaco a una serie de individuos,
etc. El tratamiento que se le dara a dos muestras apareadas sera el mismo que
se le da a una sola muestra, ya que se creara una nueva variable que sera la
diferencia de la puntuacion en la variable estudiada de todos los individuos y
sus homologos; dicha variable aleatoria se estudiara como si procediera de una
sola muestra.
Este tipo de contraste se puede resolver utilizando el programa SPSS. Uti-
lizamos Analizar\ Comparar medias\ Prueba T para muestras rela-
cionadas y en Opcion podemos cambiar el nivel de confianza con el que
trabajamos; se obtendra el siguiente cuadro de dialogo:
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 165
Pulsamos Aceptar y tendrıamos resuelto el contraste.
Ejemplo 6.4.1 El vicerrectorado de docencia de una Universidad decide pub-
licar los resultados de las encuestas que cada ano se realizan para evaluar la
calidad de la docencia de todos sus profesores. Seleccionados al azar 8 profe-
sores, se recogen en la tabla adjunta las calificaciones obtenidas en el curso
anterior y posterior a la toma de esta medida por parte del Vicerrectorado.
Antes 13’2 13’9 12’6 11’4 12’2 14’2 11’9 12’6
Despues 12’4 14’1 11’8 11’6 11’4 14’5 12’3 12’1
Suponiendo que las puntuaciones se distribuyen normalmente en cada cur-
so, ¿podrıamos afirmar, con un nivel de significacion del 1% que la decision
de hacer publicos los resultados de las encuestas mejora las puntuaciones de
los profesores?
Solucion: Denotemos por X a la variable aleatoria que mide la puntuacion
de cada uno de los profesores en el curso anterior a la toma de la medida.
Suponemos que dicha variable sigue una distribucion normal, X ∈ N(µX , σX).
Denotemos por Y a la variable aleatoria que mide la puntuacion de cada uno
de los profesores en el curso posterior a la toma de la medida. Suponemos que
dicha variable sigue una distribucion normal, Y ∈ N(µY , σY ).
166 CAPITULO 6. CONTRASTES PARAMETRICOS
Estamos ante un caso de muestras apareadas, ya que para el mismo indi-
viduo se han tomado 2 mediciones en dos periodos de tiempo diferentes. Por lo
que tendremos que construir una nueva variable que serıa, D = X−Y , siendo
la muestra para esta variable:
di 0’8 -0’2 0’8 -0’2 0’8 -0’3 -0’4 0’5
Una vez construida la nueva variable, contrastamos:
H0 : µD ≥ 0
H1 : µD < 0
donde se obtienen para la nueva variable D los siguientes resultados: la me-
dia muestral es d = 0′225, la varianza muestral vale s2D = 0′299, es decir la
desviacion tıpica muestral vale sD = 0′547.
Por tanto el estadıstico experimental serıa:
Texp =d− 0
sD√n
=0′225− 0
0′547√8
= 1′163
La Region crıtica para un nivel de significacion α = 0, 01 es:
Texp < −t7;0,01
donde −t7;0,01 ∈ IR y es tal que P [T < −t7;0,01] = 0, 01. Si miramos en las
tablas de la t de Student obtenemos que −t7;0,01 = −2′998
Como Texp = 1′163 > −t0,01 = −2′33, no se puede rechazar H0, es decir, no
se puede decir que la medida adoptada sea eficaz, con una confianza del 99%.
Si utilizamos el programa SPSS para realizar el contraste anterior obten-
emos:
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 167
El estadıstico es 1,163 al igual que cuando lo hacemos a mano. Como es un
contraste unilateral el que planteamos, la manera de proceder serıa igual que
antes construyendo la region crıtica.
En lo que sigue consideraremos muestras independientes.
6.4.1. Caso varianzas conocidas
Estadıstico de prueba:
Z =X − Y − d0√
σ2X
nX+
σ2Y
nY
que, bajo la hipotesis nula, se comporta segun una distribucion normal Z ∈N(0, 1).
1. Contraste bilateral
H0 : µX − µY = d0
H1 : µX − µY = d0
Region crıtica:
168 CAPITULO 6. CONTRASTES PARAMETRICOS
Zexp < −zα2
o
Zexp > zα2
donde zα
2∈ IR y es tal que P [Z > zα
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : µX − µY ≤ d0
H1 : µX − µY > d0
Region crıtica
Zexp > zα
donde zα ∈ IR y es tal que P [Z > zα] = α.
3. Contraste unilateral por la izquierda:
H0 : µX − µY ≥ d0
H1 : µX − µY < d0
Region crıtica
Zexp < −zα
donde −zα ∈ IR y es tal que P [Z < −zα] = α.
Ejemplo 6.4.2 Los niveles de audiencia por capıtulo de dos series de tele-
vision se distribuyen normalmente con desviaciones tıpicas 100000 y 210000
espectadores respectivamente. Un estudio de medios afirma que ambas series
tienen igual nivel de audiencia. Las audiencias en millones de espectadores,
de ocho capıtulos seleccionados al azar para cada una de las series fueron las
siguientes:
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 169
Serie A 2’15 2’61 2’11 2’26 2’01 2’31 2’51 2’8
Serie B 2’24 2’53 2’35 2’22 2’21 2’22 2’21 2’01
¿Se podrıa admitir, con un 5% de significacion, que ambos niveles de audiencia
son distintos?
Solucion: Denotemos por X a la variable aleatoria que mide el nivel de audi-
encia por capıtulo, en millones de espectadores, de la serie A, X ∈ N(µX , 0′1).
Denotemos por Y a la variable aleatoria que mide el nivel de audiencia por
capıtulo, en millones de espectadores, de la serie B, Y ∈ N(µY , 0′21).
Para contrastar al 95% de confianza, que los niveles medios de audiencia
son distintos, hay que hacer el siguiente contraste:
H0 : µX − µY = 0.
H1 : µX − µY = 0.
Como las desviaciones tıpicas poblacionales son conocidas, el estadıstico
que tenemos que utilizar es:
Z =X − Y − 0√
σ2X
nX+
σ2Y
nY
que, bajo la hipotesis nula, sigue una distribucion normal, Z ∈ N(0, 1).
En nuestro ejemplo los datos obtenidos tras la realizacion de la muestra son
la media muestral del nivel de audiencia para la serie A x = 2′345 y la media
muestral del nivel de audiencia para la serie B y = 2′249. En ambos casos el
tamano muestral es ocho.
170 CAPITULO 6. CONTRASTES PARAMETRICOS
Por tanto el estadıstico experimental serıa:
Zexp =2′345− 2′249− 0√
0′12
8+ 0′212
8
= 1′167
La Region crıtica para un nivel de significacion α = 0, 05 es:
Zexp < −z0′025
o
Zexp > z0,025
donde −z0,025 ∈ IR y es tal que P [Z < −z0′025] = 0, 025.
Si miramos en las tablas de la normal obtenemos z0,025 = 1′96 y la region
crıtica es:
Zexp < −1′96
o
Zexp > 1′96
Como Zexp = 1′167 no hay evidencia para rechazar, luego aceptamos la
hipotesis nula. Podemos concluir que los niveles de audiencia son similares a
un 95% de confianza.
6.4.2. Caso varianzas desconocidas, pero iguales
Un estimador de la varianza σ2 viene dado por:
S ′2 =(nX − 1)S2
X + (nY − 1)S2Y
nX + nY − 2.
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 171
Estadıstico a utilizar es:
T =X − Y − d0
S ′√
1nX
+ 1nY
que se comporta, bajo H0, como una t de Student con nX + nY − 2 grados de
libertad.
1. Contraste bilateral:
H0 : µX − µY = d0
H1 : µX − µY = d0
Region crıtica:
Texp > tnX+nY −2;α2
o
Texp < −tnX+nY −2;α2
donde tnX+nY −2;α
2∈ IR y es tal que P [T > tnX+nY −2;α
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : µX − µY ≤ d0
H1 : µX − µY > d0
Region crıtica:
Texp > tnX+nY −2;α
donde tnX+nY −2;α ∈ IR y es tal que P [T > tnX+nY −2;α] = α.
3. Contraste unilateral por la izquierda:
H0 : µX − µY ≥ d0
H1 : µX − µY < d0
Region crıtica:
172 CAPITULO 6. CONTRASTES PARAMETRICOS
Texp < −tnX+nY −2;α
donde −tnX+nY −2;α ∈ IR y es tal que P [T < −tnX+nY −2;α] = α.
Este tipo de contraste se puede resolver utilizando el programa SPSS. De
esta forma plantearıamos el mismo contraste y utilizamos Analizar\ Com-
parar medias\ Prueba T para muestras independientes y en la opcion
Rangos introducimos los valores 1 y 2 (son los codigos que le hemos dado a
cada una de las muestras). Se obtendra el siguiente cuadro de dialogo:
Pulsamos Aceptar y tendrıamos resuelto el contraste.
Ejemplo 6.4.3 Dos universidades siguen metodos distintos a la hora de ma-
tricular a sus alumnos. Para comparar el tiempo que los alumnos tardan en
completar los tramites de matrıcula, se selecciono al azar una muestra de 10
alumnos de cada universidad, obteniendose los siguientes resultados, expresa-
dos en minutos:
Universidad A:
media 47′8033; desviacion tıpica 4′88141;
observaciones: 45′45; 49′81; 48′62; 48′2; 40′72; 41′16; 48′41; 58′17; 49′07; 48′42.
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 173
Universidad B:
media 50′5790; desviacion tıpica 6′7258;
observaciones: 49′96; 45′04; 60′56; 46′77; 49′32; 41′29; 42′86; 58′08; 56′41; 55′5.
Suponiendo que ambas muestras son independientes y han sido elegidas de
forma aleatoria, se pide:
1. Verificar si los datos obtenidos para la universidad A proceden de una
poblacion normal.
2. Suponiendo que los datos obtenidos para la universidad B siguen una
distribucion normal, comprobar si los tiempos empleados para completar
los tramites de matrıcula se pueden condiderar iguales en ambas univer-
sidades.
3. Obtener un intervalo de confianza para la diferencia de tiempos medios.
Nota: Trabaja con un nivel de confianza del 95%.
Resolucion:
1. La normalidad la estudiamos con el contraste de Shapiro-Wilk. El P-valor
obtenido es 0,108 para los datos de la Universidad A y 0,590 en la uni-
versidad B. En ambos casos son superiores a 0,05 por lo que concluimos
que proceden de poblaciones normales. Ver la figura en el apartado 2.
2. Veamos si las varianzas poblacionales se pueden considerar iguales:H0 : σ2
x = σ2y .
H1 : σ2x = σ2
y .
Estadıstico:
Fexp =S2x
S2y
=4′881412
6′72582= 0′5267.
174 CAPITULO 6. CONTRASTES PARAMETRICOS
Region crıtica:
Se rechaza H0 ⇔
Fexp ≤ Fα
2= F9,9,0′025 =
1F9,9,0′975
= 14′03
= 0′248.
o
Fexp ≥ F1−α2= F9,9,0′975 = 4′03.
Como no existen evidencias para rechazar, aceptamos que las varianzas
poblacionales se pueden considerar iguales.
Esto podemos verlo tambien con SPSS:
Por el test de Levene tenemos que el P-valor es igual a 0,120 luego con-
cluimos que las varianzas son iguales.
A continuacion realizamos el contraste de igualdad de medias sabiendo
que las varianzas son iguales:
H0 : µx − µy = 0.
H1 : µx − µy = 0.
Estadıstico:
texp =x− y
S ′√
1nx
+ 1ny
=47′8033− 50′579√
9·4′881412+9·6′7258210+10−2
√110
+ 110
= −1′056.
Region crıtica:
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 175
Se rechaza H0 ⇔
texp ≤ tα
2,nx+ny−2 = t18,0′025 = −2′101.
o
texp ≥ t1−α2,nx+ny−2 = t18,0′975 = 2′101.
Como texp = −1′056, no tenemos evidencias para rechazar la hipotesis
nula. Aceptamos que los tiempos medios empleados en ambas universi-
dades se pueden considerar iguales.
Con SPSS
El P-valor igual a 0,305, luego al no haber evidencias para rechazar se
acepta la igualdad de medias. Si nos fijamos en el intervalo de confianza
para la diferencia de medias obtenemos la misma conclusion, pues el cero
esta dentro del intervalo.
3. Como ambas muestras proceden de poblaciones normales y ademas las
varianzas poblacionales son desconocidas, pero iguales, el intervalo de
confianza adecuado serıa: [(x−y)−tα2
√(nx−1)S2
x+(ny−1)S2y
nx+ny−2
√nx+ny
nxny, (x−y)+
tα2
√(nx−1)S2
x+(ny−1)S2y
nx+ny−2
√nx+ny
nxny]. El intervalo obtenido es [-8’2971, 2’7457].
Como podemos comprobar, el cero esta incluido en el intervalo, luego
podemos llegar a la misma conclusion del apartado anterior.
176 CAPITULO 6. CONTRASTES PARAMETRICOS
6.4.3. Caso varianzas desconocidas y distintas
Estadıstico de prueba:
T =X − Y − (µX − µY )√
S2X
nX+
S2Y
nY
que se comporta, bajo H0, como una t de Student con ν grados de libertad ,
siendo ν la parte entera por exceso del numero:(s2XnX
+s2YnY
)2(
s2X
nX
)2
nX−1+
(s2Y
nY
)2
nY −1
1. Contraste bilateral:H0 : µX = µY
H1 : µX = µY
Region crıtica:
Texp > tν;α2
o
Texp < −tν;α2
donde tν;α
2∈ IR y es tal que P [T > tν;α
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : µX ≤ µY
H1 : µX > µY
Region crıtica:
Texp > tν;α
donde tν;α ∈ IR y es tal que P [T > tν;α] = α.
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 177
3. Contraste unilateral por la izquierda:
H0 : µX ≥ µY
H1 : µX < µY
Region crıtica:
Texp < −tν;α
donde −tν;α ∈ IR y es tal que P [T < −tν;α] = α.
Este tipo de contraste se puede resolver utilizando el programa SPSS. De esta
forma plantearıamos el mismo contraste y utilizamos Analizar\ Comparar
medias\ Prueba T para muestras independientes y en la opcionRangos
introducimos los valores 1 y 2 (son los codigos que le hemos dado a cada una
de las muestras). Se obtendra el siguiente cuadro de dialogo:
Pulsamos Aceptar y tendrıamos resuelto el contraste.
Ejemplo 6.4.4 Segun la Consejerıa de Agricultura de una Comunidad Autono-
ma, la subvencion media percibida por empresa de un determinado tamano en
la provincia A, supera en mas de 200000 ea la subvencion media percibida por
empresas de tamano similar a la anterior en la provincia B.
178 CAPITULO 6. CONTRASTES PARAMETRICOS
Seleccionadas dos muestras aleatorias de 10 empresas en cada una de las
provincias, se obtienen los siguientes resultados expresados en millones de eu-
ros:
Provincia A: x = 1′4 s2X = 0′25
Provincia B: y = 0′9 s2Y = 0′0025
Suponiendo que la cuantıa de las subvenciones sigue en ambas provincias dis-
tribuciones normales con varianzas diferentes, ¿se podrıa admitir, con un 1%
de significacion, la afirmacion de la Consejerıa?
Solucion: Denotemos por X a la variable aleatoria que mide la subvencion
percibida por empresa en la provincia A, X ∈ N(µX , σX). Denotemos por Y
a la variable aleatoria que mide la subvencion percibida por empresa en la
provincia B, Y ∈ N(µY , σY ).
Tendremos que realizar el siguiente contraste:
H0 : µX − µY ≤ 0′2
H1 : µX − µY > 0′2
Al ser las varianzas desconocidas y distintas, el estadıstico que tenemos que
utilizar sera:
T =X − Y − d0√
S2X
nX+
S2Y
nY
que sigue una distribucion t de Student con ν grados de libertad.
En nuestro ejemplo los datos obtenidos en la realizacion de la muestra
serıan:
x = 1′4 s2X = 0′25
y = 0′9 s2Y = 0′0025
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 179
El estadıstico experimental serıa:
texp =1′4− 0′9− 0′2√
0′2510
+ 0′002510
= 1′888.
Como: (s2XnX
+s2YnY
)2(
s2X
nX
)2
nX−1+
(s2Y
nY
)2
nY −1
=
(0′2510
+ 0′002510
)2( 0′25
10 )2
9+
( 0′002510 )
2
9
= 9′17,
los grados de libertad de la t de Student son ν = 10.
La Region crıtica para un nivel de significacion α = 0, 01 es:
Texp > t10;0,01
donde t10;0,01 ∈ IR y es tal que P [T > t10;0,01] = 0, 01.
Si miramos en las tablas de la t de Student obtenemos que t10;0,01 = 2′764
y la region crıtica es:
Texp > 2′764
Como Texp = 1′888 no pertenece a la region crıtica, no se puede rechazar
H0, con un 99% de confianza, por lo que no se puede admitir la afirmacion de
la Consejerıa a un 99% de confianza.
Ejemplo 6.4.5 El Ministerio de Ciencia y Tecnologıa esta realizando un es-
tudio sobre el esfuerzo llevado a cabo en actividades de investigacion y desar-
rollo (I+D). Se dispone de la siguiente informacion relativa al gasto en I+D en
proyectos que fueron concedidos en el ano 2005 a dos universidades distintas.Universidad A: 1900 1950 1978 2000 2630 2850 2900 3000 3450 3500
Universidad B: 2500 2600 1500 2630 6000 3840 4000 5000 5200 3400
180 CAPITULO 6. CONTRASTES PARAMETRICOS
Suponiendo que los datos han sido elegidos de forma aleatoria y trabajando
a un 95% de confianza, ¿podrıamos afirmar que las ayudas medias en ambas
universidades son similares?
En primer lugar veamos si cada una de las muestras proceden de una
poblacion normal y si las varianzas son iguales o no.
Podemos observar que ambas muestras proceden de poblaciones normales.
En el test de Shapiro-Wilk observamos que el P-valor obtenido para la uni-
versidad A es 0,112 y para la universidad B 0,823, en ambos casos mayores a
0,05.
Al realizar el test de Levene para ver si las varianzas se pueden considerar
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 181
iguales o por el contrario dificeren podemos ver que el P-valor obtenido es igual
a 0,026 menor a 0,05, luego podemos concluir que las varianzas son distintas.
A continuacion veamos si la cantidad media concedida es igual en ambas
universidades.
Tal y como obtuvmos anteriormente el test de Levene nos dice que las var-
ianzas no son iguales. Por ello nos fijamos en la informacion proporcionada
en la segunda lınea de la tabla. El P-valor es 0,052 superior a 0,05, por tan-
to, concluimos que las ayudas medias concedidas en ambas universidades se
pueden considerar iguales. Esto mismo se puede ver observando el intervalo de
confianza para la diferencia de medias [−21114,031, 11,631] que como podemos
observar contiene al cero.
Ejemplo 6.4.6 El dueno de la Estacion de servicio de gasolina A dice haber
descubierto un aditivo que disminuye drasticamente la contaminacion produci-
da por los motores de gasolina sin influir en absoluto en los ındices octano de
sus combustibles. La Estacion de servicio B es la que queda mas cerca de A; el
dueno de B, con el objeto de comprobar que dichos ındices se ajustan fielmente
182 CAPITULO 6. CONTRASTES PARAMETRICOS
a las cifras expuestas en los surtidores (y para lanzar una contraofensiva de
captacion de mercado), solicita una investigacion oficial en la que se realiza el
analisis de 11 muestras de gasolina de 95 octanos extraıdas al azar (en otros
tantos dıas del ano) de las estaciones A Y B. Las medidas y desviaciones
tıpicas de los resultados de los analisis se exponen en la siguiente tabla:
Tamano Media de Desv. tıpica
Estacion de muestra la muestra de la muestra
A 11 93’2 0’96
B 11 94’8 1’2
1. Contrasta la hipotesis de que el ındice octano medio en la Estacion A
sea inferior a 95, con un nivel del 2’5%.
2. Contrasta la hipotesis de que el ındice octano medio en la Estacion B
sea inferior a 95, con un nivel del 2’5%.
3. Contrasta la hipotesis de que el ındice octano medio en la Estacion A
sea inferior al de la Estacion B con un nivel del 2’5%.
4. Contrasta la hipotesis de que el ındice octano medio en la Estacion A
sea superior al de la Estacion B con un nivel del 2’5%.
Solucion: Sea X una variable aleatoria que mide los ındices de octano del
combustible de la estacion A, X ∈ N(µX , σX) e Y una variable aleatoria que
mide los ındices de octano del combustible de la estacion B, Y ∈ N(µY , σY ).
1. Contrastar la hipotesis de que el ındice octano medio en la Estacion A
sea inferior a 95, con un nivel del 2’5%.
nX = 11 x = 93′2 sX = 0′96
nY = 11 y = 94′8 sY = 1′2
6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 183
El contraste a realizar sera:
H0 : µX ≥ 95
H1 : µX < 95
El estadıstico experimental a calcular sera:
Texp =x− µ0
sX√nX
=93′2− 95
0′96√11
= −6′219
y el punto crıtico t10;0,025 = 2′228.
Como Texp = −6′495 < −tα ≃ −2′228, se rechaza H0, asumiendo que el
ındice de octano medio en la estacion A es inferior a 95, con un nivel de
significacion del 2′5%.
2. Contrastar la hipotesis de que el ındice octano medio en la Estacion B
sea inferior a 95, con un nivel del 2’5%.
El contraste a realizar sera:H0 : µY ≥ 95
H1 : µY < 95
El estadıstico experimental a calcular sera:
Texp =y − µ0
sY√nY
=94′8− 95
1′2√11
= −0′528
y el punto crıtico t10;0,025 = 2′228.
Como texp = −0′528 < −tα = −2′228, se rechaza H0, a un nivel de
significacion del 2′5%, es decir, el ındice medio de octano en la estacion
B es inferior a 95.
3. Contrastar la hipotesis de que el ındice octano medio en la Estacion A
sea inferior al de la Estacion B con un nivel del 2’5%.
184 CAPITULO 6. CONTRASTES PARAMETRICOS
El contraste a realizar ahora sera:H0 : µX ≥ µY
H1 : µX < µY
⇔
H0 : µX − µY ≥ 0
H1 : µX − µY < 0
Lo primero que hay que determinar es si σ2X = σ2
Y , para ello hacemos el
siguiente contraste: H0 : σ2
X = σ2Y
H1 : σ2X = σ2
Y
El estadstico experimental del contraste es:
Fexp =s2Xs2Y
=0′962
1′22= 0′64
y los puntos crıticos:
F10,10;0′9875 = 4,85 y F10,10;0′0125 =1
F10,10;0′9875=
1
4′85= 0′206.
Como se cumple que: 0′206 < Fexp = 0′64 < 4′85, no se puede rechazar
H0, es decir, se acepta que σ2X = σ2
Y , con nivel de significacion del 2′5%.
Ahora estudiamos el contraste sobre las medias. El estadıstico experimen-
tal es:
Texp =x− y − d0
s′√
1nX
+ 1nY
donde s′2 =(nX−1)s2X+(nY −1)s2Y
nX+nY −2.
Texp =93′2− 94′8√
100′9216+101′4420
√111
+ 111
= −3′452
y elpunto crıtico es t20;0′025 = 2′086
Como Texp = −3′452 < −t20;0′025 = −2′086, se rechaza H0, con un nivel
de significacion del 2′5% y el ındice de octano medio en la estacion A es
inferior al de la estacion B.
6.5. CONTRASTE DE PROPORCIONES 185
4. Contrastar la hipotesis de que el ındice octano medio en la Estacion A
sea superior al de la Estacion B con un nivel del 2’5%.
El contraste a realizar ahora sera:H0 : µX ≤ µY
H1 : µX > µY
⇔
H0 : µX − µY ≤ 0
H1 : µX − µY > 0
Ya habiamos contrastado en el apartado anterior que σ2X = σ2
Y , por lo
que el estadıstico experimental serıa el mismo, Texp = −3′452, y el punto
crıtico t20;0′025 = 2′086.
Como texp = −3′452 < t20;0′025 = 2′086, no se puede rechazar H0, con un
nivel de significacion del 2′5% y el ındice de octano de la estacion A es
inferior o igual al de la estacion B.
6.5. Contraste de proporciones
Cuando queremos contrastar una hipotesis sobre la proporcion de elementos
que poseen cierta caracterıstica o atributo en una poblacion, consideraremos
una variable aleatoria de Bernouilli, Y ∈ Be(p), que toma valor 1 se el indi-
viduo seleccionado tiene dicha caracterıstica o atributo y valor 0 en otro caso.
Al extraer una muestra aleatoria simple de tamano n, en numero de individu-
os de la muestra que poseen la caracterıstica viene dado por una distribucion
Binomial, X ∈ B(n, p).
Un estimador de la proporcion de individuos de la poblacion que poseen
la caracterıstica mencionada es la proporcion de individuos que tienen dicho
atributo en la muestra:
p =X
n=
no de exitos
no de pruebas.
Para realizar un contraste sobre la proporcion poblacional:
186 CAPITULO 6. CONTRASTES PARAMETRICOS
H0 : p = p0
H1 : p = p0
H0 : p ≤ p0
H1 : p > p0
H0 : p ≥ p0
H1 : p < p0
si el tamano muestral es suficientemente grande (n > 30), podemos utilizar el
estadıstico de prueba:
Z =p− p0√p0(1− p0)
n
,
que tiene comportamiento normal tipificado bajo H0.
1. Contraste bilateral:H0 : p = p0
H1 : p = p0
Region crıtica
Zexp > zα2
o
Zexp < −zα2
donde zα
2∈ IR y es tal que P [Z > zα
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : p ≤ p0
H1 : p > p0
Region crıtica
Zexp > zα
donde zα ∈ IR y es tal que P [Z > zα] = α.
3. Contraste unilateral por la izquierda:
H0 : p ≥ p0
H1 : p < p0
Region crıtica
6.5. CONTRASTE DE PROPORCIONES 187
Zexp < −zα
donde −zα ∈ IR y es tal que P [Z < −zα] = α.
Ejemplo 6.5.1 Tras establecer un impuesto, se decide realizar un referendum
en la region para prohibir la emision de gases contaminantes por empresas o
vehıculos particulares. ¿Se podrıa aceptar que el 70% de los habitantes esta a
favor de la medida (al nivel de significacion del 5%) si, cuando seleccionamos
a 800 votantes al azar, solo 496 se manifiestan de acuerdo?
Solucion: El contraste a realizar es:
H0 : p = 0′7.
H1 : p = 0′7.
La estimacion de la proporcion muestral es p = 496800
= 0′62 y el el estadıstico
experimental es:
Zexp =0′62− 0′7√
0′7·0′3800
= −4′938
La region crıtica viene dada como:
Zexp > z0,025
o
Zexp < −z0,025
donde z0,025 ∈ IR y es tal que P [Z > z0,025] = 0, 025. Si miramos en las tablas
de la normal tipificada obtenemos que Z0,025 = 1′96 y la region crıtica es:
Zexp > 1′96
o
Zexp < −1′96
188 CAPITULO 6. CONTRASTES PARAMETRICOS
Como Zexp = −4′938 pertenece a la region crıtica, se rechaza la hipotesis
nula de que p = 0′7.
6.6. Comparacion de proporciones
Estimadores de las proporciones poblacionales:
pX =X
nX
;
pY =Y
nY
.
donde X e Y son el numero de individuos que presentan las caracterısticas en
estudio en las respectivas muestras.
Para contrastar:
H0 : pX = pY
H1 : pX = pY
H0 : pX ≤ pY
H1 : pX > pY
H0 : pX ≥ pY
H1 : pX < pY
se utiliza en estadıstico:
Z =pX − pY√
nX+nY
nXnYp(1− p)
que se comporta, bajo la hipotesis nula, como una N(0, 1), cuando los tamanos
muestrales son suficientemente grandes. Notese que, como no se conoce la
verdadera proporcion poblacional, p = pX = pY , se sustituye por un estimador
ponderado p = X+YnX+nY
.
1. Contraste bilateral:H0 : pX = pY
H1 : pX = pY
Region crıtica
6.6. COMPARACION DE PROPORCIONES 189
Zexp > zα2
o
Zexp < −zα2
donde zα
2∈ IR y es tal que P [Z > zα
2] = α
2.
2. Contraste unilateral por la derecha:
H0 : pX ≤ pY
H1 : pX > pY
Region crıtica
Zexp > zα
donde zα ∈ IR y es tal que P [Z > zα] = α.
3. Contraste unilateral por la izquierda:
H0 : pX ≥ pY
H1 : pX < pY
Region crıtica
Zexp < −zα
donde −zα ∈ IR y es tal que P [Z < −zα] = α.
Ejemplo 6.6.1 Se pretende instalar una planta industrial de grandes dimen-
siones en un cierto municipio; se sabe que la planta produce problemas medio-
ambientales, pero, por otro lado, crea bastantes puestos de trabajo; tanto para
los habitantes del municipio donde se ubicarıa, como para los habitantes de
otros municipios cercanos. Se piensa que los habitantes del municipio en cuestion
estaran de acuerdo en su instalacion en esa zona, pero, con el fin de asegu-
rarse, se decide realizar un contraste de hipotesis seleccionando una muestra
190 CAPITULO 6. CONTRASTES PARAMETRICOS
aleatoria de 250 habitantes en el municipio en cuestion de los cuales 101 fueron
favorables y otra muestra aleatoria de 250 habitantes de los otros municipios de
los cuales 75 se mostraron favorables. Contrastar, al nivel de significacion del
5%, la hipotesis de que la proporcion de votantes del pueblo que se muestran
favorables a la instalacion de la fabrica es igual a la proporcion de votantes de
los municipios cercanos que se se muestran favorables.
Solucion: Tenemos que contrastar:
H0 : pX = pY .
H1 : pX = pY .
Sabemos que:
pX =X
nX
=101
250= 0′4;
pY =Y
nY
=75
250= 0′3.
Bajo la hipotesis nula, Zexp =pX−pY√
nX+nYnXnY
p(1−p)se comporta como una N(0, 1).
La estimacion ponderada de la proporcion viene dada por:
p =X + Y
nX + nY
=176
500= 0′35
El valor del estadıstico sera:
Zexp =pX − pY√
nX+nY
nXnYp(1− p)
=0′4− 0′3√
250+250(250)(250)
0′35(1− 0′35)= 2′34
El valor de Zα2= 1′96
6.7. EJERCICIOS DE AUTOEVALUACION (CAPITULO ??) 191
Como Zexp = 2′34 > 1′96, rechazamos la hipotesis nula. Luego, no podemos
admitir que la proporcion de votantes del municipio que se muestran favora-
bles a la instalacion de la planta es igual a la proporcion de votantes de los
municipios cercanos que son partidarios de que se instale la planta.
6.7. Ejercicios de autoevaluacion (Capıtulo 6)
1. El gasto medio en el material escolar de una familia con 2 hijos al prin-
cipio de curso es superior a 400 euros. Se sabe que esta variable se dis-
tribuye normalmente con una desviacion tıpica de 90 euros. Una aso-
ciacion de consumidores desea saber si esta afirmacion es cierta o no,
para ello seleccionan una muestra aleatoria de 85 familias con esa carac-
terıstica y el resultado que obtienen es un gasto total de 34935 euros. ¿Es
cierta la afirmacion realizada sobre el gasto medio en material escolar?
Considerar un nivel de significacion del 5%.
Solucion: Contraste: H0 : µ ≤ 400
H1 : µ > 400
La afirmacion es falsa pues Zexp = 1, 1262 < Z0,95 = 1, 645. Como no hay
evidencias para rechazar aceptamos la hipotesis nula.
2. El numero de vehıculos que llegan a una gasolinera, se sabe, por observa-
ciones anteriores, que sigue una distribucion normal pero no conocemos
ni la media ni la desviacion tıpica. Con el fin de contrastar la hipotesis
de que el numero medio de vehıculos que acuden a esa gasolinera es de
21 cada 15 minutos, seleccionamos una muestra aleatoria de 30 perıodos
de tiempo de 15 minutos, obteniendo las siguientes observaciones:
19,24,22,17,20,21,18,20,16,20,13,12,18,25,19
16,23,16,22,22,20,16,14,13,19,24,18,18,27,10
192 CAPITULO 6. CONTRASTES PARAMETRICOS
Se pide:
a) Realizar el contraste correspondiente al nivel de significacion α =
0, 02.
b) Obtener la region crıtica y la region de aceptacion.
c) Obtener un intervalo de confianza para la media poblacional.
Solucion:
a) Contraste: H0 : µ = 21
H1 : µ = 21
Rechazamos H0 pues texp = −3, 0844 < −t29;0,98 = −2, 1503
b) Region de aceptacion:C = (x1, x2, . . . , x30)/texp ∈ (−2, 462; 2, 462)Region de rechazo es el complementario de la anterior.
c) Iµ = (16, 9240; 20, 5426)
3. El director de una companıa aseguradora afirma que el importe medio
de las reparaciones de automoviles pagadas por la companıa a talleres
colaboradores es superior a 2404 euros. Seleccionadas al azar 20 facturas
de diferentes reparaciones, se observa que la suma de importes es 49.000
euros y su varianza muestral 4.000. Por otra parte, tambien afirma el
director que los importes de las facturas son muy similares y su desviacion
tıpica es inferior a 60, 1 euros, por lo que sospecha que los talleres no
facturan adecuadamente en cada operacion. Comprobar si cada una de
estas afirmaciones es cierta a un nivel de significacion del 1%, suponiendo
que los importes de las facturas siguen una distribucion normal.
Solucion: Contraste: H0 : µ ≤ 2404
H1 : µ > 2404
Rechazamos H0 pues texp = 3, 2527 > t19;0,99 = 2, 539. Es cierta la afir-
macion de que las reparaciones de automoviles pagadas por la companıa
a talleres colaboradores es superior a 2.400 euros.
EJERCICIOS DE AUTOEVALUACION 193
Contraste: H0 : σ2 ≥ 3612, 01
H1 : σ2 < 3612, 01
Es falso que la desviacion tıpica sea inferior a 60, 1 euros, puesto que
χ2exp = 21, 0409 > χ2
19;0,01 = 7, 633.
4. Sean dos poblaciones normales N(µX , σ) y N(µY , σ) con σ desconocida.
Se seleccionan dos muestras aleatorias e independientes de tamano 12 y
10, respectivamente, siendo
X = 85;S2X = 16; Y = 81;S2
Y = 25
Contrastar, con un nivel de significacion del 5%, la hipotesis de que la
media de la primera poblacion es al menos 2 unidades superior a la media
de la segunda poblacion.
Solucion: Contraste: H0 : µx ≤ µy + 2
H1 : µx > µy + 2
Se tiene que texp = 1, 0432 < t20;0,95 = 1, 725. Luego, como no existen
evidencias para rechazar aceptamos la hipotesis nula.
5. Una empresa de corretaje de acciones piensa que es de suma importan-
cia formar a sus empleados. Como esto requiere invertir mas dinero en
la empresa los responsables de esta iniciativa van a llevar a cabo una
experiencia piloto con solo 10 ejecutivos seleccionados al azar. Para e-
llo quiere valorar si la capacidad de estos ejecutivos a la hora de captar
clientes ha mejorado. En la tabla adjunta se muestran los nuevos clientes
captados por cada uno de ellos antes y despues de recibir el curso de
especializacion.
Antes 16 17 13 19 12 13 21 14 18 23
Despues 18 16 17 15 20 15 19 12 19 25
194 CAPITULO 6. CONTRASTES PARAMETRICOS
Suponiendo que las muestras siguen una distribucion normal y a un 99%
de confianza, ¿se puede concluir que la experiencia ha resultado positiva?
Solucion: El contraste que se plantea es:H0 : µdi ≥ 0
H1 : µdi < 0
. La Region
crıtica para un nivel de significacion α = 0′01 es: Texp < −t9;0′01 = −2′821 .
Como Texp − 0′991 > −2′821, no se puede concluir que haya mejorado.
6. En un nuevo proceso de fabricacion de filamentos se desea contrastar si
puede suponerse razonablemente que la varianza de su grosor es exacta-
mente de 4 milımetros y, en caso de no poder afirmarlo, si es inferior a
4 milımetros. Para ello se toma una muestra de 28 filamentos que arroja
una variabilidad de 2 milımetros. Realizar los contrastes pedidos para un
nivel α = 0′05 suponiendo normalidad en los grosores de los filamentos.
Solucion: El contraste que se plantea es:H0 : σ
2x = 4
H1 : σ2x = 4
. La region
crıtica es:
χ2exp < 14′573
o
χ2exp > 43′19
. Como χ2exp = 13′5 pertenece a la region
crıtica con un 95% de confianza se puede rechazar H0.
Si se plantea:H0 : σ2 ≥ 4
H1 : σ2 < 4
, la region crıtica es χ2
exp < χ227;0′05 = 16′1514
.
Como el estadıstico es 13′5, concluimos que la variabilidad es inferior a
4.
7. En un estudio sobre los efectos de los nuevos metodos de planificacion en
el ambito de gestion empresarial, se comprobo, en una muestra aleato-
ria simple de 6 empresas en la que se aplicaban dichos metodos, que
el porcentaje de incremento medio de sus ingresos netos con respec-
to al anterior ejercicio, era del 9, 972% con una varianza muestral de
7, 740%. Paralelamente y con fines comparativos, se selecciono una mues-
tra aleatoria simple de 9 empresas que seguıan los metodos de gestion
tradicionales. Basandose en los datos de esta ultima muestra, se obtuvo
EJERCICIOS DE AUTOEVALUACION 195
un porcentaje de incremento medio de 6, 098% y una varianza muestral
de 10, 834%. Suponiendo que los porcentajes de incrementos de ingresos
en ambas poblaciones de empresas estan distribuidos normal e indepen-
dientemente.
a) ¿Se puede admitir, con un 10% de significacion, que el conjunto de
empresas que aplican los nuevos metodos de planificacion obtienen
incrementos medios de ingresos superiores a las empresas que uti-
lizan metodos tradicionales?
b) Construya un intervalo de confianza al 90% para la diferencia de
incrementos medios poblacionales de ambos tipos de empresas.
Solucion:
a) Contraste: H0 : µx ≤ µy
H1 : µx > µy
Realizamos antes el contraste:H0 : σ2
x = σ2y
H1 : σ2x = σ2
y
Como no hay evidencias para rechazar aceptamos la igualdad de
varianzas, puesto que Fexp = 0, 7144 ∈ (0, 21; 3, 69). Con respecto al
primer contraste de medias concluimos que rechazamos la hipotesis
nula puesto que texp = 2, 3669 > t13;0,1 = 1, 35.
b) Iµx−µy = [−0,253645, 0,326085].
8. Se desea saber si la puntuacion media de 2 equipos de baloncesto a lo
largo de la ultima temporada puede considerarse igual o no. Para ello,
se seleccionaron 2 muestras aleatorias e independientes, obteniendose los
siguientes resultados:
Equipo A: x = 62, 8 S2x = 5, 7 nx = 16
Equipo B: y = 64, 0 S2y = 7, 1 ny = 21
196 CAPITULO 6. CONTRASTES PARAMETRICOS
Se sabe que las puntuaciones de los equipos siguen distribuciones nor-
males. Considere un nivel de significacion del 10%.
Solucion: Contraste: H0 : µx = µy
H1 : µx = µy
Realizamos antes el contraste:H0 : σ2
x = σ2y
H1 : σ2x = σ2
y
Como no hay evidencias para rechazar aceptamos la igualdad de var-
ianzas puesto que Fexp = 0, 80 ∈ (0, 43; 2, 2). Las puntuaciones de los
equipos de pueden considerar iguales puesto que texp = −1, 4184 ∈(−1, 696; 1, 696).
9. Una cadena de grandes almacenes esta considerando la decision de adquirir
nuevas maquinas etiquetadoras. Para comprobar si las nuevas maquinas
mejoran significativamente la eficacia de los empleados, selecciona a dos
grupos de 9 trabajadores para realizar un control sobre el numero de
etiquetas colocadas en perıodos de 5 minutos. En el Grupo 1 se utilizan
las antiguas maquinas y en el Grupo 2 las nuevas, tras un perıodo de
adaptacion de los empleados. Los resultados obtenidos son los siguientes:
Grupo 1 305 312 300 248 290 264 272 301 275
Grupo 2 303 301 310 303 309 296 315 282 272
Suponiendo que el numero de etiquetas colocadas cada 5 minutos sigue
una distribucion normal, y utilizando un nivel de significacion del 5%,
¿mejoran las nuevas maquinas significativamente la eficiencia de los em-
pleados?
Solucion: Contraste: H0 : µx ≥ µy
H1 : µx < µy
EJERCICIOS DE AUTOEVALUACION 197
Realizamos antes el contraste:H0 : σ2
x = σ2y
H1 : σ2x = σ2
y
Como no hay evidencias para rechazar aceptamos la igualdad de varian-
zas puesto que Fexp = 2, 41 ∈ (0, 23; 4, 43). Como no hay evidencias para
rechazar aceptamos H0, puesto que texp = −1, 6129 > t16;0,05 = −1, 746.
Luego, no podemos afirmar que las nuevas maquinas mejoran la eficiencia
de los empleados.
10. Se piensa que la subvencion media percibida por agricultor en la provin-
cia A, supera en mas de 1202 euros a la subvencion media percibida
en la provincia B. Seleccionadas dos muestras aleatorias de 10 agricul-
tores en cada una de las provincias, se obtienen los siguientes resultados
expresados en miles de euros:
Provincia A: x = 8, 414 S2x = 9, 030
Provincia B: y = 5, 409 S2y = 0, 0903
Suponiendo que la cuantıa de las subvenciones sigue en ambas provincias
distribuciones normales con varianza diferente, ¿se puede admitir, con un
1% de significacion, la afirmacion anterior?
Solucion: Contraste: H0 : µx ≤ µy + 1, 202
H1 : µx > µy + 1, 202
Como no hay evidencias para rechazar aceptamos la hipotesis nula puesto
que texp = 1, 888 < t9;0,99 = 2, 821. No se puede considerar valida la
afirmacion.
11. Se esta estudiando si la proporcion de familias con vivienda en propiedad
totalmente pagada en una determinada ciudad es superior al 25%. Para
ello se toma una muestra de 800 familias y se obtiene que la proporcion
de familias con viviendas en propiedad totalmente pagada es del 18%.
Con un nivel de confianza del 95%, se pide:
198 CAPITULO 6. CONTRASTES PARAMETRICOS
a) ¿Es consistente la hipotesis a probar con el resultado obtenido en
la muestra?
b) ¿Podrıamos considerar que dicha proporcion es del 20%?
Solucion:
a) Contraste:H0 : P ≤ 0′25
H1 : P > 0′25
. Estadıstico experimental: Z = −4′5723.
Region crıtica: Zexp > z0′05 = −1′645 . No ocurre que la proporcion
de familias con vivienda en propiedad totalmente pagada sea supe-
rior al 25%.
b) Contraste:H0 : P = 0′20
H1 : P = 0′20
. Estadıstico experimental: Z = −1′4142.
Region crıtica:
Zexp > z0′025 = 1′96
o
zexp < −z0′025 = −1′96
. Sı lo podrıamos consid-
erar.
12. En la preparacion para las negociaciones de renovacion de un contrato,
un sindicato realizo entrevistas entre sus miembros, con el proposito de
averiguar si preferıan un incremento considerable de las prestaciones de
la jubilacion o un aumento mas pequeno de sueldo. Se entrevisto a un
grupo de 1000 hombres y 500 mujeres. De ellos, 743 y 405 se pronunciaron
a favor del incremento en las prestaciones de jubilacion, respectivamente.
Considere un nivel de significacin del 1%. Se pide:
a) ¿Podemos considerar que el porcentaje de hombres que estan a favor
de un aumento mas pequeno de sueldo es del 23%?.
b) ¿Podemos considerar que la proporcion de hombres y mujeres que
estan a favor del incremento en las prestaciones de jubilacion son
iguales?.
c) ¿Podemos considerar que las mujeres estan en mayor proporcion
mas preocupadas por su jubilacion que los hombres?
EJERCICIOS DE AUTOEVALUACION 199
Solucion:
a) Contraste:H0 : P = 0′23
H1 : P = 0′23
. Estadıstico experimental: Z = 2′02887.
Region crıtica:
Zexp > zα2= 2′575
o
zexp < −zα2= −2′575
. Aceptamos que la propor-
cion puede ser del 23%.
b) Contraste:H0 : Px = Py
H1 : Px = Py
. Estadıstico esperimental: Z = −2′8864.
Region crıtica:
Zexp > zα2= 2′575
o
zexp < −zα2= −2′575
. Rechazamos la hipotesis
nula.
c) Contraste:H0 : Px ≥ Py
H1 : Px < Py
. Zexp < −z0′01 = −2′325 . Las mujeres
se inclinan en mayor proporcion por el incremento en la jubilacion.
13. Con la implantacion de la Ley de Dependencia dos areas de una gran ciu-
dad estan siendo consideradas como posibles sedes de centros de atencion
diurna. De 200 familias entrevistadas en una seccion (X), el numero de
madres que trabajaban a tiempo completo fue de 115. El la otra seccion
(Y), el 40% de las 150 familias entrevistadas tenıan madres que tra-
bajaban en empleos de tiempo completo. Con un nivel de significacion
α = 0′01 se pide:
a) ¿Existen diferencias significativas en la proporcion de madres que
trabajan en las dos 2 areas de la ciudad?
b) Si deciden poner la sede de atencion diurna en aquella seccion en la
que la proporcion de madres que trabajan a tiempo completo sea
mayor, ¿podrıamos decir que la ubicacion idonea es la seccion X?
c) ¿Podemos concluir que el porcentaje de madres que trabajan en la
seccion X es del 50%?
200 CAPITULO 6. CONTRASTES PARAMETRICOS
Solucion:
a) Contraste:H0 : Px = Py
H1 : Px = Py
. Estadıstico experimental: Z = 3′2403.
Region crıtica:
Zexp > z0′005 = 2′5775
o
zexp < −z0′005 = −2′5775
. Se rechaza la hipotesis
nula, no son iguales.
b) Contraste:H0 : Px ≤ Py
H1 : Px > Py
. Region crıtica: Zexp > z0′01 = 2′325 .
Sı se puede concluir que la ubicacion idonea es la seccion X.
c) Contraste:H0 : P = 0′5.
H1 : P = 0′5.
. Estadıstico experimental: Z = 2′1213.
Region crıtica:
Zexp > z0′005 = 2′5775
o
zexp < −z0′005 = −2′5775
. No podemos rechazar
que el porcentaje de madres que trabajan en la seccion X es del
50%.
14. Se esta llevando a cabo un estudio para comprobar si el nivel de conocimien-
tos dn la asignatura de Estadıstica de los licenciados en LADE es similar
en dos universidades distintas. Para ello, se han elegido de forma aletoria
a 10 licenciados de LADE de cada una de las universidades, y se les ha
sometido a un test de conocimientos. Las notas obtenidas se muestran a
continuacion, ası como una tabla con resultados:
Universidad A 6’5 7 1 9’6 5’7 7’9 1’8 4’6 10 6’7
Universidad B 7’3 6’4 6’5 4’5 4’1 4’8 5’7 6’5 6’7 6’9
EJERCICIOS DE AUTOEVALUACION 201
Trabajando con un 95% de confianza, se pide:
a) ¿Se puede considerar que cada una de las muestras siguen una dis-
tribucion normal?
b) ¿Podemos considerar que la nota media en la universidad A es 6?
c) ¿Podrıamos considerar que la variabilidad en las calificaciones son
iguales?
d) ¿Podemos concluir que la preparacion es similar en las dos univer-
sidades?
Solucion:
a) Si. Ver tabla de normalidad.
b) Sı. Ver test t.
c) No. Ver prueba de Levene.
d) Sı.
202 CAPITULO 6. CONTRASTES PARAMETRICOS
15. Una empresa que tiene dos vendedores proyecta repartir bonificaciones
al vendedor que tenga mayor capacidad de venta. Para ello, mide sus
volumenes de ventas (en miles de euros) en seis instantes del tiempo. Las
resultados obtenidos se muestran a continuacion, ası como una tabla con
informacion adicional:
Vendedor 1 6’34 8’53 9’43 8’37 9’64 6’46
Vendedor 2 6 5’89 5’30 6’33 8’79 5’13
EJERCICIOS DE AUTOEVALUACION 203
Trabajando con un 95% de confianza, se pide:
a) ¿Se puede considerar que cada una de las muestras siguen una dis-
tribucion normal?
b) ¿Podemos considerar que el volumen de ventas del vendedor 1 es de
9000 euros?
c) ¿Podrıamos considerar que las variabilidades en el volumen de ven-
tas son iguales?
d) ¿Podemos concluir que el volumen de ventas del primer vendedor
es superior al segundo?
Solucion:
a) Sı. Ver tabla de normalidad.
b) Sı. Ver tabla de la prueba t.
c) Si. Test de Levene.
d) No.
204 CAPITULO 6. CONTRASTES PARAMETRICOS
Capıtulo 7
Contrastes no parametricos
Los contrastes no parametricos se han clasificado de la siguiente forma:
Contrastes de aleatoriedad:
• Test de rachas de Wald-Wolfowitz.
Contrastes de localizacion
• Test de los rangos-signos de Wilcoxon.
Contrastes de comparacion de poblaciones:
• Test U de Mann-Whitney
• Test de Kruskal-Wallis
Contrastes de bondad de ajuste:
• Test χ2 de Pearson.
• Contrastes de normalidad:
Tablas de contingencia:
205
206 CAPITULO 7. CONTRASTES NO PARAMETRICOS
• Contrastes de independencia.
• Contrastes de homogeneidad.
7.1. Contrastes de Aleatoriedad
Entre todos los contrastes de aleatoriedad existentes, vamos a considerar
el llamado test de rachas de Wald-Wolfowitz.
Si la variable aleatoria toma valores solo de dos tipos: exito y fracaso,
denominamos racha a cada uno de los subconjuntos maximales de la sucesion
formados por sımbolos consecutivos e identicos. El numero de sımbolos de una
racha es su longitud.
Ejemplo 7.1.1 En la sucesion “AAAABBAAABBBAAAAAAABB”, pueden
distinguirse 6 rachas: “AAAA”, “BB”, “AAA”, “BBB”, “AAAAAAA” y “BB”.
Hay una racha de longitud 7, otra de longitud 4, dos de longitud 3 y otras tantas
de longitud 2.
El test de Wald-Wolfowitz se basa en el concepto de racha. Si en una
muestra el numero total de rachas es muy elevado pensaremos que la muestra
no es aleatoria. Analogamente si el numero total de rachas es pequeno tambien
pensaremos que la muestra no es aleatoria. Por ejemplo en el lanzamiento de
una moneda la sucesion:
CCCCCCCCCCXXXXXXXXXX
con solo dos rachas seguramente no es el resultado de una muestra aleatoria.
Analogamente la sucesion:
CXCXCXCXCXCXCXCXCXCX
7.1. CONTRASTES DE ALEATORIEDAD 207
tampoco parece que sea una muestra aleatoria.
Denotemos porX a la variable aleatoria asociada a una poblacion muestrea-
da, de modo que solo puede tomar 2 valores (por ejemplo, A y B, que pueden
representar, respectivamente, a “exito” y “fracaso”). Se plantea el siguiente
contraste:
H0 : La muestra es aleatoria.
H1 : La muestra no es aleatoria.
El estadıstico a utilizar es el numero total de rachas en la muestra (R),
que se obtiene como la suma de los numeros de rachas de tipo A y de tipo B
(respectivamente, R1 y R2). La distribucion del estadıstico R depende de los
parametros anteriores y del numero de elementos de cada tipo que aparecen.
Si el tamano de la muestra es n, escribiremos que hay n1 elementos de tipo A
y n2 de tipo B (n = n1 + n2).
La region crıtica con un nivel de confianza α es:
Rexp ≥ R1−α2
o
Rexp ≤ Rα2
donde Rα
2∈ IN es tal que P [R ≤ Rα
2] ≤ α
2y R1−α
2∈ IN es tal que P [R ≥
R1−α2] ≤ α
2.
Como las variables son normalmente de tipo numerico, se procede restando
un valor fijo (la media, la mediana, la moda u otro valor que el investigador
proporcione) para asignar exito o fracaso a cada realizacion de la variable. Este
tipo de contraste se puede resolver utilizando el programa SPSS.
Ejemplo 7.1.2 En un proceso de produccion de un determinado tipo de piezas
208 CAPITULO 7. CONTRASTES NO PARAMETRICOS
de gran precision, se producen piezas buenas y piezas defectuosas. Se selecciona
una muestra aleatoria de 18 piezas fabricadas por un mismo individuo durante
un dıa, las piezas que fueron buenas y las que fueron defectuosas aparecieron
en el siguiente orden:
DDBDBBDDDBBBBDDBBB.
¿Se puede decir, con un nivel de significacion del 5%, que estas observaciones
constituyen una muestra aleatoria?
Solucion: Consideramos el test:
H0 : La muestra es aleatoria.
H1 : La muestra no es aleatoria.
En este caso:
n1 = 8, n2 = 10, n = 8+10 = 18, R1 = 4, R2 = 4, Rexp = 4+4 = 8
De las tablas correspondientes (Tabla 0.1.4, Anexo Tablas), se obtiene que:
P [R ≤ 5] = 0,0134 ≤ 0,025 pero P [R ≤ 6] = 0,0479 > 0,025
Por tanto Rα2= 5. Analogamente:
P [R ≤ 14] = 0,9905 ≥ 0,975 pero P [R ≤ 13] = 0,9636 < 0,975
Por tanto R1−α2= 14.
Como 8 ∈ (5, 14), no hay evidencias para rechazar H0 y, por tanto, con-
cluimos que la muestra es aleatoria con un nivel de significacion del 5%.
Con el programa SPSS, utilizando el menu Analizar\ Pruebas no Parametricas\Rachas (y en el caso del ejemplo la opcion Personalizado introduciendo co-
mo punto de corte el valor 1′5 (dado que los valores B y D se han introducido
de tipo numerico (1 y 2)); se obtienen como resultado dos posibilidades segun
que la variable sea mayor o menor que dicho valor):
7.1. CONTRASTES DE ALEATORIEDAD 209
Pulsamos Aceptar y tendrıamos resuelto el contraste.
El resultado obtenido es:
El valor del estadıstico es 8 al igual que antes. Podemos resolver el contraste
haciendo uso del P-valor que en este caso es igual a 0,494 y al ser mayor a
0,05 no tenemos evidencia para rechazar la hipotesis nula, luego concluimos
que la muestra es aleatoria con un nivel de significacion del 5%.
En las muestras de tipo numerico, se resta la mediana a cada elemento
(aunque a veces se resta la media u otro indicador de posicion); el test de
aleatoriedad se le aplicarıa a la muestra resultado de llamar exito, por ejemplo,
210 CAPITULO 7. CONTRASTES NO PARAMETRICOS
a que la diferencia sea positiva y fracaso a que sea negativa. Para resolver este
tipo de contrastes con SPSS se harıa igual que antes, pero en el cuadro de
dialogo pulsarıamos la opcion Mediana, en vez de Personalizado.
Conviene recordar que, como en cualquier contraste, la decision puede pro-
ceder del estudio de un P -valor y no de la determinacion de si el estadıstico
pertenece o no a la region crıtica. El procedimiento del P -valor suele preferirse
cuando se cuenta de un programa informatico adecuado.
Hagamos ahora una observacion sobre el test de aleatoriedad presentado
cuando n1 o n2 sean mayores que 10. En este caso, las tablas no suelen abarcar
tales valores y se puede utilizar la siguiente aproximacion por la normal:
Z =R− E(R)√
var(R)∼ N(0, 1)
donde E(R) = 2n1n2
n+ 1 y var(R) = 2n1n2(2n1n2−n)
n2(n−1)
La region crıtica del contraste de aleatoriedad serıa (−∞,−zα2)∪(zα
2,+∞),
siendo zα2tal que P [Z ≤ zα
2] = α
2.
Finalmente, conviene apuntar que, cuando se aplica el test de rachas a
algunas series temporales, se puede utilizar una region crıtica unilateral a la
izquierda, con lo que Rα serıa el mayor entero tal que P [R ≤ Rα] ≤ α y la
region de aceptacion para H0 serıa (Rα,+∞).
7.2. Contrastes de Localizacion
Con estos test pretendemos contrastar el valor de alguna medida de posicion
o localizacion de la distribucion que sigue la poblacion considerada, de tal
manera que nos ayude a localizar estadısticamente la distribucion.
7.2. CONTRASTES DE LOCALIZACION 211
7.2.1. Contraste de rangos-signos de Wilcoxon
Es uno de los llamados contrastes de localizacion y lo plantearemos, inicial-
mente, proponiendo un valor de la mediana como:
H0 : Me = m
H1 : Me = m
El primer paso para la aplicacion de este contraste consiste en restar m a
cada elemento de la muestra: Di = Xi−m. Si algun Di = 0, se desprecia dicha
observacion, reduciendo el tamano muestral.
En segundo lugar, se asocia a cada observacion:
El signo es “+” o “−” segun sea el de Di.
El rango es el numero de orden que corresponde a |Di| en el conjunto de
todos los valores absolutos de losDi. Cuando hay varios valores absolutos
iguales, se calcula la media aritmetica entre dichos numeros de orden y
se le asigna dicho rango promedio a todos los “empatados” (por esto, el
rango promedio no sera necesariamente entero).
A continuacion, se calcula el estadıstico de rangos-signos de Wilcoxon:
T+ = suma de los rangos de los Di con signo + .
Si el estadıstico experimental T+exp es grande significa que muchos valores
en la muestra por encima de m y/o estan muy alejados de m, por lo que,
probablemente la mediana es mayor quem y rechazarıamos la hipotesis nula de
que la mediana es m. Tambien rechazaremos esta hipotesis si T+exp es pequeno
212 CAPITULO 7. CONTRASTES NO PARAMETRICOS
porque en este caso hay pocos valores en la muestra por encima de m y/o
estan cerca de m, por lo que, probablemente la mediana es menor que m y
rechazarıamos la hipotesis nula de que la mediana es m.
La region crıtica con un nivel de confianza α es:
T+exp ≥ k1−α
2
o
T+exp ≤ kα
2
donde kα
2∈ IN es tal que P [T+ ≤ kα
2] ≤ α
2y k1−α
2∈ IN es tal que P [T+ ≥
k1−α2] ≤ α
2.
Tambien se pueden plantear contrastes unilaterales de rangos-signos:
H0 : Me ≤ m
H1 : Me > m
La region crıtica con un nivel de confianza α es:
T+exp ≥ kα
donde kα ∈ IN es tal que P [T+ ≥ kα] ≤ α.
H0 : Me ≥ m
H1 : Me < m
La region crıtica con un nivel de confianza α es:
T+exp ≤ kα
7.2. CONTRASTES DE LOCALIZACION 213
donde kα ∈ IN es tal que P [T+ ≤ kα] ≤ α.
Si n es demasiado grande como para poder consultar las tablas (n > 15),
se utiliza la siguiente “aproximacion para muestras grandes”:
Zexp =T+ − n(n+1)
4√n(n+1)(2n+1)
24
,
que, bajo H0, se comporta como una Z ∼ N(0, 1).
Ejemplo 7.2.1 De un estudio sobre cierta poblacion en una region, se deduce
que el numero mediano de individuos por Km2 es 12. Se toma una muestra
aleatoria de 15 cuadrados de un Km. de lado de una zona concreta de la region;
el numero de individuos que pueblan cada cuadrado es: 16, 6, 14, 47, 13, 10,
23, 30, 87, 20, 7, 23, 9, 19 y 8.
Se tiene la idea de que la zona elegida es de las mas pobladas de la region.
¿Podemos probar estadısticamente esta afirmacion con α = 0′05?
Solucion: El contraste que debemos plantear es:
H0 : Me ≤ 12
H1 : Me > 12
La muestra ordenada, los signos y los rangos son:
214 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Xi Di Signo |Di| Rango
6 -6 - 6 8
7 -5 - 5 7
8 -4 - 4 5’5
9 -3 - 3 4
10 -2 - 2 2’5
13 1 + 1 1
14 2 + 2 2’5
16 4 + 4 5’5
19 7 + 7 9
20 8 + 8 10
23 11 + 11 11’5
23 11 + 11 11’5
30 18 + 18 13
47 35 + 35 14
87 75 + 75 15
En este caso, n = 15 y T+exp = 1 + 2′5 + . . .+ 15 = 93.
La region crıtica con un nivel de confianza α = 0,05 es:
T+exp = 93 ≥ kα
donde kα ∈ IN es tal que P [T+ ≥ kα] ≤ α (P [T+ < kα] ≥ 1− α). Si miramos
en la Tabla 0.1.7, Anexo Tablas, obtenemos que kα = 90, por lo que se rechaza
la hipotesis nula y la mediana es superior a 12.
7.3. Contrastes de Comparacion de Poblaciones
Entre los llamados contrastes de comparacion de poblaciones, los mas uti-
lizados son: el test de la mediana, el de Siegel-Tukey (para diferencias de vari-
abilidad o dispersion) y el de Wilcoxon-Mann-Whitney, que explicaremos a
continuacion. Se trata de comparar dos poblaciones, no necesariamente nor-
males, a traves de sus funciones de distribucion.
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 215
7.3.1. Contraste de Wilcoxon-Mann-Whitney
En este contraste suponemos dos distribuciones de probabilidad, correspon-
dientes a las variables aleatorias X e Y , que son iguales en todo salvo, tal vez,
en su localizacion, es decir, una puede estar transladada respecto de la otra.
Representemos por F yG a las funciones de distribucion respectivas. Notese
que, a mayores valores de la funcion de distribucion, corresponden menores
valores de la media (la representacion grafica de las funciones de densidad
puede servir para entender mejor esta afirmacion). Por esto, las comparaciones
de las funciones de distribucion F y G son utiles para comparar las medias
poblacionales respectivas µx y µy.
En estos contrastes (unilaterales o bilaterales) el estadıstico de prueba es o
bien:UX ≡ numero acumulado de observaciones Y
que sobrepasan en la muestra combinada
a las observaciones X
o bien:UY ≡ numero acumulado de observaciones X
que sobrepasan en la muestra combinada
a las observaciones Y
Puede probarse que:
UX = n1n2 +n1(n1 + 1)
2−WX ,
216 CAPITULO 7. CONTRASTES NO PARAMETRICOS
UY = n1n2 +n2(n2 + 1)
2−WY ,
siendo n1 y n2 los tamanos muestrales respectivos de ambas muestras y WX
y WY la suma de los rangos que ocupan las observaciones X e Y , respectiva-
mente, en la muestra combinada y ordenada.
Ası para contrastar la igualdad de medias poblacionales se plantea el test
bilateral:
H0 : F (z) = G(z) ∀ z ≡ (µX = µY )
H1 : F (z) = G(z) ∀ z ≡ (µX = µY )
Si UX exp (UY exp)es grande significa que hay muchas observaciones Y (X)
que superan a las X (Y ) y por tanto la distribucion G (F ) domina estocastica-
mente a la distribucion F (G) y rechazaremos la igualdad de las distribuciones.
Tambien rechazaremos la igualdad cuando UX exp (UX exp) es pequeno porque,
en este caso, al haber pocas observaciones Y (X) que superan a las X (Y ), F
(G) domina estocasticamente a G (F ).
Ası la region crıtica con un nivel de confianza α es:
UX exp > UX;1−α2
o
UX exp < UX;α2
UY exp > UY ;1−α
2
o
UY exp < UY ;α2
donde UX;α
2∈ IN es tal que P [UX ≤ UX;α
2] = α
2y UX;1−α
2∈ IN es tal que
P [UX ≥ UX;1−α2] = α
2.
Analogamente se plantean los contrastes unilaterales:
H0 : F (z) ≥ G(z) ∀ z ≡ (µX ≤ µY )
H1 : F (z) < G(z) ∀ z ≡ (µX > µY )
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 217
La region crıtica con un nivel de confianza α es:
UX exp < UX;α
donde UX;α ∈ IN es tal que P [UX < UX;α] = α.
H0 : F (z) ≤ G(z) ∀ z ≡ (µX ≥ µY )
H1 : F (z) > G(z) ∀ z ≡ (µX < µY )
La region crıtica con un nivel de confianza α es:
UX exp > UX;1−α
218 CAPITULO 7. CONTRASTES NO PARAMETRICOS
donde UX;1−α ∈ IN es tal que P [UX > UX;1−α] = α.
Los valores crıticos del test de Mann-Whitney se encuentran el la Tabla
A22, en la que hay que tener en cuenta que:
U1−α = n1n2 − Uα.
Para valores de n1 y n2 mayores que 10, como en casos anteriores, se puede
utilizar la aproximacion que surge de que, bajo H0,
Z =Ux − E(Ux)√
var(Ux)=
Ux − n1n2
2√n1n2(n1+n2+1)
12
∼ N(0, 1)
Podemos resolver este contraste haciendo uso del SPSS y para ello, uti-
lizamos Analizar\ Pruebas no Parametricas\ 2 muestras independi-
entes e introducimos la variable de nuestro estudio e indicamos el rango de la
variable de agrupacion.
Ejemplo 7.3.1 Se quiere estudiar el contenido en azucar (en gramos por
unidad) de las naranjas de dos cooperativas citrıcolas a partir de dos muestras
independientes, cuyo analisis ha producido los siguientes resultados:
X 2’1 6’3 4’2 5’5 4’8 3’7 6 3’3
Y 4’3 0’9 3’1 2’5 4’2 6’2 1’6 2’2 1’9 5’5
¿Puede deducirse de estos datos que las dos variedades tienen el mismo con-
tenido de azucar?
Solucion: En primer lugar nos aseguraremos que las muestras han sido elegidas
de forma aleatoria. Resolvemos el siguiente contraste:
H0 : La muestra X es aleatoria.
H1 : La muestra X no es aleatoria.
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 219
Utilizando el paquete estadıstico SPSS y obtenemos:
Como el P-valor es 0′252 mayor que 0′05 concluimos que la muestra X
se ha elegido de forma aleatoria. Para la muestra Y planteamos el siguiente
contraste:
H0 : La muestra Y es aleatoria.
H1 : La muestra Y no es aleatoria.
El P-valor es igual a 0′737 mayor a 0′05, luego la muestra Y ha sido elegida de
forma aleatoria.
220 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Una vez que hemos compobado que ambas muestras han sido elegidas de
forma aleatoria contrastemos, al nivel de significacion α = 0′05, si las dos
muestras proceden de variedades con diferentes contenidos en azucar:
H0 : F (z) = G(z) ∀ z ≡ (µX = µY )
H1 : F (z) = G(z) ∀ z ≡ (µX = µY )
El siguiente paso consiste en combinar y ordenar ambas muestras:
Observaciones 0’9 1’6 1’9 2’1 2’2 2’5 3’1 3’3 3’7
Muestra Y Y Y X Y Y Y X X
Rango 1 2 3 4 5 6 7 8 9
4’2 4’2 4’3 4’8 5’5 5’5 6 6’2 6’3
X Y Y X Y X X Y X
10’5 10’5 12 13 14’5 14’5 16 17 18
El estadıstico experimental es:
UX exp = 7 + 4 + 4 + 3,5 + 2 + 1,5 + 1 + 0 = 23
Como n1 = 8 y n2 = 10 puede comprobarse facilmente que:
UX = n1n2 +n1(n1 + 1)
2−WX = 80 +
72
2− 93 = 23,
puesto que:
WX = 4 + 8 + 9 + 10,5 + 13 + 14,5 + 16 + 18 = 93
Region crıtica:
UXexp = 23 > U0,975
o
UXexp = 23 < U0,025
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 221
donde U0,025 ∈ IN es tal que P [UX < U0,025] = 0,025 (si miramos en la tabla:
U0,025 = 17) y U0,975 ∈ IN es tal que P [UX > U0,975] = 0,025 (U0,975 = n1n2 −U0,025 = 80− 17 = 63).
Por lo que no podemos rechazar H0 y debemos aceptar que no existe difer-
encia entre los contenidos de azucar en las dos muestras.
Si utilizamos SPSS, tenemos el siguiente cuadro de dialogo:
y obtenemos los siguientes resultados:
El P-valor es 0′131 mayor que 0′05, luego no hay evidencias para rechazar la
igualdad entre los contenidos de azucares en las dos muestras.
222 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Ejemplo 7.3.2 En el primer semestre del ano, se seleccionaron aleatoria-
mente los importes de 12 multas por danos al Medio Ambiente en una re-
gion: 23’5, 20’8, 21’6, 25’7, 24’2, 20’2, 19’7, 21’9, 22’6, 24’5, 21’7 y 22’6 (en
cientos de unidades monetarias). En el segundo, se eligieron otras 12: 22’9,
22’6, 23’4, 25, 25’1, 24’4, 22’2, 24’9, 21’5, 25’5, 23’3 y 24’6. ¿Existen diferen-
cias significativas (α = 0′1) entre los importes medios de las multas de ambos
semestres?
Solucion: Utilizando el programa SPSS obtenemos:
El P-valor es 0′057 menor a 0′1, luego rechazamos la hipotesis nula.
En este caso, n1 = n2 = 12, UX exp = 105. Como n1 > 10 y n2 > 10,
aproximamos por una normal. Utilizamos que E[U ] = n1n2
2= 72 y V ar(U) =
n1n2(n1+n2+1)12
= 300:
Zexp =105− 72√
300= 1′91
La region crıtica es:
Zexp = 1′91 > z0′05 = 1′645
o
Zexp = 1′91 < −z0′05 = −1′645
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 223
Por lo que, en este caso, rechazamos H0.
7.3.2. Contraste de Kruskal-Wallis para la comparacion
de mas de dos poblaciones
Consideremos k muestras aleatorias independientes procedentes de k pobla-
ciones continuas, desconocidas pero con forma y dispersion similares de manera
que solo difieren, tal vez, en la ubicacion.
El contraste a plantear es:
H0 : Todas las muestras proceden de la misma poblacion
H1 : Al menos dos de ellas son diferentes
En la muestra combinada y ordenada se asignan rangos y se suman los
rangos asignados a los elementos de cada muestra:
Ri =
ni∑j=1
rij ∀ i = 1, . . . , k
donde ni, i = 1, 2, . . . , k son los tamanos muestrales de cada muestra y rij son
los rangos que correspondes a la muestra combinada y ordenada a los elementos
de la muestra i. La suma de todos los rangos la denotamos por R
El estadıstico de prueba es:
H =12V
n(n+ 1),
donde V representa la suma de las diferencias cuadraticas entre los rangos
medios de cada muestra, Ri, y el rango medio total, R:
V =k∑
i=1
ni(Ri − R)2
224 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Este estadıstico, H, puede escribirse:
H =12
n(n+ 1)
k∑i=1
R2i
ni
− 3(n+ 1)
La region crıtica con un nivel de confianza α es:
Hexp ≥ hα
donde hα ∈ IR se busca en la Tabla A23 y es tal que P [H ≥ hα] = α.
Siempre que el numero de elementos de cada muestra sea mayor que 5
(ni > 5∀ i = 1, . . . , k), el estadıstico, H se comporta asintoticamente, bajo H0,
como una χ2k−1.
Este contraste lo podemos resolver utilizando el paquete estadıstico SPSS.
Para ello utilizamos Analizar\ Pruebas no Parametricas\ K muestras
independientes e introducimos la variable numerica y asignamos el rango a
la variable de agrupacion.
Ejemplo 7.3.3 En el examen de Estadıstica se proponen 3 tipos de examen.
Se eligen 6 alumnos de cada grupo y se corrigen sus examenes obteniendose
las siguientes puntuaciones:
Tipo A: 6’5, 8’4, 3’5, 7’5, 6, 5’4.
Tipo B: 9’5, 4’6, 5’8, 7’4, 2’5, 7.
Tipo C: 4’8, 3, 9’8, 8’7, 5, 9’6.
¿Hay la misma distribucion de calificaciones en los tres tipos de examenes?
Solucion: En primer lugar comprobamos que se da la aleatoriedad en cada tipo
de examen. Utilizando el programa SPSS obtenemos los siguientes resultados:
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 225
Observamos que en los tres casos el P-valor obtenido es superior a 0′05,
luego al no existir evidencias para rechazar aceptamos la aleatoriedad en cada
uno de los grupos.
A continuacion nos planteamos si las calificaciones se distribuyen igual o
no. Para ello, ordenamos las observaciones de menor a mayor y asignamos
rangos:
Observaciones Rangos r1j r2j r3j
B 2′5 1 1 = r21
C 3 2 2 = r31
A 3′5 3 3 = r11
B 4′6 4 4 = r22
C 4′8 5 5 = r32
C 5 6 6 = r33
A 5′4 7 7 = r12
B 5′8 8 8 = r23
A 6 9 9 = r13
A 6′5 10 10 = r14
B 7 11 11 = r24
B 7′4 12 12 = r25
A 7′5 13 13 = r15
A 8′4 14 14 = r16
C 8′7 15 15 = r35
B 9′5 16 16 = r26
C 9′6 17 17 = r35
C 9′8 18 18 = r36
R = 171 R1 = 56 R2 = 52 R3 = 63
El valor del estadıstico es Hexp = 1218(18+1)
[562
6+ 522
6+ 632
6
]− 3(18 + 1) =
226 CAPITULO 7. CONTRASTES NO PARAMETRICOS
0,3626.
Como los tamanos muestrales son mayores que 5, la region crıtica con un
nivel de confianza α = 0′05 es:
Hexp ≥ χ22;0′95
Como Hexp = 0′3626 < 5′99 = χ22;0′95, no hay evidencias para rechazar (luego
se acepta) H0 al 5% de significacion, es decir, de los datos muestrales no se
deduce que haya diferencias en la dificultad del examen.
Con el programa estadıstico SPSS podemos ver si la distribucion en las
calificaciones es la misma en los tres tipos de examenes utilizando el siguiente
cuadro de dialogo:
El resultado obtenido es el siguiente:
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 227
El P-valor que obtenemos es igual a 0′834 y al ser mayor a 0′05 no tenemos
evidencias para rechazar la hipotesis nula. Por tanto, aceptamos que no existen
diferencias significativas en cuanto al tipo de examen.
7.3.3. Test de Dunn para comparaciones multiples
Cuando el test de Kruskal-Wallis rechaza la hipotesis nula, se concluye
que las distribuciones no son identicas. No obstante, puede interesar saber
cuales son las medias significativamente diferentes entre sı. Esto se puede hacer
utilizando el test de Wilcoxon-Mann-Whitney1 para cada par de muestras.
Otro procedimiento que se utiliza el metodo de Dunn:
H0 : No existen diferencias significativas entre las muestras i y l
H1 : Existen diferencias significativas entre las muestras i y l
1Para utilizar la U de Mann-Whitney, deberıamos aplicar una correccion y no comparar
el P-valor con el nivel de significacion α sino con α k
2
, donde
(k
2
)es el no de posibles
comparaciones dos a dos entre los k grupos.
228 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Estadıstico de prueba:
|Ri − Rl|
donde Ri es la media muestral de los rangos asignados a la muestra i-esima,
Ri =1ni
∑ni
j=1 rij para cada i = 1, . . . , k (analogamente Rl).
La region crıtica con un nivel de confianza α = 0,05 es:
|Ri − Rl|exp ≥ cil
siendo cil = zp
√n(n+1)
12
(1ni
+ 1nl
), con p = α
k(k−1)y zp tal que P [Z ≥ zp] = p,
donde Z ∈ N(0, 1).
Ejemplo 7.3.4 A fin de disminuir la contaminacion que producen tras su
utilizacion, se decide modificar la composicion de las pilas alcalinas en 3 marcas
distintas, lo cual provoca dudas sobre su calidad. Para comparar las 3 marcas,
se controla la duracion en un dispositivo electrico de 17 pilas. Los resultados
obtenidos fueron:
Marca Horas de duracion
A 125 140 218 79 98
B 87 100 85 65 115 83
C 55 50 78 93 60’6 78
Utilizando el test de Kruskal-Wallis a un nivel de significacion del 5%,
¿puede decirse que existen diferencias significativas en las calidades de las 3
marcas? En caso afirmativo, ¿que marcas presentan tales diferencias?
Solucion: En primer lugar comprobamos que se da la aleatoriedad en cada
una de las muestras. Utilizando el programa SPSS obtenemos los siguientes
resultados:
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 229
Observamos que en los tres casos el P-valor obtenido es superior a 0′05, luego
al no existir evidencias para rechazar aceptamos la aleatoriedad en cada uno
de los grupos.
Si Fi(x) es la funcion de distribucion de la variable Xi = “tiempo de du-
racion (en horas) de funcionamiento de la pila de marca i-esima”, planteamos
el contraste:
H0 : F1(z) = F2(z) = F3(z) ∀ zH1 : Al menos 2 son diferentes
En este caso, como hay solo 5 elementos en una de las muestras, hay que
recurrir a la Tabla A23 para deducir que hα = 5′765 (k = 3 y, con tamanos
muestrales 6,6 y 5, se busca hα tal que P [H ≥ hα |H0] = α).
Para calcular el estadıstico experimental combinamos las muestras, orden-
230 CAPITULO 7. CONTRASTES NO PARAMETRICOS
amos y sumamos rangos:
Observaciones Rangos r1j r2j r3j
C 50 1 1 = r31
C 55 2 2 = r32
C 60′6 3 3 = r33
B 65 4 4 = r21
C 78 5′5 5′5 = r34
C 78 5′5 5′5 = r35
A 79 7 7 = r11
B 83 8 8 = r22
B 85 9 9 = r23
B 87 10 10 = r24
C 93 11 11 = r36
A 98 12 12 = r12
B 100 13 13 = r25
B 115 14 14 = r26
A 125 15 15 = r13
A 140 16 16 = r14
A 218 17 17 = r15
R = 153 R1 = 67 R2 = 58 R3 = 28
Tras asignar los rangos, el estadıstico experimental queda:
Hexp =12
17(17 + 1)
[672
5+
582
6+
282
6
]− 3(17 + 1) = 8′3188
Como Hexp > hα, se rechaza H0.
Si utilizamos el programa estadıstico SPSS (aunque un tamano muestras es
exactamente 5), llegamos a la misma conclusion pues los resultados obtenidos
son:
7.3. CONTRASTES DE COMPARACION DE POBLACIONES 231
El P-valor obtenido es 0′016 menor a 0′05, luego rechazamos la hipotesis
nula.
Por tanto, hay que utilizar el metodo de Dunn para saber que marcas son
las que presentan diferencias significativas:
R1 =67
5; R2 =
58
6; R3 =
28
6
p =0′05
3(3− 1)= 0′0083
P [Z ≥ zp] = 0′0083 ⇒ P [Z < zp] = P [Z ≤ zp] = 1− 0′0083 ⇒ zp = 2′395
(de la tabla de la distribucion Z ∼ N(0, 1)).
Primera comparacion:
H0 : No existen diferencias significativas entre las muestras 1 y 2
H1 : Existen diferencias significativas entre las muestras 1 y 2
Estadıstico de prueba:
|R1 − R2|
La region crıtica con un nivel de confianza α = 0′05 es:
232 CAPITULO 7. CONTRASTES NO PARAMETRICOS
|R1 − R2|exp = |675− 58
6| ≥ c12
siendo c12 = zp
√17·1812
(15+ 1
6
)= 7′3234.
Como |R1 − R2|exp = 3′7333 < c12, las marcas A y B no presentan difer-
encias significativas.
Segunda comparacion:
H0 : No existen diferencias significativas entre las muestras 1 y 3
H1 : Existen diferencias significativas entre las muestras 1 y 3
Estadıstico de prueba:
|R1 − R3|
La region crıtica con un nivel de confianza α = 0,05 es:
|R1 − R3|exp = |675− 28
6| ≥ c13
siendo c13 = zp
√17·1812
(15+ 1
6
)= 7′3234.
Como |R1−R3|exp = 8′7333 > c13, las marcas A y C sı presentan diferencias
significativas.
Tercera comparacion:
H0 : No existen diferencias significativas entre las muestras 2 y 3
H1 : Existen diferencias significativas entre las muestras 2 y 3
Estadıstico de prueba:
|R2 − R3|
7.4. CONTRASTES DE BONDAD DE AJUSTE 233
La region crıtica con un nivel de confianza α = 0,05 es:
|R2 − R3|exp = |586− 28
6| ≥ c13
siendo c23 = zp
√17·1812
(16+ 1
6
)= 6′9826.
Como |R2 − R3|exp = 5 < c23, las marcas B y C no presentan diferencias
significativas.
Notese que A y C presentan diferencias significativas pese a no hacerlo A
con B ni B con C.
7.4. Contrastes de Bondad de Ajuste
Un contraste de bondad de ajuste se emplea para verificar si una muestra
aleatoria procede de una poblacion con una cierta distribucion de probabilidad.
Existen diferentes test de bondad de ajuste.
Kolmogorov y Smirnov (1933), proponen un nuevo test de bondad de ajuste
que utiliza la funcion de distribucion empırica de la muestra2. Si deseamos
saber si una muestra se rige por una determinada funcion de distribucion cono-
cida, es logico que se compare dicha distribucion con la funcion de distribucion
empırica de la muestra, que puede considerarse como el estimador de la fun-
cion de distribucion3. La medida de la diferencia entre funcion de distribucion y
2Fn(x) =
0 x ≤ x(1)
......
kn x(k) < x ≤ x(k+1) , k = 1, 2, . . . , n− 1...
...
1 x ≥ x(n)3Teorema de Glivenco Cantelli
234 CAPITULO 7. CONTRASTES NO PARAMETRICOS
funcion de distribucion empırica de la muestra que dan Kolmogorov y Smirnov
es la distancia maxima, medida en direccion vertical, entre las graficas corre-
spondientes a dichas distribuciones.
Tambien puede aplicarse esta misma idea cuando queremos saber si dos
muestra aleatorias provienen de la misma distribucion. En este caso se com-
pararan entre sı las dos funciones de distribucion empıricas de las muestras.
No desarrollaremos este tipo de contrastes en este tema y nos centraremos
exclusivamente en el test χ2 de Pearson, que luego utilizaremos en las tablas
de contingencia.
7.4.1. Test χ2 de Pearson
Introducido por Pearson, 1900, se utiliza para contrastar si una muestra
aleatoria procede o no de una poblacion con una determinada distribucion. Si
denotamos por F0(x) a dicha distribucion, el test puede escribirse:
H0 : F (x) = F0(x)
H1 : F (x) = F0(x)
La distribucion F0(x) se supone totalmente definida. Si alguno de sus paramet-
ros fuera desconocido, se utiliza el estimador de maxima verosimilitud.
Una vez distribuidos los datos muestrales en k categorıas, se trata de ver la
diferencia entre las frecuencias observadas en cada categorıa y las frecuencias
que se esperan bajo H0, es decir, cuando se supone que la muestra proviene
de una distribucion con funcion de distribucion F0(x). Si esta diferencia es
grande se rechaza la hipotesis nula y si, en cambio, dicha diferencia es pequena
no habra motivos para rechazar y entenderemos que la muestra ha sido extraıda
de la distribucion F0(x).
El estadıstico que se utiliza en este test es el estadıstico χ2 que se obtiene
7.4. CONTRASTES DE BONDAD DE AJUSTE 235
sumando las diferencias cuadraticas entre frecuencias observadas y esperadas,
divididas por las frecuencias esperadas:
χ2exp =
k∑i=1
(ni − npi)2
npi
donde:
k es el numero de categorıas que consideramos
pi es la probabilidad, bajoH0, de que una observacion este en la categorıa
i. Ası npi son las frecuencias esperadas.
ni son las frecuencias observadas, es decir, las observaciones de la muestra
que caen en cada categorıa.
Teoricamente, el estadıstico χ2 tiene una distribucion ji- cuadrado con k−h− 1 grados de libertad, siendo h el numero de parametros poblacionales esti-
mados por el metodo de maxima verosimilitud. Esta distribucion es asintotica,
por lo que se exige en la aplicacion del test que npi sea mayor que 5.
El contraste, al nivel de significacion α dado, para contrastar la hipotesis
nula H0, tiene la siguiente region crıtica:
χ2exp =
∑ki=1
(ni−npi)2
npi> χ2
1−α
siendo χ21−α tal que P [χ2
k−h−1 > χ21−α] = α
Ejemplo 7.4.1 Una empresa distribuidora de bebidas senala los siguientes
porcentajes sobre las preferencias de los consumidores espanoles:
236 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Tipo de Bebida Porcentaje
Vino 35 0/0
Cerveza 30 0/0
Licores 20 0/0
Otros 15 0/0
Para tratar de comprobar estos porcentajes se realiza una encuesta a 250 con-
sumidores seleccionados al azar obteniendose los siguientes resultados:
Tipo de Bebida Frecuencias
Vino 90
Cerveza 72
Licores 52
Otros 36
A un nivel de significacion del 5 0/0, contrastar si la muestra obtenida se ajusta
a los datos que maneja la empresa distribuidora.
Solucion: Definimos la variable aleatoria:
X : Tipo de bebida preferida por los consumidores espanoles
Esta variable tiene, desde el punto de vista de la empresa distribuidora, la
siguiente distribucion de probabilidad:
Tipo de Bebida, xi Probabilidad, P [X = xi]
Vino 0’35
Cerveza 0’30
Licores 0’20
Otros 0’15
Se trata de contrastar, con la informacion obtenida en la muestra, si la em-
presa distribuidora esta en lo cierto y esta es efectivamente la distribucion
7.4. CONTRASTES DE BONDAD DE AJUSTE 237
de probabilidad de la variable aleatoria X, o si, en cambio, la distribucion de
probabilidad de la variable es otra distinta. Este contraste puede escribirse:
H0 : p1 = 0′35 , p2 = 0′3 , p3 = 0′2 , p4 = 0′15
H1 : Al menos una pi, i = 1, 2, 3, 4, toma un valor distinto a los anteriores
El estadıstico que se utiliza en este test es el estadıstico χ2 que se obtiene
sumando las diferencias cuadraticas entre frecuencias observadas y esperadas,
divididas por las frecuencias esperadas:
χ2exp =
k∑i=1
(ni − npi)2
npi
Realizamos los calculos en la siguiente tabla:
Bebida, ni pi npi (ni − npi)2 (ni−npi)
2
npi
Vino 90 0’35 87’5 6’25 0’07
Cerveza 72 0’30 75 9 0’12
Licores 52 0’20 50 4 0’08
Otros 36 0’15 37’5 2’25 0’06
n = 250 1 χ2exp = 0′33
La distribucion del estadıstico bajo H0 es χ24−0−1 ≡ χ2
3 y la region crıtica:
0′33 = χ2exp > χ2
0′95
donde χ20′95 es tal que P [χ2
3 ≤ χ20′95] = 0′95, es decir, χ2
0′95 = 7′81. Por tanto,
no hay motivos para rechazar la hipotesis nula y aceptamos que la distribucion
de la variable aleatoria X es la que maneja la empresa distribuidora.
Esto podrıamos haberlo hecho con el programa estadıstico SPSS, escribiendo
las frecuencias observadas y utilizando Analizar\ Pruebas no Parametricas\Chi Cuadrado e introduciendo las frecuencias observadas en el siguiente
cuadro de dialogo:
238 CAPITULO 7. CONTRASTES NO PARAMETRICOS
La salida en la ventana de resultados serıa:
Como podemos observar se obtiene el resultado que antes hemos obtenido de
forma manual.
7.4. CONTRASTES DE BONDAD DE AJUSTE 239
7.4.2. Contrastes de Normalidad
Existen contrastes especıficos de normalidad. Aquı nos centraremos en dos
que realiza SPSS y que son test de Shapiro-Wilk y test de kolmogorov-Smirnov.
Para ello utilizamosAnalizar\ Estadısticos descriptivos\ Explorar y den-
tro de Graficos solicitamos la opcion Graficos con prueba de normalidad
como podemos ver en el siguiente cuadro de dialogo:
Ejemplo 7.4.2
Ver si los siguientes datos proceden de una poblacion normal, utilizando un
nivel de confianza del 99%.
78 73 132 66 102
96 82 67 79 75
85 68 85 92 68
66 67 68 68 73
75 78 79 82 85
85 92 96 102 132
240 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Para ver si la poblacion normal, utilizando el programa SPSS, observamos
en la tabla:
que el P-valor es menor a 0′01. Por tanto rechazamos la hipotesis de normal-
idad.
7.5. Tablas de Contingencia
El estadıstico χ2 de Pearson se utiliza tambien en inferencia estadıstica con
variables cualitativas.
Para estas variables los datos se agrupan en tablas de contingencia, que son
tablas de doble entrada en las que en la casilla (i, j) se representa la frecuencia
conjunta, nij correspondiente a que se presente la caracterıstica de la fila i-
esima con la caracterıstica de la columna j-esima.
A continuacion se representa una tabla de contingencia con dos variables
cualitativas, X (que tiene r posibles categorıas) e Y (con s posibles categorıas).
7.5. TABLAS DE CONTINGENCIA 241
Y Total Marginal
X B1 B2 · · · Bj · · · Bs ni·
A1 n11 n12 · · · n1j · · · n1s n1·
A2 n21 n22 · · · n2j · · · n2s n2·...
......
. . ....
......
...
Ai ni1 ni2 · · · nij · · · nis ni·...
......
. . ....
......
...
Ar nr1 nr2 · · · nrj · · · nrs nr·
Total Marginal
n·j n·1 n·2 · · · n·j · · · n·s n
Las tablas de contingencia pueden obtenerse automaticamente con SPSS
cruzando dos variables conAnalizar\Estadısticos Descriptivos\Tablas decontingencia
7.5.1. Contrastes de Independencia
Vamos a estudiar si existe independencia entre dos caracterısticas de una
poblacion, X e Y , en donde cada una de ellas presentan r y s categorıas respec-
tivamente. Para ello seleccionamos una muestra de tamano n de la poblacion
y clasificamos los elementos de la muestra segun las categorıas de las carac-
terısticas X e Y en una tabla de contingencia.
El contraste serıa:
H0: X e Y son independientes
H1: X e Y no son independientes.
Si designamos por pij a la probabilidad de que un elemento de la muestra
presente las caracterısticas Ai y Bj, entonces la hipotesis nula de independencia
242 CAPITULO 7. CONTRASTES NO PARAMETRICOS
se puede expresar como:
pij = P [Ai ∩Bj] = P [Ai]P [Bj] = pi·p·j.
Entonces, bajo H0, para medir la diferencia entre frecuencias observadas y
esperadas consideraremos la suma:
r∑i=1
s∑j=1
(nij − npij)2
npij=
r∑i=1
s∑j=1
(nij − npi·p·j)2
npi·p·j
Como los estimadores de maxima verosimilitud de pi· y p·j son respectiva-
mente:
pi· =ni·n
y p·j =n·jn,
el estadıstico χ2 de Pearson para contrastar la independencia sera:
χ2 =r∑
i=1
s∑j=1
(nij − ni·n·j
n
)2ni·n·j
n
,
que se distribuye asintoticamente segun una χ2 con (r − 1)(s − 1) grados de
libertad4.
La region crıtica del test es χ2 > χ21−α, donde χ2
1−α es tal que
P [χ2(r−1)(s−1) > χ2
1−α] = α.
Este contraste puede realizarse con SPSS de la siguiente forma. EnAnalizar\Estadısti-cos Descriptivos\Tablas de contingencia pulsamos la pestana Estadısti-
cos:
4rs− [(r − 1) + (s− 1)]− 1 = rs− r − s+ 1 = r(s− 1)− (s− 1) = (r − 1)(s− 1)
7.5. TABLAS DE CONTINGENCIA 243
y en la nueva ventana de dialogo pulsamos Chi Cuadrado:
Ejemplo 7.5.1 Para ver si el rendimiento de los trabajadores de una empresa
a primera hora de la manana depende o no del tiempo que tardan en llegar de
244 CAPITULO 7. CONTRASTES NO PARAMETRICOS
su domicilio al trabajo se toma una muestra de 300 trabajadores clasificando
su rendimiento en una tabla de eficiencia de la siguiente forma:
Eficiencia en el trabajo
Minutos de viaje Poco eficientes Eficientes Muy eficientes
(0,15] 2 85 14
(15,30] 3 80 14
(30,90] 10 75 17
Con los datos obtenidos ¿Puede asegurarse que exista tal dependencia? Con-
trastar al 1%.
Solucion: El contraste serıa:
H0: Las variables son independientes
H1: Las variables no son independientes.
El estadıstico χ2 de Pearson para contrastar la independencia sera:
χ2 =3∑
i=1
3∑j=1
(nij − ni·n·j
n
)2ni·n·j
n
,
que se distribuye asintoticamente segun una χ2 con (3− 1)(3− 1) = 4 grados
de libertad.
Construimos la tabla adjunta el la que cada celda posee la siguiente estruc-
tura:
nijni·n·j
n
(nij−ni·n·j
n )2
ni·n·jn
7.5. TABLAS DE CONTINGENCIA 245
Eficiencia en el trabajo
Minutos de viaje Poco eficientes Eficientes Muy eficientes ni·
(0,15] 2 5’05 85 80’8 14 15’15 101
(15,30] 3 4’85 80 77’6 14 14’55 97
(30,90] 10 5’1 75 81’6 17 15’3 102
n·j 15 240 45 n = 300
Como se observa una frecuencia teorica inferior a 5, habra que realizar agru-
paciones. Para tratar de discriminar entre los que emplean un tiempo de viaje
moderado y los que emplean mucho tiempo, agruparemos las dos primeras cat-
egorıas, resultando la siguiente tabla:
Eficiencia en el trabajo
Minutos de viaje Poco eficientes Eficientes Muy eficientes ni·
(0,30] 5 9’9 165 158’4 28 29’7 198
2’43 0’275 0’1
(30,90] 10 5’1 75 81’6 17 15’3 102
4’71 0’53 0’19
n·j 15 240 45 n = 300
El estadıstico experimental serıa:
χ2exp = 2′43 + 0′275 + 0′1 + 4′71 + 0′53 + 0′19 = 8′235.
Si miramos en las tablas de la χ22, tenemos que χ2
0′99 = 9′21. Como χ2exp =
8′235 < 9′21 = χ20′99, no se rechaza la hipotesis de independencia, es decir,
los datos no senalan dependencia significativa entre el tiempo que tardan los
empleados en llegar al trabajo y su eficiencia.
Si lo realizamos utilizando el programa SPSS obtenemos los siguientes re-
sultados:
246 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Como el P-valor obtenido es 0′016 superior a 0′01 no existen evidencias
para rechazar la independencia de las dos variables estudiadas.
7.5.2. Contrastes de Homogeneidad
Consideremos ahora r muestras de observaciones independientes, clasifi-
cadas en las s categorıas de una determinada caracterıstica. Los resultados
pueden expresarse en una tabla semejante a la anterior:
Categorıas de la caracterıstica estudiada Total Marginal
Muestras B1 B2 · · · Bj · · · Bs ni
1 n11 n12 · · · n1j · · · n1s n1
2 n21 n22 · · · n2j · · · n2s n2
......
.... . .
......
......
i ni1 ni2 · · · nij · · · nis ni
......
.... . .
......
......
r nr1 nr2 · · · nrj · · · nrs nr
Total Marginal
mj m1 m2 · · · mj · · · ms n
7.5. TABLAS DE CONTINGENCIA 247
Ahora queremos contrastar la homogeneidad de las r poblaciones, es decir,
si todas las muestras proceden de la misma poblacion, y por tanto tienen la
misma distribucion con respecto a las caracterısticas B1, B2, . . ., Bs.
El contraste serıa:
H0: Las r muestras son homogeneas
H1: Las r muestras no son homogeneas.
Si designamos por pij a la probabilidad de que un individuo de la muestra
i presente la caracterıstica Bj, entonces la hipotesis nula de independencia se
puede expresar como:
H0 : p1j = p2j = · · · = pij = · · · = prj ∀ j = 1, 2, . . . , s.
Entonces, bajo H0, para medir la diferencia entre frecuencias observadas y
esperadas consideraremos la suma:
r∑i=1
s∑j=1
(nij − nipj)2
nipj.
Como, admitiendo que la hipotesis H0 es cierta, el estimador de maxima
verosimilitud de pij es:
pij =mj
n,
el estadıstico χ2 de Pearson para contrastar la homogeneidad de las muestras
sera:
χ2 =r∑
i=1
s∑j=1
(nij − nimj
n
)2nimj
n
,
que se distribuye asintoticamente segun una χ2 con (r − 1)(s − 1) grados de
libertad5.5r(s− 1)− (s− 1) = (r − 1)(s− 1)
248 CAPITULO 7. CONTRASTES NO PARAMETRICOS
La region crıtica del test es χ2 > χ21−α, donde χ2
1−α es tal que
P [χ2(r−1)(s−1) > χ2
1−α] = α.
Este contraste con el programa estadıstico SPSS se harıa exactamente igual que
los contrastes de independencia donde en las filas pondrıamos la variable que
nos indica a las distintas muestras y como columna las distintas caracterısticas
de la variable estudiada.
Ejemplo 7.5.2 Los organos de gobierno de una Universidad pretenden analizar
el ındice de satisfaccion de los estudiantes de las Licenciaturas de Derecho y
Empresariales. Para ello toma una muestra de 125 alumnos de derecho y otra
de 75 alumnos de Empresariales. Una vez analizados los datos obtenidos, los
resultados obtenidos se muestran en la siguiente tabla:
Satisfaccion de los estudiantes
Licenciatura Poco Satisfechos Satisfechos Muy satisfechos
Empresariales 20 78 27
Derecho 14 40 21
¿Presentan estas dos licenciaturas diferencias significativas en cuanto al grado
de satisfaccion de los estudiantes? Contrastar a un nivel de significacion del
1 0/0.
Solucion: El contraste serıa:
H0: Las dos muestras son homogeneas
H1: Las dos muestras no son homogeneas.
El estadıstico χ2 de Pearson para contrastar la homogeneidad de las muestras
sera:
χ2 =2∑
i=1
2∑j=1
(nij − nimj
n
)2nimj
n
,
7.5. TABLAS DE CONTINGENCIA 249
que se distribuye asintoticamente segun una χ2 con (2 − 1)(3 − 1) = 2 grado
de libertad.
Construimos la tabla adjunta el la que cada celda posee la siguiente estruc-
tura:
nijnimj
n
(nij−nimj
n )2
nimjn
Satisfaccion de los estudiantes
Licenciatura Poco satisfechos Satisfechos Muy satisfechos ni
Empresariales 20 21,3 78 73,8 27 30 125
0,08 0,24 0,3
Derecho 14 12,8 40 44,3 21 18 75
0,11 0,42 0,5
mj 34 118 48 n = 200
En la tabla podemos comprobar quenimj
nen todos los casos y que n =
n1 + n2 = 200 > 30.
El estadıstico experimental serıa:
χ2exp = 0, 08 + 0, 24 + 0, 3 + 0, 11 + 0, 42 + 0, 5 = 1, 65.
Si miramos en las tablas de la χ22, tenemos que χ2
0,99 = 9, 21. Como χ2exp =
1, 65 < 9, 21 = χ20,99, no se rechaza la hipotesis de homogeneidad de mues-
tras, es decir, los datos no senalan diferencias significativas en el grado de
descontento para ambas licenciaturas.
Si utilizamos el programa SPSS obtenemos:
250 CAPITULO 7. CONTRASTES NO PARAMETRICOS
El P-valor obtenido es igual a 0, 438 mayor a 0, 01, luego podemos concluir
que las muestras son homogeneas.
7.6. Ejercicios de autoevaluacion (Capıtulo 7)
1. En un colectivo de 15 ninos, de ambos sexos, se obtienen las medidas de
sus estaturas con el resultado siguiente:
Ninas 1’43 1’54 1’40 1‘55 1’50 1’60 1’41 1’47 1’51
Ninos 1’62 1’45 1’58 1’61 1’48 1’63
Verifique al 5% de nivel de significacion que las estaturas de las ninas y
los ninos constituyen dos muestras aleatorias.
Solucion: La hipotesis nula que hay que contrastar es la siguiente:
H0: La muestra de estatura de las ninas es aleatoria
H1: La muestra de estatura de las ninas no es aleatoria.
EJERCICIOS DE AUTOEVALUACION 251
Como en la muestra de ninas p-valor= 0’968 > 0’05 = α no se puede
rechazar la hipotesis nula de que las observaciones muestrales de las
estaturas de las ninas sean aleatorias.
Para la muestra de estaturas de ninos:
H0: La muestra de estatura de los ninos es aleatoria
H1: La muestra de estatura de los ninos no es aleatoria.
Como en la muestra de ninas, p-valor= 0’648 > 0’05 = α, no se puede
rechazar la hipotesis nula de que las observaciones muestrales de las
estaturas de los ninos sean aleatorias.
252 CAPITULO 7. CONTRASTES NO PARAMETRICOS
2. En una fotocopiadora se han producido ciertos desajustes. Se toma una
muestra de 60 fotocopias realizadas durante un dıa y los resultados
obtenidos, por orden de aparicion, son:
BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD
BBBD BBBD
BBBD BBBD BBBD,
siendo B = fotocopia correcta y D = fotocopia defectuosa. Contraste con
un nivel de significacion del 5% si las 60 observaciones constituyen una
muestra aleatoria.
Solucion: La hipotesis nula que hay que contrastar es la siguiente:
H0 : La muestra de fotocopias es aleatoria
H1 : La muestra de fotocopias no es aleatoria
El numero de rachas sigue una distribucion N(23’5; 2’86). El estadıstico
de prueba vale Zexp = 2’27 y la region crıtica es (-8,-1’96)U(1’96,+8),
por lo que se rechaza la hipotesis relativa a que las 60 observaciones
constituyen una muestra aleatoria.
3. Se toma una muestra de los salarios anuales (en cientos de euros) de
los trabajadores del sector industrial de una determinada Comunidad
Autonoma:
125, 126, 128, 150, 101, 109, 193, 204, 256, 124, 170, 183, 192, 154
Contraste, con un nivel de significacion del 5%, que dichos salarios proce-
den de una poblacion simetrica con mediana de 15300e.
Solucion: La hipotesis nula que hay que contrastar es:
H0 : Me = 153
H1 : Me = 153
Aceptamos la hipotesis nula, es decir, no se puede rechazar que los
salarios del sector industrial sean simetricos con mediana 15300e, pues
EJERCICIOS DE AUTOEVALUACION 253
el valor experimenta T+exp = 59 pertenece a la region de aceptacion (21,
84).
4. Con el fin de tener una idea sobre las cotizaciones de las acciones, un
inversor selecciono varias sociedades al azar entre las que tenıa partici-
pacion y reviso sus cotizaciones (en miles de euros) de cierre:
Cotizacion 3’8 4’5 1’3 4’3 2’8 5’1 0’8 2’3 5’3 5’4 2’7 1’8 3’3 3’2
1’7 1’9 2’6 4’8
Con estos datos, ¿podrıamos afirmar que mas de la mitad de las so-
ciedades en las que participa este inversor presentan cotizaciones superi-
ores a 2400e? Utilice un nivel de significacion del 1%.
Solucion: La hipotesis nula que hay que contrastar es:
H0 : Me ≤ 2′4
H1 : Me > 2′4
T+exp = 130. Para determinar la region crıtica tenemos en cuenta la dis-
tribucion asintotica del estadıstico T+que es N(85’5; 22’96) para n =
18. Como Zexp = 1’93 < 2’33, no podemos rechazar H0, ası que no
podrıamos afirmar que mas de la mitad de las sociedades en las que par-
ticipa este inversor presentan cotizaciones superiores a 2400e, a un nivel
de significacion del 1%.
5. Se sabe que las cotizaciones en bolsa de dos empresas A y B (medidas en
euros), en una determinada sesion, no se distribuyen segun una normal.
A partir de una muestra aleatoria simple de cotizaciones de cada empresa
se obtuvieron los siguientes resultados:
Empresa A 13 11 12 18 5
Empresa B 20 10 12 8 10
¿Puede admitirse con un nivel de significacion del 5% que la cotizacion
en bolsa de ambas empresas es la misma?
Solucion: El contraste serıa:
254 CAPITULO 7. CONTRASTES NO PARAMETRICOS
H0 : F (z) = G(z) ∀ z ≡ (µX = µY )
H1 : F (z) = G(z) ∀ z ≡ (µX = µY )
Como el estadıstico de la U de Wilcoxon-Mann-Whitney pertenece a la
region de aceptacion, Ux = 10’5 a (2, 23), no hay evidencias para rechazar
la hipotesis nula. Luego, no existen diferencias significativas entre las
cotizaciones de ambas empresas.
6. Una cadena de supermercados tiene dos tiendas (T1 y T2) en una deter-
minada ciudad. La empresa sospecha que las tiendas no tienen el mismo
nivel de ventas semanal. Se dispone de la siguiente informacion:
T1 18’3 13’5 12’6 14’7 13’2 14’8 13’6 12’8 23’1 14’8 14’9 12’2 14’5
25’1 12’9 15 11’4 13’2 18’5 10’2
T2 26 19’4 13’8 17 9’4 18’8 16’3 19’9 13’9 19’2 14’2 13 16’5
21’2 15’3 22’8 17’6 13’1 15’8 16’9
Ademas se dispone de esta otra informacion:
EJERCICIOS DE AUTOEVALUACION 255
Utilice un nivel de significacion del 5% para responder a las siguientes
cuestiones:
a) ¿Puede admitirse que el nivel de ventas semanal en ambas tiendas se
distribuye normalmente?
b) Utilizando la informacion del apartado anterior, ¿se puede aceptar
que el nivel de ventas en la tienda T1 es mayor que en la tienda T2?
Solucion:
a) Para contrastar la normalidad de la tienda T1, el contraste que
habrıa que resolver es:
H0: La muestra de ventas de la tienda T1 procede de una poblacion normal
H1: La muestra de ventas de la tienda T1 no procede de una poblacion normal.
Puesto que el tamano muestral es menor de 50, nos fijaremos en el test
de Shapiro-Wilk. Como el p-valor=0’002 < 0’05, rechazamos la hipotesis
nula de normalidad de la muestra del nivel de ventas semanales de la
tienda T1.
Para la tienda T2:
H0: La muestra de ventas de la tienda T2 procede de una poblacion normal
H1: La muestra de ventas de la tienda T2 no procede de una poblacion normal.
Para T2, el p-valor=0’937> 0’05, por lo que al 5% de significacion no hay
evidencias para rechazar la hipotesis nula de normalidad de la muestra
del nivel de ventas semanales de la tienda T2.
b) Como la muestra de la tienda T1 no es normal, el contraste que habrıa
que resolver serıa:
H0 : µx ≤ µy
H1 : µx > µy
, es decir,
H0 : F (x) ≥ G(x)
H1 : F (x) < G(x)
256 CAPITULO 7. CONTRASTES NO PARAMETRICOS
El estadıstico de la U de Wilcoxon-Mann-Whitney vale Ux = 282 (Wx =
328), pero como n1 y n2 > 10 tenemos en cuenta la distribucion asintotica
del estadıstico U que es N(200; 36’9684). Como Zexp = 2’2181 no verifica
la condicion de la region crıtica Zexp ≤ −zα = −1′645, no podemos
rechazar la hipotesis nula. Luego, no se puede aceptar, con un nivel de
confianza del 95%, que el nivel de ventas en la tienda T1 sea mayor que
en la tienda T2.
7. Se desea comparar la calidad de tres clases de coches (Clase I, Clase II y
Clase III). Para ello, se elige una muestra aleatoria simple de individuos
y se les pide que valoren su vehıculo, asignando una puntuacion de 1 a 8
(de menor a mayor calidad). Los resultados son los siguientes:
Clase de
vehıculo
Valoracion
Clase I 8 4 5 3
Clase II 7 5 4 5 7
Clase III 5 5 6 8 6
Se sabe que la valoracion de la Clase II no procede de una poblacion
normal. ¿Se puede aceptar que los tres vehıculos tienen la misma calidad?
Tome un nivel de significacion del 5%.
Solucion: El contraste que se plantea es:
H0 : F1(x) = F2(x) = F3(x), ∀xH1 : Al menos dos de ellas son diferentes
EJERCICIOS DE AUTOEVALUACION 257
Las sumas de los rangos valen R1 = 23, R2 = 37’5 y R3 = 44’5. Como
Hexp = 1’330 < 5’666 = h0′05 no se puede rechazar la hipotesis nula, es
decir, no hay evidencias de que existan diferencias en la calidad de los
vehıculos.
8. Un profesor quiere contrastar tres metodos distintos de ensenanza. Para
ello, escoge al azar tres grupos de 5 estudiantes cada uno, y aplica a cada
uno un metodo distinto. Tras realizar al final del curso el mismo examen
a todos ellos, se obtienen las notas que se indican a continuacion:
Meto-
do
I
75 82 61 88 83 75
Meto-
do
II
81 85 68 92 90 70
Meto-
do
III
73 79 60 85 81 69
Suponiendo que los datos no siguen una distribucion normal, determine si
hay diferencia significativa entre los tres metodos al nivel de significacion
de 1%.
Solucion: El contraste que hay que resolver es:
H0 : F1(x) = F2(x) = F3(x), ∀xH1 : Al menos dos de ellas son diferentes
258 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Las sumas de los rangos valen R1 = 58, R2 = 68 y R3 = 45. Ası, Hexp
= 1’56 < 9’21 = χ22;0,01, luego no se puede rechazar la hipotesis nula,
es decir, no existen diferencias en los resultados obtenidos por los tres
metodos de ensenanza.
9. En una ciudad se estan probando 3 tipos de sensores para medir el nivel
de ozono y con ello saber si son igualmente fiables. Cada sensor realiza
200 mediciones diarias, de las cuales algunas son erroneas a causa de
diferentes factores. Se han elegido 5 dıas de este verano al azar y se han
contado el numero de mediciones erroneas por sensor. Los resultados se
muestran en la siguiente tabla:
Sensor A Sensor B Sensor C
28 22 33
37 27 30
34 29 39
28 20 33
31 18 38
Suponiendo que los datos no siguen una distribucion normal:
a) ¿Se puede aceptar que los niveles de ozono medidos por los tres sen-
sores son los
mismos?
b) En caso de que haya diferencias en los niveles de medicion ¿indique
cuales de los sensores son distintos?
EJERCICIOS DE AUTOEVALUACION 259
Utilice un nivel de significacion del 5%.
Solucion:
a) El contraste que hay que resolver es:
H0 : F1(x) = F2(x) = F3(x), ∀xH1 : Al menos dos de ellas son diferentes
Como Hexp = 8’78 > 5’78 = h0′05 se rechaza la hipotesis nula, es decir,
existen diferencias en los niveles de ozono medidos por los tres sensores.
b) Puesto que hay diferencias en los niveles de los sensores, para saber
cuales son los distintos tenemos que resolver tres contrastes de hipotesis.
Antes indiquemos que R1 = 9, R2 = 3’40 y R3 = 11’6, p = 0’0083 y zp
= 2’395.
H0 : No existen diferencias significativas entre las muestras A y B
H1 : Existen diferencias significativas entre las muestras A y B
Como |R1 - R2|exp = 5’6 < 6’774 = c12, los sensores A y B no presentan
diferencias.
H0 : No existen diferencias significativas entre las muestras A y C
H1 : Existen diferencias significativas entre las muestras A y C
Como |R1 - R3|exp = 2’6 < 6’774 = c13, los sensores A y C no presentan
diferencias.
260 CAPITULO 7. CONTRASTES NO PARAMETRICOS
H0 : No existen diferencias significativas entre las muestras B y C
H1 : Existen diferencias significativas entre las muestras B y C
Como |R2 - R3|exp = 8’2 > 6’774 = c23, los sensores B y C sı presentan
diferencias.
10. Contraste, con un nivel de significacion del 5%, si el numero de coches
que poseen las familias de una determinada Comunidad Autonoma sigue
una distribucion de Poisson, utilizando para ello la siguiente muestra
aleatoria simple:
Numero de coches Numero de familias
0 220
1 558
2 140
3 60
4 9
Solucion: La hipotesis a contrastar serıa la siguiente:
H0: La muestra procede de una poblacion de Poisson
H1: La muestra no procede de una poblacion de Poisson.
El estimador maximo verosımil del parametro desconocido lambda es λ =
x, y con los datos de la muestra obtenemos la estimacion λ = 1′06788.
Elaboramos una tabla (archivo adjunto) de la que obtenemos χ2exp=
168’33578 > 7’81 = χ25−1−1;0,05 , (todas las frecuencias esperadas, n · pi,
son mayores que 5) luego se rechaza la hipotesis nula relativa a que el
numero de vehıculos que poseen las familias sigue una distribucion de
Poisson.
11. En una empresa constructora se ha observado el numero de accidentes
que ocurren durante 130 dıas, obteniendose la siguiente distribucion de
frecuencias:
EJERCICIOS DE AUTOEVALUACION 261
Numero de accidentes por dıa
X
Numero de dıas
0
1
2
3
≥ 4
69
42
15
4
0
Contrastar la hipotesis de que el numero de accidentes por dıa sigue una
distribucion de Poisson con media 0,9. Utilizar los niveles de significacion
de 0,05 y 0,01.
Solucion: La hipotesis a contrastar serıa la siguiente:
H0: La muestra procede de una poblacion de Poisson
H1: La muestra no procede de una poblacion de Poisson.
En este caso no existe ningun parametro desconocido a estimar.
Elaboramos una tabla (archivo adjunto) de la que obtenemos χ2exp=
8’4144 > 7’81 = χ24−0−1;0,05 , (todas las frecuencias esperadas, n · pi,
son mayores que 5) luego se rechaza la hipotesis nula relativa a que el
numero de accidentes al dıa en esta empresa sigue una distribucion de
Poisson, a un nivel de confianza del 95%.
Para un nivel de significacion del 1%, χ2exp= 8’4144 < 11’34 = χ2
4−0−1;0,01
, luego no se puede rechazar ahora la hipotesis nula relativa a que el
numero de accidentes al dıa en esta empresa sigue una distribucion de
Poisson, a un nivel de confianza del 99%.
12. Se ha obtenido la siguiente muestra correspondiente a los ingresos de los
trabajadores de cierta companıa: 6’5, 8’2, 7’7, 8’1, 7’3, 9, 9’2, 10’1.
262 CAPITULO 7. CONTRASTES NO PARAMETRICOS
¿Podemos asumir que la distribucion de probabilidad es una normal, al
5% de significacion?
Solucion: La hipotesis a contrastar serıa la siguiente:
H0: La muestra procede de una poblacion normal
H1: La muestra no procede de una poblacion normal.
Puesto que el tamano muestral es menor de 50, nos fijaremos en el test
de Shapiro-Wilk. Como el p-valor = 0’993 > 0’05, no podemos rechazar
la hipotesis nula de normalidad de la muestra.
13. En una comunidad de vecinos los gastos de agua caliente y frıa son costea-
dos hasta el momento con el dinero de la comunidad. En la ultima reunion
celebrada, algunos de los vecinos propusieron modificar este sistema, de
manera que la comunidad pagase solo hasta una determinada cantidad
anual de agua caliente por vivienda, debiendo abonar el propietario el
gasto por la cantidad restante. Para determinar cual deberıa ser la can-
tidad maxima anual por vivienda que pagarıa la comunidad, se selec-
cionaron al azar 15 viviendas contabilizandose en ellas la cantidad de
agua caliente gastada (en m3) al ano. Los resultados fueron:
78, 73, 132, 66, 102, 96, 82, 67, 79, 75, 85, 68, 85, 92, 68
Contraste utilizando un nivel de significacion del 1%, si el consumo anual
de agua caliente en esta comunidad se distribuye normalmente.
Solucion: La hipotesis a contrastar serıa la siguiente:
H0: La muestra procede de una poblacion normal
H1: La muestra no procede de una poblacion normal.
Puesto que el tamano muestral es menor de 50, nos fijaremos en el test
de Shapiro-Wilk. Como el p-valor = . . .< 0’01, . . . . la hipotesis nula de
normalidad de la muestra.
EJERCICIOS DE AUTOEVALUACION 263
14. Estudie si existe asociacion entre el nivel educativo de los individuos de
una determinada poblacion y su preferencia por un determinado medio
de comunicacion, utilizando para ello la siguiente informacion muestral:
Prensa Radio Television
Basico 15 10 25
Medio 40 25 45
Superior 45 30 55
Utilice un nivel de significacion del 2’5%.
Solucion: La hipotesis a contrastar serıa la siguiente:
H0: No existe asocıacion entre las variables
H1: Existe asociacion entre las variables.
Se trata de un contraste de independencia.
264 CAPITULO 7. CONTRASTES NO PARAMETRICOS
Puesto que el estadıstico de prueba χ2exp = 1’259 < 11’143 = χ2
4;0,025 no
puede rechazarse la hipotesis de independencia entre las dos variables, es
decir, la evidencia empırica no indica asociacion entre el nivel educativo
y el medio de educacion.
15. Unos manzanos se abonan con dos tipos distintos de fertilizantes F1 y
F2. En concreto, en 50 de ellos se empleo el fertilizante F1 y en otros 60 el
fertilizante F2, resultando que unos manzanos aumentaron su produccion,
otros la disminuyeron y otros se mantuvieron igual. Contraste la hipotesis
nula de que ambos fertilizantes producen los mismos efectos con un nivel
de significacion de α = 0’10, teniendo en cuenta la informacion siguiente:
F1 F2
Mas produccion 20 35
Misma produc-
cion
20 15
Menos produc-
cion
10 10
Solucion: La hipotesis a contrastar serıa la siguiente:
H0 : Los dos tipos de fertilizantes producen los mismos efectos
H1 : Los dos tipos de fertilizantes no producen los mismos efectos
Se trata de un contraste de homogeneidad. Tenemos:
EJERCICIOS DE AUTOEVALUACION 265
F1 F2
Mas 20 25,0 35 30,0 55
1,000 0,833 1,8333
Misma 20 15,9 15 19,1 35
1,052 0,877 1,9286
Menos 10 9,1 10 10,9 20
0,091 0,076 0,1667
50 60 110
Chiˆ2exp3,9286
Chiˆ2;
4; 0,9
4,605
Como χ2exp = 3’9286 < 4’605 = χ2
2;0,10, no se puede rechazar la hipotesis
nula de que ambos fertilizantes producen efectos similares.