teoría estadística ii.pdf

UNIVERSIDAD PABLO DE OLAVIDE

Facultad de Ciencias Empresariales

DEPARTAMENTO DE ECONOMIA, METODOS

CUANTITATICOS E HISTORIA ECONOMICA

AREA DE METODOS CUANTITATIVOS

ASIGNATURA:

ESTADISTICAPARA FINANZAS II

Coordinadores:

Alfredo Garcıa Hernandez-Dıaz

Raul Brey Sanchez

Indice

INDICE GENERAL III

1. Modelos Probabilısticos discretos y continuos 1

1.1. Modelos probabilısticos de variables aleatorias de tipo discreto. . 1

1.1.1. Bernouilli: B(p) . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2. Binomial: B(n, p) . . . . . . . . . . . . . . . . . . . . . . 2

1.1.3. Geometrica: G(p) . . . . . . . . . . . . . . . . . . . . . . 2

1.1.4. Binomial Negativa: BN(r, p) . . . . . . . . . . . . . . . . 3

1.1.5. Hipergeometrica: H(N, n, p) p = N1

N. . . . . . . . . . . . 3

1.1.6. Poisson: P (λ) . . . . . . . . . . . . . . . . . . . . . . . . 4

1.1.7. Multinomial: M(n, p1, p2, . . . , pk) . . . . . . . . . . . . . 5

1.2. Variables Aleatorias Continuas: Distribucion Normal . . . . . . 6

1.3. Modelos asociados a la Normal . . . . . . . . . . . . . . . . . . 10

iii

iv INDICE

1.3.1. χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.2. t de Student . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.3.3. F de Snedecor . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4. Ejercicios de autoevaluacion (Capıtulo 1) . . . . . . . . . . . . . 14

2. Distribuciones en el muestreo 29

2.1. Muestra aleatoria. Parametros poblacionales y estadısticos mues-

trales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1.1. Parametros poblacionales y estadısticos muestrales . . . 32

2.2. Distribucion muestral de estadısticos . . . . . . . . . . . . . . . 34

2.3. Media y varianza de algunos estadısticos . . . . . . . . . . . . . 38

2.4. Distribucion de estadısticos muestrales de poblaciones normales 40

2.4.1. Distribucion de la media muestral cuando se conoce la

varianza poblacional . . . . . . . . . . . . . . . . . . . . 40

2.4.2. Distribucion de la media muestral cuando no se conoce

la varianza poblacional . . . . . . . . . . . . . . . . . . . 42

2.4.3. Distribucion de la varianza muestral . . . . . . . . . . . 43

2.4.4. Distribucion de la diferencia de medias muestrales cuan-

do se conoce la varianza poblacional . . . . . . . . . . . 44

2.4.5. Distribucion de la diferencia de medias cuando no se

conoce la varianza poblacional . . . . . . . . . . . . . . . 46

INDICE v

2.4.6. Distribucion del cociente de varianzas . . . . . . . . . . . 48

2.5. Distribucion de la proporcion muestral . . . . . . . . . . . . . . 50

2.6. Distribucion de la diferencia de proporciones . . . . . . . . . . . 51


3. Estimacion Puntual 59

3.1. Introduccion a la Inferencia Estadıstica . . . . . . . . . . . . . . 59

3.2. El Problema de la estimacion. Estimacion puntual . . . . . . . . 61

3.3. Propiedades de los estimadores puntuales . . . . . . . . . . . . . 62

3.3.1. Estimador insesgado . . . . . . . . . . . . . . . . . . . . 65

3.3.2. Estimador UMVUE . . . . . . . . . . . . . . . . . . . . . 66

3.3.3. Estimador eficiente . . . . . . . . . . . . . . . . . . . . . 66

3.3.4. Estimador consistente . . . . . . . . . . . . . . . . . . . 69

3.3.5. Estimador suficiente . . . . . . . . . . . . . . . . . . . . 70

3.3.6. Estimador robusto . . . . . . . . . . . . . . . . . . . . . 70

3.3.7. Estimador invariante . . . . . . . . . . . . . . . . . . . . 71

3.4. Obtencion de estimadores . . . . . . . . . . . . . . . . . . . . . 71

3.4.1. El metodo de los momentos . . . . . . . . . . . . . . . . 71

vi INDICE

3.4.2. Metodo de la maxima verosimilitud . . . . . . . . . . . . 73


4. Estimacion por intervalos 81

4.1. Construccion de intervalos de confianza . . . . . . . . . . . . . . 81

4.2. Intervalos de confianza en poblaciones normales . . . . . . . . . 85

4.2.1. Intervalo de confianza para la media de una poblacion

normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

4.2.2. Intervalo de confianza de la varianza . . . . . . . . . . . 93

4.2.3. Intervalo de confianza para la diferencia de medias (mues-

tras independientes) . . . . . . . . . . . . . . . . . . . . 97

4.2.4. Intervalo de confianza para la diferencia de medias (mues-

tras apareadas) . . . . . . . . . . . . . . . . . . . . . . . 100

4.2.5. Intervalo de confianza para el cociente de varianzas . . . 103

4.3. Intervalos de confianza en poblaciones no normales . . . . . . . 106

4.3.1. Aplicacion de la desigualdad de Chebychev para la ob-

tencion de intervalos de confianza . . . . . . . . . . . . . 106

4.3.2. Intervalos de confianza para muestras grandes . . . . . . 108


5. Contrastes de hipotesis 117

INDICE vii

5.1. Concepto y tipos de hipotesis . . . . . . . . . . . . . . . . . . . 117

5.2. Region crıtica y region de aceptacion . . . . . . . . . . . . . . . 120

5.3. Tipos de errores . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

5.4. Fases a seguir en un test de hipotesis . . . . . . . . . . . . . . . 127

5.4.1. P -valor . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

5.5. Potencia y funcion de potencia del contraste . . . . . . . . . . . 135


6. Contrastes parametricos 145

6.1. Contrastes para la varianza . . . . . . . . . . . . . . . . . . . . 146

6.1.1. Caso media desconocida . . . . . . . . . . . . . . . . . . 146

6.1.2. Caso media conocida . . . . . . . . . . . . . . . . . . . . 149

6.2. Contrastes de igualdad de varianzas . . . . . . . . . . . . . . . . 150

6.2.1. Caso medias desconocidas . . . . . . . . . . . . . . . . . 150

6.2.2. Caso medias conocidas . . . . . . . . . . . . . . . . . . . 155

6.3. Contrastes para la media . . . . . . . . . . . . . . . . . . . . . . 156

6.3.1. Caso desviacion tıpica desconocida . . . . . . . . . . . . 156

6.3.2. Caso desviacion tıpica conocida . . . . . . . . . . . . . . 161

viii INDICE

6.4. Contraste para la media de dos poblaciones . . . . . . . . . . . 164

6.4.1. Caso varianzas conocidas . . . . . . . . . . . . . . . . . . 167

6.4.2. Caso varianzas desconocidas, pero iguales . . . . . . . . . 170

6.4.3. Caso varianzas desconocidas y distintas . . . . . . . . . . 176

6.5. Contraste de proporciones . . . . . . . . . . . . . . . . . . . . . 185

6.6. Comparacion de proporciones . . . . . . . . . . . . . . . . . . . 188


7. Contrastes no parametricos 205

7.1. Contrastes de Aleatoriedad . . . . . . . . . . . . . . . . . . . . . 206

7.2. Contrastes de Localizacion . . . . . . . . . . . . . . . . . . . . . 210

7.2.1. Contraste de rangos-signos de Wilcoxon . . . . . . . . . 211

7.3. Contrastes de Comparacion de Poblaciones . . . . . . . . . . . . 214

7.3.1. Contraste de Wilcoxon-Mann-Whitney . . . . . . . . . . 215

7.3.2. Contraste de Kruskal-Wallis para la comparacion de mas

de dos poblaciones . . . . . . . . . . . . . . . . . . . . . 223

7.3.3. Test de Dunn para comparaciones multiples . . . . . . . 227

7.4. Contrastes de Bondad de Ajuste . . . . . . . . . . . . . . . . . . 233

7.4.1. Test χ2 de Pearson . . . . . . . . . . . . . . . . . . . . . 234

INDICE ix

7.4.2. Contrastes de Normalidad . . . . . . . . . . . . . . . . . 239

7.5. Tablas de Contingencia . . . . . . . . . . . . . . . . . . . . . . . 240

7.5.1. Contrastes de Independencia . . . . . . . . . . . . . . . . 241

7.5.2. Contrastes de Homogeneidad . . . . . . . . . . . . . . . 246


Capıtulo 1

Modelos Probabilısticos

discretos y continuos

1.1. Modelos probabilısticos de variables aleato-

rias de tipo discreto.

1.1.1. Bernouilli: B(p)

X =

1 si exito

0 si fracaso

P [X = 1] = p: Probabillidad de exito.

P [X = 0] = q = 1− p: Probabillidad de fracaso.

1

2 CAPITULO 1. MODELOS PROBABILISTICOS

1.1.2. Binomial: B(n, p)

X: Numero de exitos en n repeticiones independientes de un experimento

Bernoulli.

X =n∑

i=1

Xi Xi ∈ B(p)

X = 0, 1, 2, . . . , n

P [X = x] =

(n

x

)px(1− p)n−x

1. E[X] = np

2. var(X) = npq

3. gX(t) = E[etX ] = (q + pet)n

4. Si X ∈ B(n1, p) e Y ∈ B(n2, p) y son independientes, entonces X + Y ∈B(n1 + n2, p) (Reproductiva en el parametro n)

1.1.3. Geometrica: G(p)

X: Numero de fracasos antes del primer exito en repeticiones independi-

entes de un experimento Bernoulli.

X = 0, 1, 2, . . .

P [X = x] = p(1− p)x

1. F (x) = 1− qx+1 ∀x ≥ 0

2. gX(t) = E[etX ] = p1−qet

3. E[X] = qp

1.1. VARIABLES ALEATORIAS DISCRETAS 3

4. V ar(X) = qp2

5. Falta de memoria: P [X ≥ h+ k|X≥h] = P [X ≥ k]

1.1.4. Binomial Negativa: BN(r, p)

X: Numero de fracasos antes del primer r-esimo exito en repeticiones in-

dependientes de un experimento Bernoulli.

X = 1, 2, . . .

P [X = x] =

(x+ r − 1

x

)pr(1− p)x

1. gX(t) = E[etX ] =(

p1−qet

)r2. E[X] = rq

p

3. V ar(X) = rqp2

4. Si X ∈ BN(r1, p) e Y ∈ BN(r2, p), independientes, entonces X + Y ∈BN(r1 + r2, p)

1.1.5. Hipergeometrica: H(N,n, p) p = N1

N

X: Numero de elementos que se obtienen de una de las dos subpobla-

ciones cuando se extrae sin reemplazamiento una muestra de tamano n, X =

1, 2, . . . , N1.

P [X = x] =

(N1

x

)(N −N1

n− x

)(

N

n

)


1. max0, n−N2 ≤ x ≤ mınn,N1

2. E[X] = np

3. var(X) = npqN−nN−1

4. H(N, n, p)N→∞−→ B(N, p), (N > 50;n ≤ 0,1N)

B(n,p)

H(N, n, p)

6N > 50nN

< 0,1

1.1.6. Poisson: P (λ)

X: Numero de resultados o sucesos que ocurren en un intervalo o region.

P [X = x] =λx

x!e−λ

donde λ es el numero medio de resultados que ocurren en el intervalo.

1. E[X] = λ

2. var(X) = λ

3. gX(t) = E[etX ] = eλ(et−1)

4. Si X ∈ P (λ1) e Y ∈ P (λ2), entonces X + Y ∈ P (λ1 + λ2)

5. Si X e Y son independientes y X + Y es una variable Poisson, entonces

X e Y son Poisson

6. B(N, p)N→∞−→ P (λ) , λ = np, (n > 30; p ≤ 0,1)

1.1. VARIABLES ALEATORIAS DISCRETAS 5

B(n,p)

H(N, n, p)

6

n > 30

nN

< 0,1

- P (λ)p < 0,1

N > 50

λ = np

1.1.7. Multinomial: M(n, p1, p2, . . . , pk)

X: Numero de veces que se presenta cada uno de los k posibles resultados

del experimento en n repeticiones del mismo.

P [X1 = x1, X2 = x2, . . . , Xk = xk] =n!

x1!x2! . . . xk!px11 px2

2 . . . pxkk

1. g(t1, t2, . . . , tk) = E[et1X1+t2X2+...+tkXk ] =(∑k

i=1 pieti

)n2. E[Xi] = npi

3. V ar(X) = npi(1− pi)

4. Covar(Xi, Xj) = −npipj

5. Si X ∈ M(n, p1, p2, . . . , pk) e Y ∈ M(m, p1, p2, . . . , pk), entonces X+Y ∈M(n+m, p1, p2, . . . , pk)

Ejemplo 1.1.1 En un hipotetico paıs el arco parlamentario esta compuesto

de la siguiente manera:

Partido A1 300/0

Partido A2 300/0

Partido A3 250/0

Partido A4 150/0


Si elegimos al azar una comision de 8 miembros, ¿cual es la probabilidad de

que dicha comision resulte paritaria?

Solucion: X = (X1, X2, X3, X4) donde Xi i = 1, 2, 3, 4 es el numero de miem-

bros del partido Ai en la comision.

P [X1 = 2, X2 = 2, X3 = 2, X4 = 2] =8!

2!2!2!2!0,320,320,2520,152 = 0,0287

1.2. Variables Aleatorias Continuas: Distribu-

cion Normal

X ∈ N(µ, σ) De Moivre 1733 como lımite de la Binomial. Gauss 1809,

Laplace 1912 empıricamente.

f(x) =1

σ√2π

e−(x−µ)2

2σ2 −∞ < x < +∞

f(x) es continua

Simetrica respecto a µ: f(µ− x) = f(µ+ x) ∀x ∈ IR

Asıntota horizontal: lımx→∞

f(x) = lımx→−∞

f(x) = 0

f(x) es creciente para valores inferiores a µ y decreciente para valores

superiores a µ.

f(x) tiene un maximo en x = µ donde la funcion vale 1σ√2π

f(x) tiene dos puntos de inflexion: x = µ+ σ y x = µ− σ

Propiedades:

1. Si X ∈ N(µ, σ), entonces Z = X−µσ

∈ N(0, 1) y FZ(z) = FX(µ+ σz)

1.2. DISRIBUCION NORMAL 7

2. Si Z ∈ N(0, 1), entonces X = µ+ σZ ∈ N(µ, σ) y FX(x) = Fz(X−µσ

)

Ejemplo 1.2.1 : Sea X ∈ N(µ, σ), de la que se conoce:

P [X > 95] = 0,8413

P [X ≤ 90] = 0,0228

Calcular µ y σ.

Solucion:

P [X > 95] = 0,8413 ⇒ P [Z >95− µ

σ] = 0,8413 ⇒ 95− µ

σ= −1

P [X ≤ 90] = 0,0228 ⇒ P [Z ≤ 90− µ

σ] = 0,0228 ⇒ 90− µ

σ= −2

Por lo tanto σ = 5 y µ = 100

3. FX(x) = P [X ≤ x] =∫ x

−∞1

σ√2π

e−(x−µ)2

2σ2

4. gX(t) = E[etx] = etµ+12t2σ2

5. E[X] = µ y V ar(X) = σ2

6. Si Z ∈ N(0, 1), entonces E[Z2r+1] = 0

7. Si Xi ∈ N(µi, σi) i = 1, 2, . . . , n y son independientes, entonces

Y = a1X1 + a2X2 + . . .+ anXn + b ∈

∈ N

(a1µ1 + a2µ2 + . . .+ anµn + b,

√a21σ

21 + a22σ

22 + . . . a2nσ

2n

)Si Xi ∈ N(µi, σi) i = 1, 2, . . . , n y son independientes, entonces

Y = X1+X2+. . .+Xn ∈ N

(µ1 + µ2 + . . .+ µn,

√σ21 + σ2

2 + . . . σ2n

)(Propiedad Reproductiva)


Si Xi ∈ N(µ, σ) i = 1, 2, . . . , n y son independientes, entonces

Y = X1 +X2 + . . .+Xn ∈ N(nµ,

√nσ)

Si Xi ∈ N(µ, σ) i = 1, 2, . . . , n y son independientes, entonces

X =X1 +X2 + . . .+Xn

n∈ N

(µ,

σ√n

)Ejemplo 1.2.2 La cotizacion diaria de un activo se distribuye con-

forme a una normal de media 58 y desviacion tıpica 16. Si tomamos

una muestra aleatoria de 16 dıas, ¿cual es la probabilidad de que la

media muestral este comprendida entre 50 y 70?

Solucion: X ∈ N(µ, σ), X ∈ N(µ, σ√

n

)≡ N

(58, 16√

16

)≡ N (58, 4)

P [50 ≤ X ≤ 70] = P [50− 58

4≤ Z ≤ 70− 58

4] = P [−2 ≤ Z ≤ 3] =

= F (3)− F (−2) = 0,9987− 0,0228 = 0,9759

8. Si X ∈ B(n, p), entonces Z = X−np√npq

→n→∞

N(0, 1), es decir,

B(n, p) → N(np,√npq)

(Teorema de Moivre)

Correccion de continuidad de Ficher:

P [X = x] = P [x− 12≤ X ≤ x+ 1

2]

P [X ≤ x] = P [X ≤ x+ 12]

P [a ≤ X ≤ b] = P [a− 12≤ X ≤ b+ 1

2]

P [X ≥ x] = P [X ≥ x− 12]

9. Si X ∈ P (λ), entonces Z = X−λ√λ

→n→∞

N(0, 1), es decir,

P (λ) → N(λ,√λ)

1.2. DISRIBUCION NORMAL 9

B(n,p)

H(N, n, p)

6

n > 30

nN

< 0,1

- P (λ)p < 0,1

N > 50

N(µ, σ)

3 knp > 5 p ≤ 12

nq > 5 p > 12

λ ≥ 10

µ = np σ2 = npq µ = λ σ2 = λ

10. SiX1, X2, . . . , Xn son variables independientes e identicamente distribuidas,

y Sn = X1 +X2 + . . .+Xn, entonces

Z =Sn − E[Sn]

σ(Sn)=

Sn − nµ√nσ

→n→∞

N(0, 1),

es decir,

Sn → N(nµ,√nσ)

(Teorema Central del Lımite)

Ejemplo 1.2.3 El peso neto de un paquete de arroz de una determinada

marca sigue de manera aceptable una distribucion normal. Los controles

de calidad revelan que un tercio de los paquetes pesan menos de 870 gr.

y solo dos de cada mil paquetes pesan mas de 1 kg. Se pide:

a) Calcular la probabilidad de que un paquete elegido al azar pese mas

de 850 gr.

b) Si en una semana salen al mercado 40000 paquetes, ¿cuantos cabe

esperar que pesen mas de 900 gr.?

Solucion: X: peso de un paquete de arroz

P [X < 870] = 0,3333 ⇒ P [Z <870− µ

σ] = 0,3333 ⇒ 870− µ

σ= −0,43

P [X > 1000] = 0,002 ⇒ P [Z >1000− µ

σ] = 0,002 ⇒ 1000− µ

σ= 2,88


Por lo tanto σ = 39,275 y µ = 886,888

Entonces X ∈ N(886,888, 39,275)

a) P [X > 850] = P [Z > −0,939] = 1− F (−0,939) = 0,83

b) Y : Numero de paquetes que pesan mas de 900 g de los 40000 que

salen al mercado esa semana.

Y ∈ B(40000, p) donde p = P [X > 900] = P [Z > 0,33] = 1 −F (0,33) = 0,37

E[Y ] = 40000p = 14828

1.3. Modelos asociados a la Normal

1.3.1. χ2 de Pearson

Xi ∈ N(0, 1) i = 1, 2, . . . , n independientes ⇒ X =n∑

i=1

X2i ∈ χ2

n ≡ Γ

(n

2,1

2

)

f(x) =

( 12)n2

Γ(n2)x

n2−1e−

12x si x > 0

0 si x ≤ 0

1. E[X] = n

2. V ar(X) = 2n

3. gX(t) = (1− 2t)−n2

4. Es reproductiva en n:

X ∈ χ2n

Y ∈ χ2m

⇒ X + Y ∈ χ2

n+m

1.3. MODELOS ASOCIADOS A LA NORMAL 11

5. X ∈ χ2n ⇒n>30

√2X ∈ N(

√2n+ 1, 1)

Ejemplo 1.3.1 Para detectar la independencia que pueda haber entre el reg-

imen jurıdico de las empresas y su grado de solvencia, se puede emplear, con

datos procedentes de una muestra piloto, un estadıstico que sigue una ley χ2

de Pearson con seis grados de libertad. Si el estadıstico supera un determinado

punto crıtico de la ley, se rechaza la independencia entre aquellas dos carac-

terısticas. ¿Cual debe ser este punto para que la probabilidad de rechazo sea del

5%? ¿Ydel 1%?

Solucion:

X ∈ χ26

P [X > χ20,05] = 0, 05 ⇒ χ2

0,05 = 12, 59

P [X > χ20,01] = 0, 01 ⇒ χ2

0,01 = 16, 81

1.3.2. t de Student

W.S. Gosset 1908

U ∈ N(0, 1)

V ∈ χ2n

⇒ T =

U√Vn

∈ tn

Una definicion equivalente es:

X,X1, X2, . . . , Xn ∈ N(0, σ) independientes ⇒ T =X√

1n(X2

1 +X22 + . . .+X2

n)∈ tn

f(t) =Γ(n+12

)Γ(n2

)√nπ

(1 +

t2

n

)− 12(n+1)

−∞ < t < +∞

1. E[T ] = 0


2. V ar(T ) = nn−2

, n > 2

Ejemplo 1.3.2 Dada una distribucion t con quince grados de libertad, hallar

el valor critico que separa las siguientes areas bajo la curva:

1. El 1% superior.

2. El 5% superior.

3. El 97,5% superior.

4. El 10% inferior.

Solucion:

X ∈ t15

1. P [X > t15;0,01] = 0, 01 ⇒ t15;0,01 = 2, 602

2. P [X > t15;0,05] = 0, 05 ⇒ t15;0,05 = 1, 753

3. P [X > t15;0,975] = 0, 975 ⇒ t15;0,975 = −2, 131

4. P [X > t15;0,95] = 0, 95 ⇒ t15;0,95 = −1, 753

5. P [X > t15;0,9] = 0, 9 ⇒ t15;0,9 = −1, 341

1.3.3. F de Snedecor

U ∈ χ2n1

V ∈ χ2n2

U y V son independientes

⇒ X =Un1

Vn2

∈ Fn1,n2

1.3. MODELOS ASOCIADOS A LA NORMAL 13

Una definicion equivalente es la siguiente: Si X1, X2, . . . , Xn1 e Y1, Y2, . . . , Yn2

son n1 + n2 variables independientes e identicamente distribuidas segun una

ley N(0, σ), entonces:

X =1n1

(X2

1 +X22 + . . .+X2

n1

)1n2

(Y 21 + Y 2

2 + . . .+ Y 2n2

) ∈ Fn1,n2

f(x) =Γ(n1+n2

2

)Γ(n1

2

)Γ(n2

2

) (n1

n2

)n12

xn12−1

(1 +

n1

n2

x

)−n1+n22

, x > 0

1. E[X] = n2

n2−2. para n2 > 2. Observese que no depende del parametro n1.

2. V ar(X) =2n2

2(n1+n2−2)

n1(n2−4)(n2−2)2, para n > 4

3. Propiedad de reciprocidad:

Si X ∈ Fn1,n2 , entonces Y = 1X

∈ Fn2,n1 y ademas se verifica:

P [X ≤ Fn1,n2,p] = 1− P

[Y ≤ 1

Fn1,n2,p

]= P

[Y >

1

Fn1,n2,p

]

Ejemplo 1.3.3 Calcular los valores crıticos que dejan por encima las proba-

bilidades de la tabla si X ∈ Fn1;n2:

n1 n2 Probabilidad (p)

P [X > Fn1;n2;p] 6 8 0,01

P [X > Fn1;n2;p] 10 12 0,01

P [X > Fn1;n2;p] 10 20 0,99

Solucion:

1. X ∈ F6;8; P [X > F6;8;0,01] = 0, 01 ⇒ F6;8;0,01 = 6, 37

2. X ∈ F10;12; P [X > F10;12;0,01] = 0, 01 ⇒ F10;12;0,01 = 4, 3


3. X ∈ F10;20; P [X > F10;20;0,99] = 0, 99 ⇒ P [X ≤ F10;20;0,99] = 0, 01.

Aplicamos la propiedad de reciprocidad:

0, 01 = P [X ≤ F10;20;0,99] = 1−P

[Y ≤ 1

F10;20;0,99

]= P

[Y >

1

F10;20;0,99

]donde Y ∈ F20;10. Por tanto:

1

F10;20;0,99

= 4, 41 ⇒ F10;20;0,99 =1

4, 41= 0, 227

1.4. Ejercicios de autoevaluacion (Capıtulo 1)

1. Un agente de seguros vende polizas a cinco individuos de igual edad. De

acuerdo con las tablas actuariales, la probabilidad de que un individuo

con esa edad viva 30 anos mas es de 3/5. Determine la probabilidad de

que dentro de 30 anos vivan:

a) Los cinco individuos.

b) Al menos tres.

c) Solo dos.

d) Al menos uno.

Solucion:

a) SeaX = no de individuos que viviran 30 anos o mas.X ∼ B(5, 3/5).

Luego P(X=5)=0,0778

b) P (X ≥ 3) = 1 − P (X < 3) = 1 − F (2) = 1 − 0, 3174 = 0, 6826,

segun las tablas.

c) P (X = 2) = 0, 2304

d) P (X ≥ 1) = 1− P (X = 0) = 0, 9898.

EJERCICIOS DE AUTOEVALUACION 15

2. Una editora publica 300 libros diarios, de los cuales seis son defectuosos.

¿Cual es la probabilidad de que al comprar un libro al azar de dicha

tirada no sea defectuoso? ¿Y cual es la probabilidad de que al comprar

cinco libros no resulte ninguno defectuoso?

Solucion: P (def) = 6/300 = 0, 02 y P (nodef) = 294/300 = 0, 98;

Sea ahora X = numero de libros defectuosos en una compra de 5 libros

de los 300 publicados, sabiendo que de ellos, 6 son defectuosos. X ∼H(300; 5; 0, 02). Luego

P (X = 0) =

(6

0

)(300− 6

5− 0

)(

300

5

) = 0, 9033

3. Considere un test compuesto por 6 preguntas, cada una de las cuales

ofrece 3 posibles respuestas, siendo solamente una de ellas la correcta.

a) ¿Cual es la probabilidad de que el estudiante tenga al menos 5 pre-

guntas correctas si contesta el examen sin saber nada del temario?

b) Si el alumno no ha estudiado el examen y contesta todas las pre-

guntas, ¿cuantas respuestas correctas se espera que tenga?

c) Si ningun alumno ha estudiado el examen pero todos responden

a las preguntas, ¿cuantos examenes tendra que evaluar el profesor

en promedio hasta encontrar el primer examen donde un alumno

tiene al menos 5 preguntas correctas? ¿Y hasta encontrar el tercer

examen?

d) ¿Cual es la probabilidad de que en una clase con 40 alumnos, que

no han estudiado el examen pero responden a las 6 preguntas, nadie

consiga al menos 5 preguntas correctas?

Solucion:


a) X = no de respuestas correctas en un test; X ∼ B(6, 1/3).

P (X ≥ 5) = 0, 01783.

b) E(X) = n · p = 2.

c) Y = no de examenes a evaluar hasta encontrar el primero que...

Y ∼ G(0, 01783). E(Y ) = q/p = 55, 085, luego la solucion es 56, 085

examenes.

Si Z = no de examenes a evaluar hasta encontrar el tercero que...

Z ∼ BN(3, 0,01783), E(Z) = r · q/p = 165, 25 y la solucion es

168,25 examenes.

d) T = no de alumnos de la clase de 40 que... Entonces T ∼ B(40, 1−0,1783) y P (T = 0) = 0, 4869.

4. De los 68 clientes de una empresa con implantacion en todo el territorio

nacional se elegira al azar una muestra de 12, a los que se les realizara una

labor de seguimiento comercial. ¿Cual es la probabilidad de que en la

muestra esten los tres clientes de una cierta provincia?

Solucion: Sea ahora X = numero de clientes de dicha provincia de entre

los 12 que componen la muestra. Entonces X ∼ H(68, 3, 3/68) y

P (X = 3) =

(3

3

)(68− 3

12− 3

)(

68

12

) = 0, 004389.

5. ¿Cual es la probabilidad de aprobar el permiso de conducir en el cuarto

intento si la probabilidad de pasar dichos examenes es de 0,65?

Solucion: Sea ahora X = numero de veces que se presenta al carnet de

conducir y suspende hasta que aprueba. X ∼ G(0, 65) y P (X = 3) =

0, 65 · 0, 353 = 0, 027868.

6. En una marca de galletas de chocolate se incluyen cupones de regalo

de otra caja igual a la adquirida. Si existen cupones en uno de cada seis


paquetes de galletas, ¿cual es el numero medio de paquetes de galletas que

se deberıa comprar para obtener tres de regalo?¿Cual es la probabilidad

de obtener dos regalos si solo tengo dinero para comprar como maximo

seis cajas de galletas?

Solucion: Sea ahora X = numero de cajas de galleta compradas y que

no dan premio hasta obtener la tercera que da cupon de regalo. X ∼BN(3, 1/6). Entonces, E[X] = rq/p = 15. Luego, el numero medio de

paquetes de galletas que se deberıa comprar para obtener tres de regalo

serıa 18 paquetes.

Sea ahora Y = numero de cajas de galleta compradas y que no dan

premio hasta obtener la segunda que da cupon de regalo. Entonces, Y ∼BN(2, 1/6) y P (X ≤ 4) = P (X = 0) + P (X = 1) + · · · + P (X = 4) =

0, 26322.

7. Si el numero de individuos que llegan a la cola del Teatro de la Maes-

tranza por minuto sigue una ley de Poisson de media 5, determine la

probabilidad de que lleguen mas de 5 individuos por minuto ası como la

probabilidad de que el numero de individuos que vayan llegando este com-

prendido entre 2 y 8 personas, ambos inclusive.

Solucion: Sea X = el numero de individuos que llegan a la cola del

Teatro de la Maestranza por minuto. Entonces, X ∼ P (5) y P (X >

5) = 1−P (X ≤ 5) = 1−F (5) = 1− 0, 616 = 0, 384, segun las tablas. Y

P (2 ≤ X ≤ 8) = F (8)−F (2)+P (X = 2) = 0, 9319−0, 1247+0, 0842 =

0, 8914.

8. Las erratas de imprenta de las paginas de un cierto libro siguen una

distribucion de Poisson con dos erratas de media por pagina. En un libro

de 300 paginas, calcule la probabilidad de que en una o mas paginas

existan mas de cinco erratas.

Solucion: Sea X = erratas de imprenta de las paginas de un cierto libro.

X ∼ P (2).


Sea ahora Y = no de paginas con mas de 5 erratas de un libro de 300

paginas. Y ∼ B(300, p), donde p = P (X > 5) = 1 − P (X ≤ 5) =

1−F (5) = 1−0, 9834 = 0, 0166, segun tablas. Ası, P (Y ≥ 1) = 1−P (Y <

1) = 1− P (Y = 0) = 1− 0, 006593 = 0, 993407.

9. El propietario de una tienda de televisores sabe por experiencia que el

50% de los clientes que entren en su tienda compraran un televisor LCD,

el 20% un televisor de plasma, el 1% un televisor tradicional con su

tubo de rayo catodico y el resto no comprara nada. Si un dıa entran 5

clientes en su almacen, ¿cual es la probabilidad de que 2 de ellos compren

televisores LCD, uno un televisor de plasma y el resto nada?

Solucion: X = (X1, X2, X3, X4), donde X1 = no de clientes que com-

praran televisores LCD; X2 = no de clientes que compraran televisores

de plasma; X3 = no de clientes que compraran televisores tradicionales

y X4 = no de clientes que no compraran nada. Entonces,

X ∼ M(5; 0, 5; 0, 2; 0, 01; 0, 29) y P (X1 = 2, X2 = 1, X3 = 0, X4 = 2) =

0, 12615.

10. Un agricultor planta 15 semillas en un campo. Por su experiencia sabe

que pasado un ano, independientemente del comportamiento de las otras

semillas, cada una tiene una probabilidad del 50% de crecer y dar fruto

el ano proximo, una probabilidad del 20% de crecer pero no dar fruto y

una probabilidad del 30% de ni crecer ni dar fruto.

a) ¿Cual es el numero esperado de semillas en cada una de las tres

categorıas, transcurrido un ano?

b) ¿Cual es la probabilidad de que 10 semillas crezcan y den fruto, 2

crezcan pero no den fruto y el resto ni crezca ni den fruto?

Solucion:

a) X = (X1, X2, X3), dondeX1 = no de semillas que crecen y dan fru-

to; X2 = no de semillas que crecen pero no dan fruto y X3 = no de


semillas que ni crecen ni dan fruto. Ahora X ∼ M(15; 0, 5; 0, 2; 0, 3)

con E(X1) = n·p1 = 7, 5; E(X2) = n·p2 = 3; E(X3) = n·p3 = 4, 5.

b) P (X1 = 10, X2 = 2, X3 = 3) = 0, 0316.

11. Utilizando las tablas estadısticas de la distribucion normal y tambien

usando la hoja de calculo EXCEL se proponer comprobar las siguientes

afirmaciones:

a) Si Z ∈ N(0; 1):

1) P (Z < 1,44) = 0,9251

2) P (Z > −0,89) = 0,8133

3) P (−2,16 < Z < −0,65) = 0,2425

4) P (Z < −1,39) = 0,0823

5) P (Z > 1,96) = 0,0250

6) P (−0,48 < Z < 1,74) = 0,6435

b) Si X ∈ N(18; 2,5),

1) P (X < 15) = 0,1151

2) P (17 < X < 21) = 0,5404

3) Calcular el valor de k tal que P (X < k) = 0,2236

(k = 16,10)

4) Calcular el valor de k tal que P (X > k) = 0,1814

(k = 20,275)

12. Si X se distribuye normalmente de manera que P (X <= 0) = 1/3 y

P (X <= 1) = 2/3.

a) ¿Cuanto vale la media y la desviacion tıpica de X?

b) ¿Y si P (X <= 1) = 3/4?

Solucion:

a) µ = 0,5 y σ = 1,16


b) µ = 0,39 y σ = 0,9

13. Un investigador cientıfico ha demostrado que unos ratones viven un

promedio de 40 meses cuando sus dietas se restringen drasticamente y

despues se enriquecen con vitaminas y proteınas. Suponiendo que la vida

de tales ratones se distribuye normalmente con una desviacion estandar

de 6.3 meses, encuentre la probabilidad de que un raton dado viva

a) mas de 32 meses.

b) menos de 28 meses.

c) entre 37 y 49 meses.

Solucion:

a) P (X > 32) = 1 − P (Z < (32 − 40)/6,3) = 1 − P (Z < −1,27) =

1− 0,1020 = 0,8980

b) P (X < 28) = P (Z < (28− 40)/6,3) = P (Z < −1,90) = 0,0287

c) P (37 < X < 49) = P (Z < (49−40)/6,3)−P (Z < (37−40)/6,3) =

P (Z < 1,43)− P (Z < −0,48) = 0,923641− 0,315614 = 0,6080

14. Se regula una maquina expendedora de refresco para que sirva un prome-

dio de 200 mililitros por vaso. Si la cantidad de bebida se distribuye

normalmente con una desviacion estandar igual a 15 mililitros,

a) ¿que porcentaje de los vasos servidos contendran mas de 224 milil-

itros?

b) ¿cual es la probabilidad de que un vaso contenga entre 191 y 209

mililitros?

c) ¿cuantos vasos probablemente se derramaran si se utilizan vasos de

230 mililitros para las siguientes 1000 bebidas?

d) ¿por debajo de que valor se encuentra el contenido del 25% de los

vasos en los que se sirve menor cantidad?


Solucion:

a) P (X > 224) = 1 − P (Z < (224 − 200)/15) = 1 − P (Z < 1,60) =

1− 0,945201 = 0,0548

b) P (191 < X < 209) = P (Z < (209 − 200)/15) − P (Z < (191 −200)/15) = P (Z < 0,60)− P (Z < −0,60) = 0,725747− 0,274253 =

0,4515.

c) P (X > 230) = 1−P (Z < (230−200)/15) = 1−P (Z < 2,00) = 1−0,977250 = 0,0228. Por tanto, el total de vasos sera de 1000*0.0228

= 22.8 (aproximadamente 23).

d) El percentil 25 de la normal estandar es P (Z < z) = 0,25 si z =

−0,67. Luego el percentil 25 de X es x = zµ + σ = (−0,67)(15) +

200 = 189,88.

15. Un abogado va todos los dıas desde su casa en las afueras a su oficina

en el centro de la ciudad. El tiempo promedio para un viaje de ida es

24 minutos, con una desviacion estandar de 3.8 minutos. Suponga que la

distribucion de los tiempos de viaje esta distribuida normalmente.

a) ¿Cual es la probabilidad de que un viaje dure al menos media hora?

b) Si la oficina abre a las 9:00 am y sale a diario de su casa a las 8:45

am, ¿que porcentaje de las veces llega tarde al trabajo?

c) Si sale de su casa a las 8:35 am y el cafe se sirve en la oficina de

8:50 a 9:00 am, ¿cual es la probabilidad de que se pierda el cafe?

d) Encuentre el periodo de tiempo a partir del cual encontramos al

15% de los viajes mas lentos.

Solucion:

a) P (X > 30) = 1 − P (Z < (30 − 24)/3,8) = 1 − P (Z < 1,58) =

1− 0,942947 = 0,0571.


b) P (X > 15) = 1 − P (Z < (15 − 24)/3,8) = 1 − P (Z < −2,37) =

1− 0,008894 = 0,9911.

c) P (X > 25) = 1 − P (Z < (25 − 24)/3,8) = 1 − P (Z < 0,26) =

1− 0,602568 = 0,3974.

d) El percentil 85 de la distribucion N(0; 1) es z = 1,04 aproximada-

mente. Por tanto, el percentil 85 de X es x = zµ+ σ = 1,04 ∗ 3,8 +24 = 27,94 minutos, aproximadamente.

16. La vida promedio de cierto tipo de motor pequeno es de 10 anos con

una desviacion tıpica de dos anos. El fabricante reemplaza gratis todos

los motores que fallen dentro del tiempo de garantıa. Si esta dispuesto a

reemplazar solo el 3% de los motores que fallan, ¿de que duracion debe

ser la garantıa que ofrezca? Suponga que la duracion de un motor sigue

una distribucion normal.

Solucion:

El percentil 3 de N(0; 1) es z = −1,88 aproximadamente. Por tanto, el

percentil 3 de N(10; 2) es x = zµ + σ = −1,88 ∗ 2 + 10 = 6,24 anos,

aproximadamente.

17. En una universidad se ha observado que el 60% de los estudiantes que

se matriculan lo hacen en una carrera de Ciencias, mientras que el otro

40% lo hacen en carreras de Humanidades. Si un determinado dıa se

realizan 200 matrıculas, calcule:

a) La probabilidad de que haya igual numero de matrıculas en Ciencias

y en Humanidades (compare el valor exacto con el aproximado por

un modelo normal);

b) La probabilidad de que el numero de matrıculas en Ciencias sea

menor que en Humanidades;

c) La probabilidad de que haya al menos 80 matrıculas en Ciencias;


d) Si las diez primeras matrıculas son de Humanidades, calcular de nue-

vo la probabilidad de que en total haya igual numero de matrıculas

en Ciencias y en Humanidades. Comparar esta probabilidad con la

del primer apartado.

Solucion:

a) Para calcular el valor exacto: X sigue B(200; 0,4) = Numero de

matriculados en una carrera de Humanidades de los 200. P (X =

100) =(200100

)0,4100 ∗ 0,6100 = 0,000950617.

Para el valor aproximado, usaremos que la distribucion B(200;0.4) se

aproxima a N(200∗0,4;√200 ∗ 0,4 ∗ 0,6) = N(80; 6,92820323). Ası,

una vez aplicada la correccion por continuidad de Fisher, P (X =

100) = P (99,5 < X < 100,5) = P (Z < (100,5− 80)/6,92820323)−P (Z < (99,5 − 80)/6,92820323) = P (Z < 2,96) − P (Z < 2,81) =

0,998462− 0,997523 = 0,000939.

b) Para calcular P (X > 100) resulta mas apropiado usar la aprox-

imacion por el modelo normal. Ası, P (X > 100) = 1 − P (X <=

100) = 1−P (X <= 100,5) = 1−P (Z <= ((100,5−80)/6,92820323) =

1− P (Z < 2,96) = 1− 0,998462 = 0,0015 aproximadamente.

c) Para calcular P (X <= 120) resulta mas apropiado usar la aprox-

imacion por el modelo normal. Ası, P (X <= 120) = P (X <=

120,5) = P (Z <= ((120,5 − 80)/6,92820323) = P (Z < 5,85) = 1

aproximadamente.

d) Si las 10 primeras matrıculas son en Humanidades, como las sigu-

ientes 190 son independientes de estas, procederemos de la mis-

ma forma que en el primer apartado. Para calcular el valor exac-

to: X sigue B(190; 0,4) = Numero de matriculados en una carrera

de Humanidades de los 190. P (X = 95) =(19095

)0,495 ∗ 0,695 =

0,001196. Para el valor aproximado, usaremos que B(190; 0,4) se

asemeja a N(190 ∗ 0,4;√190 ∗ 0,4 ∗ 0,6) = N(76; 6,752777). Ası,


una vez aplicada la correccion por continuidad de Fisher, P (X =

95) = P (94,5 < X < 95,5) = P (Z < (95,5 − 76)/6,752777) −P (Z < (94,5 − 76)/6,752777) = P (Z < 2,89) − P (Z < 2,74) =

0,998074 − 0,996928 = 0,0011. Se aprecia un aumento respecto al

primer apartado.

18. Una empresa electronica observa que el numero de componentes que fa-

llan antes de cumplir 100 horas de funcionamiento es una variable aleato-

ria de Poisson. Si el numero promedio de estos fallos es 15,

a) ¿cual es la probabilidad de que falle un componente en 100 horas?

Compare el valor exacto con el obtenido mediante el valor aproxi-

mado por una normal.

b) ¿y de que fallen mas de dos componentes en 100 horas?

Solucion:

a) Para calcular el valor exacto: X sigue P (15) = Numero de compo-

nentes que fallan antes de cumplir 100 horas. P (X = 1) = 151 ∗e−15

1!= 0,000004588. Para el valor aproximado, usaremos que P(15)

se aproxima a N(15;√15) = N(15; 3,872983). Ası, una vez aplicada

la correccion por continuidad de Fisher, P (X = 1) = P (0,5 < X <

1,5) = P (Z < (1,5−15)/3,872983)−P (Z < (0,5−15)/3,872983) =

P (Z < −3,49) − P (Z < −3,74) = 0,000242 − 0,0000 = 0,000242

aproximadamente.

b) Para calcular P (X > 2) resulta mas apropiado usar la aproximacion

por el modelo normal. Ası, P (X > 2) = 1 − P (X <= 2) = 1 −P (X <= 2,5) = 1 − P (Z <= ((2,5 − 15)/3,872983) = 1 − P (Z <

−3,23) = 1− 0,000619 = 0,9994 aproximadamente.

19. La vida media de una pila de linterna es de 24 horas y esta distribuida

normalmente con una desviacion de 3 horas. Suponiendo que las pilas no


se usan a la vez, ¿cual es la probabilidad de que una muestra aleatoria

de 100 pilas tenga una vida total superior a los 102 dıas?

Solucion:

La vida de una pila se distribuye segun una N(24; 3). Ası, la vida to-

tal de 100 pilas sera la suma de 100 distribuciones independientes e

identicamente distribuidas segun una N(24; 3); X = X1 + . . . + X100

que se distribuye segun N(24∗100; 3∗√100) = N(2400; 30). Ası, P (X >

102∗24) = 1−P (X < 2448) = 1−P (Z < (2448−2400)/30) = 1−P (Z <

1,6) = 0,945201 = 0,0548.

20. Se toman 36 observaciones de una maquina de acunar monedas conmem-

orativas. Si el espesor promedio de las monedas es de 0.20 cm con una

desviacion de 0.01 cm, ¿cual es la probabilidad de que el promedio del

espesor de las 36 monedas supere los 0.21 cm?

Solucion:

El espesor de una moneda se distribuye segun una N(0,20; 0,01). Ası, el

espesor medio de 36 monedas sera la media de 36 distribuciones indepen-

dientes e identicamente distribuidas segun una N(0,20; 0,01); X = (X1+

. . .+X36)/36 que se distribuye segunN(0,20; 0,01/√36) = N(0,20; 0,00027).

Ası, P (X > 0,21) = 1−P (X < 0,21) = 1−P (Z < (0,21−0,20)/0,0002777) =

1− P (Z < 36,01) = 1− 1 = 0.

21. Completar la siguiente tabla usando las tablas de las distribuciones aso-

ciadas a la normal y tambien utilizando la hoja de calculo EXCEL.

Chi-cuadrado t-student F-Snedecor

P (χ22 < x) = 0,1 P (t2 < t) = 0,1 P (F4,6 < f) = 0,9

P (χ25 > x) = 0,01 P (t5 > t) = 0,01 P (F10,14 < f) = 0,975

P (χ24 ≤ x) = 0,95 P (t4 ≤ t) = 0,95 P (F20,30 ≥ f) = 0,001

P (χ27 < 6,3458) = P (t7 < 2,3646) = P (F10,12 < 4,2961) =

P (χ22 > 39,9968) = P (t20 > 0,86) = P (F22,10 < f) = 0,05

Solucion:


Chi-cuadrado t-student F-Snedecor

P (χ22 < 0,2107) = 0,1 P (t2 < 1,8856) = 0,1 P (F4,6 < 3,1808) = 0,9

P (χ25 > 15,0863) = 0,01 P (t5 > 3,3649) = 0,01 P (F10,14 < 3,1469) = 0,975

P (χ24 ≤ 9,4877) = 0,95 P (t4 ≤ 2,1318) = 0,95 P (F20,30 ≥ 3,492784) = 0,001

P (χ27 < 6,3458) = 0,5 P (t7 < 2,3646) = 0,975 P (F10,12 < 4,2961) = 0,99

P (χ22 > 39,9968) = 0,005 P (t20 > 0,86) = 0,2 P (F22,10 < 1/2,2967) = 0,05

22. La variable X se distribuye segun una chi-cuadrado con 10 grados de

libertad. Si se extrae un sujeto al azar:

a) Calcule la probabilidad de que no supere 9.342.

b) Calcule el valor de X tal que la probabilidad de obtener como maxi-

mo ese valor sea 0.75.

c) Calcule la probabilidad de obtener un valor de X entre 3.9403 y

18.3070.

d) Calcule el percentil 90 de X.

Solucion:

a) P (X < 9,342) = 0,5

b) P (X < x) = 0,7 si x = 12,5489

c) P (3,9403 < X < 18,3070) = P (X < 18,3070) − P (X < 3,9403) =

0,95− 0,05 = 0,9.

d) P (X < x) = 0,9six = 15,9872.

23. La variable X se distribuye segun una t de Student con 25 grados de





c) Calcule la probabilidad de obtener un valor de X entre −1,316 y

41,316.

d) ¿Que valor corresponde a la mediana de X?


Solucion:

a) P (X < 2,06) = 0,975.

b) P (X < x) = 0,7 si x = 0,5312.

c) P (−1,316 < X < 1,316) = P (X < 1,316) − P (X < −1,316) =

0,9− 0,1 = 0,8.

d) P (X < x) = 0,5 si x = 0 pues X es simetrica en x = 0.

24. La variable X se distribuye segun una F de Snedecor con 7 y 8 grados de





c) Calcule la probabilidad de obtener un valor de X entre 2,6241 y

6,1776.

d) ¿Que valor corresponde al primer percentil de X?

Solucion:

a) P (X < 3,5) = 0,95

b) P (X < x) = 0,975 si x = 4,5286

c) P (2,6241 < X < 6,1776) = P (X < 6,1776) − P (X < 2,6241) =

0,99− 0,9 = 0,09.

d) P (X < x) = 0,01 si x = 1/6,84 pues P (F8,7 < 6,84) = 0,99

(Propiedad de Reciprocidad).

Capıtulo 2

Distribuciones en el muestreo

1. Muestra aleatoria. Parametros poblacionales y estadısticos muestrales.

2. Distribucion muestral de estadısticos.

3. Media y varianza de algunos estadısticos.

4. Distribucion de estadısticos muestrales de poblaciones normales.

5. Distribucion de la proporcion muestral.

6. Distribucion de la diferencia de proporciones.

2.1. Muestra aleatoria. Parametros poblacionales

y estadısticos muestrales

Cuando se habla de muestra nos referiremos a la observacion parcial de la

poblacion que se analiza, o dicho de otra forma, nos basaremos en la informa-

cion que se obtenga de un subconjunto o parte de la poblacion.

29

30 CAPITULO 2. DISTRIBUCIONES EN EL MUESTREO

Los elementos que componen la muestra representan a toda la poblacion,

por lo que las caracterısticas que se estudian en la muestra seran similares a

las que se observarıan en la poblacion.

Ası por ejemplo, supongamos que se desea conocer el precio medio de la

vivienda en Sevilla en un determinado ano, para lo que se necesitarıa conocer

el precio de venta de cada una de las viviendas vendidas en Sevilla durante

el periodo de tiempo que se desea estudiar. La lista completa de viviendas

con sus precios serıa la poblacion que se quiere investigar, mientras que la

caracterıstica es el precio de la vivienda. En esta situacion sera complicado

y sobre todo costoso (tiempo y recursos economicos), obtener la informacion

deseada de toda la poblacion. Lo que sı se puede obtener de manera mas facil

es la informacion del precio de la vivienda para una muestra representativa de

la poblacion, y a partir de ahı obtener conclusiones que se puedan inferir a la

caracterıstica de la poblacion.

Siguiendo con el ejemplo, al hablar de representatividad de la muestra, si la

seleccion de viviendas se hiciera ıntegramente en una zona marginal de Sevil-

la, es evidente que la muestra seleccionada no representarıa adecuadamente

el precio de la vivienda en Sevilla. Para evitar estos problemas y para que

la inferencia sobre la poblacion sea correcta es necesario que se garantice la

aleatoriedad de la muestra.

La medida de una caracterıstica determinada de una poblacion viene dada

por una variable aleatoria X, con funcion de distribucion F (x). Cuando se

selecciona aleatoriamente un primer elemento de la poblacion, se observa la

caracterıstica medible que se estudia, X1; una vez hecho esto se devuelve el

elemento a la poblacion, despues se selecciona un segundo elemento y de nuevo

se observa la caracterıstica medible dando lugar a la observacion X2; repetimos

esto n veces y tenemos n observaciones (X1, X2, . . . , Xn) de la caracterıstica

X que se investiga de la poblacion. Observese que X1,X2,...,Xn son variables

aleatorias independientes e identicamente distribuidas, ya que el hecho de que

2.1. MUESTRA ALEATORIA 31

una observacion haya sido seleccionada no depende de las que se han selec-

cionado anteriormente, puesto que los elementos se devuelven a la poblacion

y la probabilidad de seleccion de estos permanece constante durante todo el

experimento.

(X1, X2, . . . , Xn) constituye lo que se denomina una muestra aleatoria sim-

ple, (m.a.s.), es decir, una muestra aleatoria simple de tamano n es un conjunto

de n variables aleatorias independientes e identicamente distribuidas.

Cuando se ejecuta el experimento, se tiene la realizacion de la muestra y

cada una de las variables aleatorias tomara un valor numerico. De esta forma y

siguiendo con el ejemplo de la vivienda, se tendrıa por ejemplo tras la seleccion

de una muestra de tama no 200 viviendas:

x1 = 118000e , x2 = 84000e , . . . , x200 = 94000e .

Al ser las variables aleatorias X1,X2,...,Xn independientes, la funcion de dis-

tribucion conjunta sera el producto de las funciones de distribucion marginales:

F (x1, x2, . . . , xn) =n∏

i=1

F (xi).

Si la poblacion es de tipo discreto y la funcion de probabilidad de esta es:

pi = P [X = xi] ; i = 1, 2, . . . , r.

En este caso la funcion de probabilidad conjunta sera:

P [X1 = x1, X2 = x2, . . . , Xn = xn] =n∏

i=1

P [X = xi] =n∏

i=1

pi.

Si la poblacion es de tipo continuo con funcion de densidad f(x), en este

caso la funcion de densidad de la muestra sera:

f(x1, x2, . . . , xn) =n∏

i=1

f(xi)


2.1.1. Parametros poblacionales y estadısticos muestrales

Supongamos que interesa investigar el volumen anual de ventas de un de-

terminado producto en el mercado mayorista espanol y que esta caracterıstica

sigue una distribucion normal, N(µ, σ), con funcion de densidad:

f(x) =1

σ√2π

e−(x−µ)2

2σ2 ,

La media, µ, representa el volumen medio de ventas y la varianza σ2 la disper-

sion de las ventas en los distintos establecimientos. Estos valores se obtienen

manejando todos los datos de ventas en el comercio mayorista espanol. Como

es difıcil disponer de todos estos datos y sobre todo es muy costoso, desde

el punto de vista economico, se trabaja con una m.a.s. y se considera que µ

y σ son parametros poblacionales desconocidos. A partir de la m.a.s. se ob-

tienen estimadores de estos parametros a traves de funciones de la muestra

denominadas estadısticos muestrales, que son funciones reales de las variables

aleatorias que integran la muestra.

Parametros poblacionales

Media:

La media poblacional, µ, de una distribucion es el centro de gravedad de la

distribucion. Constituye un parametro desconocido de la distribucion porque

o bien no es posible calcularlo (caso de poblaciones infinitas) o es muy costoso

hacerlo. En el caso de una poblacion finita de tamano N el parametro media

poblacional vendrıa dado por:

µ =1

N

N∑i=1

xi,

donde xi, i = 1, 2, . . . , N , son todos los posibles valores que miden la carac-

terıstica que estamos observando en la poblacion.

2.1. MUESTRA ALEATORIA 33

Varianza:

La varianza poblacional, σ2, es un parametro que mide la dispersion de los

datos con respecto a la media. Para el caso de una poblacion finita:

σ2 =1

N

N∑i=1

(xi − µ)2.

Proporcion:

Si estamos midiendo si los individuos de una poblacion presentan o no una

determinada caracterıstica, la variable aleatoria que estamos considerando es

de tipo Bernouilli, X ∈ Be(p), y el parametro proporcion poblacional, p, rep-

resenta el porcentaje de individuos de la poblacion con dicha caracterıstica.

p =no de individuos que presentan la caracterıstica

no total de individuos

Estadısticos muestrales

Para una muestra aleatoria simple de tamano n, (X1, X2, . . . , Xn), los es-

tadısticos media, varianza y proporcion muestral se definen como:

Media:

µ = X =1

n

n∑i=1

Xi

Varianza:

σ2 = S2 =1

n− 1

n∑i=1

(Xi − X)2

Proporcion:

La proporcion muestral es el cociente entre el numero de exitos (individuos

que presentan la caracterıstica X) y el numero de pruebas (tamano muestral).


Como X1 ∈ Be(p), el estimador de la proporcion muestral es entonces:

p = X =1

n

∑i=1

nXi =no de exitos en n pruebas

no de pruebas

Notese que la variable numero de exıtos en n pruebas es una variable de tipo

binomial:

Y =n∑

i=1

Xi ∈ B(n, p).

Si en lugar de considerar las n variables aleatorias independientes e identi-

camente distribuidas (X1, X2, . . . , Xn) que constituyen la muestra aleatoria

simple, se considera una realizacion concreta de la muestra (x1, x2, . . . , xn)

entonces los valores concretos de los estadısticos muestrales se llaman estima-

ciones:

Media:

x =1

n·

n∑i=1

xi

Varianza:

s2 =1

n− 1·

n∑i=1

(xi − x)2

Proporcion:

pX =y

n=

1

n

n∑i=1

xi

2.2. Distribucion muestral de estadısticos

Los estadısticos muestrales son variables aleatorias que se utilizan para

estimar los correspondientes parametros poblacionales. En el siguiente ejemplo

se analiza la distribucion de la muestra y de dichos estadısticos muestrales.

2.2. DISTRIBUCION MUESTRAL DE ESTADISTICOS 35

Ejemplo 2.2.1 Supongamos una poblacion formada por los empleados de una

empresa. La caracterıstica que se desea investigar es el numero de dıas de

retraso en el cobro de la nomina de los empleados en el ultimo mes, y que

representaremos por X. Los valores poblacionales se muestran en la tabla que

se muestra a continuacion:

Dıas de retraso Numero de empleados

1 25

2 20

3 5

La distribucion de probabilidad de X es la siguiente:

X P[X = x]

1 P[X = 1] = 2550

= 0’5

2 P[X = 2] = 2050

= 0’4

3 P[X = 3] = 550

= 0’1

De esta forma la media y varianza poblacionales seran:

µ = E[X] = 1 · 0′5 + 2 · 0′4 + 3 · 0′1 = 1′6 dıas.

σ2 = V ar[X] = E[(X − µ)2]

Buscamos la varianza a traves de la tabla:

X − µ (X − µ)2

1-1’6 = -0’6 0’36

2-1’6 = 0’4 0’16

3-1’6 = 1’4 1’96


σ2 = 0′36 · 0′5 + 0′16 · 0′4 + 1′96 · 0′1 = 0′44 dıas2.

Supongamos que se extraen muestras aleatorias simples de tamano 2. En la

tabla que se muestra a continuacion aparecen todas las posibles muestras rea-

lizaciones de la muestra, ası como sus probabilidades y el valor del estadıstico

media y varianza muestral:

Muestras X S2 P[X1 = x1, X2 = x2] = P(X1 = x1) · P (X2 = x2)

(1,1) 1 0 0’25

(1,2) 1’5 0’5 0’2

(1,3) 2 2 0’05

(2,1) 1’5 0’5 0’2

(2,2) 2 0 0’16

(2,3) 2’5 0’5 0’04

(3,1) 2 2 0’05

(3,2) 2’5 0’5 0’04

(3,3) 3 0 0’01

A continuacion obtenemos la distribucion de probabilidad del estadıstico

media muestral X:

x P[X = x]

1 0’25

1’5 0’4

2 0’26

2’5 0’08

3 0’01

donde, por ejemplo, P [X = 2] = 0′05 + 0′16 + 0′05 = 0′26.

2.2. DISTRIBUCION MUESTRAL DE ESTADISTICOS 37

De la misma manera se obtiene la distribucion de probabilidad del estadısti-

co varianza muestral S2:

s2 P[S2 = s2]

0 0’42

0’5 0’48

2 0’10

donde, por ejemplo, P[S2 = 0] = 0’25 + 0’16 + 0’01 = 0’42.

Por ultimo obtenemos la media y varianza del estadıstico media muestral:

µX = E[X] =∑i

xi · P [X = xi] =

= 1 · 0′25 + 1′5 · 0′4 + 2 · 0′26 + 2′5 · 0′08 + 3 · 0′01 = 1′6 dıas.

σ2X = E[(X − µX)

2] =∑i

(xi − 1′6)2 · P [X = xi] =

= (1− 1′6)2 · 0′25 + (1′5− 1′6)2 · 0′4 + . . . = 0′22 dıas2.

Actuamos de forma analoga a la seguida con el estadıstico media muestral,

obteniendo la media y varianza del estadıstico varianza muestral:

µS2 = E[S2] =∑i

s2i · P [S2 = s2i ] =

= 0 · 0′42 + 0′5 · 0′48 + 2 · 0′1 = 0′44 dıas.

σ2S2 = E[(S2 − µS2)2] =

∑i

(s2i − 0′44)2 · P [S2 = s2i ] =

= (0− 0′44)2 · 0′42 + (0′5− 0′44)2 · 0′48 + (2− 0′44)2 · 0′1 = 0′32 dıas2.

Como se ve para muestras pequenas como el ejemplo que se ha desarro-

llado se hace largo el obtener la distribucion de probabilidad de estadısticos

muestrales. Habra que buscar resultados que faciliten estos calculos.


2.3. Media y varianza de algunos estadısticos

Teorema 2.3.1 Sea (X1, X2, . . . , Xn) una muestra aleatoria simple de tamano

n procedente de una poblacion definida por la variable aleatoria X, que viene

caracterizada por la media E[X] = µ y por la varianza V ar(X) = σ2, entonces:

E[X] = µ

V ar(X) =σ2

n

Demostracion: Puesto que partimos de una muestra aleatoria simple, las vari-

ables aleatorias X1, . . . , Xn son independientes, por lo que todas las variables

tienen la misma distribucion de probabilidad que la de X por lo que:

E[X1] = . . . = E[Xn] = E[X] = µ

V ar(X1) = . . . = V ar(Xn) = V ar(X) = σ2

Buscamos la esperanza matematica del estadıstico media muestral:

X =1

n

n∑i=1

Xi =X1 + . . .+Xn

n

E[X] = E

[X1 + . . .+Xn

n

]=

1

nE[X1 + . . .+Xn] =

=1

n(E[X1] + . . .+ E[Xn]) =

1

n(µ+ . . .+ µ) =

nµ

n= µ

Actuando de la misma forma para la varianza se tiene:

V ar(X) = V ar

(X1 + . . .+Xn

n

)=

1

n2V ar(X1 + . . .+Xn) =

=1

n2(V ar(X1) + . . .+ V ar(Xn)) =

1

n2(σ2 + . . .+ σ2) =

nσ2

n2=

σ2

n

2

2.3. MEDIA Y VARIANZA DE ALGUNOS ESTADISTICOS 39

Con estos resultados se puede obtener la media y varianza del estadıstico

media muestral sin necesidad de conocer la distribucion de probabilidad del

estadıstico media muestral.

Vamos a denominar error estandar de la media muestral a la desviacion

tıpica de la media muestral, σ√n.

Los resultados dados anteriormente son validos cuando el muestreo se rea-

liza en una poblacion infinita o en una poblacion finita, pero el muestreo se

hace con reemplazamiento (de esta forma las variables aleatorias X1, . . . , Xn

son independientes). Si el muestreo se hace sin reemplazamiento y el tamano

de la poblacion es N , las variables aleatorias X1, . . . , Xn no son independientes

y:

E[X] = µ

V ar(X) =σ2

n· N − n

N − 1

donde N−nN−1

se denomina factor de correccion de poblacion finita.

Cabe resaltar que a medida que el tamano muestral, n, aumenta, la dis-

persion en torno a la media poblacional, µ, disminuira, es decir, cuanto mayor

sea n menor sera V ar(X). Sin embargo, existe un lımite, es decir, llega un mo-

mento en el que aunque el tamano de la muestra siga creciendo, la dispersion

apenas disminuye.

En cuanto a la varianza muestral tenemos el siguiente resultado:

Teorema 2.3.2 Sea (X1, . . . , Xn) una muestra aleatoria simple de tamano

n, procedente de una poblacion que esta definida por la variable aleatoria X

(E[X] = µ, V ar(X) = σ2). Se verifica:

E[S2] = σ2

V ar(S2) =µ4

n+

3− n

n(n− 1)σ4


donde µ4 es el momento central de orden cuatro. En caso de que la poblacion

fuese N(µ, σ) entonces µ4 = 3σ4, siendo en este caso V ar(S2) = 2σ4

n−1. 2

2.4. Distribucion de estadısticos muestrales de

poblaciones normales

Sea X una variable aleatoria normal, X ∈ N(µ, σ). Consideremos una

muestra aleatoria simple de tamano n, (X1, X2, . . . , Xn).

2.4.1. Distribucion de la media muestral cuando se conoce

la varianza poblacional

Teorema 2.4.1 X ∈ N(µ, σ√

n

)y por tanto Z = X−µ

σ√n

∈ N(0, 1).

Demostracion: La demostracion la vamos a llevar a cabo a traves de la funcion

generatriz de momentos. La f.g.m. de una variable aleatoria X cuya distribu-

cion es N(µ, σ) es:

gX(t) = E[etX ] = etµ+12t2σ2

Las variables Xi son independientes y todas tienen la misma distribucion

N(µ, σ). De esta forma, la f.g.m. del estadıstico media muestral es:

gX(t) = E[etX ] = E[et(∑n

i=1Xin

)] = E[et(X1n

+...+Xnn

)] = E[etnX1 ] . . . E[e

tnXn ] =

= (etnµ+ 1

2t2

n2 σ2

) . . . (etnµ+ 1

2t2

n2 σ2

) = (etnµ+ 1

2t2

n2 σ2

)n = etµ+12

t2

nσ2

que es la funcion generatriz de momentos de una variable aleatoria distribuida

segun una N(µ, σ√n). Por tanto X ∈ N(µ, σ√

n). 2

1.4. POBLACIONES NORMALES 41

A veces la poblacion inicial de la que se extrae la muestra no es normal. En

estas situaciones, siempre que el tamano muestral sea suficientemente grande

(n ≥ 30), aplicando el Teorema Central del Lımite, tambien puede considerarse

que el estadıstico media muestral se distribuye normalmente:

X ∈ N(µ,σ√n)

Ejemplo 2.4.2 El gasto mensual en ocio por individuo (cientos de euros),

sigue una variable aleatoria cuya distribucion no se conoce, con una desviacion

tıpica de 1’6. Seleccionamos una muestra aleatoria de 70 individuos. Determi-

nar la probabilidad de que el gasto medio en ocio por individuo difiera, a lo

sumo, 20ede la verdadera media poblacional.

Solucion: La variable aleatoria es X ≡ gasto mensual en ocio por individuo

(cientos de euros).

No sabemos nada sobre cual es la distribucion de la poblacion pero, al ser

el tamano muestral bastante grande n = 70 (bastante superior de 30), en este

caso la distribucion de la media muestral puede aproximarse a una normal,

X ∈ N(µ, σ√n), que en nuestro caso sera X ∈ N(µ, 1′6√

70).

De la misma forma tenemos la distribucion de la variable aleatoria tipifi-

cada:

Z =X − µ

σ√n

=X − µ

1′6√70

∈ N(0, 1).

La probabilidad que se nos pide es la siguiente:

P (|X − µ| ≤ 0′2) = P (−0′2 ≤ X − µ ≤ 0′2) =

= P

(−0′2

1′6/√70

≤ X − µ

1′6/√70

≤ 0′2

1′6/√70

)=

= P (−1′04 ≤ Z ≤ 1′04) = P (Z ≤ 1′04)− P (Z ≤ −1′04) =


= F (1′04)− F (−1′04) = 0′8508− 0′1492 = 0′7016

La probabilidad de que el gasto medio en ocio por individuo, que se obtiene a

partir de una muestra de tamano 70, se encuentre a 20e de la media de gasto

en ocio real de la poblacion es del 70% aproximadamente.

Ejemplo 2.4.3 Supongamos ahora que la variable aleatoria gasto en ocio men-

sual por individuo (cientos de euros) se distribuye segun una normal de desviacion

tıpica 1’6. Determinar el tamano muestral para que la media muestral se en-

cuentre a lo sumo a 30e de la media poblacional con una probabilidad del

99%.

Solucion: Se debe cumplir que P (|X − µ| ≤ 0′3) = P (−0′3 ≤ X − µ ≤ 0′3) =

0′99.

Tipificamos en la expresion anterior, para lo cual dividimos los terminos

de la desigualdad por 1′6√n:

P

(−0′3

1′6/√n≤ X − µ

1′6/√n≤ 0′3

1′6/√n

)= P (−0′1875

√n ≤ Z ≤ 0′1875

√n) = 0′99

P (Z ≤ 0′1875√n)− P (Z ≤ −0′1875

√n) = 2P (Z ≤ 0′1875

√n)− 1 =

= 2F (0′1875√n)− 1 = 0′99 ⇒ F (0′1875

√n) = 0′995

Utilizando las tablas estadısticas tenemos,

0′1875√n = 2′575 ⇒ n =

(2′575

0′1875

)2

≃ 189 individuos.

2.4.2. Distribucion de la media muestral cuando no se

conoce la varianza poblacional

Teorema 2.4.4 X−µS/

√n∈ tn−1.


Demostracion: Utilizaremos:

X ∈ N(µ, σ√n) y por lo tanto X−µ

σ/√n∈ N(0, 1).

(n−1)S2

σ2 ∈ χ2n−1 (Teorema de Fisher).

X y S2 son independientes.

Recordamos la definicion de la variable aleatoria t-Student. Si U y V variables

aleatorias independientes, U ∈ N(0, 1) y V ∈ χ2n, se define la variable aleatoria

t-Student como:

T =U√V/n

∈ tn

En nuestro caso:

X−µσ/

√n√

(n− 1)S2/σ2(n− 1)=

(X − µ)√n/σ

S/σ=

X − µ

S/√n

∈ tn−1

2

2.4.3. Distribucion de la varianza muestral

Se utiliza el Teorema de Ficher.

Ejemplo 2.4.5 En una fabrica de piensos para animales se sabe que el peso

de los sacos en los que se almacena el pienso se distribuye segun una normal.

Se extrae una muestra de 25 sacos de pienso y se desea saber por debajo de

que porcentaje de la varianza muestral se encuentra la varianza poblacional

con una probabilidad del 90%.

Solucion: La variable aleatoria se define como X ≡ peso del saco de pienso.

Sabemos que X ∈ N(µ, σ) y desconocemos los parametros µ y σ. El tamano

muestral es de n = 25 y se pide obtener k para que P [σ2 ≤ kS2] = 0′9.


Dividimos ambos miembros de la desigualdad por la varianza poblacional y

por k:

P

[1 ≤ kS2

σ2

]= 0′9 ⇒ P

[1

k≤ S2

σ2

]= 0′9.

A continuacion multiplicamos ambos miembros de la desigualdad por (n−1)

y tenemos:

P

[(n− 1)S2

σ2≥ n− 1

k

]= 0′9 ⇒ P

[24S2

σ2≥ 24

k

]= 0′9.

Como:(n− 1)S2

σ2=

24S2

σ2∈ χ2

n−1 = χ224,

entonces

P

[24S2

σ2≥ 24

k

]= 0′9 ⇔ P

[24S2

σ2≤ 24

k

]= 0′1

y buscando en las tablas de la χ224, tenemos:

24

k= 15′66 ⇒ k = 1′53.

2.4.4. Distribucion de la diferencia de medias muestrales

cuando se conoce la varianza poblacional

Sean (X1, . . . , XnX) e (Y1, . . . , YnY

) dos muestras aleatorias simples e inde-

pendientes de tamanos nX y nY , procedentes de las poblaciones N(µX , σX) y

N(µY , σY ) respectivamente.

Teorema 2.4.6 X − Y ∈ N

(µX − µY ,

√σ2X

nX+

σ2Y

nY

)El estadıstico que se obtiene tras tipificar sera,

Z =(X − Y )− (µX − µY )√

σ2X

nX+

σ2Y

nY

∈ N(0, 1)


Demostracion: Partimos de X ∈ N(µX ,σX√nX

) y Y ∈ N(µY ,σY√nY

) y de sus

funciones generatrices de momentos:

gX(t) = E[etX ] = etµX+ 1

2t2

σ2X

nX

gY (t) = E[etY ] = etµY + 1

2t2

σ2Y

nY

Entonces:

gX−Y (t) = E[et(X−Y )] = E[etX ]E[e−tY ] = etµX+ 1

2t2

σ2X

nX e−tµY + 1

2t2

σ2Y

nY =

= et(µX−µY )+ 1

2t2(

σ2X

nX+

σ2Y

nY),

y por tanto:

X − Y ∈ N

µX − µY ,

√σ2X

nX

+σ2Y

nY

2

Ejemplo 2.4.7 Se analizan los ingresos anuales familiares en dos provincias

distintas (A y B). Se sabe que el ingreso medio en la provincia A es de 12900e

con una varianza de 250e 2, mientras que en la provincia B el ingreso medio

anual es de 11800e con una varianza de 287e 2. Se toma una muestra aleato-

ria de 42 familias en la provincia A y de 48 familias en la provincia B. Deter-

minar la probabilidad de que la muestra extraıda en la provincia A tenga unos

ingresos medios que sean al menos 1110e superiores a los ingresos medios de

la provincia B.

Solucion: En el enunciado no se ha dicho que las poblaciones sean normales,

sin embargo, no es necesario ya que ambos tamanos muestrales son mayores

de 30 por lo que la aproximacion a la distribucion normal es buena. Sean:

X ≡ ingreso familiar anual en la provincia A


Y ≡ ingreso familiar anual en la provincia B

X ∈ N(12900,

√250√42

)

Y ∈ N(11800,

√287√48

)

Como nX = 42 y nY = 48, la distribucion muestral de la diferencia de los

ingresos medios muestrales X − Y es:

X − Y ∈ N(12900− 11800,

√250

42+

287

48) ≡ N(1100, 3′45)

Se pide calcular la siguiente probabilidad:

P [X − Y ≥ 1110] = P

[(X − Y )− 1100

3′45≥ 1110− 1100

3′45

]= P [Z ≥ 2′89] =

= 1− P [Z ≤ 2′89] = 1− 0′9981 = 0′0019

La probabilidad de que el ingreso medio muestral en la provincia A supere en

1110e o mas al ingreso medio muestral en la provincia B es de 0′19%.

2.4.5. Distribucion de la diferencia de medias cuando

no se conoce la varianza poblacional

Caso de varianzas poblacionales desconocidas pero iguales, σX =

σY = σ

Teorema 2.4.8 T = (X−Y )−(µX−µY )√(nX−1)S2

X+(nY −1)S2Y

·√nX+nY −2

√nXnY√

nX+nY∈ tnX+nY −2

Demostracion: Utilizaremos:

X ∈ N(µX ,

σ√nX

)y Y ∈ N

(µY ,

σ√nY

).


(nX−1)S2X

σ2 ∈ χ2nX−1 y

(nY −1)S2Y

σ2 ∈ χ2nY −1.

W =(nX−1)S2

X

σ2 +(nY −1)S2

Y

σ2 ∈ χ2nX+nY −2 (propiedad reproductiva de la

distribucion χ2).

Z = (X−Y )−(µX−µY )√σ2

nX+ σ2

nY

∈ N(0, 1).

Como las variables aleatorias Z yW son independientes, aplicando la definicion

de la variable t-Student podemos definir el estadıstico:

T =Z√W

nX+nY −2

∈ tnX+nY −2,

y por lo tanto:

T =(X − Y )− (µX − µY )√(nX − 1)S2

X + (nY − 1)S2Y

·√nX + nY − 2

√nXnY√

nX + nY

∈ tnX+nY −2

2

Caso de varianzas poblacionales desconocidas pero iguales, σX = σY

Teorema 2.4.9 Se verifica:

1. Si los tamanos muestrales son grandes, nX ≥ 30 y nY ≥ 30, en este caso

el estadıstico:

Z =(X − Y )− (µX − µY )√

S2X

nX+

S2Y

nY

∈ N(0, 1)

ya que S2X y S2

Y son buenos estimadores de σ2X y σ2

Y .

2. Si los tamanos muestrales no son suficientemente grandes, es decir, ten-

emos muestras pequenas, en este caso el estadıstico:

(X − Y )− (µX − µY )√S2X

nX+

S2Y

nY

∈ tν


donde los grados de libertad de la t-Student vienen dados por:

ν =(S2X

nX+

S2Y

nY)2

(S2X/nX)2

nX−1+

(S2Y /nY )2

nY −1

y tomaremos por valor de ν el valor entero mas proximo.

2

2.4.6. Distribucion del cociente de varianzas

Caso de medias poblacionales conocidas

Teorema 2.4.10 F =

nXS∗2X

σ2X

/nX

nY S∗2Y

σ2Y

/nY

=S∗2X

S∗2Y

· σ2Y

σ2X∈ FnX ,nY

, donde:

S∗2X =

1

nX

nX∑i=1

(Xi − µX)2

S∗2Y =

1

nY

nY∑i=1

(Yi − µY )2,

Demostracion: Los estadısticos anteriores podemos expresarlos:

nXS∗2X =

nX∑i=1

(Xi − µX)2 ⇒ nXS

∗2X

σ2X

=

nX∑i=1

(Xi − µX

σX

)2

∈ χ2nX

nY S∗2Y =

nY∑i=1

(Yi − µY )2 ⇒ nY S

∗2Y

σ2Y

=

nY∑i=1

(Yi − µY

σY

)2

∈ χ2nY

,

resultado que se extrae de la definicion de variable aleatoria χ2n (suma de

n variables aleatorias N(0, 1)). Recordemos ademas, la definicion de variable

aleatoria F de Snedecor con nX y nY grados de libertad que se obtiene como


cociente de dos variables aleatorias χ2 independientes divididas por sus grados

de libertad, por lo que si aplicamos esto al estadıstico que hemos definido antes

tendrıamos:

F =

nXS∗2X

σ2X

/nX

nY S∗2Y

σ2Y

/nY

=S∗2X

S∗2Y

· σ2Y

σ2X

∈ FnX ,nY

2

Caso de medias poblacionales desconocidas

Puesto que µX y µY son desconocidas utilizaremos los estadısticos:

S2X =

1

nX − 1

nX∑i=1

(Xi − X)2

S2Y =

1

nY − 1

nY∑i=1

(Yi − Y )2

que son independientes, al igual que hicimos en el caso anterior vamos a operar

en los estadısticos:

(nX − 1)S2X =

nX∑i=1

(Xi − X)2 ⇒ (nX − 1)S2X

σ2X

=

nX∑i=1

(Xi − X

σX

)2

⇒ χ2nX−1

(nY − 1)S2Y =

nY∑i=1

(Yi − Y )2 ⇒ (nY − 1)S2Y

σ2Y

=

nY∑i=1

(Yi − Y

σY

)2

∈ χ2nY −1

Actuando de la misma forma que en el caso anterior, obtenemos:

F =

(nX−1)S2X

σ2X

/(nX − 1)

(nY −1)S2Y

σ2Y

/(nY − 1)=

S2X

S2Y

· σ2Y

σ2X

∈ FnX−1,nY −1

Y desde aquı se podrıa obtener la distribucion del cociente de varianzas.


2.5. Distribucion de la proporcion muestral

Sea (X1, . . . , Xn) una muestra aleatoria simple de tamano n, procedente

de una variable X de tipo Bernouilli, X ∈ Be(p). El estadıstico proporcion

muestral, p, se define como una variable aleatoria que viene dado por X.

Para una realizacion concreta de la muestra (x1, . . . , xn) el estadıstico

sera p =∑n

i=1 xi

n, donde el numerador indica el numero de elementos de la

muestra que presentan la caracterıstica que se estudia.

Como la distribucion binomial se puede aproximar a la normal cuando n es

grande (n ≥ 30) podremos decir si se cumple esta condicion que el estadıstico

proporcion muestral sigue una distribucion normal.

E[p] = E[X] = E

[∑ni=1 Xi

n

]=

1

nE

[n∑

i=1

Xi

]=

1

n

n∑i=1

E[Xi] =1

nnE[Xi] = p

V ar[p] = V ar[X] = V ar

[∑ni=1 Xi

n

]=

1

n2

n∑i=1

V ar[Xi] =1

n2npq =

pq

n

En conclusion,

p = X ∈ N

(p,

√pq

n

),

y por lo tanto para muestras grandes:

Z =X − p√

pqn

∈ N(0, 1).

Definimos el error estandar de la proporcion muestral como√

pqn. El error

estandar de la proporcion muestral disminuye a medida que aumenta el tamano

muestral, es decir, la distribucion del estadıstico proporcion muestral esta mas

concentrada en torno a la media a medida que crece el tamano de la muestra.

Ejemplo 2.5.1 Supongamos que el 20% las familias andaluzas tienen mas de

una vivienda en propiedad. Se desea conocer mas informacion sobre esto, para

2.6. DISTRIBUCION DE LA DIFERENCIA DE PROPORCIONES 51

lo cual se decide tomar una muestra de 600 familias. Determinar la probabil-

idad de que la proporcion de familias de la muestra con mas de una vivienda

se encuentre entre el 15% y el 27% .

Solucion: Conocemos que la proporcion poblacional es de p = 0′2. Puesto que

el tamano muestral es grande sabemos que la proporcion muestral p = X ∈N(p,

√pqn) ≡ N(0′2;

√0′2·0′8600

) ≡ N(0′2; 0′016)

La probabilidad que deseamos determinar es la siguiente:

P [0′15 ≤ p ≤ 0′27] = P

[0′15− p√

pqn

≤ p− p√pqn

≤ 0′27− p√pqn

]=

= P

[0′15− 0′2

0′016≤ Z ≤ 0′27− 0′2

0′016] = P [−3′125 ≤ Z ≤ 4′375

]=

= P [Z ≤ 4′375]−P [Z ≤ −3′125] = F (4′375)−F (−3′125) ≃ 1−0′0009 ≃ 0′9991.

La proporcion muestral de familias que tienen mas de una vivienda en

propiedad estara entre el 15% y el 27% para el 99% de las muestras de tamano

600 procedentes de la poblacion Andaluza.

2.6. Distribucion de la diferencia de propor-

ciones

Consideramos X ∈ Be(pX), Y ∈ Be(pY ). Se extraen muestras aleatorias

simples de tamano nX y nY respectivamente, que son independientes. En este

caso definimos la diferencia de las proporciones muestrales como:

pX − pY = X − Y =1

nX

nX∑i=1

Xi −1

nY

nY∑i=1

Yi,


En el caso de tamanos muestrales (nX y nY ) grandes, esa diferencia se

distribuira aproximadamente segun una normal de la forma:

pX − pY ∈ N

(pX − pY ,

√pXqXnX

+pY qYnY

).


1. Se ha estudiado el ahorro anual (deuda en caso de valores negativos)

de las familias de una determinada localidad, caracterizandose por una

distribucion normal con desviacion tıpica de 2000 euros. Se elige una

muestra aleatoria simple de 25 familias. Calcule:

a) La probabilidad de que la media muestral difiera de la media pobla-

cional a lo sumo en 0,5 miles de euros.

b) El tamano muestral necesario para que dicha diferencia sea a lo sumo

0,5 miles de euros con una probabilidad de 0,95.

Solucion:

a) P[|X − µ| ≤ 0,5

]= 0,788.

b) n ≃ 61,46 ≃ 62 familias.

2. Se sabe que el peso de los coches de una determinada companıa sigue una

distribucion normal con media 1000 kg. y desviacion tıpica 80 kg. Para

llevar un control sobre la calidad de sus automoviles, cada dıa la com-

panıa elige aleatoriamente 400 de los coches fabricados. Si el peso medio

muestral es inferior a 992 kg. o superior a 1008 kg., la companıa consi-

dera que la produccion esta fuera de control. ¿Cual es la probabilidad de

que un dıa la produccion se encuentre fuera de control?

Solucion: P [produccion fuera de control] ≃ 0,0456.


3. En una determinada ciudad, la cantidad mensual de gasolina utilizada

por cada vehıculo sigue una distribucion normal con media 160 litros.

Si se toma una muestra aleatoria de 9 observaciones y se obtiene una

varianza muestral de 81 (litros)2. Calcular:

a) ¿La probabilidad de que la media muestral sea superior a 164,776?

b) ¿La probabilidad de que la media muestral este comprendida entre

155,224 y 164,776 litros?

Solucion:

a) P[X > 164,776

]≃ 0,075.

b) P[155,224 ≤ X ≤ 164,776

]≃ 0,85.

Solucion:

4. De una poblacion normal con media desconocida y varianza 12, se extrae

una muestra aleatoria simple de tamano 6. Calcular la probabilidad de

que la varianza muestral este comprendida entre 6,42 y 22,176.

Solucion:P [6,42 ≤ S2 ≤ 22,176] ≃ 0,650.

5. Cuando las ventas medias de una determinada marca de relojes caen por

debajo de 174000 euros anuales, se considera razon suficiente para lan-

zar una campana publicitaria que active las ventas de esta marca. Para

conocer la evolucion de ventas, el departamento de marketing realiza

una encuesta a 51 establecimientos autorizados, seleccionados aleatoria-

mente, que facilitan las ventas del ultimo ano en relojes de esta marca.

Se obtienen los siguientes resultados:

51∑i=1

xi = 8640 miles de euros51∑i=1

x2i = 1517600 (miles de euros)2

Suponiendo que las ventas por establecimiento se distribuyen normal-

mente. ¿Se considera oportuno lanzar una nueva campana publicitaria?

Solucion:La probabilidad es de 0,8413.


6. De estudios previos se sabe que los ingresos anuales por individuo, tienen

una desviacion tıpica de 1,2. Si se selecciona una muestra aleatoria de 70

individuos, determinar:

a) La probabilidad de que el numero medio de ingresos anuales por in-

dividuo se encuentre a lo sumo a 0,1 de la verdadera media pobla-

cional.

b) Calcular el tamano muestral necesario para que la media muestral se

encuentre a lo sumo a 0,1 de la media poblacional con una proba-

bilidad de 0,99.

Solucion:

a) P[|X − µ| ≤ 0,1

]= 0,5098.

b) n ≃ 966,23 ≃ 967 individuos.

7. Para la fabricacion de un automovil se utilizan dos tipos de piezas. Se

sabe que la vida media de la pieza tipo A es de 6,5 anos y su desviacion

tıpica de 0,9 anos, mientras que estos parametros para la pieza tipo B

toman los valores 6 y 0,8 anos, respectivamente. Se extrae una muestra

aleatoria de 36 piezas del tipo A y otra de 49 piezas del tipo B.

a) Calcular la probabilidad de que la vida media muestral de las piezas

del tipo A sea inferior a 7 anos.

b) Calcular la probabilidad de que la vida media muestral de las piezas

del tipo A sea mayor en al menos un ano a la vida media muestral

de las piezas del tipo B.

Solucion:

a) P[X1 < 7

]= 0,9996.

b) P[X1 −X2 ≥ 1

]= 0,0038.


8. Una cadena de grandes almacenes esta considerando la decision de adquirir

nuevas maquinas etiquetadoras. Para comprobar si las nuevas maquinas

mejoran la eficacia de los empleados, se selecciona aleatoriamente a dos

grupos de 9 trabajadores cada uno, realizandose un control sobre el

numero de etiquetas colocadas en perıodos de 5 minutos. En uno de

los grupos se utilizan las antiguas maquinas (grupo1) y en el otro las

nuevas (grupo2), tras un perıodo de adaptacion de sus empleados. Con-

siderando que el numero de etiquetas colocadas cada 5 minutos sigue una

distribucion normalque, que las varianzas son iguales y desconocidas, y

conocidos los siguientes resultados:

µgrupo1 = 285,23 s2grupo1 = 464,19

µgrupo2 = 299 s2grupo2 = 192,5

¿Con que probabilidad mejoran las nuevas maquinas la eficacia de sus

empleados?

Solucion: La probabilidad es de 0,925.

9. Para estudiar las necesidades de tesorerıa de un banco en una determina-

da zona, se ha analizado el saldo diario en una serie de sucursales. Este

saldo diario en caja de una sucursal sigue una distribucion normal con

desviacion tıpica poblacional igual a 1 (en miles de euros). Se ha tomado

la siguiente muestra aleatoria de 12 dıas en dos sucursales (en miles de

euros):

Sucursal 1 10 11 13 15 17 10 9 14 13 12 10 16

Sucursal 2 11 10 9 8 10 7 9 10 11 8 6 12

a) ¿Entre que valores simetricos respecto de 12500 euros esta el saldo

medio de la sucursal 1 con una probabilidad del 95%?

b) Si suponemos que el saldo medio en ambas sucursales es el mismo,

¿cual es la probabilidad de que la diferencia entre las medias mues-

trales de ambas sucursales supere los 500 euros?


Solucion:

a) Entre 5,71 y 19,29.

b) P [X1 −X2 > 0,5] = 0,0126.

10. Se tienen dos poblaciones cuya distribucion es normal con varianzas,

σ2x = 12 y σ2

y = 18, respectivamente. De dichas poblaciones se extraen

dos muestras aleatorias simples de tamanos nx = 61 y ny = 31. Calcular:

a) P[S2x/S

2y > 1,16

], donde S2

x y S2y son las varianzas muestrales.

b) Suponga ahora que σ2x es desconocida. ¿Por debajo de que porcentaje

de la varianza muestral, S2x, se encuentra la varianza poblacional,

σ2x, con una probabilidad del 90%?

Solucion:

a) P[S2x/S

2y > 1,16

]= 0,95.

b) El porcentaje es de k = 1,29.

11. Segun la Consejerıa de Agricultura de una Comunidad Autonoma, la

subvencion media percibida por un agricultor en la provincia A, supera

en mas de 200 euros a la subvencion media percibida en la provincia B.

Seleccionadas dos muestras aleatorias de 10 agricultores en cada una de

las provincias, se obtienen los siguientes resultados expresados en miles

de euros:

Provincia A Provincia B

x = 1,4 y = 0,9

s2x = 0,25 s2y = 0,0025

Suponiendo que la cuantıa de las subvenciones en ambas provincias siguen

distribuciones normales con varianza distinta. Se pide:

a) ¿Con que probabilidad se puede admitir la afirmacion de la Conse-

jerıa?


b) ¿Cual es la probabilidad de que la subvencion media percibida por

un agricultor en la provincia B sea superior a 1500 euros?

Solucion:

a) La probabilidad es de 0,95.

b) La probabilidad es aproximadamente 0.

12. Se conoce por estudios previos que el 70% de las familias sevillanas tiene

vivienda en propiedad frente al 30% que viven en alquiler. Se realiza una

encuesta, preguntandose aleatoriamente a 84 familias sobre esta cuestion.

a) ¿Con que probabilidad podemos afirmar que la proporcion de familias

de la muestra que tiene vivienda en propiedad estara entre el 64%

y 76%?

b) El tamano muestral necesario para que dicha probabilidad sea igual

a 0,95.

Solucion:

a) P [0,64 ≤ p ≤ 0,76] = 0,7698.

b) n ≃ 224,19 ≃ 225 familias.

13. Suponiendo que la proporcion de altos directivos espanoles que ha cur-

sado un master especializado es del 30%, ¿cual es la probabilidad de que

al elegir aleatoriamente 500 de estos directivos, encontremos entre 100 y

300 con master especializado?

Solucion: La probabilidad es de 0,0287.

14. Una multinacional del sector automovilıstico produce unicamente dos

tipos de coches (tipo I y tipo II). Se sabe que aproximadamente vende

la misma cantidad de vehıculos de ambos tipos. ¿Cual es la probabilidad

de que entre los 200 ultimos coches vendidos mas del 40% sean del tipo

II?


Solucion: P [p > 0,4] = 0,9977.

15. La proporcion real de hombres en desacuerdo con la creacion de un cen-

so de pederastas en Espana es del 40%, mientras que la proporcion de

mujeres en desacuerdo es del 25%. Aleatoriamente, se entrevistan a 500

hombres y 400 mujeres y sus respuestas individuales se consideran co-

mo los valores de variables independientes que tienen distribuciones de

Bernouilli con los respectivos parametros p1 = 0,4 y p2 = 0,25. Calcular:

a) La probabilidad de que la proporcion muestral de mujeres en de-

sacuerdo con el citado censo se encuentre entre 0,2 y 0,5.

b) La probabilidad de que la proporcion muestral de hombres en de-

sacuerdo con la realizacion del censo supere en mas de un 15% a la

proporcion muestral de mujeres en desacuerdo.

Solucion:

a) P [0,2 ≤ p2 ≤ 0,5] ≃ 0,9896.

b) P [p1 − p2 > 0,15] = 0,5.

Capıtulo 3

Estimacion Puntual

1. Introduccion a la Inferencia Estadıstica.

2. El problema de la estimacion: estimacion puntual.

3. Propiedades de los estimadores puntuales.

4. Obtencion de estimadores: metodo de los momentos, metodo de la maxi-

ma verosimilitud.

3.1. Introduccion a la Inferencia Estadıstica

En este tema vamos a centrar la atencion en los valores de algunos pa-

rametros poblacionales que caracterizan, en cierta forma, la distribucion. Por

ejemplo, si estamos estudiando la renta familiar en la Comunidad Andaluza,

estaremos interesados en el parametro media poblacional, cuyo valor va a re-

presentar la renta de las familias andaluzas. Tambien estaremos interesados en

el parametro varianza poblacional, cuyo valor va a representar la dispersion de

la renta familiar.

59

60 CAPITULO 3. ESTIMACION PUNTUAL

Para conocer realmente los parametros poblacionales serıa necesario analizar

todos los valores poblacionales. Pero este analisis puede costar mucho tiempo

y mucho dinero. Por tanto, la solucion es utilizar la inferencia estadıstica

que consiste en obtener informacion sobre los valores de los parametros pobla-

cionales, basandose en la informacion contenida en una muestra aleatoria. Por

ejemplo para tener informacion sobre la renta familiar en Andalucıa tomare-

mos una muestra suficientemente grande de familias andaluzas y calcularemos

la renta media de dichas familias. Esta media muestral es una aproximacion al

verdadero valor del parametro, la renta media en Andalucıa.

Consideremos, entonces, una variable aleatoria,X, cuya distribucion, F (x, θ),

depende de uno o varios parametros desconocidos representados por θ. Estos

parametros toman distintos valores dentro de lo que denominamos espacio

parametrico que vamos a representar por Ω (diremos θ ∈ Ω). Para tener

informacion sobre el parametro o parametros de la distribucion, consideremos

una muestra aleatoria simple (m.a.s.), (X1, X2, . . . , Xn). Seleccionaremos una

funcion de las variables aleatorias muestrales X1, X2, . . . , Xn, que denotaremos

por θ = g(X1, X2, . . . , Xn) y la utilizaremos para inferir el valor del parametro

θ. La funcion θ es un estadıstico, que denominamos estimador, cuyo valor

depende de los valores de las variables aleatorias muestrales X1, X2, . . . , Xn y

por tanto depende de las observaciones muestrales. Al valor obtenido, medi-

ante el estimador, para una realizacion concreta de la muestra lo llamaremos

estimacion del parametro. En la Figura 3.1 expresamos diferentes parametros

poblacionales, sus estimadores y sus estimaciones.

3.2. EL PROBLEMA DE LA ESTIMACION. ESTIMACION PUNTUAL 61

Variable aleatoria, X, con distribucion F (x; θ)

(X1, X2, . . . , Xn), m.a.s. de tamano n

Parametro Poblacional (θ) Estimador (θ) Estimacion

Media µ µ = X = 1n

n∑i=1

Xi x = 1n

n∑i=1

xi

Varianza σ2 σ2 = S2 = 1n−1

n∑i=1

(Xi − X)2 s2 = 1n−1

n∑i=1

(xi − x)2

Figura 3.1: Parametros poblacionales, estimadores y estimaciones

3.2. El Problema de la estimacion. Estimacion

puntual

En la tabla de la Figura 3.1 hemos considerado que la estimacion consiste

en obtener un unico numero, calculado a partir de las observaciones muestrales

y que es utilizado como aproximacion al verdadero valor del parametro. Este

procedimiento de inferencia se denomina estimacion puntual. Mas adelante

analizaremos la estimacion por intervalos que es un procedimiento de in-

ferencia similar en el que se obtienen dos puntos (un extremo inferior y un

extremo superior) que definen un intervalo que contendra, con cierta seguri-

dad, el valor del parametro poblacional.

Estos dos procedimientos de estimacion son bastante similares. Mas ade-

lante analizaremos otro procedimiento de inferencia denominado contrastacion

de hipotesis.

Ejemplo 3.2.1 Con objeto de estudiar las ventas de las grandes superficies

en Espana, se ha obtenido una muestra de diez hipermercados de los que se

obtuvieron las ventas de una determinada semana que resultaron ser: 16, 10,

8, 12, 4, 6, 5, 4, 10 y 5 millones de euros respectivamente. Obtener estima-

ciones puntuales de las ventas medias semanales y de la varianza de las ventas.

Obtener tambien una estimacion de la proporcion de estos establecimientos

cuyas ventas son superiores a 5 millones de euros.


Solucion: Consideremos la variable aleatoria X: “ventas semanales de las

grandes superficies en Espana” y una muestra aleatoria simple de tamano 10,

(X1, X2, . . . , X10); una realizacion de esta muestra es (16, 10, 8, 12, 4, 6, 5, 4, 10, 5).

Como un estimador de la media poblacional es la media muestral, µ = X, una

estimacion de las ventas semanales en grandes superficies es:

x =1

n

n∑i=1

xi =80

10= 8.

La estimacion puntual de la varianza poblacional es la varianza muestral,

σ2 = S2. Por tanto una estimacion de la varianza de las ventas semanales

en hipermercados en Espana es:

s2 =1

n− 1

n∑i=1

(xi − x)2 =1

n− 1

(n∑

i=1

x2i − nx2

)=

1

9(782− 10 · 82) = 15′8.

Consideremos las variables aleatorias Yi, i = 1, 2, . . . , 10, de tipo Bernoulli,

que toman el valor 1 si si Xi > 5 y el valor 0 en otro caso. El estimador de

la proporcion poblacional, PY , es la proporcion muestral, pY . Por tanto una

estimacion de la proporcion de grandes superficies cuyas ventas son superiores

a 5 millones de euros es:

pY =y

n=

6

10= 0′6.

El sesenta por ciento de las grandes superficies en Espana tienen unas ventas

semanales superiores a cinco millones de euros.

3.3. Propiedades de los estimadores puntuales

Cuando se utiliza la estimacion puntual para inferir el valor de un parametro

poblacional, hemos de analizar la bondad de la estimacion. Una medida de

esta bondad es el error cuadratico medio del estimador, definido de la

siguiente manera:

ECM(θ) = E[(θ − θ)2].

3.3. PROPIEDADES DE LOS ESTIMADORES PUNTUALES 63

Si desarrollamos esta expresion,

ECM(θ) = E[(θ − θ)2] = E[θ2 − 2θθ + θ2] =

= E[θ2]− 2θE[θ] + θ2 − (E[θ])2 + (E[θ])2 =

= E[θ2]− (E[θ])2 +(θ2 + (E[θ])2 − 2θE[θ]

)=

= Var(θ) + (E[θ]− θ)2 = V ar(θ) + (sesgo(θ))2,

obtenemos que el error cuadratico medio es suma de la varianza del estimador

y el cuadrado del sesgo que se define como sesgo(θ) = E[θ]− θ.

Segun esta medida de la bondad de un estimador, tendrıamos que elegir

aquel con un error cuadratico medio mınimo. Pero no siempre existira un

estimador, θ, que haga mınimo el error cuadratico medio para todos los valores

posibles de θ.

Ejemplo 3.3.1 Consideremos una variable aleatoria positiva, cuya distribu-

cion depende del parametro conocido varianza poblacional, σ2 = 25, y del

parametro desconocido media poblacional, µ. Como posibles estimadores de

µ, consideramos los siguientes estimadores:

µ1 =1

4(X1 + 2X2 +X3)

µ2 =1

5(X1 + 2X2 +X3).

Obtener los errores cuadraticos medios de µ1 y µ2 y comparar sus valores para

los diferentes valores del parametro µ.

Solucion: Calculamos, en primer lugar, la media de ambos estimadores:

E[µ1] = E

[1

4(X1 + 2X2 +X3)

]=

1

4(E[X1]+2E[X2]+E[X3]) =

1

4(µ+2µ+µ) = µ.

Entonces sesgo(µ1) = 0.

E[µ2] = E

[1

5(X1 + 2X2 +X3)

]=

1

5(E[X1]+2E[X2]+E[X3]) =

1

5(µ+2µ+µ) =

4µ

5.


Entonces sesgo(µ2) = −µ5.

A continuacion calculamos las varianzas de ambos estimadores:

Var(µ1) = Var

(1

4(X1 + 2X2 +X3)

)=

1

16(Var(X1) + 4Var(X2) + Var(X3)) =

=1

16

(σ2 + 4σ2 + σ2

)=

3σ2

8=

75

8

Var(µ2) = Var

(1

5(X1 + 2X2 +X3)

)=

1

25(Var(X1) + 4Var(X2) + Var(X3)) =

=1

25

(σ2 + 4σ2 + σ2

)=

6σ2

25= 6.

Los errores cuadraticos medios para ambos estimadores son, entonces:

ECM(µ1) = Var(µ1) + (sesgo(µ1))2 =

75

8+ 0 =

75

8

ECM(µ2) = Var(µ2) + (sesgo(µ2))2 = 6 +

µ2

25.

Observamos que ninguno de los dos estimadores es mejor que el otro para todos

los valores del parametro µ. Si igualamos ambos errores cuadraticos medios

obtenemos:

ECM(µ1) = ECM(µ2)

75

8= 6 +

µ2

25

µ =

√675

8Por lo tanto:

µ <

√675

8⇒ ECM(µ1) > ECM(µ2)

µ =

√675

8⇒ ECM(µ1) = ECM(µ2)

µ >

√675

8⇒ ECM(µ1) < ECM(µ2),

y que un estimador sea mejor o peor que el otro (si medimos la bondad de

la estimacion por el error cuadratico medio) depende de cual sea el verdadero

valor del parametro.


Resulta, por tanto, que, ademas de la utilizacion del error cuadratico medio

para la eleccion de un estimador, es necesario dar otros criterios o propiedades

adicionales para la seleccion de un buen estimador puntual.

3.3.1. Estimador insesgado

Hemos definido el sesgo de un estimador θ como sesgo(θ) = E[θ]− θ. Dire-

mos que θ es un estimador insesgado o centrado del parametro poblacional

θ si E[θ] = θ, es decir, sesgo(θ) = 0 para todos los valores del parametro θ. En

caso contrario diremos que el estimador es sesgado o descentrado.

Ejemplo 3.3.2 Sea X una variable aleatoria en cuya distribucion el parametro

media poblacional es µ = E[X] y donde σ2 = E[(X−µ)2] es el parametro var-

ianza poblacional. Se pide:

1. Probar que la media muestral, X = 1n

n∑i=1

Xi, es un estimador insesgado

de la media poblacional.

2. Probar que la varianza muestral, S2 = 1n−1

n∑i=1

(Xi−X)2, es un estimador

insesgado de la varianza poblacional.

3. Probar que el estadıstico S∗2 = 1n

n∑i=1

(Xi−µ)2, es un estimador insesgado

de la varianza poblacional.

4. Probar que el estadıstico, S ′2 = 1n

n∑i=1

(Xi − X)2, no es un estimador

insesgado de la varianza poblacional.


3.3.2. Estimador UMVUE

Diremos que un estimador, θ∗, insesgado del parametro θ es insesgado uni-

formemente de mınima varianza (UMVUE (uniformly minimum-variance

unbiased estimator)) para el parametro θ, si dado cualquier otro estimador

insesgado, θ, del parametro θ, se verifica que Var(θ∗) ≤ Var(θ), ∀ θ ∈ Ω.

3.3.3. Estimador eficiente

Diremos que un estimador, θ, del parametro θ es eficiente si es insesgado

y ademas cumple:1

Var(θ) =1

E[(

∂ln dFn

∂θ

)2] =1

nE

[(∂ln f(x;θ)

∂θ

)2]Este valor se llama cota de Frechet-Cramer-Rao (F-C-R) y constituye una cota

inferior para la varianza de cualquier estimador insesgado del parametro θ, si

se aceptan ciertas condiciones de regularidad.

El denominador de esta fraccion se llama cantidad de informacion sobre

el parametro contenida en la muestra, es decir, la varianza de cualquier

estimador insesgado es siempre mayor que el inverso de la cantidad de infor-

macion que la muestra proporciona sobre el parametro. Como consecuencia,

un estimador que sea eficiente es un UMVUE, aunque un estimador puede ser

UMVUE sin que su varianza alcance la cota de F-C-R y, por tanto, sin que

sea un estimador eficiente.

Una medida de la eficiencia de un estimador insesgado, θ, del parametro θ

1Como en una muestra aleatoria simple las variables aleatorias son independientes e

identicamente distribuidas con funcion de densidad f(x; θ)


viene dada por la siguiente expresion:

eff(θ) =Cota F-C-R

Var(θ),

verificandose que eff(θ) ≤ 1.

De aquı que si tenemos dos estimadores insesgados, θ1 y θ2, del parametro

θ, diremos que el θ1 es mas eficiente que el estimador θ2 si se verifica

eff(θ1) ≥eff(θ2), es decir, si se verifica que Var(θ1) ≤Var(θ2), en donde las de-

sigualdades en sentido estricto se deben cumplir para algun valor del parametro

θ.

Para comparar la eficiencia de dos estimadores insesgados del parametro θ

utilizamos el concepto de eficiencia relativa de θ1 a θ2:

eff relativa(θ1, θ2) =eff(θ1)

eff(θ2).

Si este cociente es menor, igual o mayor que la unidad, diremos que θ1 es

menos, igual o mas eficiente que θ2.

Observese que para el mismo tamano muestral se verifica

eff relativa(θ1, θ2) =Var(θ2)

Var(θ1).

Ejemplo 3.3.3 Sea X una variable aleatoria que sigue una distribucion nor-

mal de parametros µ y σ. Consideremos los estimadores media muestral X y

mediana muestral2, Xm, del parametro µ. Se pide:

1. ¿Son ambos son estimadores insesgados del parametro µ?

2Puede probarse que la mediana tiende a una distribucion normal de media µ y varianzaπ2σ2

n


2. Calcular la eficiencia de ambos estimadores.

3. Obtener la eficiencia relativa de la media a la mediana.

4. ¿Es la media muestral un estimador eficiente de la media poblacional?

¿Y la mediana?

Solucion:

1. Sı son ambos insesgados:

X ∈ N

(µ,

σ√n

)⇒ E[X] = µ

Xm ∈ N

(µ,

√π σ√2n

)⇒ E[Xm] = µ

2. Hay que calcular previamente la cota de Frechet, Cramer y Rao (Cota

F-C-R):

X ∈ N(µ, σ2) ⇒ f(x) =1

σ√2π

e−12(

x−µσ )

2

lnf(x) = −ln(σ√2π)− 1

2

(x− µ

σ

)2

∂lnf(x)

∂µ=

x− µ

σ2⇒ nE

[(∂lnf(x)

∂µ

)2]=

n

σ4E[(x− µ)2] =

n

σ2

Entonces:

Cota F-C-R =1

nE

[(∂lnf(x)

∂µ

)2] =σ2

n

Calculamos ahora la eficiencia de ambos estimadores:

eff(X) =Cota F-C-R

V ar(X)= 1

eff(Xm) =Cota F-C-R

V ar(Xm)=

σ2

nπ2σ2

n

=2

π


3.

eff relativa(X,Xm) =eff(X)

eff(Xm)=

12π

=π

2

4. La media es eficiente pero la mediana no.

3.3.4. Estimador consistente

Como hemos dicho, un estimador es una funcion de la muestra aleatoria

simple, es decir, θ = g(X1, X2, . . . , Xn). Si consideramos la misma funcion

para los distintos tamanos muestrales, tenemos una sucesion de estimadores:

θ1 = g(X1), θ2 = g(X1, X2), . . ., θn = g(X1, X2, . . . , Xn), . . . Diremos que la

sucesion de estimadores es consistente si dicha sucesion converge al parametro

θ; en tal caso se dira que cada elemento de la sucesion es un estimador

consistente.

Como hay varios tipos de convergencia estadıstica, podemos hablar de var-

ios tipos de consistencia:

Estimador consistente en probabilidad:

lımn→∞

P [|θn − θ| < ϵ] = 1 ∀ θ

Estimador consistente en media cuadratica:

lımn→∞

E[(θn − θ)2] = 0 ∀ θ

Estimador consistente casi seguro:

P[lımn→∞

θn = θ]= 1 ∀ θ


3.3.5. Estimador suficiente

Cuando estimamos un parametro poblacional partimos de una muestra

aleatoria simple y elegimos una funcion de dicha muestra. De esta forma la

informacion sobre el parametro contenida en la muestra se resume en un unico

valor, el estimador. La pregunta que surge es si en este proceso de resumen,

se mantiene la informacion sobre el parametro contenida en la muestra o hay

una perdida de informacion.

Diremos que un estimador es suficiente para el parametro θ cuando utiliza

toda la informacion relevante contenida en la muestra, respecto al parametro θ,

y ningun otro estadıstico puede proporcionar mas informacion adicional sobre

el parametro poblacional θ. Esto ocurre cuando la distribucion condicionada

de la muestra, X1, X2, . . . , Xn, a un valor concreto del estimador no depende

del parametro θ.

Los estimadores eficientes son suficientes.

3.3.6. Estimador robusto

Diremos que un estimador es robusto cuando pequenos cambios en las

hipotesis de partida del procedimiento de estimacion considerado (normal-

mente, atribuir a la poblacion un determinado tipo de funcion de distribucion

que, en realidad, no es la correcta) no producen variaciones significativas en

los resultados obtenidos.

3.4. OBTENCION DE ESTIMADORES 71

3.3.7. Estimador invariante

Un estimador, θ, es invariante respecto a la funcion f(x), si f(θ) = f(θ).

Ası, si el estimador de la varianza poblacional, σ2, es la varianza muestral, S2,

considerando invariante el metodo de estimacion, debe suceder que el estimador

de la desviacion tıpica, σ, es la desviacion tıpica muestral, S.

Tambien diremos que el estimador es invariante ante cambios de origen

si θ(X1 + k,X2 + k, . . . , Xn + k) = θ(X1, X2, . . . , Xn), para cualquier k ∈ IR.

De la misma forma, diremos que el estimador es invariante ante cambios

de escala si θ(cX1, cX2, . . . , cXn) = θ(X1, X2, . . . , Xn), para cualquier c ∈ IR,

c = ∅.

3.4. Obtencion de estimadores

3.4.1. El metodo de los momentos

Introducido por K. Pearson, consiste en igualar tantos momentos mues-

trales como parametros haya que estimar a los momentos poblacionales cor-

respondientes3. Los estimadores obtenidos por este metodo (si los parametros

desconocidos y que pretendemos estimar son momentos poblacionales) son

asintoticamente normales4, consistentes e insesgados.5

3K. Pearson, para desarrollar este metodo se basa en el teorema de Khintchine, el cual

asegura, bajo condiciones muy generales, la convergencia en probabilidad de los momentos

muestrales a los correspondientes momentos poblacionales.4La distribucion del estimador, para tamanos muestrales grandes, se aproxima a la dis-

tribucion normal.5En general este metodo no proporciona estimadores insesgados, pero si los parametros

desconocidos y que pretendemos estimar son momentos poblacionales, sı lo son.


Ejemplo 3.4.1 Dada una distribucion Poisson de parametro λ, desconocido,

obtener un estimador del parametro λ utilizando el metodo de los momentos.

Solucion: El momento poblacional de primer orden es:

α1(λ) = E[X] =∞∑

xi=1

xiP [X = xi] =∞∑

xi=1

xiλxi

xi!e−λ = e−λλeλ = λ.

El momento muestral de primer orden es:

a1 = X =1

n

n∑i=1

Xi.

Si igualamos ambos momentos tenemos que λ = X.

Ejemplo 3.4.2 Dada una distribucion Gamma de parametros p y a, respec-

tivamente, obtener, por el metodo de los momentos6, los estimadores de los

parametros.

Solucion: Utilizando que

αr = E[Xr] =Γ(p+ r)

arΓ(p),

los momentos poblacionales de primer y segundo orden son:

α1 = E[X] =Γ(p+ 1)

aΓ(p)=

p

a

α2 = E[X2] =Γ(p+ 2)

a2Γ(p)=

(p+ 1)p

a2.

Igualandolos a los momentos muestrales:

a1 = X =p

a

a2 =1

n

n∑i=1

X2i =

(p+ 1)p

a2.

6Utilizar que αr = E[Xr] = Γ(p+r)αrΓ(p) y que Γ(q) = (q − 1)Γ(q − 1)

3.4. OBTENCION DE ESTIMADORES 73

Si resolvemos este sistema lineal, obtenemos:

a =

1n

n∑i=1

Xi

1n

∑ni=1 X

2i −

(1n

n∑i=1

Xi

)2 =X

X2 − X2=

X

S ′2

p = aX =X2

S ′2

3.4.2. Metodo de la maxima verosimilitud

Este metodo fue introducido por Fisher en 1922, aunque fue utilizado con

anterioridad por Gauss para casos particulares.

Consideremos una muestra aleatoria simple (X1, X2, . . . , Xn) procedente de

una poblacion con funcion de densidad f(x, θ)7.

La funcion de densidad (o de probabilidad) conjunta de la muestra se llama

funcion de verosimilitud y se representa por L(x; θ):

L(x; θ) = L(x1, x2, . . . , xn; θ) = f(x1, x2, . . . , xn; θ) =n∏

i=1

f(xi; θ)

El metodo de la maxima verosimilitud consiste en elegir como estimador

del parametro desconocido θ aquel valor θ(X1, X2, . . . , Xn) que hace maxima

la funcion de verosimilitud L(x1, x2, . . . , xn; θ). Es decir, consiste en encontrar

aquel θ(X1, X2, . . . , Xn) tal que:

L(x1, x2, . . . , xn; θ) = maxθ∈Ω

L(x1, x2, . . . , xn; θ)

7Suponemos una distribucion continua. Un razonamiento analogo se harıa para distribu-

ciones discretas con funcion de probabilidad P [xi; θ] , i = 1, 2, . . . , r


A este estimador, θ(X1, X2, . . . , Xn), se le llama estimador maximo-verosimil

o estimador de maxima verosimilitud (EMV) del parametro θ.

Los estimadores de maxima verosimilitud son consistentes y asintotica-

mente normales e invariantes ante transformaciones biunıvocas. Ademas si

existe un estimador eficiente, θ, del parametro θ, entonces tambien es de maxi-

ma verosimilitud y es unico.

Ejemplo 3.4.3 Las cotizaciones de un activo durante 20 dıas han sido tales

que:20∑i=1

xi = 357e20∑i=1

(xi − x)2 = 405

Suponiendo que la cotizacion de la accion se distribuye segun una N(µ, σ),

obtener los estimadores de maxima verosimilitud de µ y de σ, ası como sus

correspondientes estimaciones para la muestra dada.

Solucion:

L(x1, x2, . . . , x20;µ, σ) =

(1

σ√2π

)20

e

− 12

20∑i=1

(xi − µ

σ

)2

Como la funcion ln es creciente, vamos a maximizar, en vez de L(x1, x2, . . . , x20;µ, σ),

lnL(x1, x2, . . . , x20;µ, σ) = 20ln1

σ√2π

− 1

2

20∑i=1

(xi − µ

σ

)2

La condicion necesaria de optimalidad obliga a que las primeras derivadas sean

nulas. De igualar a cero la derivada parcial con respecto a µ, obtenemos:

∂

∂µlnL(x1, x2, . . . , x20;µ, σ) =

20∑i=1

xi − µ

σ2= 0 ⇔ µ = x

Al igualar a cero la derivada parcial con respecto al parametro σ y sustituir el

estimador de µ, se obtiene:

∂

∂σlnL(x1, x2, . . . , x20; µ, σ) = −20

σ+

1

σ3

20∑i=1

(xi−µ)2 = 0 ⇔ σ2 =1

20

20∑i=1

(xi−x)2 = s′2


Utilizando la informacion que proporciona la muestra, resulta que las estima-

ciones maximo-verosımiles de los parametros µ y σ son:

µ =1

20

20∑i=1

xi =357

20= 17′85e

σ2 =1

20

20∑i=1

(xi − x)2 =405

20= 20′25


1. Sea una poblacion normal con media µ y desviacion tıpica σ. Considere

los siguientes estimadores de la media poblacional:

a)

µ1 = X1 −X2

b)

µ2 =1

n− 1

n∑i=1

Xi

Compare la bondad de ambos estimadores, calculando el error cuadratico

medio en ambos casos.

Solucion:

a) Si 2n2+2−5n)2n−n2 ≤ µ2

σ2 ⇒ µ′1 es preferible a µ′2

b) En caso contrario,µ′2 es preferible a µ′1


2. Sea una poblacion con media µ y desviacion tıpica σ. Para estimar la

media de la poblacion se considera el estimador kx. Encontrar el valor

de k que minimiza el error cuadratico medio de la estimacion.

Solucion:

k =µ2

µ2 + σ2

n

3. Demostrar que cualquier combinacion lineal∑m

i=1 λiθi de estimadores

insesgados para un parametro θ, es tambien un estimador insesgado de

θ, si∑m

i=1 λi = 1.

Solucion:

E(∑m

i=1 λiθi) = θ ⇒ la combinacion lineal es tambien un estimador

insesgado.

4. Dada una muestra aleatoria de una poblacion normalN(µ, σ), comprobar

que el estimador σ2∗ =∑n

i=2(Xi−Xi−1)2

2(n−1)es un estimador insesgado de σ2.

Solucion:

E(σ2∗) = σ2

5. Sea una poblacion de la que se conoce que E(X) = θ y var(X) = θ2. Se

consideran los siguientes estimadores de θ:

θ1 =

∑ni=1 Xi −Xn+1

n− 1

θ2 =

∑n+1i=1 Xi

n+ 1Estudiar la insesgadez, consistencia y eficiencia relativa de ambos esti-

madores.

Solucion:


a) Ambos estimadores son insesgados.

b) Ambos estimadores son consistentes.

c) θ2 es mas eficiente que θ1.

6. Dada una muestra de tamano n de una poblacion distribuida exponen-

cialmente, obtenga la cota de Frechet-Cramer-Rao para los estimadores

del parametro θ. La funcion de densidad de la poblacion es:

f(x; θ) =

1θe−(

xθ ) si x > 0

0 en el resto

Nota: tengase en cuenta que E(X) = θ y var(X) = θ2.

Solucion:

Cota F-C-R = θ2

n

7. La variable “duracion de cierta pieza” tiene distribucion caracterizada

por:

f(x; θ) =

2xθ2 si 0 ≤ x ≤ θ

0 en el resto

a) Estime el parametro θ por el metodo de los momentos.

b) Dada una muestra aleatoria con los valores 15, 17, 12, 16, 6 y 10,

determinar el valor del estimador de θ.

Solucion:

a) θ = 5

√32x

b) θ = 1,8

8. En un estudio sociologico se ha observado que la proporcion X de la

renta que una familia gasta en bienes de primera necesidad sigue una

distribucion con densidad θxθ−1 para 0 < x < 1, donde θ es un parametro


que mide la pobreza de la sociedad. A partir de una muestra aleatoria

de tamano n, calcular el estimador de maxima verosimilitud de θ.

Solucion:

θ = − n∑ni=1 ln(xi)

9. Dada una poblacion con distribucion geometrica de parametro p, hallar

el estimador de maxima verosimilitud de p.

Solucion:

p =1

1 + x

10. Sean dos poblaciones normales N(µ1, σ) y N(µ2, σ). Dadas dos muestras

independientes de tamanos n1 y n2, respectivamente, obtener el esti-

mador de maxima verosimilitud de la varianza comun σ2.

Solucion:σ2 =(n1−1)s21+(n2−1)s22

n1+n2

11. Sea una muestra aleatoria de tamano 20 extraıda de una poblacion con

funcion de probabilidad

P (X = x) =

p2 si x = 0

2p(1− p) si x = 1

(1− p)2 si x = 2

siendo 0 < p < 1. Estime por el metodo de maxima verosimilitud el valor

del parametro p, sabiendo que en la muestra se han obtenido 5 ceros, 10

unos y 5 doses.

Solucion:

p = 0,5


12. El equipo de analistas de la campana de un candidato polıtico consid-

era que los votantes de una determinada zona se pueden clasificar en

seguidores, indecisos y detractores. Las proporciones teoricas se suponen

en un determinado momento en p1 = 0,05, p2 = 0,90 y p3 = 0,05, re-

spectivamente. Tras la realizacion de varios mıtines en la zona por los

diferentes candidatos polıticos, se sospecha que la intencion de voto ha

cambiado, situandose en p1 = 0,05 + θ, p2 = 0,90 − 2θ y p3 = 0,05 + θ.

En una encuesta de 5.000 votantes, se obtuvo que n1 = 278, n2 = 4,428

y n3 = 294 de cada clase. Estimar mediante el metodo de maxima

verosimilitud el valor del parametro θ, sabiendo que 0 < θ < 1.

Solucion:

θ ≃ 0,0072

Capıtulo 4

Estimacion por intervalos

1. Construccion de intervalos de confianza.

2. Intervalos de confianza en poblaciones normales.

3. Intervalos de confianza en poblaciones no necesariamente normales.

4.1. Construccion de intervalos de confianza

Cuando se obtiene el estimador puntual, θ, para una muestra concreta,

no hay informacion sobre lo que este valor difiere del verdadero valor del

parametro, θ. Serıa conveniente acompanar la estimacion con otra medida que

recoja la confianza de que el verdadero valor del parametro se encuentre entre

dos valores numericos concretos. Esto lo conseguiremos con la construccion de

lo que se llama un intervalo de confianza.

Es importante destacar que los lımites del intervalo variaran de forma

aleatoria de una muestra a otra, puesto que el intervalo que se construira va

81

82 CAPITULO 4. ESTIMACION POR INTERVALOS

a depender de los elementos de la muestra. La finalidad de los intervalos de

confianza es construir un intervalo de poca amplitud y con una probabilidad lo

mas elevada posible de que el verdadero valor del parametro se encuentre en-

tre los extremos del intervalo. Cada intervalo tendra asociado un coeficiente de

confianza, 1−α, que indica la probabilidad de que el parametro θ se encuentre

en el intervalo. Al porcentaje 100(1− α)% se le llama nivel de confianza. Los

valores mas frecuentes, en la practica, del nivel de confianza son el 90%, 95%

y el 99%.

En conclusion, si queremos dar una estimacion del parametro poblacional θ

mediante un intervalo de confianza, habra que obtener dos estadısticos θ(X1, . . . , Xn),

que sera el extremo inferior del intervalo, y θ(X1, . . . , Xn), que sera el extremo

superior de forma que:

P[θ(X1, . . . , Xn) ≤ θ ≤ θ(X1, . . . , Xn)

]= 1− α

Algunas caracterısticas del intervalo son:

θ y θ son variables aleatorias por lo que el intervalo sera aleatorio (de-

pende de la muestra seleccionada).

El parametro poblacional θ es desconocido.

En cuanto a la probabilidad de que el intervalo de confianza contenga

al verdadero valor del parametro, supongamos que seleccionamos un

numero elevado de muestras todas ellas del mismo tamano y obtenemos

para cada una de ellas los lımites del intervalo de confianza, entonces se

puede decir que el parametro θ estara dentro del intervalo construido en

aproximadamente el 100(1− α)% de los casos y no estara en el 100α%

de los casos. Denominaremos al intervalo (θ, θ) intervalo de confianza al

nivel de confianza del 100(1− α)%.

4.1. CONSTRUCCION DE INTERVALOS DE CONFIANZA 83

Los intervalos de confianza pueden ser de dos tipos:

Bilaterales, que presentan la forma:

[θ(X1, . . . , Xn); θ(X1, . . . , Xn)]

Unilaterales, que pueden presentar la forma:

[θ(X1, . . . , Xn); +∞) ;(−∞; θ(X1, . . . , Xn)

].

Cuanto mas pequeno sea el intervalo de confianza (menor amplitud) para

un nivel de confianza fijo, mejor sera la estimacion obtenida. Recıprocamente,

dados dos intervalos de confianza con la misma amplitud, uno constituye una

estimacion mejor que la que proporciona el otro si su nivel de confianza es

mayor.

Para construir un intervalo de confianza utilizaremos el metodo de la can-

tidad pivotal. Dada una distribucion F (x; θ), donde θ es un parametro de-

sconocido, una cantidad pivotal o pivote, T (X1, . . . , Xn; θ), es una funcion del

parametro y de las observaciones de la muestra, cuya distribucion muestral no

depende del parametro.

El metodo consiste en obtener un pivote a partir del cual construir el in-

tervalo de confianza. Veamos un ejemplo:

Ejemplo 4.1.1 Sea (X1, . . . , Xn) una muestra aleatoria procedente de una

poblacion N(µ, σ) con σ conocida. Construir para el parametro poblacional

µ un intervalo de confianza al nivel del 100(1− α)%.

Solucion: La media muestral, X, es un estimador puntual adecuado para la

media poblacional µ. Ademas sabemos que el estadıstico:

Z =X − µ

σ/√n


sigue una distribucion N(0, 1). Por lo tanto, el estadıstico Z puede ser la can-

tidad pivotal o pivote, ya que depende de las observaciones muestrales y del

parametro µ y su distribucion no depende del parametro µ, es decir,

T (X1, . . . , Xn;µ) =X − µ

σ/√n.

Para construir un intervalo de confianza a nivel (1−α)% para el parametro

µ, buscamos µ(X1, . . . , Xn) y µ(X1, . . . , Xn) tales que:

1− α = P[µ(X1, . . . , Xn) ≤ Z ≤ µ(X1, . . . , Xn)

]Se toman dos valores simetricos, −zα/2 y zα/2, en vez de dos valores cua-

lesquiera porque ası la amplitud del intervalo es mas pequena.

zα2

0

z ∈ N(0, 1)

1− α

−zα2

α2

α2

1− α = P[−zα/2 ≤ Z ≤ zα/2

]= P

[−zα/2 ≤

X − µ

σ/√n

≤ zα/2

]=

= P

[−zα/2 ·

σ√n≤ X − µ ≤ zα/2 ·

σ√n

]= P

[X − zα/2 ·

σ√n≤ µ ≤ X + zα/2 ·

σ√n

]Por lo que el intervalo de confianza con un nivel de confianza del

100(1− α)% para el parametro poblacional µ es:

Iµ =[X − zα/2 · σ√

n; X + zα/2 · σ√

n

]

4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES 85

4.2. Intervalos de confianza en poblaciones nor-

males

A continuacion estudiamos el caso en el que la poblacion sea normal y

a traves del metodo pivotal obtendremos intervalos de confianza para los

parametros poblacionales en el caso de una y de dos muestras.

4.2.1. Intervalo de confianza para la media de una poblacion

normal

Desviacion tıpica, σ, conocida

La poblacion de partida es N(µ, σ) con el parametro µ desconocido. Bus-

camos un intervalo de confianza para el parametro µ al nivel de confianza del

100(1− α)%.

Seleccionamos una muestra aleatoria (X1, . . . , Xn) de tamano n. Puesto que

vamos a aplicar el metodo de la cantidad pivotal, buscamos un estadıstico que

dependa del parametro µ y de un estimador suyo y cuya distribucion muestral

no dependa de µ.

El estadıstico que utilizaremos es:

Z =X − µ

σ/√n

∈ N(0, 1)

Para el intervalo de confianza necesitamos encontrar dos valores λ1 y λ2 que

cumplen:

P

[λ1 ≤

X − µ

σ/√n

≤ λ2

]= 1− α


operando en la expresion:

P

[λ1 ·

σ√n≤ X − µ ≤ λ2 ·

σ√n

]= 1− α

P

[−X + λ1 ·

σ√n≤ −µ ≤ −X + λ2 ·

σ√n

]= 1− α

multiplicando por -1:

P

[X − λ1 ·

σ√n≥ µ ≥ X − λ2 ·

σ√n

]= 1− α

es decir,

P

[X − λ2 ·

σ√n≤ µ ≤ X − λ1 ·

σ√n

]= 1− α

Tendremos que elegir λ1 y λ2 que hagan mınima la longitud del intervalo, es

decir,

L =

(X − λ1 ·

σ√n

)−(X − λ2 ·

σ√n

)=

σ√n(λ2 − λ1)

Sujeto a la condicion:

P [λ1 ≤ Z ≤ λ2] =

∫ λ2

λ1

1√2Π

· e−12x2

dx = 1− α

Para hacer mınima la funcion sujeta a una restriccion aplicamos el metodo de

los multiplicadores de Lagrange:

ϕ =σ√n· (λ2 − λ1) + γ

[∫ λ2

λ1

1√2Π

· e−12x2

dx− (1− α)

]∂ϕ

∂λ1

=−σ√n− γ · 1√

2Π· e

−12λ21 = 0

∂ϕ

∂λ2

=σ√n+ γ · 1√

2Π· e

−12λ22 = 0

operando en las ecuaciones anteriores llegamos a:

e12λ21 = e

12λ22 ⇒ λ2

1 = λ22

Por tanto, los posible valores de λ1 y λ2 son:


λ1 = λ2, que no es valido porque en ese caso la longitud del intervalo

serıa cero y esto no es posible.

λ1 = −λ2 en este caso el intervalo de longitud mınima sera simetrico en

la N(0, 1), es decir:∫ λ2

λ1

f(x) = 1− α ⇒ λ1 = −zα2, λ2 = zα

2.

Graficamente serıa:

λ2 = zα2

0

z ∈ N(0, 1)

1− α

λ1 = −zα2

α2

α2

Sustituyendo el valor de λ1 y λ2, el intervalo de confianza para la media µ de

una poblacion N(µ, σ) en el caso de σ conocida es:

Iµ =

[x− zα/2 ·

σ√n;x+ zα/2 ·

σ√n

]

Ejemplo 4.2.1 Se sabe de estudios anteriores que el consumo semanal de

agua por persona en Espana es una distribucion normal con desviacion tıpica

8 litros. Se selecciona una muestra aleatoria de 160 personas, siendo la media

de consumo en agua de 48 litros por persona. Se pide:

1. Obtener un intervalo de confianza para la media de consumo semanal de

agua en Espana a un nivel de confianza del 90%.

2. Repetir el ejercicio si el tamano muestral aumenta a 280 personas.

3. Con tamano de muestra n = 160, 1−α = 0′90 pero, ahora la desviacion

tıpica es de σ = 12


4. Con n = 160, σ = 8 pero, el nuevo nivel de confianza es del 95%.

Solucion: Sea X ≡ consumo semanal de agua por persona. Sabemos que X ∈N(µ, 8) y que el tamano de la muestra es n = 160

1. La expresion que nos da el intervalo de confianza que se nos pide es:[x− zα/2 ·

σ√n; x+ zα/2 ·

σ√n

]Conocemos x = 48, σ = 8 y 1−α = 0′90 por lo que α

2= 0′05 y por tanto

zα2= z0′05 = 1′645

El intervalo de confianza lo obtenemos sustituyendo en la expresion an-

terior:[48− 1′645 · 8√

160; 48 + 1′645 · 8√

160

]= [46′9596, 49′0403]

En conclusion, el verdadero valor del consumo medio semanal de agua

se encuentra entre [46’9596, 49’0403] con una confianza del 90%.

2. Los datos de partida son x = 48, σ = 8, 1 − α = 0′90, n = 280. Susti-

tuyendo en el intervalo de confianza tenemos que:[48− 1′645 · 8√

280; 48 + 1′645 · 8√

280

]= [47′2135, 48′7864].

3. Para x = 48, σ = 12, 1− α = 0′90, n = 160[48− 1′645 · 12√

160; 48 + 1′645 · 12√

160

]= [46′4394, 49′5605].

4. Para x = 48, σ = 8, 1 − α = 0′95, n = 160, en este caso α2= 0′025 y

z0′025 = 1′96.[48− 1′96 · 8√

160; 48 + 1′96 · 8√

160

]= [46′7603, 49′2396]


Podemos extraer una serie de conclusiones:

Cuando aumenta el tamano de la muestra, la amplitud del intervalo

disminuye y, consecuentemente aumenta la precision de la estimacion

realizada.

Cuando aumenta la desviacion tıpica, aumenta la amplitud del intervalo

por lo que disminuye la precision de la estimacion.

Cuando aumenta el nivel de confianza, aumenta la amplitud del intervalo,

por lo que disminuye la precision de la estimacion.

Desviacion tıpica, σ, desconocida

Sea una poblacion N(µ, σ) con µ y con σ desconocidos, queremos obtener

un intervalo de confianza para el parametro µ al nivel de confianza del 100(1−α)%.

Partimos de una muestra aleatoria de tamano n, (X1, . . . , Xn). La cantidad

pivotal en este caso es:

T =X − µ

S/√n

∈ tn−1

El estadıstico T se distribuye segun una t-Student con n − 1 grados de

libertad. Buscamos el intervalo de confianza de la forma:

P

[t1 ≤

X − µ

S/√n

≤ t2

]= 1− α

en la expresion anterior buscamos entre que dos valores se encuentra µ, por lo

que despejamos:

P

[t1

S√n≤ X − µ ≤ t2

S√n

]= 1− α


P

[−X + t1

S√n≤ −µ ≤ −X + t2

S√n

]= 1− α

P

[X − t2

S√n≤ µ ≤ X − t1

S√n

]= 1− α

El intervalo de confianza que se ha obtenido es:[X − t2

S√n, X − t1

S√n

]donde t1 y t2 son los valores que hacen mınima la amplitud del intervalo:

L =

(X − t1

S√n

)−(X − t2

S√n

)= (t2 − t1)

S√n.

Esta funcion es la que hay que minimizar pero, ademas esta sujeta a una

restriccion:

P [t1 ≤ T ≤ t2] =

∫ t2

t1

Γ(n2

)Γ(n−12

)·√(n− 1)Π

(1 +

t2

n− 1

)−n/2

dt =

= k

∫ t2

t1

(1 +

t2

n− 1

)−n/2

dt = 1− α

Habra que resolver el problema aplicando el metodo de los multiplicadores

de Lagrange. La expresion que hay que minimizar es:

ϕ = (t2 − t1)S√n+ γ

[k

∫ t2

t1

(1 +

t2

n− 1

)−n/2

dt− (1− α)

]derivamos:

∂ϕ

∂t1= − S√

n− γk

(1 +

t21n− 1

)−n/2

= 0

∂ϕ

∂t2=

S√n+ γk

(1 +

t22n− 1

)−n/2

= 0

de donde: (1 +

t21n− 1

)−n/2

=

(1 +

t22n− 1

)−n/2

⇒ t21 = t22

Las soluciones que se deducen son:


t1 = t2, que es imposible puesto en este caso el intervalo tendrıa amplitud

nula.

t1 = −t2 y el intervalo de longitud mınima sera simetrico en la tn−1, es

decir, t2 = tα2, y t1 = −tα

2.

Graficamente serıa:

tα2

0

t ∈ tn−1

1− α

−tα2

α2

α2

En conclusion, el intervalo de confianza para la media µ de una poblacion

N(µ, σ) con σ desconocida viene dado por:

Iµ =

[X − tα

2· S√

n, X + tα

2· S√

n

]donde S2 es la varianza muestral.

Ejemplo 4.2.2 Los directivos de las empresas de construccion andaluzas estan

interesados en conocer el gasto medio en material para la construccion de una

vivienda, para lo cual se decide extraer una muestra aleatoria de 15 viviendas.

Se deduce de la muestra que el gasto en miles de euros en cada una de las

viviendas es de:

48’7, 57’4, 96, 51’3, 62, 42, 65’4, 71’3, 62’9, 39’9, 57, 63’1, 83’6, 49’2,

69’7

Se sabe que el gasto en material para la construccion de la vivienda se

distribuye segun una normal. Construir un intervalo de confianza para el gasto


medio en material para la construccion de la vivienda. Tomar un nivel de

confianza del 95%.

Solucion: Sea X ≡ Gasto en la construccion de la vivienda (miles de euros).

Sabemos que X ∈ N(µ, σ) donde tanto µ como σ son desconocidos.

El intervalo de confianza que buscamos viene dado por:[X − tα

2· S√

n, X + tα

2· S√

n

]

En esta ocasion vamos a ayudarnos del paquete estadıstico SPSS para

obtener el intervalo de confianza al 95% de confianza, siendo el resultado:

Calculamos la media y desviacion tıpica muestral:

Para 1− α = 0′95 tenemos que P [t14 > t0′025] = 0′025 ⇒ t0′025 = 2′145

Y con estos resultados sustituimos:[61′3− 2′145

15′034√15

, 61′3 + 2′14515′034√

15

]= [52′9735, 69′6264]

Tambien se llegarıa a este resultado directamente haciendo una prueba de

comparacion de medias para una muestra:


El verdadero gasto medio en material para la construccion de una vivienda

en Andalucıa se encuentra dentro del intervalo construido con un nivel de

confianza del 95%.

4.2.2. Intervalo de confianza de la varianza

Media poblacional, µ, desconocida

Sea una poblacion N(µ, σ) donde µ y σ son desconocidos y queremos un

intervalo de confianza para la varianza poblacional, σ2, al nivel de confianza

del 100(1 − α)%. Actuamos de la misma forma que hicimos en el caso del

parametro µ, para lo que necesitamos una muestra aleatoria de tamano n

(X1, . . . , Xn). El pivote sera ahora:

(n− 1)S2

σ2∈ χ2

n−1

se distribuye segun una χ2 de Pearson, con n− 1 grados de libertad.


El intervalo de confianza para σ2 al nivel de confianza 100(1− α)% viene

dado por:

Iσ2 =

[(n− 1)S2

χ2n−1;1−α

2

;(n− 1)S2

χ2n−1;α

2

]donde se verifica que:

P[χ2n−1 ≤ χ2

n−1;1−α2

]= 1− α

2

P[χ2n−1 ≤ χ2

n−1;α2

]=

α

2.

Graficamente serıa1:

Ejemplo 4.2.3 El numero de artıculos vendidos de una determinada marca

deportiva en 10 tiendas elegidas aleatoriamente han sido:

682 , 553 , 555 , 666 , 657 , 649 , 522 , 568 , 700 , 552.

Suponiendo que las ventas siguen una distribucion normal, ¿se puede admi-

tir que la media de unidades vendidas es de 520? ¿puede aceptarse que la

desviacion tıpica del nivel de ventas es de 79 unidades? Utilizar un 95% de

confianza.

1Se toma χ2n−1;α2

y χ2n−1;1−α

2para que la longitud del intervalo sea mınima


Solucion: Sea X ≡ unidades vendidas del artıculo deportiva. X ∈ N(µ, σ)

donde tanto µ como σ son desconocidas. Vamos a resolver la primera cuestion

utilizando SPSS, los resultados son:

Claramente 520 /∈ [563′13; 657′67], esto significa que no puede admitirse al

95% de confianza que la media de unidades vendidas sea de 520.

Para la segunda cuestion sabemos que n = 10 y necesitamos la estimacion

de la media muestral, x, y de la varianza muestral s2:

s2 =1

n− 1·

[n∑

i=1

x2i − nx2

]= 4366′037

x =1

n·

n∑i=1

xi = 610′4.

Ademas necesitamos determinar χ2n−1;1−α

2y χ2

n−1;α2:

P[χ2n−1 ≤ χ2

n−1;1−α2

]= 1− α

2= 1− 0′025 = 0′975

P[χ2n−1 ≤ χ2

n−1;α2

]=

α

2= 0′025.


Buscando en las tablas obtenemos:

χ29,1−α

2= 19′02; χ2

9,α2= 2′7

Sustituimos:

Iσ2 =

[(n− 1)S2

χ2n−1;1−α

2

;(n− 1)S2

χ2n−1;α

2

]=

=

[(10− 1)4366′037

19′02;(10− 1)4366′037

2′7

]= [2065′948; 14553′456]

Pero se nos pregunta por la desviacion tıpica σ, y nosotros hemos obtenido el

intervalo de confianza para la varianza σ2, por lo que haciendo la raız cuadrada

llegamos a:

Iσ = [45′4527; 120′6377]

Observamos que 79 ∈ Iσ, por lo que puede admitirse con un 95% de confianza

que la desviacion tıpica del nivel de ventas es de 79 unidades.

Media poblacional µ conocida

La cantidad pivotal que consideramos para construir el intervalo va a ser:

nS∗2

σ2=

n∑i=1

(Xi − µ)2

σ2∈ χ2

n

Siguiendo el mismo razonamiento de los casos anteriores, el intervalo de confi-

anza para la σ2 cuando µ es conocida es:

Iσ2 =

n∑

i=1

(Xi − µ)2

χ2n,1−α

2

;

n∑i=1

(Xi − µ)2

χ2n,α

2


4.2.3. Intervalo de confianza para la diferencia de me-

dias (muestras independientes)

Varianzas poblacionales conocidas y distintas

Sean dos poblaciones N(µX , σX) y N(µY , σY ). Queremos obtener un inter-

valo de confianza para la diferencia de medias poblacionales µX − µY , al nivel

de confianza 100(1-α)%. Tomamos dos muestras independientes de tamanos

nX y nY .

Como

X − Y ∈ N

µX − µY ,

√σ2X

nX

+σ2Y

nY

,

la cantidad pivotal que vamos a considerar es:

Z =(X − Y )− (µX − µY )√

σ2X

nX+

σ2Y

nY

∈ N(0, 1)

Siguiendo el mismo razonamiento de apartados anteriores llegamos al in-

tervalo para la diferencia de medias:

IµX−µY=

(X − Y )− zα2·

√σ2X

nX

+σ2Y

nY

; (X − Y ) + zα2·

√σ2X

nX

+σ2Y

nY

donde P

[Z > zα

2

]= α

2y zα

2la determinamos a partir de la tabla de la N(0, 1).

Varianzas poblacionales conocidas e iguales

σX = σY = σ conocida. Las poblaciones de partida sonN(µX , σ) yN(µY , σ).

El intervalo resultante sera:

IµX−µY=

[(X − Y )− zα

2· σ√

1

nX

+1

nY

; (X − Y ) + zα2· σ√

1

nX

+1

nY

]


Varianzas poblacionales desconocidas y distintas

Sean dos poblaciones N(µX , σX) y N(µY , σY ) con σX = σY . La cantidad

pivotal que consideraremos sera:

T =(X − Y )− (µX − µY )√

S2X

nX+

S2Y

nY

∈ tν

El estadıstico T sigue una distribucion t-Student con ν grados de libertad,

donde

ν ≃(S2X

nX+

S2Y

nY)2

(S2X/nX)

2

nX−1+

(S2Y /nY )

2

nY −1

El intervalo de confianza para la diferencia de medias poblacionales µX − µY

al nivel de confianza del 100(1− α)% sera:

IµX−µY=

(X − Y )− tα2·

√S2X

nX

+S2Y

nY

; (X − Y ) + tα2·

√S2X

nX

+S2Y

nY

siendo tα

2tal que P [tν > tα

2] = α

2

Si los tamanos muestrales nX y nY son grandes (nX y nY > 30) el estadısti-

co T se distribuye aproximadamente como una N(0, 1).

Varianzas poblacionales desconocidas e iguales

σX = σY = σ desconocida. Las poblaciones de partida son N(µX , σ) y

N(µY , σ). El intervalo para la diferencia de medias µX − µY , al nivel de confi-

anza del 100(1− α)% es:

IµX−µY=

X − Y − tα2·

√(nX − 1)S2

X + (nY − 1)S2Y

nX + nY − 2·√

nX + nY

nXnY

;


X − Y + tα2·

√(nX − 1)S2

X + (nY − 1)S2Y

nX + nY − 2·√

nX + nY

nXnY

siendo tα

2tal que P [tnX+nY −2 > tα

2] = α

2

Ejemplo 4.2.4 En un estudio sobre hipotecas concedidas por dos entidades

bancarias se toma una muestra aleatoria de 14 hipotecas en la primera entidad

y una muestra aleatoria independiente de la primera de 12 hipotecas en la

segunda entidad. Se sabe que las dos distribuciones poblacionales de hipotecas

son normales con varianzas iguales. ¿Se puede admitir que el importe medio

de la hipoteca es el mismo en las dos entidades bancarias? Tomar un nivel de

confianza del 95%.

Entidad 1 Entidad 2

65230 45000

45200 62530

35200 26000

65200 29000

12200 46000

25200 36600

32350 15900

45800 39500

55200 61400

35250 19700

60200 26350

15200 38000

28300

37500

Solucion: Sean X ≡ importe de la hipoteca en la entidad 1, e Y ≡ importe

de la hipoteca en la entidad 2, donde X ∈ N(µX , σX), Y ∈ N(µY , σY ) y ademas

σX = σY desconocidas.

Vamos a obtener un intervalo de confianza para la diferencia de medias

poblaciones para varianzas poblacionales iguales y desconocidas; y para com-

probar si el importe medio de la hipoteca es el mismo en las dos entidades basta

con comprobar si el cero pertenece al intervalo construido.


El intervalo que buscamos viene dado por:X − Y − tα2·

√(nX − 1)S2

X + (nY − 1)S2Y

nX + nY − 2·√

nX + nY

nXnY

;

X − Y + tα2·

√(nX − 1)S2

X + (nY − 1)S2Y

nX + nY − 2·√

nX + nY

nXnY

Los resultados que proporciona SPSS son:

Puesto que 0 ∈ IµX−µY= [−10426′47; 15815′04] podemos admitir con un 95%

de confianza que el importe medio dela hipoteca es igual en las entidades ban-

carias.

4.2.4. Intervalo de confianza para la diferencia de me-

dias (muestras apareadas)

Las muestras extraıdas de las poblaciones no son independientes y las var-

ianzas poblacionales no tienen porque ser iguales.

4.2. INTERVALOS DE CONFIANZA EN POBLACIONES NORMALES101

Tenemos n pares de observaciones (X1, Y1),. . . ,(Xn, Yn) de poblaciones nor-

males con medias µX y µY respectivamente. Construimos una sola muestra

(D1, ..., Dn) de la forma Di = Xi − Yi, i = 1, . . . , n , obtenemos una muestra

de las diferencias. La muestra construida cumple:

• µD = E[D] = E[X − Y ] = E[X]− E[Y ] = µX − µY

• σ2D desconocida

• La varianza poblacional σ2D, se estima por la varianza muestral S2

D, donde

S2D =

1

n− 1

n∑i=1

(Di − D)2

con D =1

n

n∑i=1

Di.

La cantidad pivotal que vamos a utilizar para construir el intervalo de confianza

sera:

T =D − µD

SD/√n

∈ tn−1

El intervalo que se obtiene es:

P

[−tα

2≤ D − µD

SD/√n

≤ tα2

]= 1− α

P

[−tα

2· SD√

n≤ D − µD ≤ tα

2· SD√

n

]= 1− α

P

[−D − tα

2· SD√

n≤ −µD ≤ −D + tα

2· SD√

n

]= 1− α

P

[D − tα

2· SD√

n≤ µD ≤ D + tα

2· SD√

n

]= 1− α

sienso tα2tal que la P [tn−1 > tα

2] = α

2.

Ejemplo 4.2.5 Una empresa esta interesada en mejorar su produccion por

lo que decide revisar y arreglar la maquinaria que utiliza para la produccion

de automoviles. Se admite que la produccion diaria de coches se distribuye

normalmente. Se extrae una muestra aleatoria de coches producidos durante 7


dias y se mide la produccion antes y despues de la revision de la maquinaria.

Calcular un intervalo de confianza al 99% de confianza para la diferencia de

medias poblacionales.

Solucion:

Dıa Produc. antes de revision Produc. despues de revision Diferencias Di D2i

1 232 224 -8 64

2 240 241 1 1

3 226 217 -9 81

4 215 215 0 0

5 223 213 -10 100

6 230 233 3 9

7 242 240 -2 4

Hemos construido la variable D = X − Y , y el intervalo de confianza que

buscamos viene dado por:

IµD=

[D − tα

2· SD√

n≤ µD ≤ D + tα

2· SD√

n

]por lo que necesitamos obtener la media y la varianza de las diferencias Di:

D =1

n

n∑i=1

Di =1

7(−25) = −3′5714

s2D =1

n− 1

n∑i=1

(Di − D

)2=

1

n− 1

(n∑

i=1

D2i − nD2

)=

1

6(259−7(−3′5714)2) = 28′2859

⇒ sD = 5′3184

tα2lo obtenemos de las tablas de la t-Student:

P [t6 > t0′005] = 0′005 ⇒ t0′005 = 3′707

sustituyendo tendremos:

IµD=

[−3′5714− 3′707 · 5

′3184√7

;−3′5714 + 3′707 · 5′3184√

7

]= [−11′023; 3′8802]


4.2.5. Intervalo de confianza para el cociente de varian-

zas

Medias desconocidas

Sean dos muestras aleatorias independientes de tamanos nX y nY , X ∈N(µX , σX) e Y ∈ N(µY , σY ) con medias y varianzas desconocidas. Buscamos

un intervalo de confianza para el cociente de varianzasσ2X

σ2Y. Consideramos como

cantidad pivotal el siguiente estadıstico:

F =

(nX − 1)S2X

σ2X

/(nX − 1)

(nY − 1)S2Y

σ2Y

/(nY − 1)

=S2X

S2Y

· σ2Y

σ2X

∈ FnX−1,nY −1

que se distribuye segun una F-Snedecor con nX−1 y nY −1 grados de libertad.

Por tanto el intervalo de confianza se obtendra de:

P[FnX−1,nY −1;α

2≤ F ≤ FnX−1,nY −1;1−α

2

]= 1− α

P

[S2X

S2Y

· 1

FnX−1,nY −1;1−α2

≤ σ2X

σ2Y

≤ S2X

S2Y

· 1

FnX−1,nY −1;α2

]= 1− α

El intervalo de confianza al 100(1− α)% de confianza viene dado por:

Iσ2X/σ2

Y=

[S2X

S2Y

· 1

FnX−1,nY −1;1−α2

;S2X

S2Y

· 1

FnX−1,nY −1;α2

]

Conviene indicar la propiedad de reciprocidad de la F-Snedecor que indica:

FnX−1,nY −1;α2=

1

FnY −1,nX−1;1−α2

o bien

FnY −1,nX−1;1−α2=

1

FnX−1,nY −1;α2


Medias conocidas

La cantidad pivotal considerada va a ser:

F =

nXS∗2X

σ2X

/nX

nY S∗2Y

σ2Y

/nY

=S∗2X

S∗2Y

· σ2Y

σ2X

∈ FnX ,nY

El estadıstico se distribuye segun una F-Snedecor con nX y nY grados de

libertad. Siendo:

S∗2X =

1

nX

nX∑i=1

(Xi − µX)2

y

S∗2Y =

1

nY

nY∑i=1

(Yi − µY )2

El intervalo de confianza al nivel de confianza del 100(1− α)% es:

Iσ2X/σ2

Y=

[S∗2X

S∗2Y

· 1

FnX ,nY ;1−α2

;S∗2X

S∗2Y

· 1

FnX ,nY ;α2

]

Ejemplo 4.2.6 Se desea hacer un seguimiento de las notas de los alumnos

para la asignatura de Econometrıa en los dos grupos que se han formado. Se

selecciona una muestra aleatoria de 26 alumnos en el grupo A y otra muestra

de 31 alumnos en el grupo B, siendo las desviaciones tıpicas muestrales de

35 y 31 respectivamente. Se sabe que la distribucion de las notas en los dos

grupos es normal. ¿Se puede admitir al 90% de confianza que la igualdad de

las varianzas poblacionales en los dos grupos?

Solucion: Definimos las variables aleatorias que son: X ≡ calificacion en Econometrıa

en el grupo A; Y ≡ calificacion en Econometrıa en el grupo B, X ∈ N(µX , σX)

e Y ∈ N(µY , σY ). Ademas conocemos:

nX = 26, sX = 35 (s2X = 1225),


nY = 31, sY = 31 (s2Y = 961).

En este caso las medias poblacionales son desconocidas por lo que el inter-

valo de confianza que se nos pide viene dado por:

[S2X

S2Y

· 1

FnX−1,nY −1;1−α2

;S2X

S2Y

· 1

FnX−1,nY −1;α2

]

1− α = 0′90 ⇒ α = 0′1 ⇒ α

2= 0′05

P [F ≤ F25,30;0′95] = 0′95 ⇒ F25,30;0′95 = 1′88

P [F ≤ F25,30;0′05] = 0′05, este valor no viene en las tablas de la F-Snedecor,

habra que aplicar la propiedad de reciprocidad para solucionar el problema:

F25,30;0′05 =1

F30,25;0′95=

1

1′92= 0′5208

Sustituyendo:

Iσ2X

σ2Y

=

[1225

961· 1

1′88;1225

961· 1

0′5208

]= [0′678; 2′447]

Si las varianzas son iguales su cociente valdra 1 por lo que, bastara con compro-

bar si el intervalo construido contiene dicho valor; 1 ∈ Iσ2X

σ2Y

, podemos admitir

con un 90% de confianza que las varianzas poblacionales de los dos grupos son

iguales.


4.3. Intervalos de confianza en poblaciones no

normales

4.3.1. Aplicacion de la desigualdad de Chebychev para

la obtencion de intervalos de confianza

La desigualdad de Chebychev puede utilizarse para obtener un intervalo de

confianza para la media µ de cualquier distribucion con varianza σ2 conocida.

Partimos de una muestra aleatoria simple (X1, . . . , Xn). Sabemos que un

buen estimador de la media poblacional µ es la media muestral X y ademas:

E[X] = µ

V ar(X) =σ2

n

Aplicamos la desigualdad de Chebychev:

P[|X − E[X]| ≤ k

]≥ 1− V ar(X)

k2= 1− σ2

nk2

P[|X − µ| ≤ k

]≥ 1− σ2

nk2

Imponemos un nivel de confianza mayor o igual al 100(1−α)% por lo que

imponemos 1− σ2

nk2= 1− α y despejamos k:

σ2

nk2= α ⇒ nk2 =

σ2

α⇒ k =

σ√nα

Sustituyendo en la desigualdad el valor de K:

P

[|X − µ| ≤ σ√

nα

]≥ 1− α

4.3. INTERVALOS DE CONFIANZA EN POBLACIONES NONORMALES107

de donde:

P

[− σ√

nα≤ X − µ ≤ σ√

nα

]≥ 1− α

P

[X − σ√

nα≤ µ ≤ X +

σ√nα

]≥ 1− α

El intervalo de confianza al nivel del 100(1− α)% o superior para µ es:[X − σ√

nα; X +

σ√nα

]

Ejemplo 4.3.1 Una empresa esta interesada en el nivel de aceptacion de un

nuevo producto, por lo que se desea estimar el ingreso medio debido a las ventas

del producto, para lo que se ha pensado en construir un intervalo de confianza

al 99% de confianza suponiendo:

1. Los ingresos se distribuyen normalmente con varianza 6, y se toma una

muestra de 20 establecimientos obteniendose un ingreso medio de 4000e.

2. No se conoce la distribucion que siguen los ingresos pero, se sabe que la

varianza de estos es de 6 y se toma una muestra de 20 establecimientos,

obteniendose un ingreso medio de 4000e.

Solucion: Sea X ≡ ingresos por ventas del nuevo producto (cientos de euros).

1. Sabemos que la variable se distribuye normalmente X ∈ N(µ,√6), ademas

n = 20 y x = 40. El intervalo que nos permitira estimar la media pobla-

cional viene dado por:

Iµ =

[X − σ√

n· zα

2; X +

σ√n· zα

2

]donde zα

2es tal que:

P [Z > zα2] =

α

2⇒ P [Z > z0′005] = 0′005 ⇒ z0′005 = 2′575


por lo que:

Iµ =

[40− 2′575 ·

√6

20; 40 + 2′575 ·

√6

20

]= [38′5896; 41′4103]

2. En esta ocasion no conocemos la distribucion de la variable, tendremos

que utilizar la desigualdad de Chebychev para obtener el intervalo de

confianza.

Iµ =

[X − σ√

nα; X +

σ√nα

]Sabemos que x = 40, n = 20, σ =

√6, y α = 0′01

Iµ =

[40−

√6

20 · 0′01; 40 +

√6

20 · 0′01

]= [34′5227; 45′4772]

4.3.2. Intervalos de confianza para muestras grandes

Con muestras grandes podremos utilizar para la obtencion de intervalos de

confianza metodos que se basan en la distribucion asintotica del estimador de

maxima verosimilitud o en el Teorema Central del Lımite.

Intervalos de confianza para muestras grandes a partir del estimador

de maxima verosimilitud (θ)

Si θ es un estimador de maxima verosimilitud del parametro θ entonces θ

es asintoticamente eficiente y asintoticamente normal.

θ →n→∞ N(θ,

√V ar(θ))

4.3. INTERVALOS DE CONFIANZA EN POBLACIONES NONORMALES109

por tanto:

Z =θ − θ√V ar(θ)

→n→∞ N(0, 1)

donde la V ar(θ) coincide con la cota de Frechet-Cramer-Rao:

V ar(θ) =1

nE[∂ln·f(x;θ)

∂θ

]2El estadıstico Z se puede utilizar como cantidad pivotal, y un intervalo de

confianza al 100(1− α)% para θ se puede obtener:

P

−zα2≤ θ − θ√

V ar(θ)≤ zα

2

= 1− α

P

[θ − zα

2

√V ar(θ) ≤ θ ≤ θ + zα

2

√V ar(θ)

]= 1− α

El intervalo de confianza para θ sera:

Iθ =

[θ − zα

2

√V ar(θ); θ + zα

2

√V ar(θ)

]con P

[Z > zα

2

]= α

2

Intervalos de confianza para muestras grandes aplicando el Teorema

Central del Lımite

Sea (X1, . . . , Xn) una muestra aleatoria simple suficientemente grande (n >

30), procedente de una poblacion con distribucion desconocida y varianza σ2

finita y conocida. Para calcular un intervalo de confianza al nivel 100(1−α)%

para la media µ de la poblacion podemos usar el teorema central del lımite

por el que el estadıstico:

Z =X − µ

σ/√n


tiene una distribucion aproximada N(0, 1) y por lo tanto:

P

[−zα

2≤ X − µ

σ/√n

≤ zα2

]≈ 1− α

A partir de esta expresion obtendrıamos un intervalo de confianza para µ:

Iµ =

[X − zα

2

σ√n; X + zα

2

σ√n

]con P [Z > zα

2] = α

2.

La diferencia basica con los intervalos que hemos obtenido hasta ahora es

que antes eran exactos y los que obtenemos ahora son aproximados.

En el caso en que σ2 sea desconocida, se tomara como aproximacion la

varianza muestral S2, y en este caso:

Iµ =

[X − zα

2

S√n; X + zα

2

S√n

].

Ocurre ası porque tn−1 →n→∞ N(0, 1).


1. Un estudio llevado a cabo en una cadena de supermercados sobre el

numero de cliente que atiende en un dıa, sigue una distribucion normal

con varianza 490. A partir de una muestra de 45 dıas, se calculo la media

de los clientes que atendieron, x = 25000. Calcule un intervalo de confi-

anza bilateral, al 95% de confianza, para la media de clientes que pasan

por el supermercado. ¿Como seran los intervalos de confianza unilaterales

tambien al 95% de confianza?

Solucion:

Intervalo bilateral I = [24999, 7256; 25000, 2744]

Intervalos unilaterales I = [−∞; 25000, 2303] y I = [24999, 7697;+∞]


2. Una empresa, con el fin de consumir menos litros de gasolina, estudia

el numero medio de litros que consumen sus repartidores. El gerente de

la empresa somete a 50 empleados, elegidos aleatoriamente, a un test de

consumo. Los resultados fueron:

Litros 42 44 46 48 50 52

No de Repartidores 5 6 2 10 15 12

Se sabe que el consumo de gasolina se distribuye segun una normal de

varianza poblacional 6. Construir un intervalo de confianza al 95% para

la media del numero de litros.

Solucion:

Intervalo bilateral I = [47, 7210; 49, 0789]

Intervalos unilaterales I = [−∞; 48, 9698] y I = [47, 8301;+∞]

3. Los periodos de duracion (en horas) de una m.a.s. de 20 linternas han

sido: 503, 480, 345, 427, 386, 432, 429, 378, 440, 434, 429, 436, 451, 466,

394, 422, 412, 507, 433, 480. Obtener un intervalo de confianza al 95% de

la vida media de la poblacion de linternas suponiendo que sus periodos

de duracion se distribuyen normalmente.

Solucion: Iµ = [415, 18; 453, 21]

4. Un fabricante de moviles de ultima generacion desea determinar el tiem-

po medio de las baterıas de estos moviles. Si en 20 moviles de prueba, se

obtuvo un tiempo medio de 482 dıas y una desviacion tıpica de 9’5 dıas,

construir un intervalo de confianza al 95% para la vida media de estos

moviles.

Solucion: Iµ = [477, 5518; 486, 4482]

5. El precio de un determinado artıculo perecedero en los comercios de

alimentacion de una ciudad sigue una distribucion normal. Se toma una


muestra aleatoria de 12 comercios y se observa el precio de ese artıculo,

obteniendo las siguientes observaciones:

1′32, 1′25, 1′30, 1′39, 1′26, 1′38, 1′24, 1′41, 1′51, 1′67, 1′48, 1′56

Obtener, al nivel de confianza del 95%, un intervalo de confianza para

la media poblacional y un intervalo de confianza para la varianza pobla-

cional.

Solucion:

Iµ = [1, 3115; 1, 4835]

Iσ = [0, 0092; 0, 0528]

6. Se sabe que el numero de prestamo de la Biblioteca de la Universidad

se distribuye segun una normal. Con el objeto de estudiar la varianza de

la distribucion, se extrae una m.a.s de 6 dıas. Sabiendo que la varianza

muestral es de 35, se pretende estimar la varianza poblacion mediante

un intervalo de confianza al 90%.

Solucion:

Iσ = [15, 8085; 152, 8384]

7. Para estudiar la calidad de un curso de verano de Tecnicas Modernas de

Direccion, que fue realizado para un grupo de directivos, se selecciona

aleatoriamente a un conjunto de 8 directivos, y se toma informacion sobre

su rendimiento antes de hacer el curso y despues de realizarlo.

Previo al curso 10 5 8 7 6 2 10 8

Posterior al curso 10 9 7 8 7 9 10 5

Construir un intervalo de confianza al 95% para la diferencia entre la

puntuaciones medias suponiendo que ambas son m.a.s procedentes de

poblaciones normales.

Solucion: Iµ1−µ2 = [−3, 0499; 0, 5499]


8. Para llevar a cabo una accion comercial encaminada a la venta de una

nueva bebida refrescante, se realiza un estudio previo sobre una muestra

aleatoria de 25 consumidores en un centro comercial. Sea la variable X

el total de litros al mes consumidos por una familia, se obtienen los

siguientes datos:

25∑i=1

xi = 3200025∑i=1

x2i = 45440000

Calcule:

a. Un intervalo de confianza para el consumo medio de refresco por

familia un nivel de confianza del 95%. Suponga que la distribucion

del consumo de combustible es desconocida pero que se conoce que

σ = 432.

b. Supongamos ahora que por estudios previos se sabe que la distribu-

cion del consumo de este tipo de refresco es normal, ¿Cual serıa en

este caso el intervalo de confianza de confianza (al 95% de confian-

za) del consumo medio de refresco?

c. Si se conoce que la distribucion del consumo de refresco es nor-

mal con una desviacion tıpica de 475 litros, obtenga el intervalo de

confianza para el consumo medio de refresco (al 95%).

d. ¿En cuanto serıa necesario aumentar el tamano de muestra para que,

manteniendo el mismo nivel de confianza, el intervalo del apartado

anterior quede reducido a la mitad de la amplitud?

Solucion: a)Iµ = [893, 61; 1666, 39], b)Iµ = [1101, 65; 1458, 34],c)Iµ =

[1093, 80; 1466, 20], d) n = 100

9. Una empresa de fabricacion de munecas basa su control de produccion

en la revision de un punto de la cadena de montaje, extrayendo un total

de 300 unidades. Se ha definido por polıtica de empresa, que es necesario

revısar el sistema de produccion si el porcentaje de munecas defectuosas


supera el 3%. Un dıa se extrae un total de 17 munecas defectuosas, ¿es

necesario revisar el sistema de produccion?.

Nota: utilizar un nivel de significacion del 1%.

Solucion: Debe revisar el sistema de produccion.

10. Una empresa le interesa saber si existen diferencias significativas entre

las cantidades que se consumen de su producto y el de la competencia en

una ciudad. Para ello, contrata a una empresa que estudia las cantidades

que se consumen en una muestra aleatoria de supermercados. Se obtiene

una muestra de 15 supermercados, donde la media de productos consum-

idos de la empresa en cuestion es de 1200, y por otro lado, en otros 12

supermercados se obtiene que la media de la competencia es 1230. La

empresa tiene informacion sobre el consumo a nivel nacional, con una

varianza poblacional de su producto de 800 y de la competencia de 700.

Calcule un intervalo de confianza al 99% para la diferencia de ambos

consumos medios. ¿Se puede decir que el consumo de la competencia es

superior?

Solucion: a)Iµ1−µ2 = [−57, 21;−2, 79], S ı

11. Una empresa de cartuchos de impresora quiere estudiar la duracion de

sus dos tipos mas vendidos. Con este objetivo, tomo una muestra de

150 cartuchos de tipo A y otra muestra de 170 cartuchos de tipo B,

obteniendose que las de tipo A tiene una duracion de 25 horas de impre-

sion y una desviacion tıpica de 15, y las de tipo B una duracion de 20

horas de impresion y una desviacion tıpica de 10. A un 95% de nivel de

confianza:

a. Contruir un intervalo de confianza para estimar la diferencia de

medias.

b. ¿Se puede decir que las de tipo A supera en 2 horas a las de tipo

B?


c. ¿Se puede decir que ambos tipos tienen las mismas horas de impre-

sion?

Solucion: a)Iµ1−µ2 = [−0, 11; 0, 18],b)No puede rechazarse que las de

tipo A son superiores en 2 horas a las de tipo B. c) No, por no encontrarse

el 0 dentro del intervalo obtenido.

12. Para conocer la predisposicion de los vecinos de dos aldeas para elegir

a un representante comun ante el pleno municipal, se realiza un son-

deo en cada aldea. En la aldea X se obtiene que 90 de 160 encuestados

estan de acuerdo con la eleccion del representante. En la aldea Z, 80 de

150 encuestados tambien estan de acuerdo. ¿Podemos afirmar a un 99%

de confianza que las proporciones reales favorables al representante de

vecinos de las dos aldeas es el mismo?

Solucion: a) Sı, Ip1−p2 = [−1, 11; 0, 18]

13. Para comparar los efectos de la crisis producidos en dos grupos empresar-

iales, se estudia el numero de puestos de trabajo destruidos en el ultimo

trimestre en una serie de empresas de cada uno de los grupos, que siguen

una distribucion normal. Con el fin de conocer cual ha sido el mas afecta-

do en esta crisis, se seleccionan dos muestras aleatorias e independientes

cuyos datos recogidos segun el grupo empresarial son:

Empresas 1 2 3 4 5 6

No de despidos por empresas (Grupo X) 10 11 18 27 14 13

No de despidos por empresas (Grupo Z) 19 17 18 20 28 23

A un 95%de confianza:

a. ¿Se admite que la desviacion tıpica del numero de despidos en ambos

grupos empresariales es el mismo?

b. ¿Se podrıa afirmar que el efecto de la crisis en ambos grupos em-

presariales ha sido igual?. Indique el intervalor de confianza.

Solucion: a) Sı, Iσ2 = [0, 34; 17, 35]. b) Sı, Iµ1−µ2 = [−16, 11; 7, 57].


14. Antes de adoptar una determinada polıtica de empleo en un municipio,

un alcalde desea conocer la opinion de sus conciudadanos. Para ello, toma

una muestra aleatoria de 98 vecinos del pueblo, observando que el 65%

estarıan de acuerdo. calcular el intervalo de confianza de su probabilidad

de acertar con la medida. ¿Podrıa decirse que mas de las tres cuartas

partes de los vecinos secundan dicha polıtica de empleo?

Solucion: a) Ip = [0, 556; 0, 744]. No, debido a que 0, 75 no esta incluido

en el intervalo de confianza.

Capıtulo 5

Contrastes de hipotesis

1. Concepto y tipos de hipotesis.

2. Region crıtica y region de aceptacion.

3. Tipos de errores.

4. Fases a seguir en un test de hipotesis.

5. Potencia y funcion de potencia del contraste.

5.1. Concepto y tipos de hipotesis

La teorıa estadıstica del contraste de hipotesis fue introducida inicialmente

por Fisher y desarrollada por Neyman y Pearson, siendo considerablemente

extendida y generalizada en los ultimos anos.

Una hipotesis estadıstica es una afirmacion o conjetura (verdadera o falsa)

sobre una caracterıstica desconocida de una o mas poblaciones. Si la hipotesis

117

118 CAPITULO 5. CONTRASTES DE HIPOTESIS

se refiere al valor del parametro desconocido θ de la poblacion, diremos que

se trata de un contraste parametrico, pero si la hipotesis se refiere a la forma

que tiene la funcion de cuantıa o de densidad f(x, θ) de la poblacion, entonces

hablaremos de contrastes no parametricos.

En un problema de contraste de hipotesis, existe una hipotesis preconcebida

relativa a la caracterıstica a analizar de la poblacion sometida a estudio; de

hecho, hay siempre dos teorıas o hipotesis implıcitas: la hipotesis que propone

el experimentador se denota por H1 y se llama hipotesis de investigacion o

alternativa. La negacion de la hipotesis alternativa se denota por H0 y se

llama hipotesis nula.

Cuando formulamos H0 y H1 hay que tener en cuenta:

Las hipotesis estadısticas se formulan siempre con la esperanza de que

sea posible rechazar H0 y, por consiguiente, aceptar H1.

Al definir el contraste, la igualdad formara parte de H0 y en H1 lo que

hay son desigualdades estrictas.

Si el contraste es parametrico, la hipotesis nula H0 consiste en suponer que

θ ∈ Ω0, siendo Ω0 un subconjunto del espacio parametrico Ω, es decir:

H0 : θ ∈ Ω0 ⊆ Ω

y en la hipotesis alternativa H1, se supone que θ ∈ Ω1, siendo Ω1 un sub-

conjunto del espacio parametrico Ω, tal que Ω0 ∪ Ω1 = Ω y Ω0 ∩ Ω1 = ∅, esdecir:

H1 : θ ∈ Ω1 = Ω− Ω0.

Por tanto la hipotesis nula se formulara de manera que:

5.1. CONCEPTO Y TIPOS DE HIPOTESIS 119

la hipotesis nula H0 es cierta cuando θ ∈ Ω0

la hipotesis nula H0 es falsa cuando θ ∈ Ω1

Tanto las hipotesis nula como la alternativa pueden ser simples o com-

puestas, segun los subconjuntos Ω0 y Ω1 tengan un solo punto o varios. Una

hipotesis (parametrica) se dice simple cuando se refiere a un unico valor del

parametro, es decir, a un solo punto del espacio parametrico, quedando to-

talmente especificada la forma de la funcion de cuantıa o de densidad de la

poblacion al conocer ese valor del parametro. En caso contrario la hipotesis

se denomina hipotesis compuesta. Si consideramos que la nota media de los

alumnos de LADE en la Licenciatura es 6′5, entonces la hipotesis sera µ=6′5,

que es una hipotesis simple. Si, por el contrario, consideramos que dicha no-

ta media es de Notable, nos referimos a una region del espacio parametrico,

7 ≤ µ < 9, y la hipotesis es compuesta.

Supongamos ahora que se esta evaluando la aptitud de los empleados del

sector turıstico en una region. Para ello se ha realizado una prueba de aptitud

a un conjunto de empleados del sector. Se espera que mas de la mitad de los

empleados superen esta prueba.

Para plantear alguna prueba estadıstica que apoye tal afirmacion, llamemos

p a la proporcion empleados del sector turıstico en la region con aptitud. En

este caso, el contraste se formularıa de la siguiente forma:

H0 : p ≤ 0′5

H1 : p > 0′5

Observese:

1. La afirmacion correspondiente a la igualdad es conveniente que forme

parte de la hipotesis nula.

2. Se espera que H0 sea rechazada.


3. Tanto H0 como H1 son hipotesis compuestas.

Si se quisiera descartar que la proporcion empleados del sector turıstico en

la region con aptitud es de 14plantearıamos:

H0 : p = 0′25

H1 : P = 0′25

En este caso, la primera hipotesis es simple y la segunda compuesta.

Una vez se ha seleccionado una muestra y se han recogido los datos, debe

tomarse una decision. Esta sera rechazar H0 o aceptarla. La decision se toma

observando si el valor de algun estadıstico (funcion que depende de los datos

muestrales), cuya distribucion se conozca bajo la suposicion de que la hipotesis

nula es cierta, cae en la denominada region crıtica o en la llamada region de

aceptacion.

5.2. Region crıtica y region de aceptacion

En un contraste de hipotesis, ponemos en relacion la evidencia empırica de

la muestra con una determinada hipotesis de partida (hipotesis nula, H0). Es

como la presuncion de inocencia: inicialmente, se supone que quien es juzga-

do es inocente; se procede a observar las pruebas y los testimonios, escuchar

al abogado y al fiscal; si no hay evidencias de culpabilidad, se mantiene la

hipotesis de “inocencia”; por el contrario, si encontramos evidencias, se recha-

za la hipotesis de “inocencia”, condenando al acusado.

Las evidencias para rechazar o no la hipotesis nula de partida, H0, nos las

proporciona la informacion que nos da la muestra analizada. Por eso, en todo

contraste de hipotesis, se determinan dos regiones: la region crıtica, C, que

esta constituida por el conjunto de muestras para las cuales se rechaza H0 y

5.2. REGION CRITICA Y REGION DE ACEPTACION 121

la region de aceptacion, C, que esta constituida por el conjunto de muestras

para las cuales no hay evidencias para el rechazo y por tanto se acepta H0.

Para determinar si una muestra esta en la region crıtica o no se utiliza

un estadıstico llamado estadıstico de prueba. A partir de la muestra se calcula

el valor del estadıstico y de esta forma podemos representar las muestras en

una recta real. Las regiones crıtica, C, y de aceptacion, C, son entonces in-

tervalos de dicha recta. Los valores que separan la region crıtica de la region

de aceptacion (los puntos de la frontera de cualquiera de los dos conjuntos)

se conocen como valores crıticos. Cuando la region crıtica no esta acotada ni

inferior ni superiormente, se dice que el contraste es bilateral. Si esta acotada

inferior o superiormente, se dice unilateral.

Consideremos un contraste bilateral:

H0 : θ = θ0

H1 : θ = θ0

o

H0 : θ1 ≤ θ ≤ θ2

H1 : θ /∈ [θ1, θ2]

La region crıtica y de aceptacion en un contraste bilateral es:

Consideremos un contraste unilateral por la izquierda, es decir de la forma:

H0 : θ ≥ θ0

H1 : θ < θ0


La region crıtica y de aceptacion sera del tipo:

Por ultimo, consideremos un contraste unilateral a la derecha, es decir de

la forma:

H0 : θ ≤ θ0

H1 : θ > θ0

La region crıtica y de aceptacion sera del tipo:

El problema de decision, segun lo anterior, se limita a conocer si el es-

tadıstico esta en una region. Pero no debe olvidarse que dicho estadıstico es

un valor aleatorio, pues depende de la muestra. Logicamente, esta aleatoriedad

genera una posibilidad de error en la decision.

5.3. TIPOS DE ERRORES 123

5.3. Tipos de errores

Cuando se realiza un contraste de hipotesis, se pueden cometer dos tipos

de errores:

El error de tipo I consiste en rechazar H0 siendo cierta dicha hipotesis.

El error de tipo II se produce al aceptar H0 siendo falsa dicha hipotesis.

Dichos errores se cuantifican en terminos de probabilidades. Para el error

tipo I, se calcula la probabilidad de rechazar H0 condicionada a que H0 es

cierta, que se suele denotar por α(θ):

α(θ) = P[rechazar H0|H0 es cierta

].

Para el error de tipo II, la probabilidad de aceptar H0 cuando H0 es falsa se

suele escribir:

β(θ) = P[aceptar H0|H0 es falsa

],

Observese que ambos errores dependen de cual sea el verdadero valor del

parametro, θ.

Definimos la Talla o Tamano para el error de tipo I, y lo denotamos por

α, como el maximo de la probabilidad de error de tipo I, es decir:

maxθ∈Ω0

P[rechazar H0|H0 es cierta

]= max

θ∈Ω0

α(θ) = α

Se le suele llamar tambien nivel de significacion o fiabilidad del test o del

contraste o tamano de la region crıtica. A la diferencia 1 − α se le denomina

nivel de confianza1.

1En el caso de hipotesis nula compuesta el maximo error de tipo I se alcanza en la frontera

de la region Ω0.


Generalmente α es fijado de antemano por el investigador o por el decisor

y sirve para indicar como de importante considera ste equivocarse al rechazar

incorrectamente la hipotesis nula.

La talla o tamano para el error de tipo II, se define como el maximo de

probabilidad de error de tipo II y se denota por β, es decir:

maxθ∈Ω1

P[aceptar H0|H0 es falsa

]= max

θ∈Ω1

β(θ) = β

La bondad del contraste dependera de los valores de los errores de tipo I y

tipo II.

En un contraste de hipotesis hay tambien dos formas de acierto posibles:

Aceptar H0 cuando H0 cierta.

Rechazar H0 cuando H0 falsa.

Podemos resumir los tipos de errores y los aciertos anteriores ası como sus

probabilidades en una tabla:

H0 cierta H0 falsa

1− α β

Aceptar H0 Acierto Error tipo II

α 1− β

Rechazar H0 Error tipo I Acierto

A la probabilidad de rechazar H0 cuando H0 falsa, 1−β, se llama potencia

del test.

Ocurre (como vamos a ver en el siguiente ejemplo) que, si se mantiene fijo

el tamano de la muestra, n, conforme aumenta la probabilidad de error de uno

5.3. TIPOS DE ERRORES 125

de los tipos, disminuye la otra. Sin embargo, las variaciones que se producen

no tienen que ser forzosamente proporcionales. Es muy difıcil controlar estos

dos tipos de errores; generalmente, se controla la probabilidad α de cometer el

error de tipo I. El error de tipo II queda determinado por la forma de realizar

el contraste, esto es, por la eleccion que se haga de la region crıtica.

Ejemplo 5.3.1 A fin de solucionar los graves problemas ambientales que asolan

una region, los responsables polıticos deciden establecer un nuevo impuesto. Los

habitantes de la region estan concienciados de la gravedad del problema, pero

no se sabe como pueden responder si el impuesto es demasiado exigente. Por

eso, se decide sondear a los que tendrıan que pagarlo y preguntarles cuanto

estarıan dispuestos a pagar. Segun los resultados obtenidos en otros lugares, la

cuantıa seguira una distribucion Normal con desviacion tıpica de 10 e. Tras

realizar los sondeos, desde el Area de Medio Ambiente se afirma que 30 ees

la cifra media que se considera adecuada por los contribuyentes. Sin embargo,

los ecologistas sostienen que la cantidad debe ser de 40 epara hacer caso a

la mayorıa (sin falsear los resultados). Para contrastar la hipotesis de los 30

e, el Area de Medio Ambiente decide seleccionar al azar una muestra de 25

personas y se adopta la siguiente regla de decision: si la media muestral es

inferior o igual a 35 e, se considerara que lo adecuado es fijar un impuesto de

30 e.

Solucion: Sea X ≡ “Impuesto (en euros) que los contribuyentes estarıan dis-

puestos a pagar”. X ∈ N(µ, 10).

Planteamos el contraste: H0 : µ = 30.

H1 : µ = 40.

Ha de tenerse en cuenta que solo hay 2 valores posibles para µ; no hay otra

posibilidad distinta de las contempladas en el contraste.


Se toma una muestra con n = 25. Si x ≤ 35, se acepta H0; si x > 35, se

rechaza H0. En la siguiente grafica se representa la distribucion de la variable

X en ambas hipotesis y las probabilidades de los errores de tipo I y de tipo II:

α = P[rechazar H0|H0 es cierta

]= P

[X > 35|µ=30

]= P

[Z >

35− 30

10/√25

]β = P

[aceptar H0|H0 es falsa

]= P

[X ≤ 35|µ=40

]= P

[Z ≤ 35− 40

10/√25

]En este caso, α y β son iguales.

Podemos calcular las regiones crıticas y de aceptacion cambiando el 35 por

otro valor. Por ejemplo, al cambiarlo por 37, disminuirıa α pero aumentarıa

β (y no en la misma cuantıa).

No es necesario que α y β sumen la unidad, pues las dos probabilidades no

son complementarias. Un cambio unitario en α no implica el correspondiente

5.4. FASES A SEGUIR EN UN TEST DE HIPOTESIS 127

cambio unitario en β y viceversa. Sin embargo, α y β no son independientes, ni

son independientes del tamano de la muestra. Cuando el tamano de la muestra

permanece constante, si α disminuye, β aumenta y viceversa. Si el tamano de

muestra aumenta, sı que es posible que α y β disminuyan simultaneamente.

Pero un aumento en el tamano de la muestra produce un incremento en el

coste de la investigacion, por ello el responsable en la investigacion tendra que

decidir cuanto dinero esta dispuesto a gastar incrementando el tamano de la

muestra para reducir los errores α y β.

Por ultimo observese que el aumento o la disminucion de α tiene una inci-

dencia directa sobre la region crıtica o region de rechazo.

5.4. Fases a seguir en un test de hipotesis

Para efectuar un contraste parametrico, conviene seguir una serie de pasos:

1. Formulacion de la hipotesis.

En todo problema de contraste de hipotesis se deben especificar clara-

mente las dos hipotesis H0 y H1. Las hipotesis deben ser mutuamente

excluyentes, y de manera que el verdadero valor del parametro pobla-

cional este incluido en la hipotesis nula o en la alternativa.

2. Obtencion del estadıstico adecuado para el contraste.

Se ha de obtener un estadıstico apropiado que se utilizara para rechazar

o aceptar la hipotesis nula H0 y recibe el nombre de test estadıstico o

estadıstico de la prueba.

El estadıstico seleccionado debera verificar las siguientes condiciones:

Su funcion de probabilidad debe ser conocida cuando se supone que

la hipotesis nula es cierta.


Los restantes terminos que intervienen en su formulacion deben ser

conocidos o se pueden calcular a partir de la muestra.

3. Seleccion del nivel de significacion.

La seleccion del nivel de significacion α se ha de hacer teniendo en cuenta

que

α = maxθ∈Ω0

P [error de tipo I] = maxθ∈Ω0

P[rechazar H0|H0 es cierta

]siendo deseable que α tome el menor valor posible para tener una menor

probabilidad de rechazar una hipotesis nula H0 cuando es cierta. El val-

or del nivel de significacion α, indica la importancia o significado que el

investigador atribuye a las consecuencias asociadas rechazando incorrec-

tamente la hipotesis nula H0.

4. Determinacion de la region crıtica.

El conocimiento de la region crıtica nos permitira decidir si se acepta o

rechaza la hipoteis nula H0, en funcion del valor del estadıstico de prueba

elegido y del nivel de significacion, α, fijado.

5. Seleccion aleatoria de la muestra y calculo del estadıstico de prueba o

experimental.

Despues de seleccionar la muestra de forma aleatoria, se ha de ver si la

muestra obtenida cae en la region crıtica o en la region de aceptacion. Es

decir, a partir de las observaciones se calcula el valor del test estadıstico

o estadıstico de prueba y se ve si el valor de este estadıstico cae en la

region crıtica o en la region de aceptacion.

6. Utilizar la regla de decision para concluir el contraste.

Si el valor calculado del estadıstico de prueba cae dentro de la region

crıtica, entonces H0 se rechaza, y si el valor calculado cae dentro de la

region de aceptacion, entonces se acepta la hipotesis nula H0.


En ocasiones (sobre todo, con algun programa informatico de tratamiento

estadıstico de datos), este ultimo paso se refiere al P -valor y no a la region

crıtica.

5.4.1. P -valor

Ademas de resolver el test por medio de las regiones crıticas, podemos

fijarnos en un valor llamado P -value, P -valor o valor probabilıstico que, intui-

tivamente, es el menor nivel de significacion para el cual la hipotesis nula es

rechazada; esto es, una probabilidad a partir de la cual el valor experimental

cae en la region crıtica.

El P -valor esta entre 0 y 1 y se define como la probabilidad de la region

crıtica mas pequena segun la cual rechazarıamos la hipotesis nula con una

muestra.

En definitiva, un valor grande del P -valor indicara coherencia de la hipotesis

nula y un valor pequeno el rechazo de H0. Por tanto, fijado α:

Si P -valor ≤ α, entonces se rechaza H0 (con igualdad, se recomienda

aumentar el tamano muestral).

Si P -valor > α, entonces no hay evidencias para rechazar H0.

Ejemplo 5.4.1 Supongamos una poblacion normal de media µ, desconocida,

y desviacion tıpica σ = 18 y pretendemos contrastar la hipotesis de que la

media poblacional es µ = 8.

Solucion: Para resolver este contraste seguiremos las fases que hemos expuesto

anteriormente.


1. Formulacion de la hipotesis.

H0 : µ = 8

H1 : µ = 8

2. Obtencion del estadıstico adecuado para el contraste.

Lo que haremos sera utilizar un estimador insesgado de mınima varianza

para el parametro cuyo valor queremos estimar. En este caso consider-

aremos la media muestral:

X =1

n

n∑i=1

Xi ∈ N

(µ,

σ√n

).

3. Seleccion del nivel de significacion.

Tomamos α = 0′1

4. Determinacion de la region crıtica. Para determinar la region crıtica

empezamos admitiendo que la hipotesis nula (µ = µ0 = 8) es cierta, es

decir:

X ∈ N

(µ0,

σ√n

)Imponemos:

P [X < xinf ] =α

2

P (X > xsup) =α

2

A continuacion mostramos una representacion grafica de la distribucion

de X centrada en torno al valor de la media poblacional dada por H0 :

µ = µ0 = 8.


Supongamos que el tamano muestral es n=16

Bajo el supuesto de que la hipotesis nula es cierta, se tiene:

X ∈ N

(8,

18√16

)Luego:

P[X < xinf |µ=8

]= P

[Z <

xinf − 818√16

]=

α

2= 0′05

P[X > xsup|µ=8

]= P

[Z >

xsup − 818√16

]=

α

2= 0′05

−zα2= −1, 645 =

xinf − 818√16

⇒ xinf = 0′59

zα2= 1′645 =

xsup − 818√16

⇒ xsup = 15′4

siendo la region crıtica o region de rechazo la formada por los intervalos

(−∞; 0′59) y (15′40;+∞) y la region de aceptacion sera [0′59; 15′40]

5. Seleccion aleatoria de la muestra y calculo del estadıstico de prueba o

experimental.


Seleccionamos de la poblacion en estudio una muestra de forma aleatoria

de tamano 16. Supongamos que se obtienen las siguientes observaciones:

8, 15,−7, 0, 4, 45, 71,−15, 20, 23, 4, 32, 29, 48, 56, 25

Calculamos el valor del estadıstico media muestral:

x =

n∑i=1

Xi

n=

358

16= 22′375

o su valor tipificado, que llamaremos Z.

Z =x− µ0

σ/√n

=22′375− 8

4′5= 3′19

6. Utilizar la regla de decision para concluir el contraste.

La regla de desicion sera:

Rechazar H0 si x < 0′59 o x > 15′40

Aceptar H0 si 0′59 ≤ x ≤ 15′40

Como x = 22′375 > xsup = 15′40 ⇒Rechazamos H0

Tambien podrıamos dar la regla de decision utilizando el valor tipificado

del estadıstico.

Rechazamos H0 si z < −zα2o z > zα

2

Aceptamos H0 si −zα2≤ z ≤ zα

2

Como z = 3′19 > zα2= 1′645 rechazamos la hipotesis nula.

En este ejemplo el contraste o test de hipotesis es bilateral, de dos colas

o por los dos lados, ya que hay dos regiones de rechazo para la regla de

decision.

Ejemplo 5.4.2 Se ha estudiado el ahorro anual (deuda en caso de valores neg-

ativos) de las empresas del sector inmobiliario de una determinada localidad,

y se ha caracterizado por una distribucion normal con dos millones de euros

de desviacion tıpica. A partir de los datos de una muestra de 25 empresas que

arroja una media muestral x = 500000 e, se pide:


1. Determine el intervalo de confianza del 90 y 95 para el ahorro medio

anual de las empresas de la localidad de dicho sector.

2. ¿Serıa adecuado pensar que las empresas de esta localidad ahorran a-

nualmente?

3. Si se desea obtener un intervalo de confianza del 90% para el ahorro

medio con una amplitud de dos millones de euros, ¿que tamano de-

bera tener la muestra seleccionada?

Solucion:

1. Consideramos la variable aleatoria X que representa el ahorro anual, en

millones de euros, de las empresas del sector inmobiliario de esta locali-

dad. Sabemos que esta variable aleatoria se distribuye como una normal

con desviacion tıpica 2 millones de euros, es decir, X ∈ N(µ, 2 · 106).Se elige una m.a.s. de 25 empresas y la media anual obtenida fue x =

500000. Como la desviacion tıpica poblacional es conocida, el intervalo

de confianza para la media poblacional vendra dado como:

Iµ =

(x− zα

2· σ√

n, x+ zα

2· σ√

n

)Cuando α = 0′05, zα

2= 1′96 y el intervalo obtenido es

Iµ = (−284000, 1284000).

Cuando α = 0′1, zα2= 1′645 y el intervalo obtenido es

Iµ = (−158000, 1158000).

Observamos que el intervalo tiene mayor amplitud cuanto mayor es el

nivel de confianza exigido, permaneciendo intocables los demas datos.


2. Planteamos el contraste:

H0 : µ ≤ 0

H1 : µ > 0

El estadıstico sera:

Z =X − 0

σ√n

que bajo H0 sigue una distribucion N(0,1).

El valor experimental del estadıstico serıa:

zexp =0′5− 0

2√25

= 1′25

Para un nivel de significacion del 5%, el valor crıtico serıa:

P (Z ≤ zα) = 1− α = 1− 0′05 = 0′95 ⇒ zα = 1′645

Luego rechazamos la hipotesis nula si:

zexp = 1′25 > 1, 645

Para un nivel de significacion del 10%, el valor crıtico serıa:

P (Z ≤ zα) = 1− α = 1− 0′1 = 0′90 ⇒ zα = 1′28

Luego rechazamos la hipotesis nula si:

zexp = 1′25 > 1′28

Observamos que en ambos casos llegamos a la misma conclusion, como

no existe evidencia para rechazar la hipotesis nula, aceptamos que las

empresas no ahorran anualmente (hipotesis alternativa).

5.5. POTENCIA Y FUNCION DE POTENCIA DEL CONTRASTE 135

3. El intervalo de confianza:

Iµ =

(x− zα

2· σ√

n, x+ zα

2· σ√

n

)tiene como amplitud L = 2 · zα

2· σ√

n. Luego el tamano muestral necesario

sera:

n =4 · z2α

2· σ2

L2

Como L = 2 y z0′05 = 1′645, el tamano muestral necesario serıa n =

10′8241 ≈ 11 empresas.

5.5. Potencia y funcion de potencia del con-

traste

El error de tipo I se fija al elegir la probabilidad que deseamos que tenga

la region crıtica, pero el error tipo II esta ıntimamente relacionado con lo que

llamaremos potencia del contraste.

Cuando la hipotesis alternativa es compuesta, el error de tipo II, β(θ), de-

pende del verdadero valor del parametro, θ ∈ Ω1. A esta funcion β(θ) se le

denomina funcion caracterıstica operativa del contraste y se puede representar

graficamente para los diferentes valores de θ ∈ Ω1, obteniendo la curva carac-

terıstica operativa del contraste. Esta funcion β(θ) nos da, para los diferentes

valores de θ ∈ Ω1 la probabilidad de aceptar la hipotesis nula H0 siendo falsa.

La diferencia 1 − β(θ) se llama potencia del contraste e indica el poder o la

potencia del contraste para rechazar correctamente la hipotesis nula, es decir,

para reconocer correctamente que la hipotesis nula es falsa y por tanto serıa

rechazada.

Definimos, entonces, la funcion de potencia del contraste y la denotamos


por Pc, de la siguiente forma:

Pc(θ) = P [rechazar H0] =

α(θ) si θ ∈ Ω0

1− β(θ) si θ ∈ Ω1

Ejemplo 5.5.1 Supongamos un poblacion normal con media µ desconocida y

desviacion tıpica σ = 20. Para realizar un contraste bilateral o de dos colas:

H0 : µ = 10

H1 : µ = 10

tomamos una muestra aleatoria de tamano 25, obteniendo como media de la

muestra x = 19. Trabajamos con un nivel de significacion α = 0′05. Queremos

calcular la potencia del test.

Solucion: La region crıtica y la region de aceptacion la obtenemos calculando

los valores crıticos:

xinf = µ0 − zα2· σ√

n= 10− 1′96 · 20√

25= 2′16

xsup = µ0 + zα2· σ√

n= 10 + 1′96 · 20√

25= 17′84

La regla de decision sera rechazar H0 si x < 2′16 o x > 17′84 y aceptar H0 si

2′16 ≤ x ≤ 17′84.

Vamos a determinar la potencia. Calculamos en primer lugar β(µ).

β(µ) = P[Aceptar H0 |H0 es falsa

]= P

[Aceptar H0 |H1 es cierta

]Es decir, es una probabilidad condicionada que depende del valor µ que con-

sideremos en H1.

Supongamos que µ = 0

β(µ) = P [2′16 ≤ X ≤ 17′84|µ = 0] = P

[2′16− 0

20√25

≤ Z ≤ 17′84− 020√25

]=

5.5. POTENCIA Y FUNCION DE POTENCIA DEL CONTRASTE 137

= P [0′54 ≤ Z ≤ 4′46] = F (4′46)− F (0′54) = 0′2946.

Luego la potencia serıa: Pc(µ = 0) = 1− β(0) = 1− 0′2946 = 0′7054.

Si hacemos el mismo calculo para µ = 12, lo logico es que la potencia sea mas

pequena.

β(µ) = P[AceptarH0 |H0 es falsa

]= P [AceptarH0 |µ=12] =

= P [2′16 ≤ x ≤ 17′84|µ=12] = P

[2′16− 12

20√25

≤ Z ≤ 17′84− 1220√25

]=

= P [−2′46 ≤ Z ≤ 1′46] = F (1′46)− F (−2′46) = 0′921

Esto significa que cuando µ = 12, aceptamos incorrectamente la hipotesis nu-

la H0 : µ = 10 como verdadera en el 92’10% de las veces. La potencia del

contraste para µ = 12 es:

Pc(µ = 12) = 1− β(12) = P[RechazarH0 |H0 es falsa

]= 1− 0′921 = 0′079.

Los valores de β y la potencia 1 − β para los distintos valores de µ, α = 0′05

y n=25, se muestran en la siguiente tabla.

µ β(µ) 1-β(µ)

−5 0′0367 0′9633

0 0′2946 0′7054

5 0′7604 0′2396

10 0′9500 0′0500

12 0′9210 0′0790

15 0′7604 0′2396

20 0′2946 0′7054

25 0′0367 0′9633

Observamos que cuanto mayor es la diferencia entre el valor de la media µ

fijado por la hipotesis H0 y el fijado por la hipotesis alternativa H1, mayor es

la potencia 1-β del contraste y menor es el error de tipo II.


Podemos concluir que:

Para un tamano de muestra fijo n, si aumenta la P (Error de tipo I)

entonces disminuye la P (Error de tipo II), pues α y β estan relacionados

de forma inversa, y por tanto tambien aumenta la potencia del contraste,

1− β.

Para un nivel de significacion α fijo, cuando el tamano de la muestra

n crece, entonces la potencia del contraste, 1 − β, aumenta puesto que

P (Error de tipo II)=β disminuye.


1. Con anterioridad al lanzamiento de un producto, una empresa realiza un

estudio de mercado para recoger informacion sobre el precio que los com-

pradores estarıan dispuestos a pagar. Se supone que este precio sigue una

distribucion normal con desviacion tıpica 10e. Los tecnicos del depar-

tamento de marketing emiten un informe donde se afirma que el precio

medio que el publico considerarıa como adecuado serıa de 30e, y para

contrastar esta hipotesis frente a la de que el precio adecuado serıa de 40

euros, se decide seleccionar al azar una muestra de 25 personas y adoptar

la siguiente regla de decision: si la media muestral es inferior o igual a

35, se considerara que lo adecuado es fijar un precio de 30e. En caso

contrario, la decision es fijar el precio en 40e. Obtenga:

a) La probabilidad de cometer el error de tipo I.

b) La probabilidad de cometer el error de tipo II.

c) La representacion grafica de ambos tipos de errores.

d) La potencia del contrate y su representacion grafica.


e) La region de rechazo, la de aceptacion para un nivel de significacion

del 1%. Responder a los apartados a), b), c) y d) con esta nueva

regla de decision.

Solucion:

a) α = 0′00621.

b) β = 0′00621.

c) No se incluye el dibujo.

d) Pc(µ = 40) = 0′99379.

e) RC: x > 34′6527. a) α = 0′01. b) β = 0′003752. d) 1− β = 0′996248.

2. En la Fabrica Nacional de Moneda y Timbre de un determinado pais, se

acepta la hipotesis de que las monedas que fabrican estan compensadas

si el numero de caras en una serie de 100 lanzamientos se encuentra entre

40 y 60, ambos inclusive; en caso contrario se rechaza la moneda.

a) Hallar la probabilidad de rechazar la hipotesis cuando en realidad

es cierta.

b) Interpretar graficamente la regla de decision y el resultado del aparta-

do anterior.

c) Conforme a la regla de decision, ¿que conclusiones se obtendrıan si

en la muestra de 100 lanzamientos se obtuviesen 40 caras? ¿Y si son

70 caras?

d) ¿Pueden ser erroneas las conclusiones del apartado anterior?

e) ¿Cual es la probabilidad de aceptar la hipotesis de que la moneda

esta bien hecha cuando la probabilidad real de obtener cara es 0′7?

Representar graficamente los valores de β y 1− β en este caso.

f ) Establecer una regla de decision para testar la hipotesis de que una

moneda no tiene defectos de fabricacion (esta compensada) a partir

de una muestra de 64 lanzamientos, tomando, respectivamente un

nivel de significacion de 0′05 y 0′01.


Solucion:

a) La probabilidad es 0′0456.

b) Es la probabilidad de cometer el error tipo I.

c) Con 40 caras aceptarıamos que la modeda esta bien hecha, mientras

que con 70 rechazarıamos esta hipotesis.

d) Sı, es el error tipo II.

e) La probabilidad es 0′0146.

f ) 1) Se acepta la hipotesis de que la moneda esta bien hecha si el

numero de caras pertenece al intervalo [25, 39].

2) Se acepta la hipotesis de que la moneda esta bien hecha si el

numero de caras pertenece al intervalo [22, 42].

3. Para establecer una regla de decision que permita determinar si se puede

rechazar que una moneda este equilibrada porque salen ms caras que

cruces, se desea imponer las siguientes condiciones: (a) la probabilidad de

rechazar la hipotesis cuando sea realmente correcta debe ser, a lo sumo,

0′05; (b) la probabilidad de aceptar la hipotesis cuando la probabilidad

de obtener cara difiera de 0′5 en 0′1 o mas, debe ser, a lo sumo, 0′05.

Calcular el tamano mınimo de muestra necesario y establecer la regla de

decision resultante.

Solucion: n > 265′1156 ≃ 266. Se rechaza la hipotesis p ≤ 0′5 si el

numero de caras en 266 lanzamientos es mayor o igual que 147.

4. Dos revistas especializadas en temas de derecho laboral publican cada

una un estudio sobre el porcentaje de juicios ganados de los despachos

de abogados laboristas mas importantes del pais. En uno de los estudios

se recoge que la firma de abogados Lader gana el 40% de los juicios,

mientras que en la otra revista aparece un porcentaje del 50%. Un sindi-

cato se plantea contratar los servicios de esta firma de abogados y, para

tomar la decision, desea conocer que porcentaje es correcto. Con este fin


se selecciona una muestra aleatoria de juicios defendidos por este despa-

cho y se obtiene el porcentaje de juicios ganados; si este porcentaje es

inferior a un nivel, k, el sindicato aceptara que el verdadero porcentaje es

del 40% y, en caso contrario, aceptara que es del 50%. Obtener el valor

de k y el numero de juicios, de entre todos los defendidos por Lader, que

sera necesario seleccionar para que los tamanos de los errores de tipo I y

II sean del 5% y del 15%, respectivamente.

Solucion: n = 175′3048 ≈ 176; k = 0′429757.

5. Consideremos la variable aleatoria con funcion de densidad θe−θx, para

θ > 0, x ≥ 0. Se quiere contrastar la hipotesis nula H0 : θ = 1 frente

a la alternativa H1 : θ = 5, mediante una muestra aleatoria de tamano

uno, siendo la region crıtica el intervalo 0 ≤ x1 ≤ k. Analiza la relacion

existente entre el valor que determina la region crıtica, k, y el nivel de

significacion, ası como entre este ultimo y la potencia del contraste.

Solucion: α = 1− e−k; 1− β = α+ e−k − e−5k.

6. Ante la poca utilizacion que hacen los automovilistas de cierta salida de

una autopista, la empresa concesionaria se plantea la posibilidad de cer-

rarla al trafico. Previamente a tomar esta medida, consulta al encargado

del peaje que informa que, salvo en las horas nocturnas, el numero medio

de vehıculos que acceden a la autopista por ese punto cada cinco minutos

es igual o superior a 4. Con el fin de averiguar la posible validez de tal afir-

macion, se decide realizar una investigacion por muestreo estadıstico, reg-

istrando el numero de coches que acceden a la autopista en 200 perıodos

de cinco minutos seleccionados al azar. Si para resolver la cuestion, se

plantea un test intuitivamente logico, construido sobre el estadıstico me-

dia muestral y la region crıtica C = (x1, x2, . . . , xn) | x < K, calcularK suponiendo que el nivel de significacion se fija en el 5%.

Solucion: K = 3′7674.

7. Sus defensores afirman que un nuevo molino de viento puede generar,


en promedio, al menos 800 kilowatios de potencia diarios. Se asume que

la potencia generada diariamente por el molino tiene una distribucion

normal con desviacion tıpica de 120 kilovatios. Se toma una muestra de

100 dıas elegidos al azar y se aceptarıa la afirmacion si la media muestral

es 776 kilovatios o mas y se rechazarıa en otro caso.

a) ¿Cual es la talla del error Tipo I usando esta regla de decision?

b) ¿Cual es la probabilidad, β, de cometer un error Tipo II usando

esta regla de decision, si la media de la poblacion es, en realidad,

de 740 kilovatios?

c) Suponer que se usa la misma regla de decision pero con una muestra

de doscientos dıas en lugar de cien.

1) El valor de α sera ¿mayor, menor o igual que el encontrado en

(a)?

2) El valor de β sera ¿mayor, menor o igual que el encontrado en

(b)?

d) Suponer que se toma una muestra de 100 observaciones pero se

cambia la regla de decision de manera que se acepta la afirmacion

si la media muestral es al menos de 765 kilovatios.

1) El valor de α sera ¿mayor, menor o igual que el encontrado en

(a)?

2) El valor de β sera ¿mayor, menor o igual que el encontrado en

(b)?

Solucion:

a) α = 0′02275.

b) β = 0′00135.

c) Disminuyen ambos: α = 0′002339; β = 1′1 10−5.

d) Menor: α = 0′001769; Mayor: β = 0′01861.


8. Decidir si cada una de las siguientes afirmaciones es verdadera o falsa:

a) El nivel de significacion de un contraste es la probabilidad de que

la hipotesis nula sea falsa.

b) Un error de Tipo I ocurre cuando se rechaza una hipotesis nula

cierta.

c) Una hipotesis nula es rechazada al nivel 0′025, pero es aceptada al

nivel 0′01. Esto significa que el p-valor del contraste esta entre 0′01

y 0′025.

d) La potencia de un contraste es la probabilidad de aceptar una

hipotesis nula que es cierta.

e) Si una hipotesis nula se rechaza frente a una alternativa al nivel del

5%, entonces, usando los mismos datos, debe rechazarse tambien al

nivel del 1%.

f ) Si una hipotesis nula se rechaza frente a una alternativa al nivel del

2%, entonces, usando los mismos datos, debe rechazarse tambien al

nivel del 5%.

g) El p-valor de un contraste es la probabilidad de que la hipotesis

nula sea cierta.

Solucion: F; V; V; F; F; V; F.

Capıtulo 6

Contrastes parametricos

1. Contrastes para la varianza

2. Contrastes de igualdad de varianzas

3. Contrastes para la media

4. Contraste para la media de dos poblaciones

5. Contraste de proporciones

6. Comparacion de proporciones

Los contrastes pueden ser de dos tipos: parametricos y no parametricos.

En un contraste parametrico, se supone que la informacion procede de una

distribucion conocida, cuyos parametros deseamos estimar y contrastar. Por

el contrario, en un contraste no parametrico, no se conoce la forma de la dis-

tribucion.

Las tecnicas parametricas son mas potentes que las no parametricas, pero

las primeras no siempre se pueden utilizar por no verificarse las hipotesis de

aplicacion.

145

146 CAPITULO 6. CONTRASTES PARAMETRICOS

Si se suponen obtenidos los datos a analizar (muestra), una vez decidido

el test parametrico que se va a utilizar y comprobadas las condiciones para su

aplicacion, solo queda la formulacion de las hipotesis, el calculo del estadıstico

y la toma de la decision en funcion del nivel de significacion. A continuacion

se presentan algunos contrastes parametricos y no parametricos1 y sus corre-

spondientes hipotesis, estadısticos y regiones crıticas.

En este apartado supondremos normalidad de las variables que representan

las caracterısticas en estudio.

6.1. Contrastes para la varianza

6.1.1. Caso media desconocida

Estadıstico de prueba:

χ2 =(n− 1)S2

σ20

que, bajo la hipotesis nula, se comporta como una χ2n−1 (χ2 de Pearson con

n− 1 grados de libertad).

1. Contraste bilateral

H0 : σ2 = σ20

H1 : σ2 = σ20

Region crıtica:

1Conviene advertir que a cada contraste parametrico suele corresponder uno no

parametrico que permite tomar la decision cuando no se verifiquen algunas de las condi-

ciones exigidas para la aplicacion del parametrico.

6.1. CONTRASTES PARA LA VARIANZA 147

χ2exp < χ2

n−1;α2

o

χ2exp > χ2

n−1;1−α2

donde χ2

n−1;α2∈ IR y es tal que P [χ2 < χ2

n−1;α2] = α

2.

2. Contraste unilateral por la derecha:

H0 : σ2 ≤ σ20

H1 : σ2 > σ20

Region crıtica:

χ2exp > χ2

n−1;1−α

donde χ2

n−1;1−α ∈ IR y es tal que P [χ2 < χ2n−1;1−α] = 1− α.

3. Contraste unilateral por la izquierda:

H0 : σ2 ≥ σ20

H1 : σ2 < σ20

Region crıtica:

χ2exp < χ2

n−1;α

donde χ2

n−1;α ∈ IR y es tal que P [χ2 < χ2n−1;α] = α.

Ejemplo 6.1.1 En dos departamentos de una empresa, A y B, se seleccionaron

muestras aleatorias e independientes del numero de empleados que habıan

recibido algun incentivo en el ultimo ano. Los datos son los siguientes:

No de incentivos

Departamento 1 2 3 4 5 6

A 3 4 1 9 5 5

B 8 9 1 2 1 7


Suponiendo que el numero de incentivos que recibieron en el ultimo ano los

empleados de cada departamento sigue una distribucion normal, ¿Se puede

descartar con un 95% de confianza que la desviacion tıpica del numero de

incentivos en el departamento B es igual a 2?

Solucion: Denotemos por Y a la variable aleatoria que mide el numero de

incentivos concedidos a los empleados del departamento B,Y ∈ N(µY , σY ).

Para descartar, al 95% de confianza, que la desviacion tıpica del numero de

incentivos en la provincia B es igual a 2, hay que hacer el siguiente contraste:

H0 : σ2Y = 4

H1 : σ2Y = 4

El estadıstico a utilizar es:

χ2 =(n− 1)S2

Y

σ20

que sigue una distribucion chi-cuadrado con n− 1 = 27 grados de libertad.

En nuestro ejemplo de los datos obtenidos tras la realizacion de la muestra

resulta que el tamano muestral es nY = 28, la media muestral es y = 3, la

varianza muestral s2Y = 4′074 y en consecuencia la desviacion tıpica muestral

es sY = 2′018.

Por tanto el estadıstico experimental serıa:

χ2exp =27 · 4′074

4= 27′4995

La Region crıtica para un nivel de significacion α = 0, 05 es:

6.1. CONTRASTES PARA LA VARIANZA 149

χ2exp < χ2

27;0,025

o

χ2exp > χ2

27;0,975

donde χ2

27;0,025 ∈ IR y es tal que P [χ2 < χ227;0,025] = 0, 025.

Si miramos en las tablas de la chi-cuadrado obtenemos que χ227;0,025 =

14′573 y χ227;0,975 = 43′19 y la region crıtica es:

χ2exp < 14′573

o

χ2exp > 43′19

Como χ2

exp = 27′4995 no pertenece a la region crıtica con un 95% de confi-

anza no se puede rechazar H0, es decir, no se puede rechazar que la desviacion

tıpica en el departamento B sea de 2, con una confianza del 95%.

6.1.2. Caso media conocida


χ2 =

n∑i=1

(Xi − µ)2

σ20

que, bajo la hipotesis nula, se comporta como una χ2n (χ2 de Pearson con n

grados de libertad).

1. Contraste bilateralH0 : σ2 = σ2

0

H1 : σ2 = σ20


Region crıtica:

χ2exp < χ2

n;α2

o

χ2exp > χ2

n;1−α2

donde χ2

n;α2∈ IR y es tal que P [χ2 < χ2

n;α2] = α

2.


H0 : σ2 ≤ σ20

H1 : σ2 > σ20

Region crıtica:

χ2exp > χ2

1−α

donde χ2

n;1−α ∈ IR y es tal que P [χ2 < χ2n;1−α] = 1− α.


H0 : σ2 ≥ σ20

H1 : σ2 < σ20

Region crıtica:

χ2exp < χ2

α

donde χ2

n;α ∈ IR y es tal que P [χ2 < χ2n;α] = α.

6.2. Contrastes de igualdad de varianzas

6.2.1. Caso medias desconocidas


Fexp =S2X

S2Y

6.2. CONTRASTES DE IGUALDAD DE VARIANZAS 151

que, bajo la hipotesis nula se comporta como unaF de Snedecor, F ∈ FnX−1,nY −1.

1. Contraste bilateralH0 : σ2

X = σ2Y

H1 : σ2X = σ2

Y

Region crıtica:

Fexp < FnX−1,nY −1;α2

o

Fexp > FnX−1,nY −1;1−α2

donde:

FnX−1,nY −1;1−α2∈ IR, P [F < FnX−1,nY −1;1−α

2] = 1− α

2

FnX−1,nY −1;α2∈ IR, FnX−1,nY −1;α

2=

1

FnY −1,nX−1;1−α2


H0 : σ2X ≤ σ2

Y

H1 : σ2X > σ2

Y

Region crıtica:

Fexp > FnX−1,nY −1;1−α

donde donde FnX−1,nY −1;1−α ∈ IR y es tal que P [F < FnX−1,nY −1;1−α] =

1− α


H0 : σ2X ≥ σ2

Y .

H1 : σ2X < σ2

Y .

Region crıtica:


Fexp < FnX−1,nY −1;α

donde FnX−1,nY −1;α ∈ IR y es tal que P [F < FnX−1,nY −1;α] = α y

FnX−1,nY −1;α = 1FnY −1,nX−1;1−α

.

Este tipo de contraste se puede resolver utilizando el programa SPSS. De

esta forma plantearıamos el contraste bilateral y utilizamos Analizar\ Es-

tadısticos Descriptivos\ Explorar y en la opcion Graficos le pedimos

Graficos con pruebas de normalidad. Aquı pedimos Dispersion por

nivel con prueba de Levene y ponemos la opcion No transformados.

Aparecera un cuadro de dialogo de la siguiente forma:

Pulsamos Aceptar y tendrıamos resuelto el contraste bilateral.

Ejemplo 6.2.1 Se esta llevando a cabo un estudio acerca de los dıas de baja de

los empleados de dos empresas del mismo sector. Se piensa que la variabilidad

de los dıas de baja en los empleados de la empresa A es superior a la de los

empleados de la empresa B. Los datos se han elegido de forma aleatoria y

proceden de poblaciones normales.

Empresa A 10 11 12 11 10 11 11

Empresa B 9 8 11 12 10 13 11 10 11


Realizar el contraste al nivel de significacion del 5% suponiendo que las

poblaciones son normales.

Solucion: Denotemos por X a la variable aleatoria que mide el numero de dıas

de baja de los empleados de la empresa A, X ∈ N(µX , σX). Denotemos por Y

a la variable aleatoria que mide el numero de dıas de baja de los empleados de

la empresa B, Y ∈ N(µY , σY ).

El contraste a realizar serıa:H0 : σ2

X ≤ σ2Y

H1 : σ2X > σ2

Y

⇔

H0 : σ

2X − σ2

Y ≤ 0

H1 : σ2X − σ2

Y > 0

El estadıstico para realizar el contraste serıa:

F =S2X

S2Y

que sigue una distribucion F de Snedecor con nX − 1 = 6 y nY − 1 = 8 grados

de libertad.

En nuestro ejemplo los datos obtenidos son los que se muestran a contin-

uacion:

nX = 7 x = 10′8571 s2X = 0′4761 sX = 0′69

nY = 9 y = 10′5555 s2Y = 2′2777 sY = 1′5092


Fexp =0′4761

2′2777= 0′209

La region crıtica para un nivel de significacion α = 0, 05 es:


Fexp > F6,8;0,95

donde donde F6,8;0,95 ∈ IR y es tal que P [F < F6,8;0,95] = 0, 95

Si miramos en las tablas de la F de Snedecor obtenemos F6,8;0,95 = 3′58 y

la region crıtica es:

Fexp > 3′58

Como Fexp = 0′209 no pertenece a la region crıtica, no se puede rechazar H0,

es decir, con un 5% de significacion se acepta que la variabilidad del numero

de bajas de los empleados de la Empresa A es menor o igual que los de la

Empresa B.

Con SPSS podrıamos resolver el contraste bilateral, es decir, si las dos

varianzas son iguales o por el contrario difieren. Este programa utiliza como

estadıstico para resolver este contraste al estadıstico de Levene.

Nos fijamos en el resultado de Levene basandose en la media. El P-valor

obtenido es 0,086 que al ser superior a 0,05 rechazamos la hipotesis nula. Por

tanto, la variabilidad del numero de bajas en ambas empresas difieren.


6.2.2. Caso medias conocidas


F =

1nX

nX∑i=1

(Xi − µX)2

1nY

nY∑i=1

(Yi − µY )2

que, bajo H0, sigue una F de Snedecor, F ∈ FnX ,nY.

1. Contraste bilateralH0 : σ2

X = σ2Y

H1 : σ2X = σ2

Y

Region crıtica:

Fexp < FnX ,nY ;α2

o

Fexp > FnX ,nY ;1−α2

donde:

FnX ,nY ;1−α2∈ IR, P [F < FnX ,nY ;1−α

2] = 1− α

2

FnX ,nY ;α2∈ IR, FnX ,nY ;α

2=

1

FnY ,nX ;1−α2


H0 : σ2X ≤ σ2

Y

H1 : σ2X > σ2

Y

Region crıtica:

Fexp > FnX ,nY ;1−α


donde donde FnX ,nY ;1−α ∈ IR y es tal que P [F < FnX ,nY ;1−α] = 1− α


H0 : σ2X ≥ σ2

Y .

H1 : σ2X < σ2

Y .

Region crıtica:

Fexp < FnX ,nY ;α

donde FnX ,nY ;α ∈ IR y es tal que P [F < FnX ,nY ;α] = α y FnX ,nY ;α =

1FnY ,nX ;1−α

.

6.3. Contrastes para la media

6.3.1. Caso desviacion tıpica desconocida


T =X − µ0

S√n

que, bajo la hipotesis nula, se distribuye segun una t de Student con n − 1

grados de libertad.

1. Contraste bilateral:H0 : µ = µ0

H1 : µ = µ0

Region crıtica:

Texp > tn−1;α2

o

Texp < −tn−1;α2

6.3. CONTRASTES PARA LA MEDIA 157

donde tn−1;α2∈ IR y es tal que P [T > tn−1;α

2] = α

2.


H0 : µ ≤ µ0

H1 : µ > µ0

Region crıtica:

Texp > tn−1;α

donde tn−1;α ∈ IR y es tal que P [T > tn−1;α] = α.


H0 : µ ≥ µ0

H1 : µ < µ0

Region crıtica:

Texp < −tn−1;α

donde −tn−1;α ∈ IR y es tal que P [T < −tn−1;α] = α.


esta forma plantearıamos el mismo contraste y utilizamos Analizar\ Com-

parar medias \ Prueba T para una muestra y en la opcion Valor de la

prueba introducimos el valor µ0. En opciones se puede pedir un intervalo de

confianza para la media. Se obtendra el siguiente cuadro de dialogo:


Pulsamos Aceptar y tendrıamos resuelto el contraste.

Si el contraste que deseamos resolver es bilateral podemos observar el P-

valor obtenido. Si queremos resolver un contraste unilateral tenemos que fi-

jarnos en el valor del estadıstico dado por SPSS y construir la region crıtica

tal y como indicamos anteriormente, haciendo uso de las tablas estadısticas.

Ejemplo 6.3.1 El nivel de ahorro trimestral de las familias que habitan una

determinada region tiene una distribucion normal. Segun una encuesta realiza-

da a diez familias, su capacidad de ahorro trimestral es respectivamente: 682,

533, 555, 666, 657, 649, 522, 568, 700 y 552. Suponiendo que los datos han si-

do elegidos de forma aleatoria, ¿se podrıa descartar, con un 95% de confianza,

que el ahorro medio familiar en la region es de 600 e?

Solucion: Denotemos por X a la variable aleatoria que mide el nivel de ahorro

trimestral en la region, X ∈ N(µ, σ).

Para descartar, al 95% de confianza, que el ahorro medio familiar en la

region es de 600 e, hay que hacer el siguiente contraste:

H0 : µ = 600

H1 : µ = 600

Al ser σ desconocido el estadıstico que tenemos que utilizar sera:

T =X − 600

S√n

que sigue una distribucion t de student con n− 1 = 9 grados de libertad (T ∈t9).

En nuestro ejemplo de los datos obtenidos tras la realizacion de la muestra

resulta que la media muestral vale x = 608′4 y que la varianza muestral vale

s2 = 4661′1556, es decir, la desviacion tıpica muestral vale s = 68′2726.



Texp =608′4− 600

68′2726√10

= 0′3891.


Texp > t9;0,025

o

Texp < −t9;0,025

donde t9;0,025 ∈ IR y es tal que P [T > t9;0,025] = 0, 025, es decir, P [T ≤t9;0,025] = 0, 975.

Si miramos en las tablas de la t de Student obtenemos que t9;0,025 = 2, 262

y la region crıtica es:

Texp > 2, 262

o

Texp < −2, 262

Como Texp = 0, 3891 no pertenece a la region crıtica, concluimos que no se

puede rechazar Ho, es decir, con una confianza del 95% no se descarta que el

ahorro medio trimestral de las familias sea de 600 e.

Realizaremos el anterior contraste utilizando el programa SPSS. Si en el

enunciado no nos hubieran dicho que la variable objeto de estudio se ha elegido

de forma aleatoria y que sigue una distribucion normal habrıa que haberlo

comprobado. Con el programa SPSS lo comprobaremos todo.


En el test de Rachas el P-valor obtenido es 1, luego aceptamos que la muestra

ha sido elegida de forma aleatoria.

El P-valor en el test de Shapiro-Wilk es 0,108 que al ser superior a 0,05,

aceptamos la normalidad de los datos (esto ya lo sabıamos pues el enunciado

del problema lo decıa).


El P-valor obtenido es 0,706 superior a 0,05, luego al no existir evidencias para

rechazar aceptamos que el ahorro medio de las familias sea de 600 e. Asimis-

mo si observamos el intervalo de confianza para el parametro media poblacional

menos 600 observamos que el cero esta dentro del intervalo, llegando a la mis-

ma conclusion.

6.3.2. Caso desviacion tıpica conocida


Z =X − µ0

σ√n

que, bajo la hipotesis nula, se comporta como una distribucion normal de media

0 y desviacion tıpica 1, Z ∈ N(0, 1)

1. Contraste bilateral:

H0 : µ = µ0

H1 : µ = µ0

Region crıtica


Zexp > zα2

o

Zexp < −zα2

donde zα

2∈ IR y es tal que P [Z > zα

2] = α

2.


H0 : µ ≤ µ0

H1 : µ > µ0

Region crıtica

Zexp > zα

donde zα ∈ IR y es tal que P [Z > zα] = α.


H0 : µ ≥ µ0

H1 : µ < µ0

Region crıtica

Zexp < −zα

donde −zα ∈ IR y es tal que P [Z < −zα] = α.

Ejemplo 6.3.2 El importe de la factura electrica anual de un determinado

tipo de empresa se distribuye normalmente con desviacion tıpica de 21200 e.

El Ministerio de Energıa sostiene que el gasto medio anual en electricidad de

estas empresas no es inferior a 100000 ey que serıa conveniente elaborar un

plan de ahorro energetico para las mismas. Seleccionada una muestra aleatoria

de 100 empresas de este tipo, se obtiene un gasto medio anual de 125600 e. ¿Es

admisible, con un 2% de significacion, la hipotesis del Ministerio de Energıa?


Solucion: Denotemos por X a la variable aleatoria que mide el importe de la

factura electrica en euros, X ∈ N(µ, 21200).

Para contrastar al 98% de confianza, que el gasto medio de electricidad es

superior a 100000 euros anuales, hay que hacer el siguiente contraste:

H0 : µ ≤ 100000

H1 : µ > 100000

Al ser σ conocido el estadıstico que tenemos que utilizar sera:

Z =X − 100000

σ√n

que sigue una distribucion normal de media 0 y desviacion tıpica 1.

En nuestro ejemplo los datos obtenidos tras la realizacion de la muestra re-

sulta que la media muestral vale x = 125600 ey la desviacion tıpica poblacional

es σ = 21200 y el tamano muestral n = 100.


Zexp =125600− 100000

21200√100

= 12′0755

La region crıtica para un nivel de significacion α = 0, 02 es:

Zexp > z0,02

donde z0,02 ∈ IR y es tal que P [Z > z0,02] = 0, 02. Si miramos en las tablas de

la normal tenemos que z0,02 = 2′05.


En nuestro ejemplo Zexp = 12′0755 > 2′05, por lo que rechazamos Ho, es

decir, el test es significativo y con una confianza del 98% podemos admitir la

hipotesis del Ministerio de Energıa.

6.4. Contraste para la media de dos pobla-

ciones

Si en un estudio se quiere comparar dos poblaciones, en principio, debe

comprobarse si las muestras extraıdas de cada una de las poblaciones son

apareadas o independientes.

Lasmuestras apareadas son aquellas en las que cada individuo perteneciente

a una de las muestras tiene un homologo en la otra muestra. Dos muestras se

dicen independientes cuando no son apareadas.

Ejemplos tıpicos de muestras apareadas son los estudios con gemelos, los

estudios antes y despues de administrar un farmaco a una serie de individuos,

etc. El tratamiento que se le dara a dos muestras apareadas sera el mismo que

se le da a una sola muestra, ya que se creara una nueva variable que sera la

diferencia de la puntuacion en la variable estudiada de todos los individuos y

sus homologos; dicha variable aleatoria se estudiara como si procediera de una

sola muestra.

Este tipo de contraste se puede resolver utilizando el programa SPSS. Uti-

lizamos Analizar\ Comparar medias\ Prueba T para muestras rela-

cionadas y en Opcion podemos cambiar el nivel de confianza con el que

trabajamos; se obtendra el siguiente cuadro de dialogo:

6.4. CONTRASTE PARA LA MEDIA DE DOS POBLACIONES 165


Ejemplo 6.4.1 El vicerrectorado de docencia de una Universidad decide pub-

licar los resultados de las encuestas que cada ano se realizan para evaluar la

calidad de la docencia de todos sus profesores. Seleccionados al azar 8 profe-

sores, se recogen en la tabla adjunta las calificaciones obtenidas en el curso

anterior y posterior a la toma de esta medida por parte del Vicerrectorado.

Antes 13’2 13’9 12’6 11’4 12’2 14’2 11’9 12’6

Despues 12’4 14’1 11’8 11’6 11’4 14’5 12’3 12’1

Suponiendo que las puntuaciones se distribuyen normalmente en cada cur-

so, ¿podrıamos afirmar, con un nivel de significacion del 1% que la decision

de hacer publicos los resultados de las encuestas mejora las puntuaciones de

los profesores?

Solucion: Denotemos por X a la variable aleatoria que mide la puntuacion

de cada uno de los profesores en el curso anterior a la toma de la medida.

Suponemos que dicha variable sigue una distribucion normal, X ∈ N(µX , σX).

Denotemos por Y a la variable aleatoria que mide la puntuacion de cada uno

de los profesores en el curso posterior a la toma de la medida. Suponemos que

dicha variable sigue una distribucion normal, Y ∈ N(µY , σY ).


Estamos ante un caso de muestras apareadas, ya que para el mismo indi-

viduo se han tomado 2 mediciones en dos periodos de tiempo diferentes. Por lo

que tendremos que construir una nueva variable que serıa, D = X−Y , siendo

la muestra para esta variable:

di 0’8 -0’2 0’8 -0’2 0’8 -0’3 -0’4 0’5

Una vez construida la nueva variable, contrastamos:

H0 : µD ≥ 0

H1 : µD < 0

donde se obtienen para la nueva variable D los siguientes resultados: la me-

dia muestral es d = 0′225, la varianza muestral vale s2D = 0′299, es decir la

desviacion tıpica muestral vale sD = 0′547.


Texp =d− 0

sD√n

=0′225− 0

0′547√8

= 1′163


Texp < −t7;0,01

donde −t7;0,01 ∈ IR y es tal que P [T < −t7;0,01] = 0, 01. Si miramos en las

tablas de la t de Student obtenemos que −t7;0,01 = −2′998

Como Texp = 1′163 > −t0,01 = −2′33, no se puede rechazar H0, es decir, no

se puede decir que la medida adoptada sea eficaz, con una confianza del 99%.

Si utilizamos el programa SPSS para realizar el contraste anterior obten-

emos:


El estadıstico es 1,163 al igual que cuando lo hacemos a mano. Como es un

contraste unilateral el que planteamos, la manera de proceder serıa igual que

antes construyendo la region crıtica.

En lo que sigue consideraremos muestras independientes.

6.4.1. Caso varianzas conocidas


Z =X − Y − d0√

σ2X

nX+

σ2Y

nY

que, bajo la hipotesis nula, se comporta segun una distribucion normal Z ∈N(0, 1).

1. Contraste bilateral

H0 : µX − µY = d0

H1 : µX − µY = d0

Region crıtica:


Zexp < −zα2

o

Zexp > zα2

donde zα


2] = α

2.


H0 : µX − µY ≤ d0

H1 : µX − µY > d0

Region crıtica

Zexp > zα



H0 : µX − µY ≥ d0

H1 : µX − µY < d0

Region crıtica

Zexp < −zα


Ejemplo 6.4.2 Los niveles de audiencia por capıtulo de dos series de tele-

vision se distribuyen normalmente con desviaciones tıpicas 100000 y 210000

espectadores respectivamente. Un estudio de medios afirma que ambas series

tienen igual nivel de audiencia. Las audiencias en millones de espectadores,

de ocho capıtulos seleccionados al azar para cada una de las series fueron las

siguientes:


Serie A 2’15 2’61 2’11 2’26 2’01 2’31 2’51 2’8

Serie B 2’24 2’53 2’35 2’22 2’21 2’22 2’21 2’01

¿Se podrıa admitir, con un 5% de significacion, que ambos niveles de audiencia

son distintos?

Solucion: Denotemos por X a la variable aleatoria que mide el nivel de audi-

encia por capıtulo, en millones de espectadores, de la serie A, X ∈ N(µX , 0′1).

Denotemos por Y a la variable aleatoria que mide el nivel de audiencia por

capıtulo, en millones de espectadores, de la serie B, Y ∈ N(µY , 0′21).

Para contrastar al 95% de confianza, que los niveles medios de audiencia

son distintos, hay que hacer el siguiente contraste:

H0 : µX − µY = 0.

H1 : µX − µY = 0.

Como las desviaciones tıpicas poblacionales son conocidas, el estadıstico

que tenemos que utilizar es:

Z =X − Y − 0√

σ2X

nX+

σ2Y

nY

que, bajo la hipotesis nula, sigue una distribucion normal, Z ∈ N(0, 1).

En nuestro ejemplo los datos obtenidos tras la realizacion de la muestra son

la media muestral del nivel de audiencia para la serie A x = 2′345 y la media

muestral del nivel de audiencia para la serie B y = 2′249. En ambos casos el

tamano muestral es ocho.



Zexp =2′345− 2′249− 0√

0′12

8+ 0′212

8

= 1′167


Zexp < −z0′025

o

Zexp > z0,025

donde −z0,025 ∈ IR y es tal que P [Z < −z0′025] = 0, 025.

Si miramos en las tablas de la normal obtenemos z0,025 = 1′96 y la region

crıtica es:

Zexp < −1′96

o

Zexp > 1′96

Como Zexp = 1′167 no hay evidencia para rechazar, luego aceptamos la

hipotesis nula. Podemos concluir que los niveles de audiencia son similares a

un 95% de confianza.

6.4.2. Caso varianzas desconocidas, pero iguales

Un estimador de la varianza σ2 viene dado por:

S ′2 =(nX − 1)S2

X + (nY − 1)S2Y

nX + nY − 2.


Estadıstico a utilizar es:

T =X − Y − d0

S ′√

1nX

+ 1nY

que se comporta, bajo H0, como una t de Student con nX + nY − 2 grados de

libertad.

1. Contraste bilateral:

H0 : µX − µY = d0

H1 : µX − µY = d0

Region crıtica:

Texp > tnX+nY −2;α2

o

Texp < −tnX+nY −2;α2

donde tnX+nY −2;α

2∈ IR y es tal que P [T > tnX+nY −2;α

2] = α

2.


H0 : µX − µY ≤ d0

H1 : µX − µY > d0

Region crıtica:

Texp > tnX+nY −2;α

donde tnX+nY −2;α ∈ IR y es tal que P [T > tnX+nY −2;α] = α.


H0 : µX − µY ≥ d0

H1 : µX − µY < d0

Region crıtica:


Texp < −tnX+nY −2;α

donde −tnX+nY −2;α ∈ IR y es tal que P [T < −tnX+nY −2;α] = α.


esta forma plantearıamos el mismo contraste y utilizamos Analizar\ Com-

parar medias\ Prueba T para muestras independientes y en la opcion

Rangos introducimos los valores 1 y 2 (son los codigos que le hemos dado a

cada una de las muestras). Se obtendra el siguiente cuadro de dialogo:


Ejemplo 6.4.3 Dos universidades siguen metodos distintos a la hora de ma-

tricular a sus alumnos. Para comparar el tiempo que los alumnos tardan en

completar los tramites de matrıcula, se selecciono al azar una muestra de 10

alumnos de cada universidad, obteniendose los siguientes resultados, expresa-

dos en minutos:

Universidad A:

media 47′8033; desviacion tıpica 4′88141;

observaciones: 45′45; 49′81; 48′62; 48′2; 40′72; 41′16; 48′41; 58′17; 49′07; 48′42.


Universidad B:

media 50′5790; desviacion tıpica 6′7258;

observaciones: 49′96; 45′04; 60′56; 46′77; 49′32; 41′29; 42′86; 58′08; 56′41; 55′5.

Suponiendo que ambas muestras son independientes y han sido elegidas de

forma aleatoria, se pide:

1. Verificar si los datos obtenidos para la universidad A proceden de una

poblacion normal.

2. Suponiendo que los datos obtenidos para la universidad B siguen una

distribucion normal, comprobar si los tiempos empleados para completar

los tramites de matrıcula se pueden condiderar iguales en ambas univer-

sidades.

3. Obtener un intervalo de confianza para la diferencia de tiempos medios.

Nota: Trabaja con un nivel de confianza del 95%.

Resolucion:

1. La normalidad la estudiamos con el contraste de Shapiro-Wilk. El P-valor

obtenido es 0,108 para los datos de la Universidad A y 0,590 en la uni-

versidad B. En ambos casos son superiores a 0,05 por lo que concluimos

que proceden de poblaciones normales. Ver la figura en el apartado 2.

2. Veamos si las varianzas poblacionales se pueden considerar iguales:H0 : σ2

x = σ2y .

H1 : σ2x = σ2

y .

Estadıstico:

Fexp =S2x

S2y

=4′881412

6′72582= 0′5267.


Region crıtica:

Se rechaza H0 ⇔

Fexp ≤ Fα

2= F9,9,0′025 =

1F9,9,0′975

= 14′03

= 0′248.

o

Fexp ≥ F1−α2= F9,9,0′975 = 4′03.

Como no existen evidencias para rechazar, aceptamos que las varianzas

poblacionales se pueden considerar iguales.

Esto podemos verlo tambien con SPSS:

Por el test de Levene tenemos que el P-valor es igual a 0,120 luego con-

cluimos que las varianzas son iguales.

A continuacion realizamos el contraste de igualdad de medias sabiendo

que las varianzas son iguales:

H0 : µx − µy = 0.

H1 : µx − µy = 0.

Estadıstico:

texp =x− y

S ′√

1nx

+ 1ny

=47′8033− 50′579√

9·4′881412+9·6′7258210+10−2

√110

+ 110

= −1′056.

Region crıtica:


Se rechaza H0 ⇔

texp ≤ tα

2,nx+ny−2 = t18,0′025 = −2′101.

o

texp ≥ t1−α2,nx+ny−2 = t18,0′975 = 2′101.

Como texp = −1′056, no tenemos evidencias para rechazar la hipotesis

nula. Aceptamos que los tiempos medios empleados en ambas universi-

dades se pueden considerar iguales.

Con SPSS

El P-valor igual a 0,305, luego al no haber evidencias para rechazar se

acepta la igualdad de medias. Si nos fijamos en el intervalo de confianza

para la diferencia de medias obtenemos la misma conclusion, pues el cero

esta dentro del intervalo.

3. Como ambas muestras proceden de poblaciones normales y ademas las

varianzas poblacionales son desconocidas, pero iguales, el intervalo de

confianza adecuado serıa: [(x−y)−tα2

√(nx−1)S2

x+(ny−1)S2y

nx+ny−2

√nx+ny

nxny, (x−y)+

tα2

√(nx−1)S2

x+(ny−1)S2y

nx+ny−2

√nx+ny

nxny]. El intervalo obtenido es [-8’2971, 2’7457].

Como podemos comprobar, el cero esta incluido en el intervalo, luego

podemos llegar a la misma conclusion del apartado anterior.


6.4.3. Caso varianzas desconocidas y distintas


T =X − Y − (µX − µY )√

S2X

nX+

S2Y

nY

que se comporta, bajo H0, como una t de Student con ν grados de libertad ,

siendo ν la parte entera por exceso del numero:(s2XnX

+s2YnY

)2(

s2X

nX

)2

nX−1+

(s2Y

nY

)2

nY −1

1. Contraste bilateral:H0 : µX = µY

H1 : µX = µY

Region crıtica:

Texp > tν;α2

o

Texp < −tν;α2

donde tν;α

2∈ IR y es tal que P [T > tν;α

2] = α

2.


H0 : µX ≤ µY

H1 : µX > µY

Region crıtica:

Texp > tν;α

donde tν;α ∈ IR y es tal que P [T > tν;α] = α.



H0 : µX ≥ µY

H1 : µX < µY

Region crıtica:

Texp < −tν;α

donde −tν;α ∈ IR y es tal que P [T < −tν;α] = α.

Este tipo de contraste se puede resolver utilizando el programa SPSS. De esta

forma plantearıamos el mismo contraste y utilizamos Analizar\ Comparar

medias\ Prueba T para muestras independientes y en la opcionRangos

introducimos los valores 1 y 2 (son los codigos que le hemos dado a cada una

de las muestras). Se obtendra el siguiente cuadro de dialogo:


Ejemplo 6.4.4 Segun la Consejerıa de Agricultura de una Comunidad Autono-

ma, la subvencion media percibida por empresa de un determinado tamano en

la provincia A, supera en mas de 200000 ea la subvencion media percibida por

empresas de tamano similar a la anterior en la provincia B.


Seleccionadas dos muestras aleatorias de 10 empresas en cada una de las

provincias, se obtienen los siguientes resultados expresados en millones de eu-

ros:

Provincia A: x = 1′4 s2X = 0′25

Provincia B: y = 0′9 s2Y = 0′0025

Suponiendo que la cuantıa de las subvenciones sigue en ambas provincias dis-

tribuciones normales con varianzas diferentes, ¿se podrıa admitir, con un 1%

de significacion, la afirmacion de la Consejerıa?

Solucion: Denotemos por X a la variable aleatoria que mide la subvencion

percibida por empresa en la provincia A, X ∈ N(µX , σX). Denotemos por Y

a la variable aleatoria que mide la subvencion percibida por empresa en la

provincia B, Y ∈ N(µY , σY ).

Tendremos que realizar el siguiente contraste:

H0 : µX − µY ≤ 0′2

H1 : µX − µY > 0′2

Al ser las varianzas desconocidas y distintas, el estadıstico que tenemos que

utilizar sera:

T =X − Y − d0√

S2X

nX+

S2Y

nY

que sigue una distribucion t de Student con ν grados de libertad.

En nuestro ejemplo los datos obtenidos en la realizacion de la muestra

serıan:

x = 1′4 s2X = 0′25

y = 0′9 s2Y = 0′0025


El estadıstico experimental serıa:

texp =1′4− 0′9− 0′2√

0′2510

+ 0′002510

= 1′888.

Como: (s2XnX

+s2YnY

)2(

s2X

nX

)2

nX−1+

(s2Y

nY

)2

nY −1

=

(0′2510

+ 0′002510

)2( 0′25

10 )2

9+

( 0′002510 )

2

9

= 9′17,

los grados de libertad de la t de Student son ν = 10.


Texp > t10;0,01

donde t10;0,01 ∈ IR y es tal que P [T > t10;0,01] = 0, 01.

Si miramos en las tablas de la t de Student obtenemos que t10;0,01 = 2′764

y la region crıtica es:

Texp > 2′764

Como Texp = 1′888 no pertenece a la region crıtica, no se puede rechazar

H0, con un 99% de confianza, por lo que no se puede admitir la afirmacion de

la Consejerıa a un 99% de confianza.

Ejemplo 6.4.5 El Ministerio de Ciencia y Tecnologıa esta realizando un es-

tudio sobre el esfuerzo llevado a cabo en actividades de investigacion y desar-

rollo (I+D). Se dispone de la siguiente informacion relativa al gasto en I+D en

proyectos que fueron concedidos en el ano 2005 a dos universidades distintas.Universidad A: 1900 1950 1978 2000 2630 2850 2900 3000 3450 3500

Universidad B: 2500 2600 1500 2630 6000 3840 4000 5000 5200 3400


Suponiendo que los datos han sido elegidos de forma aleatoria y trabajando

a un 95% de confianza, ¿podrıamos afirmar que las ayudas medias en ambas

universidades son similares?

En primer lugar veamos si cada una de las muestras proceden de una

poblacion normal y si las varianzas son iguales o no.

Podemos observar que ambas muestras proceden de poblaciones normales.

En el test de Shapiro-Wilk observamos que el P-valor obtenido para la uni-

versidad A es 0,112 y para la universidad B 0,823, en ambos casos mayores a

0,05.

Al realizar el test de Levene para ver si las varianzas se pueden considerar


iguales o por el contrario dificeren podemos ver que el P-valor obtenido es igual

a 0,026 menor a 0,05, luego podemos concluir que las varianzas son distintas.

A continuacion veamos si la cantidad media concedida es igual en ambas

universidades.

Tal y como obtuvmos anteriormente el test de Levene nos dice que las var-

ianzas no son iguales. Por ello nos fijamos en la informacion proporcionada

en la segunda lınea de la tabla. El P-valor es 0,052 superior a 0,05, por tan-

to, concluimos que las ayudas medias concedidas en ambas universidades se

pueden considerar iguales. Esto mismo se puede ver observando el intervalo de

confianza para la diferencia de medias [−21114,031, 11,631] que como podemos

observar contiene al cero.

Ejemplo 6.4.6 El dueno de la Estacion de servicio de gasolina A dice haber

descubierto un aditivo que disminuye drasticamente la contaminacion produci-

da por los motores de gasolina sin influir en absoluto en los ındices octano de

sus combustibles. La Estacion de servicio B es la que queda mas cerca de A; el

dueno de B, con el objeto de comprobar que dichos ındices se ajustan fielmente


a las cifras expuestas en los surtidores (y para lanzar una contraofensiva de

captacion de mercado), solicita una investigacion oficial en la que se realiza el

analisis de 11 muestras de gasolina de 95 octanos extraıdas al azar (en otros

tantos dıas del ano) de las estaciones A Y B. Las medidas y desviaciones

tıpicas de los resultados de los analisis se exponen en la siguiente tabla:

Tamano Media de Desv. tıpica

Estacion de muestra la muestra de la muestra

A 11 93’2 0’96

B 11 94’8 1’2

1. Contrasta la hipotesis de que el ındice octano medio en la Estacion A

sea inferior a 95, con un nivel del 2’5%.

2. Contrasta la hipotesis de que el ındice octano medio en la Estacion B



sea inferior al de la Estacion B con un nivel del 2’5%.


sea superior al de la Estacion B con un nivel del 2’5%.

Solucion: Sea X una variable aleatoria que mide los ındices de octano del

combustible de la estacion A, X ∈ N(µX , σX) e Y una variable aleatoria que

mide los ındices de octano del combustible de la estacion B, Y ∈ N(µY , σY ).

1. Contrastar la hipotesis de que el ındice octano medio en la Estacion A


nX = 11 x = 93′2 sX = 0′96

nY = 11 y = 94′8 sY = 1′2


El contraste a realizar sera:

H0 : µX ≥ 95

H1 : µX < 95

El estadıstico experimental a calcular sera:

Texp =x− µ0

sX√nX

=93′2− 95

0′96√11

= −6′219

y el punto crıtico t10;0,025 = 2′228.

Como Texp = −6′495 < −tα ≃ −2′228, se rechaza H0, asumiendo que el

ındice de octano medio en la estacion A es inferior a 95, con un nivel de

significacion del 2′5%.

2. Contrastar la hipotesis de que el ındice octano medio en la Estacion B


El contraste a realizar sera:H0 : µY ≥ 95

H1 : µY < 95

El estadıstico experimental a calcular sera:

Texp =y − µ0

sY√nY

=94′8− 95

1′2√11

= −0′528

y el punto crıtico t10;0,025 = 2′228.

Como texp = −0′528 < −tα = −2′228, se rechaza H0, a un nivel de

significacion del 2′5%, es decir, el ındice medio de octano en la estacion

B es inferior a 95.


sea inferior al de la Estacion B con un nivel del 2’5%.


El contraste a realizar ahora sera:H0 : µX ≥ µY

H1 : µX < µY

⇔

H0 : µX − µY ≥ 0

H1 : µX − µY < 0

Lo primero que hay que determinar es si σ2X = σ2

Y , para ello hacemos el

siguiente contraste: H0 : σ2

X = σ2Y

H1 : σ2X = σ2

Y

El estadstico experimental del contraste es:

Fexp =s2Xs2Y

=0′962

1′22= 0′64

y los puntos crıticos:

F10,10;0′9875 = 4,85 y F10,10;0′0125 =1

F10,10;0′9875=

1

4′85= 0′206.

Como se cumple que: 0′206 < Fexp = 0′64 < 4′85, no se puede rechazar

H0, es decir, se acepta que σ2X = σ2

Y , con nivel de significacion del 2′5%.

Ahora estudiamos el contraste sobre las medias. El estadıstico experimen-

tal es:

Texp =x− y − d0

s′√

1nX

+ 1nY

donde s′2 =(nX−1)s2X+(nY −1)s2Y

nX+nY −2.

Texp =93′2− 94′8√

100′9216+101′4420

√111

+ 111

= −3′452

y elpunto crıtico es t20;0′025 = 2′086

Como Texp = −3′452 < −t20;0′025 = −2′086, se rechaza H0, con un nivel

de significacion del 2′5% y el ındice de octano medio en la estacion A es

inferior al de la estacion B.

6.5. CONTRASTE DE PROPORCIONES 185


sea superior al de la Estacion B con un nivel del 2’5%.

El contraste a realizar ahora sera:H0 : µX ≤ µY

H1 : µX > µY

⇔

H0 : µX − µY ≤ 0

H1 : µX − µY > 0

Ya habiamos contrastado en el apartado anterior que σ2X = σ2

Y , por lo

que el estadıstico experimental serıa el mismo, Texp = −3′452, y el punto

crıtico t20;0′025 = 2′086.

Como texp = −3′452 < t20;0′025 = 2′086, no se puede rechazar H0, con un

nivel de significacion del 2′5% y el ındice de octano de la estacion A es

inferior o igual al de la estacion B.

6.5. Contraste de proporciones

Cuando queremos contrastar una hipotesis sobre la proporcion de elementos

que poseen cierta caracterıstica o atributo en una poblacion, consideraremos

una variable aleatoria de Bernouilli, Y ∈ Be(p), que toma valor 1 se el indi-

viduo seleccionado tiene dicha caracterıstica o atributo y valor 0 en otro caso.

Al extraer una muestra aleatoria simple de tamano n, en numero de individu-

os de la muestra que poseen la caracterıstica viene dado por una distribucion

Binomial, X ∈ B(n, p).

Un estimador de la proporcion de individuos de la poblacion que poseen

la caracterıstica mencionada es la proporcion de individuos que tienen dicho

atributo en la muestra:

p =X

n=

no de exitos

no de pruebas.

Para realizar un contraste sobre la proporcion poblacional:


H0 : p = p0

H1 : p = p0

H0 : p ≤ p0

H1 : p > p0

H0 : p ≥ p0

H1 : p < p0

si el tamano muestral es suficientemente grande (n > 30), podemos utilizar el

estadıstico de prueba:

Z =p− p0√p0(1− p0)

n

,

que tiene comportamiento normal tipificado bajo H0.

1. Contraste bilateral:H0 : p = p0

H1 : p = p0

Region crıtica

Zexp > zα2

o

Zexp < −zα2

donde zα


2] = α

2.


H0 : p ≤ p0

H1 : p > p0

Region crıtica

Zexp > zα



H0 : p ≥ p0

H1 : p < p0

Region crıtica

6.5. CONTRASTE DE PROPORCIONES 187

Zexp < −zα


Ejemplo 6.5.1 Tras establecer un impuesto, se decide realizar un referendum

en la region para prohibir la emision de gases contaminantes por empresas o

vehıculos particulares. ¿Se podrıa aceptar que el 70% de los habitantes esta a

favor de la medida (al nivel de significacion del 5%) si, cuando seleccionamos

a 800 votantes al azar, solo 496 se manifiestan de acuerdo?

Solucion: El contraste a realizar es:

H0 : p = 0′7.

H1 : p = 0′7.

La estimacion de la proporcion muestral es p = 496800

= 0′62 y el el estadıstico

experimental es:

Zexp =0′62− 0′7√

0′7·0′3800

= −4′938

La region crıtica viene dada como:

Zexp > z0,025

o

Zexp < −z0,025

donde z0,025 ∈ IR y es tal que P [Z > z0,025] = 0, 025. Si miramos en las tablas

de la normal tipificada obtenemos que Z0,025 = 1′96 y la region crıtica es:

Zexp > 1′96

o

Zexp < −1′96


Como Zexp = −4′938 pertenece a la region crıtica, se rechaza la hipotesis

nula de que p = 0′7.

6.6. Comparacion de proporciones

Estimadores de las proporciones poblacionales:

pX =X

nX

;

pY =Y

nY

.

donde X e Y son el numero de individuos que presentan las caracterısticas en

estudio en las respectivas muestras.

Para contrastar:

H0 : pX = pY

H1 : pX = pY

H0 : pX ≤ pY

H1 : pX > pY

H0 : pX ≥ pY

H1 : pX < pY

se utiliza en estadıstico:

Z =pX − pY√

nX+nY

nXnYp(1− p)

que se comporta, bajo la hipotesis nula, como una N(0, 1), cuando los tamanos

muestrales son suficientemente grandes. Notese que, como no se conoce la

verdadera proporcion poblacional, p = pX = pY , se sustituye por un estimador

ponderado p = X+YnX+nY

.

1. Contraste bilateral:H0 : pX = pY

H1 : pX = pY

Region crıtica

6.6. COMPARACION DE PROPORCIONES 189

Zexp > zα2

o

Zexp < −zα2

donde zα


2] = α

2.


H0 : pX ≤ pY

H1 : pX > pY

Region crıtica

Zexp > zα



H0 : pX ≥ pY

H1 : pX < pY

Region crıtica

Zexp < −zα


Ejemplo 6.6.1 Se pretende instalar una planta industrial de grandes dimen-

siones en un cierto municipio; se sabe que la planta produce problemas medio-

ambientales, pero, por otro lado, crea bastantes puestos de trabajo; tanto para

los habitantes del municipio donde se ubicarıa, como para los habitantes de

otros municipios cercanos. Se piensa que los habitantes del municipio en cuestion

estaran de acuerdo en su instalacion en esa zona, pero, con el fin de asegu-

rarse, se decide realizar un contraste de hipotesis seleccionando una muestra


aleatoria de 250 habitantes en el municipio en cuestion de los cuales 101 fueron

favorables y otra muestra aleatoria de 250 habitantes de los otros municipios de

los cuales 75 se mostraron favorables. Contrastar, al nivel de significacion del

5%, la hipotesis de que la proporcion de votantes del pueblo que se muestran

favorables a la instalacion de la fabrica es igual a la proporcion de votantes de

los municipios cercanos que se se muestran favorables.

Solucion: Tenemos que contrastar:

H0 : pX = pY .

H1 : pX = pY .

Sabemos que:

pX =X

nX

=101

250= 0′4;

pY =Y

nY

=75

250= 0′3.

Bajo la hipotesis nula, Zexp =pX−pY√

nX+nYnXnY

p(1−p)se comporta como una N(0, 1).

La estimacion ponderada de la proporcion viene dada por:

p =X + Y

nX + nY

=176

500= 0′35

El valor del estadıstico sera:

Zexp =pX − pY√

nX+nY

nXnYp(1− p)

=0′4− 0′3√

250+250(250)(250)

0′35(1− 0′35)= 2′34

El valor de Zα2= 1′96

6.7. EJERCICIOS DE AUTOEVALUACION (CAPITULO ??) 191

Como Zexp = 2′34 > 1′96, rechazamos la hipotesis nula. Luego, no podemos

admitir que la proporcion de votantes del municipio que se muestran favora-

bles a la instalacion de la planta es igual a la proporcion de votantes de los

municipios cercanos que son partidarios de que se instale la planta.


1. El gasto medio en el material escolar de una familia con 2 hijos al prin-

cipio de curso es superior a 400 euros. Se sabe que esta variable se dis-

tribuye normalmente con una desviacion tıpica de 90 euros. Una aso-

ciacion de consumidores desea saber si esta afirmacion es cierta o no,

para ello seleccionan una muestra aleatoria de 85 familias con esa carac-

terıstica y el resultado que obtienen es un gasto total de 34935 euros. ¿Es

cierta la afirmacion realizada sobre el gasto medio en material escolar?

Considerar un nivel de significacion del 5%.

Solucion: Contraste: H0 : µ ≤ 400

H1 : µ > 400

La afirmacion es falsa pues Zexp = 1, 1262 < Z0,95 = 1, 645. Como no hay

evidencias para rechazar aceptamos la hipotesis nula.

2. El numero de vehıculos que llegan a una gasolinera, se sabe, por observa-

ciones anteriores, que sigue una distribucion normal pero no conocemos

ni la media ni la desviacion tıpica. Con el fin de contrastar la hipotesis

de que el numero medio de vehıculos que acuden a esa gasolinera es de

21 cada 15 minutos, seleccionamos una muestra aleatoria de 30 perıodos

de tiempo de 15 minutos, obteniendo las siguientes observaciones:

19,24,22,17,20,21,18,20,16,20,13,12,18,25,19

16,23,16,22,22,20,16,14,13,19,24,18,18,27,10


Se pide:

a) Realizar el contraste correspondiente al nivel de significacion α =

0, 02.

b) Obtener la region crıtica y la region de aceptacion.

c) Obtener un intervalo de confianza para la media poblacional.

Solucion:

a) Contraste: H0 : µ = 21

H1 : µ = 21

Rechazamos H0 pues texp = −3, 0844 < −t29;0,98 = −2, 1503

b) Region de aceptacion:C = (x1, x2, . . . , x30)/texp ∈ (−2, 462; 2, 462)Region de rechazo es el complementario de la anterior.

c) Iµ = (16, 9240; 20, 5426)

3. El director de una companıa aseguradora afirma que el importe medio

de las reparaciones de automoviles pagadas por la companıa a talleres

colaboradores es superior a 2404 euros. Seleccionadas al azar 20 facturas

de diferentes reparaciones, se observa que la suma de importes es 49.000

euros y su varianza muestral 4.000. Por otra parte, tambien afirma el

director que los importes de las facturas son muy similares y su desviacion

tıpica es inferior a 60, 1 euros, por lo que sospecha que los talleres no

facturan adecuadamente en cada operacion. Comprobar si cada una de

estas afirmaciones es cierta a un nivel de significacion del 1%, suponiendo

que los importes de las facturas siguen una distribucion normal.

Solucion: Contraste: H0 : µ ≤ 2404

H1 : µ > 2404

Rechazamos H0 pues texp = 3, 2527 > t19;0,99 = 2, 539. Es cierta la afir-

macion de que las reparaciones de automoviles pagadas por la companıa

a talleres colaboradores es superior a 2.400 euros.


Contraste: H0 : σ2 ≥ 3612, 01

H1 : σ2 < 3612, 01

Es falso que la desviacion tıpica sea inferior a 60, 1 euros, puesto que

χ2exp = 21, 0409 > χ2

19;0,01 = 7, 633.

4. Sean dos poblaciones normales N(µX , σ) y N(µY , σ) con σ desconocida.

Se seleccionan dos muestras aleatorias e independientes de tamano 12 y

10, respectivamente, siendo

X = 85;S2X = 16; Y = 81;S2

Y = 25

Contrastar, con un nivel de significacion del 5%, la hipotesis de que la

media de la primera poblacion es al menos 2 unidades superior a la media

de la segunda poblacion.

Solucion: Contraste: H0 : µx ≤ µy + 2

H1 : µx > µy + 2

Se tiene que texp = 1, 0432 < t20;0,95 = 1, 725. Luego, como no existen

evidencias para rechazar aceptamos la hipotesis nula.

5. Una empresa de corretaje de acciones piensa que es de suma importan-

cia formar a sus empleados. Como esto requiere invertir mas dinero en

la empresa los responsables de esta iniciativa van a llevar a cabo una

experiencia piloto con solo 10 ejecutivos seleccionados al azar. Para e-

llo quiere valorar si la capacidad de estos ejecutivos a la hora de captar

clientes ha mejorado. En la tabla adjunta se muestran los nuevos clientes

captados por cada uno de ellos antes y despues de recibir el curso de

especializacion.

Antes 16 17 13 19 12 13 21 14 18 23

Despues 18 16 17 15 20 15 19 12 19 25


Suponiendo que las muestras siguen una distribucion normal y a un 99%

de confianza, ¿se puede concluir que la experiencia ha resultado positiva?

Solucion: El contraste que se plantea es:H0 : µdi ≥ 0

H1 : µdi < 0

. La Region

crıtica para un nivel de significacion α = 0′01 es: Texp < −t9;0′01 = −2′821 .

Como Texp − 0′991 > −2′821, no se puede concluir que haya mejorado.

6. En un nuevo proceso de fabricacion de filamentos se desea contrastar si

puede suponerse razonablemente que la varianza de su grosor es exacta-

mente de 4 milımetros y, en caso de no poder afirmarlo, si es inferior a

4 milımetros. Para ello se toma una muestra de 28 filamentos que arroja

una variabilidad de 2 milımetros. Realizar los contrastes pedidos para un

nivel α = 0′05 suponiendo normalidad en los grosores de los filamentos.

Solucion: El contraste que se plantea es:H0 : σ

2x = 4

H1 : σ2x = 4

. La region

crıtica es:

χ2exp < 14′573

o

χ2exp > 43′19

. Como χ2exp = 13′5 pertenece a la region

crıtica con un 95% de confianza se puede rechazar H0.

Si se plantea:H0 : σ2 ≥ 4

H1 : σ2 < 4

, la region crıtica es χ2

exp < χ227;0′05 = 16′1514

.

Como el estadıstico es 13′5, concluimos que la variabilidad es inferior a

4.

7. En un estudio sobre los efectos de los nuevos metodos de planificacion en

el ambito de gestion empresarial, se comprobo, en una muestra aleato-

ria simple de 6 empresas en la que se aplicaban dichos metodos, que

el porcentaje de incremento medio de sus ingresos netos con respec-

to al anterior ejercicio, era del 9, 972% con una varianza muestral de

7, 740%. Paralelamente y con fines comparativos, se selecciono una mues-

tra aleatoria simple de 9 empresas que seguıan los metodos de gestion

tradicionales. Basandose en los datos de esta ultima muestra, se obtuvo


un porcentaje de incremento medio de 6, 098% y una varianza muestral

de 10, 834%. Suponiendo que los porcentajes de incrementos de ingresos

en ambas poblaciones de empresas estan distribuidos normal e indepen-

dientemente.

a) ¿Se puede admitir, con un 10% de significacion, que el conjunto de

empresas que aplican los nuevos metodos de planificacion obtienen

incrementos medios de ingresos superiores a las empresas que uti-

lizan metodos tradicionales?

b) Construya un intervalo de confianza al 90% para la diferencia de

incrementos medios poblacionales de ambos tipos de empresas.

Solucion:

a) Contraste: H0 : µx ≤ µy

H1 : µx > µy

Realizamos antes el contraste:H0 : σ2

x = σ2y

H1 : σ2x = σ2

y

Como no hay evidencias para rechazar aceptamos la igualdad de

varianzas, puesto que Fexp = 0, 7144 ∈ (0, 21; 3, 69). Con respecto al

primer contraste de medias concluimos que rechazamos la hipotesis

nula puesto que texp = 2, 3669 > t13;0,1 = 1, 35.

b) Iµx−µy = [−0,253645, 0,326085].

8. Se desea saber si la puntuacion media de 2 equipos de baloncesto a lo

largo de la ultima temporada puede considerarse igual o no. Para ello,

se seleccionaron 2 muestras aleatorias e independientes, obteniendose los

siguientes resultados:

Equipo A: x = 62, 8 S2x = 5, 7 nx = 16

Equipo B: y = 64, 0 S2y = 7, 1 ny = 21


Se sabe que las puntuaciones de los equipos siguen distribuciones nor-

males. Considere un nivel de significacion del 10%.

Solucion: Contraste: H0 : µx = µy

H1 : µx = µy


x = σ2y

H1 : σ2x = σ2

y

Como no hay evidencias para rechazar aceptamos la igualdad de var-

ianzas puesto que Fexp = 0, 80 ∈ (0, 43; 2, 2). Las puntuaciones de los

equipos de pueden considerar iguales puesto que texp = −1, 4184 ∈(−1, 696; 1, 696).

9. Una cadena de grandes almacenes esta considerando la decision de adquirir

nuevas maquinas etiquetadoras. Para comprobar si las nuevas maquinas

mejoran significativamente la eficacia de los empleados, selecciona a dos

grupos de 9 trabajadores para realizar un control sobre el numero de

etiquetas colocadas en perıodos de 5 minutos. En el Grupo 1 se utilizan

las antiguas maquinas y en el Grupo 2 las nuevas, tras un perıodo de

adaptacion de los empleados. Los resultados obtenidos son los siguientes:

Grupo 1 305 312 300 248 290 264 272 301 275

Grupo 2 303 301 310 303 309 296 315 282 272

Suponiendo que el numero de etiquetas colocadas cada 5 minutos sigue

una distribucion normal, y utilizando un nivel de significacion del 5%,

¿mejoran las nuevas maquinas significativamente la eficiencia de los em-

pleados?

Solucion: Contraste: H0 : µx ≥ µy

H1 : µx < µy



x = σ2y

H1 : σ2x = σ2

y

Como no hay evidencias para rechazar aceptamos la igualdad de varian-

zas puesto que Fexp = 2, 41 ∈ (0, 23; 4, 43). Como no hay evidencias para

rechazar aceptamos H0, puesto que texp = −1, 6129 > t16;0,05 = −1, 746.

Luego, no podemos afirmar que las nuevas maquinas mejoran la eficiencia

de los empleados.

10. Se piensa que la subvencion media percibida por agricultor en la provin-

cia A, supera en mas de 1202 euros a la subvencion media percibida

en la provincia B. Seleccionadas dos muestras aleatorias de 10 agricul-

tores en cada una de las provincias, se obtienen los siguientes resultados

expresados en miles de euros:

Provincia A: x = 8, 414 S2x = 9, 030

Provincia B: y = 5, 409 S2y = 0, 0903

Suponiendo que la cuantıa de las subvenciones sigue en ambas provincias

distribuciones normales con varianza diferente, ¿se puede admitir, con un

1% de significacion, la afirmacion anterior?

Solucion: Contraste: H0 : µx ≤ µy + 1, 202

H1 : µx > µy + 1, 202

Como no hay evidencias para rechazar aceptamos la hipotesis nula puesto

que texp = 1, 888 < t9;0,99 = 2, 821. No se puede considerar valida la

afirmacion.

11. Se esta estudiando si la proporcion de familias con vivienda en propiedad

totalmente pagada en una determinada ciudad es superior al 25%. Para

ello se toma una muestra de 800 familias y se obtiene que la proporcion

de familias con viviendas en propiedad totalmente pagada es del 18%.

Con un nivel de confianza del 95%, se pide:


a) ¿Es consistente la hipotesis a probar con el resultado obtenido en

la muestra?

b) ¿Podrıamos considerar que dicha proporcion es del 20%?

Solucion:

a) Contraste:H0 : P ≤ 0′25

H1 : P > 0′25

. Estadıstico experimental: Z = −4′5723.

Region crıtica: Zexp > z0′05 = −1′645 . No ocurre que la proporcion

de familias con vivienda en propiedad totalmente pagada sea supe-

rior al 25%.

b) Contraste:H0 : P = 0′20

H1 : P = 0′20

. Estadıstico experimental: Z = −1′4142.

Region crıtica:

Zexp > z0′025 = 1′96

o

zexp < −z0′025 = −1′96

. Sı lo podrıamos consid-

erar.

12. En la preparacion para las negociaciones de renovacion de un contrato,

un sindicato realizo entrevistas entre sus miembros, con el proposito de

averiguar si preferıan un incremento considerable de las prestaciones de

la jubilacion o un aumento mas pequeno de sueldo. Se entrevisto a un

grupo de 1000 hombres y 500 mujeres. De ellos, 743 y 405 se pronunciaron

a favor del incremento en las prestaciones de jubilacion, respectivamente.

Considere un nivel de significacin del 1%. Se pide:

a) ¿Podemos considerar que el porcentaje de hombres que estan a favor

de un aumento mas pequeno de sueldo es del 23%?.

b) ¿Podemos considerar que la proporcion de hombres y mujeres que

estan a favor del incremento en las prestaciones de jubilacion son

iguales?.

c) ¿Podemos considerar que las mujeres estan en mayor proporcion

mas preocupadas por su jubilacion que los hombres?


Solucion:

a) Contraste:H0 : P = 0′23

H1 : P = 0′23

. Estadıstico experimental: Z = 2′02887.

Region crıtica:

Zexp > zα2= 2′575

o

zexp < −zα2= −2′575

. Aceptamos que la propor-

cion puede ser del 23%.

b) Contraste:H0 : Px = Py

H1 : Px = Py

. Estadıstico esperimental: Z = −2′8864.

Region crıtica:

Zexp > zα2= 2′575

o

zexp < −zα2= −2′575

. Rechazamos la hipotesis

nula.

c) Contraste:H0 : Px ≥ Py

H1 : Px < Py

. Zexp < −z0′01 = −2′325 . Las mujeres

se inclinan en mayor proporcion por el incremento en la jubilacion.

13. Con la implantacion de la Ley de Dependencia dos areas de una gran ciu-

dad estan siendo consideradas como posibles sedes de centros de atencion

diurna. De 200 familias entrevistadas en una seccion (X), el numero de

madres que trabajaban a tiempo completo fue de 115. El la otra seccion

(Y), el 40% de las 150 familias entrevistadas tenıan madres que tra-

bajaban en empleos de tiempo completo. Con un nivel de significacion

α = 0′01 se pide:

a) ¿Existen diferencias significativas en la proporcion de madres que

trabajan en las dos 2 areas de la ciudad?

b) Si deciden poner la sede de atencion diurna en aquella seccion en la

que la proporcion de madres que trabajan a tiempo completo sea

mayor, ¿podrıamos decir que la ubicacion idonea es la seccion X?

c) ¿Podemos concluir que el porcentaje de madres que trabajan en la

seccion X es del 50%?


Solucion:

a) Contraste:H0 : Px = Py

H1 : Px = Py


Region crıtica:

Zexp > z0′005 = 2′5775

o

zexp < −z0′005 = −2′5775

. Se rechaza la hipotesis

nula, no son iguales.

b) Contraste:H0 : Px ≤ Py

H1 : Px > Py

. Region crıtica: Zexp > z0′01 = 2′325 .

Sı se puede concluir que la ubicacion idonea es la seccion X.

c) Contraste:H0 : P = 0′5.

H1 : P = 0′5.


Region crıtica:

Zexp > z0′005 = 2′5775

o

zexp < −z0′005 = −2′5775

. No podemos rechazar

que el porcentaje de madres que trabajan en la seccion X es del

50%.

14. Se esta llevando a cabo un estudio para comprobar si el nivel de conocimien-

tos dn la asignatura de Estadıstica de los licenciados en LADE es similar

en dos universidades distintas. Para ello, se han elegido de forma aletoria

a 10 licenciados de LADE de cada una de las universidades, y se les ha

sometido a un test de conocimientos. Las notas obtenidas se muestran a

continuacion, ası como una tabla con resultados:

Universidad A 6’5 7 1 9’6 5’7 7’9 1’8 4’6 10 6’7

Universidad B 7’3 6’4 6’5 4’5 4’1 4’8 5’7 6’5 6’7 6’9


Trabajando con un 95% de confianza, se pide:

a) ¿Se puede considerar que cada una de las muestras siguen una dis-

tribucion normal?

b) ¿Podemos considerar que la nota media en la universidad A es 6?

c) ¿Podrıamos considerar que la variabilidad en las calificaciones son

iguales?

d) ¿Podemos concluir que la preparacion es similar en las dos univer-

sidades?

Solucion:

a) Si. Ver tabla de normalidad.

b) Sı. Ver test t.

c) No. Ver prueba de Levene.

d) Sı.


15. Una empresa que tiene dos vendedores proyecta repartir bonificaciones

al vendedor que tenga mayor capacidad de venta. Para ello, mide sus

volumenes de ventas (en miles de euros) en seis instantes del tiempo. Las

resultados obtenidos se muestran a continuacion, ası como una tabla con

informacion adicional:

Vendedor 1 6’34 8’53 9’43 8’37 9’64 6’46

Vendedor 2 6 5’89 5’30 6’33 8’79 5’13


Trabajando con un 95% de confianza, se pide:

a) ¿Se puede considerar que cada una de las muestras siguen una dis-

tribucion normal?

b) ¿Podemos considerar que el volumen de ventas del vendedor 1 es de

9000 euros?

c) ¿Podrıamos considerar que las variabilidades en el volumen de ven-

tas son iguales?

d) ¿Podemos concluir que el volumen de ventas del primer vendedor

es superior al segundo?

Solucion:

a) Sı. Ver tabla de normalidad.

b) Sı. Ver tabla de la prueba t.

c) Si. Test de Levene.

d) No.

Capıtulo 7

Contrastes no parametricos

Los contrastes no parametricos se han clasificado de la siguiente forma:

Contrastes de aleatoriedad:

• Test de rachas de Wald-Wolfowitz.

Contrastes de localizacion

• Test de los rangos-signos de Wilcoxon.

Contrastes de comparacion de poblaciones:

• Test U de Mann-Whitney

• Test de Kruskal-Wallis

Contrastes de bondad de ajuste:

• Test χ2 de Pearson.

• Contrastes de normalidad:

Tablas de contingencia:

205

206 CAPITULO 7. CONTRASTES NO PARAMETRICOS

• Contrastes de independencia.

• Contrastes de homogeneidad.

7.1. Contrastes de Aleatoriedad

Entre todos los contrastes de aleatoriedad existentes, vamos a considerar

el llamado test de rachas de Wald-Wolfowitz.

Si la variable aleatoria toma valores solo de dos tipos: exito y fracaso,

denominamos racha a cada uno de los subconjuntos maximales de la sucesion

formados por sımbolos consecutivos e identicos. El numero de sımbolos de una

racha es su longitud.

Ejemplo 7.1.1 En la sucesion “AAAABBAAABBBAAAAAAABB”, pueden

distinguirse 6 rachas: “AAAA”, “BB”, “AAA”, “BBB”, “AAAAAAA” y “BB”.

Hay una racha de longitud 7, otra de longitud 4, dos de longitud 3 y otras tantas

de longitud 2.

El test de Wald-Wolfowitz se basa en el concepto de racha. Si en una

muestra el numero total de rachas es muy elevado pensaremos que la muestra

no es aleatoria. Analogamente si el numero total de rachas es pequeno tambien

pensaremos que la muestra no es aleatoria. Por ejemplo en el lanzamiento de

una moneda la sucesion:

CCCCCCCCCCXXXXXXXXXX

con solo dos rachas seguramente no es el resultado de una muestra aleatoria.

Analogamente la sucesion:

CXCXCXCXCXCXCXCXCXCX

7.1. CONTRASTES DE ALEATORIEDAD 207

tampoco parece que sea una muestra aleatoria.

Denotemos porX a la variable aleatoria asociada a una poblacion muestrea-

da, de modo que solo puede tomar 2 valores (por ejemplo, A y B, que pueden

representar, respectivamente, a “exito” y “fracaso”). Se plantea el siguiente

contraste:

H0 : La muestra es aleatoria.

H1 : La muestra no es aleatoria.

El estadıstico a utilizar es el numero total de rachas en la muestra (R),

que se obtiene como la suma de los numeros de rachas de tipo A y de tipo B

(respectivamente, R1 y R2). La distribucion del estadıstico R depende de los

parametros anteriores y del numero de elementos de cada tipo que aparecen.

Si el tamano de la muestra es n, escribiremos que hay n1 elementos de tipo A

y n2 de tipo B (n = n1 + n2).

La region crıtica con un nivel de confianza α es:

Rexp ≥ R1−α2

o

Rexp ≤ Rα2

donde Rα

2∈ IN es tal que P [R ≤ Rα

2] ≤ α

2y R1−α

2∈ IN es tal que P [R ≥

R1−α2] ≤ α

2.

Como las variables son normalmente de tipo numerico, se procede restando

un valor fijo (la media, la mediana, la moda u otro valor que el investigador

proporcione) para asignar exito o fracaso a cada realizacion de la variable. Este

tipo de contraste se puede resolver utilizando el programa SPSS.

Ejemplo 7.1.2 En un proceso de produccion de un determinado tipo de piezas


de gran precision, se producen piezas buenas y piezas defectuosas. Se selecciona

una muestra aleatoria de 18 piezas fabricadas por un mismo individuo durante

un dıa, las piezas que fueron buenas y las que fueron defectuosas aparecieron

en el siguiente orden:

DDBDBBDDDBBBBDDBBB.

¿Se puede decir, con un nivel de significacion del 5%, que estas observaciones

constituyen una muestra aleatoria?

Solucion: Consideramos el test:

H0 : La muestra es aleatoria.

H1 : La muestra no es aleatoria.

En este caso:

n1 = 8, n2 = 10, n = 8+10 = 18, R1 = 4, R2 = 4, Rexp = 4+4 = 8

De las tablas correspondientes (Tabla 0.1.4, Anexo Tablas), se obtiene que:

P [R ≤ 5] = 0,0134 ≤ 0,025 pero P [R ≤ 6] = 0,0479 > 0,025

Por tanto Rα2= 5. Analogamente:

P [R ≤ 14] = 0,9905 ≥ 0,975 pero P [R ≤ 13] = 0,9636 < 0,975

Por tanto R1−α2= 14.

Como 8 ∈ (5, 14), no hay evidencias para rechazar H0 y, por tanto, con-

cluimos que la muestra es aleatoria con un nivel de significacion del 5%.

Con el programa SPSS, utilizando el menu Analizar\ Pruebas no Parametricas\Rachas (y en el caso del ejemplo la opcion Personalizado introduciendo co-

mo punto de corte el valor 1′5 (dado que los valores B y D se han introducido

de tipo numerico (1 y 2)); se obtienen como resultado dos posibilidades segun

que la variable sea mayor o menor que dicho valor):

7.1. CONTRASTES DE ALEATORIEDAD 209


El resultado obtenido es:

El valor del estadıstico es 8 al igual que antes. Podemos resolver el contraste

haciendo uso del P-valor que en este caso es igual a 0,494 y al ser mayor a

0,05 no tenemos evidencia para rechazar la hipotesis nula, luego concluimos

que la muestra es aleatoria con un nivel de significacion del 5%.

En las muestras de tipo numerico, se resta la mediana a cada elemento

(aunque a veces se resta la media u otro indicador de posicion); el test de

aleatoriedad se le aplicarıa a la muestra resultado de llamar exito, por ejemplo,


a que la diferencia sea positiva y fracaso a que sea negativa. Para resolver este

tipo de contrastes con SPSS se harıa igual que antes, pero en el cuadro de

dialogo pulsarıamos la opcion Mediana, en vez de Personalizado.

Conviene recordar que, como en cualquier contraste, la decision puede pro-

ceder del estudio de un P -valor y no de la determinacion de si el estadıstico

pertenece o no a la region crıtica. El procedimiento del P -valor suele preferirse

cuando se cuenta de un programa informatico adecuado.

Hagamos ahora una observacion sobre el test de aleatoriedad presentado

cuando n1 o n2 sean mayores que 10. En este caso, las tablas no suelen abarcar

tales valores y se puede utilizar la siguiente aproximacion por la normal:

Z =R− E(R)√

var(R)∼ N(0, 1)

donde E(R) = 2n1n2

n+ 1 y var(R) = 2n1n2(2n1n2−n)

n2(n−1)

La region crıtica del contraste de aleatoriedad serıa (−∞,−zα2)∪(zα

2,+∞),

siendo zα2tal que P [Z ≤ zα

2] = α

2.

Finalmente, conviene apuntar que, cuando se aplica el test de rachas a

algunas series temporales, se puede utilizar una region crıtica unilateral a la

izquierda, con lo que Rα serıa el mayor entero tal que P [R ≤ Rα] ≤ α y la

region de aceptacion para H0 serıa (Rα,+∞).

7.2. Contrastes de Localizacion

Con estos test pretendemos contrastar el valor de alguna medida de posicion

o localizacion de la distribucion que sigue la poblacion considerada, de tal

manera que nos ayude a localizar estadısticamente la distribucion.

7.2. CONTRASTES DE LOCALIZACION 211

7.2.1. Contraste de rangos-signos de Wilcoxon

Es uno de los llamados contrastes de localizacion y lo plantearemos, inicial-

mente, proponiendo un valor de la mediana como:

H0 : Me = m

H1 : Me = m

El primer paso para la aplicacion de este contraste consiste en restar m a

cada elemento de la muestra: Di = Xi−m. Si algun Di = 0, se desprecia dicha

observacion, reduciendo el tamano muestral.

En segundo lugar, se asocia a cada observacion:

El signo es “+” o “−” segun sea el de Di.

El rango es el numero de orden que corresponde a |Di| en el conjunto de

todos los valores absolutos de losDi. Cuando hay varios valores absolutos

iguales, se calcula la media aritmetica entre dichos numeros de orden y

se le asigna dicho rango promedio a todos los “empatados” (por esto, el

rango promedio no sera necesariamente entero).

A continuacion, se calcula el estadıstico de rangos-signos de Wilcoxon:

T+ = suma de los rangos de los Di con signo + .

Si el estadıstico experimental T+exp es grande significa que muchos valores

en la muestra por encima de m y/o estan muy alejados de m, por lo que,

probablemente la mediana es mayor quem y rechazarıamos la hipotesis nula de

que la mediana es m. Tambien rechazaremos esta hipotesis si T+exp es pequeno


porque en este caso hay pocos valores en la muestra por encima de m y/o

estan cerca de m, por lo que, probablemente la mediana es menor que m y

rechazarıamos la hipotesis nula de que la mediana es m.


T+exp ≥ k1−α

2

o

T+exp ≤ kα

2

donde kα

2∈ IN es tal que P [T+ ≤ kα

2] ≤ α

2y k1−α

2∈ IN es tal que P [T+ ≥

k1−α2] ≤ α

2.

Tambien se pueden plantear contrastes unilaterales de rangos-signos:

H0 : Me ≤ m

H1 : Me > m


T+exp ≥ kα

donde kα ∈ IN es tal que P [T+ ≥ kα] ≤ α.

H0 : Me ≥ m

H1 : Me < m


T+exp ≤ kα

7.2. CONTRASTES DE LOCALIZACION 213

donde kα ∈ IN es tal que P [T+ ≤ kα] ≤ α.

Si n es demasiado grande como para poder consultar las tablas (n > 15),

se utiliza la siguiente “aproximacion para muestras grandes”:

Zexp =T+ − n(n+1)

4√n(n+1)(2n+1)

24

,

que, bajo H0, se comporta como una Z ∼ N(0, 1).

Ejemplo 7.2.1 De un estudio sobre cierta poblacion en una region, se deduce

que el numero mediano de individuos por Km2 es 12. Se toma una muestra

aleatoria de 15 cuadrados de un Km. de lado de una zona concreta de la region;

el numero de individuos que pueblan cada cuadrado es: 16, 6, 14, 47, 13, 10,

23, 30, 87, 20, 7, 23, 9, 19 y 8.

Se tiene la idea de que la zona elegida es de las mas pobladas de la region.

¿Podemos probar estadısticamente esta afirmacion con α = 0′05?

Solucion: El contraste que debemos plantear es:

H0 : Me ≤ 12

H1 : Me > 12

La muestra ordenada, los signos y los rangos son:


Xi Di Signo |Di| Rango

6 -6 - 6 8

7 -5 - 5 7

8 -4 - 4 5’5

9 -3 - 3 4

10 -2 - 2 2’5

13 1 + 1 1

14 2 + 2 2’5

16 4 + 4 5’5

19 7 + 7 9

20 8 + 8 10

23 11 + 11 11’5

23 11 + 11 11’5

30 18 + 18 13

47 35 + 35 14

87 75 + 75 15

En este caso, n = 15 y T+exp = 1 + 2′5 + . . .+ 15 = 93.

La region crıtica con un nivel de confianza α = 0,05 es:

T+exp = 93 ≥ kα

donde kα ∈ IN es tal que P [T+ ≥ kα] ≤ α (P [T+ < kα] ≥ 1− α). Si miramos

en la Tabla 0.1.7, Anexo Tablas, obtenemos que kα = 90, por lo que se rechaza

la hipotesis nula y la mediana es superior a 12.

7.3. Contrastes de Comparacion de Poblaciones

Entre los llamados contrastes de comparacion de poblaciones, los mas uti-

lizados son: el test de la mediana, el de Siegel-Tukey (para diferencias de vari-

abilidad o dispersion) y el de Wilcoxon-Mann-Whitney, que explicaremos a

continuacion. Se trata de comparar dos poblaciones, no necesariamente nor-

males, a traves de sus funciones de distribucion.

7.3. CONTRASTES DE COMPARACION DE POBLACIONES 215

7.3.1. Contraste de Wilcoxon-Mann-Whitney

En este contraste suponemos dos distribuciones de probabilidad, correspon-

dientes a las variables aleatorias X e Y , que son iguales en todo salvo, tal vez,

en su localizacion, es decir, una puede estar transladada respecto de la otra.

Representemos por F yG a las funciones de distribucion respectivas. Notese

que, a mayores valores de la funcion de distribucion, corresponden menores

valores de la media (la representacion grafica de las funciones de densidad

puede servir para entender mejor esta afirmacion). Por esto, las comparaciones

de las funciones de distribucion F y G son utiles para comparar las medias

poblacionales respectivas µx y µy.

En estos contrastes (unilaterales o bilaterales) el estadıstico de prueba es o

bien:UX ≡ numero acumulado de observaciones Y

que sobrepasan en la muestra combinada

a las observaciones X

o bien:UY ≡ numero acumulado de observaciones X

que sobrepasan en la muestra combinada

a las observaciones Y

Puede probarse que:

UX = n1n2 +n1(n1 + 1)

2−WX ,


UY = n1n2 +n2(n2 + 1)

2−WY ,

siendo n1 y n2 los tamanos muestrales respectivos de ambas muestras y WX

y WY la suma de los rangos que ocupan las observaciones X e Y , respectiva-

mente, en la muestra combinada y ordenada.

Ası para contrastar la igualdad de medias poblacionales se plantea el test

bilateral:

H0 : F (z) = G(z) ∀ z ≡ (µX = µY )

H1 : F (z) = G(z) ∀ z ≡ (µX = µY )

Si UX exp (UY exp)es grande significa que hay muchas observaciones Y (X)

que superan a las X (Y ) y por tanto la distribucion G (F ) domina estocastica-

mente a la distribucion F (G) y rechazaremos la igualdad de las distribuciones.

Tambien rechazaremos la igualdad cuando UX exp (UX exp) es pequeno porque,

en este caso, al haber pocas observaciones Y (X) que superan a las X (Y ), F

(G) domina estocasticamente a G (F ).

Ası la region crıtica con un nivel de confianza α es:

UX exp > UX;1−α2

o

UX exp < UX;α2

UY exp > UY ;1−α

2

o

UY exp < UY ;α2

donde UX;α

2∈ IN es tal que P [UX ≤ UX;α

2] = α

2y UX;1−α

2∈ IN es tal que

P [UX ≥ UX;1−α2] = α

2.

Analogamente se plantean los contrastes unilaterales:

H0 : F (z) ≥ G(z) ∀ z ≡ (µX ≤ µY )

H1 : F (z) < G(z) ∀ z ≡ (µX > µY )



UX exp < UX;α

donde UX;α ∈ IN es tal que P [UX < UX;α] = α.

H0 : F (z) ≤ G(z) ∀ z ≡ (µX ≥ µY )

H1 : F (z) > G(z) ∀ z ≡ (µX < µY )


UX exp > UX;1−α


donde UX;1−α ∈ IN es tal que P [UX > UX;1−α] = α.

Los valores crıticos del test de Mann-Whitney se encuentran el la Tabla

A22, en la que hay que tener en cuenta que:

U1−α = n1n2 − Uα.

Para valores de n1 y n2 mayores que 10, como en casos anteriores, se puede

utilizar la aproximacion que surge de que, bajo H0,

Z =Ux − E(Ux)√

var(Ux)=

Ux − n1n2

2√n1n2(n1+n2+1)

12

∼ N(0, 1)

Podemos resolver este contraste haciendo uso del SPSS y para ello, uti-

lizamos Analizar\ Pruebas no Parametricas\ 2 muestras independi-

entes e introducimos la variable de nuestro estudio e indicamos el rango de la

variable de agrupacion.

Ejemplo 7.3.1 Se quiere estudiar el contenido en azucar (en gramos por

unidad) de las naranjas de dos cooperativas citrıcolas a partir de dos muestras

independientes, cuyo analisis ha producido los siguientes resultados:

X 2’1 6’3 4’2 5’5 4’8 3’7 6 3’3

Y 4’3 0’9 3’1 2’5 4’2 6’2 1’6 2’2 1’9 5’5

¿Puede deducirse de estos datos que las dos variedades tienen el mismo con-

tenido de azucar?

Solucion: En primer lugar nos aseguraremos que las muestras han sido elegidas

de forma aleatoria. Resolvemos el siguiente contraste:

H0 : La muestra X es aleatoria.

H1 : La muestra X no es aleatoria.


Utilizando el paquete estadıstico SPSS y obtenemos:

Como el P-valor es 0′252 mayor que 0′05 concluimos que la muestra X

se ha elegido de forma aleatoria. Para la muestra Y planteamos el siguiente

contraste:

H0 : La muestra Y es aleatoria.

H1 : La muestra Y no es aleatoria.

El P-valor es igual a 0′737 mayor a 0′05, luego la muestra Y ha sido elegida de

forma aleatoria.


Una vez que hemos compobado que ambas muestras han sido elegidas de

forma aleatoria contrastemos, al nivel de significacion α = 0′05, si las dos

muestras proceden de variedades con diferentes contenidos en azucar:

H0 : F (z) = G(z) ∀ z ≡ (µX = µY )

H1 : F (z) = G(z) ∀ z ≡ (µX = µY )

El siguiente paso consiste en combinar y ordenar ambas muestras:

Observaciones 0’9 1’6 1’9 2’1 2’2 2’5 3’1 3’3 3’7

Muestra Y Y Y X Y Y Y X X

Rango 1 2 3 4 5 6 7 8 9

4’2 4’2 4’3 4’8 5’5 5’5 6 6’2 6’3

X Y Y X Y X X Y X

10’5 10’5 12 13 14’5 14’5 16 17 18

El estadıstico experimental es:

UX exp = 7 + 4 + 4 + 3,5 + 2 + 1,5 + 1 + 0 = 23

Como n1 = 8 y n2 = 10 puede comprobarse facilmente que:

UX = n1n2 +n1(n1 + 1)

2−WX = 80 +

72

2− 93 = 23,

puesto que:

WX = 4 + 8 + 9 + 10,5 + 13 + 14,5 + 16 + 18 = 93

Region crıtica:

UXexp = 23 > U0,975

o

UXexp = 23 < U0,025


donde U0,025 ∈ IN es tal que P [UX < U0,025] = 0,025 (si miramos en la tabla:

U0,025 = 17) y U0,975 ∈ IN es tal que P [UX > U0,975] = 0,025 (U0,975 = n1n2 −U0,025 = 80− 17 = 63).

Por lo que no podemos rechazar H0 y debemos aceptar que no existe difer-

encia entre los contenidos de azucar en las dos muestras.

Si utilizamos SPSS, tenemos el siguiente cuadro de dialogo:

y obtenemos los siguientes resultados:

El P-valor es 0′131 mayor que 0′05, luego no hay evidencias para rechazar la

igualdad entre los contenidos de azucares en las dos muestras.


Ejemplo 7.3.2 En el primer semestre del ano, se seleccionaron aleatoria-

mente los importes de 12 multas por danos al Medio Ambiente en una re-

gion: 23’5, 20’8, 21’6, 25’7, 24’2, 20’2, 19’7, 21’9, 22’6, 24’5, 21’7 y 22’6 (en

cientos de unidades monetarias). En el segundo, se eligieron otras 12: 22’9,

22’6, 23’4, 25, 25’1, 24’4, 22’2, 24’9, 21’5, 25’5, 23’3 y 24’6. ¿Existen diferen-

cias significativas (α = 0′1) entre los importes medios de las multas de ambos

semestres?

Solucion: Utilizando el programa SPSS obtenemos:

El P-valor es 0′057 menor a 0′1, luego rechazamos la hipotesis nula.

En este caso, n1 = n2 = 12, UX exp = 105. Como n1 > 10 y n2 > 10,

aproximamos por una normal. Utilizamos que E[U ] = n1n2

2= 72 y V ar(U) =

n1n2(n1+n2+1)12

= 300:

Zexp =105− 72√

300= 1′91

La region crıtica es:

Zexp = 1′91 > z0′05 = 1′645

o

Zexp = 1′91 < −z0′05 = −1′645


Por lo que, en este caso, rechazamos H0.

7.3.2. Contraste de Kruskal-Wallis para la comparacion

de mas de dos poblaciones

Consideremos k muestras aleatorias independientes procedentes de k pobla-

ciones continuas, desconocidas pero con forma y dispersion similares de manera

que solo difieren, tal vez, en la ubicacion.

El contraste a plantear es:

H0 : Todas las muestras proceden de la misma poblacion

H1 : Al menos dos de ellas son diferentes

En la muestra combinada y ordenada se asignan rangos y se suman los

rangos asignados a los elementos de cada muestra:

Ri =

ni∑j=1

rij ∀ i = 1, . . . , k

donde ni, i = 1, 2, . . . , k son los tamanos muestrales de cada muestra y rij son

los rangos que correspondes a la muestra combinada y ordenada a los elementos

de la muestra i. La suma de todos los rangos la denotamos por R

El estadıstico de prueba es:

H =12V

n(n+ 1),

donde V representa la suma de las diferencias cuadraticas entre los rangos

medios de cada muestra, Ri, y el rango medio total, R:

V =k∑

i=1

ni(Ri − R)2


Este estadıstico, H, puede escribirse:

H =12

n(n+ 1)

k∑i=1

R2i

ni

− 3(n+ 1)


Hexp ≥ hα

donde hα ∈ IR se busca en la Tabla A23 y es tal que P [H ≥ hα] = α.

Siempre que el numero de elementos de cada muestra sea mayor que 5

(ni > 5∀ i = 1, . . . , k), el estadıstico, H se comporta asintoticamente, bajo H0,

como una χ2k−1.

Este contraste lo podemos resolver utilizando el paquete estadıstico SPSS.

Para ello utilizamos Analizar\ Pruebas no Parametricas\ K muestras

independientes e introducimos la variable numerica y asignamos el rango a

la variable de agrupacion.

Ejemplo 7.3.3 En el examen de Estadıstica se proponen 3 tipos de examen.

Se eligen 6 alumnos de cada grupo y se corrigen sus examenes obteniendose

las siguientes puntuaciones:

Tipo A: 6’5, 8’4, 3’5, 7’5, 6, 5’4.

Tipo B: 9’5, 4’6, 5’8, 7’4, 2’5, 7.

Tipo C: 4’8, 3, 9’8, 8’7, 5, 9’6.

¿Hay la misma distribucion de calificaciones en los tres tipos de examenes?

Solucion: En primer lugar comprobamos que se da la aleatoriedad en cada tipo

de examen. Utilizando el programa SPSS obtenemos los siguientes resultados:


Observamos que en los tres casos el P-valor obtenido es superior a 0′05,

luego al no existir evidencias para rechazar aceptamos la aleatoriedad en cada

uno de los grupos.

A continuacion nos planteamos si las calificaciones se distribuyen igual o

no. Para ello, ordenamos las observaciones de menor a mayor y asignamos

rangos:

Observaciones Rangos r1j r2j r3j

B 2′5 1 1 = r21

C 3 2 2 = r31

A 3′5 3 3 = r11

B 4′6 4 4 = r22

C 4′8 5 5 = r32

C 5 6 6 = r33

A 5′4 7 7 = r12

B 5′8 8 8 = r23

A 6 9 9 = r13

A 6′5 10 10 = r14

B 7 11 11 = r24

B 7′4 12 12 = r25

A 7′5 13 13 = r15

A 8′4 14 14 = r16

C 8′7 15 15 = r35

B 9′5 16 16 = r26

C 9′6 17 17 = r35

C 9′8 18 18 = r36

R = 171 R1 = 56 R2 = 52 R3 = 63

El valor del estadıstico es Hexp = 1218(18+1)

[562

6+ 522

6+ 632

6

]− 3(18 + 1) =


0,3626.

Como los tamanos muestrales son mayores que 5, la region crıtica con un

nivel de confianza α = 0′05 es:

Hexp ≥ χ22;0′95

Como Hexp = 0′3626 < 5′99 = χ22;0′95, no hay evidencias para rechazar (luego

se acepta) H0 al 5% de significacion, es decir, de los datos muestrales no se

deduce que haya diferencias en la dificultad del examen.

Con el programa estadıstico SPSS podemos ver si la distribucion en las

calificaciones es la misma en los tres tipos de examenes utilizando el siguiente

cuadro de dialogo:

El resultado obtenido es el siguiente:


El P-valor que obtenemos es igual a 0′834 y al ser mayor a 0′05 no tenemos

evidencias para rechazar la hipotesis nula. Por tanto, aceptamos que no existen

diferencias significativas en cuanto al tipo de examen.

7.3.3. Test de Dunn para comparaciones multiples

Cuando el test de Kruskal-Wallis rechaza la hipotesis nula, se concluye

que las distribuciones no son identicas. No obstante, puede interesar saber

cuales son las medias significativamente diferentes entre sı. Esto se puede hacer

utilizando el test de Wilcoxon-Mann-Whitney1 para cada par de muestras.

Otro procedimiento que se utiliza el metodo de Dunn:

H0 : No existen diferencias significativas entre las muestras i y l

H1 : Existen diferencias significativas entre las muestras i y l

1Para utilizar la U de Mann-Whitney, deberıamos aplicar una correccion y no comparar

el P-valor con el nivel de significacion α sino con α k

2

, donde

(k

2

)es el no de posibles

comparaciones dos a dos entre los k grupos.



|Ri − Rl|

donde Ri es la media muestral de los rangos asignados a la muestra i-esima,

Ri =1ni

∑ni

j=1 rij para cada i = 1, . . . , k (analogamente Rl).


|Ri − Rl|exp ≥ cil

siendo cil = zp

√n(n+1)

12

(1ni

+ 1nl

), con p = α

k(k−1)y zp tal que P [Z ≥ zp] = p,

donde Z ∈ N(0, 1).

Ejemplo 7.3.4 A fin de disminuir la contaminacion que producen tras su

utilizacion, se decide modificar la composicion de las pilas alcalinas en 3 marcas

distintas, lo cual provoca dudas sobre su calidad. Para comparar las 3 marcas,

se controla la duracion en un dispositivo electrico de 17 pilas. Los resultados

obtenidos fueron:

Marca Horas de duracion

A 125 140 218 79 98

B 87 100 85 65 115 83

C 55 50 78 93 60’6 78

Utilizando el test de Kruskal-Wallis a un nivel de significacion del 5%,

¿puede decirse que existen diferencias significativas en las calidades de las 3

marcas? En caso afirmativo, ¿que marcas presentan tales diferencias?

Solucion: En primer lugar comprobamos que se da la aleatoriedad en cada

una de las muestras. Utilizando el programa SPSS obtenemos los siguientes

resultados:


Observamos que en los tres casos el P-valor obtenido es superior a 0′05, luego

al no existir evidencias para rechazar aceptamos la aleatoriedad en cada uno

de los grupos.

Si Fi(x) es la funcion de distribucion de la variable Xi = “tiempo de du-

racion (en horas) de funcionamiento de la pila de marca i-esima”, planteamos

el contraste:

H0 : F1(z) = F2(z) = F3(z) ∀ zH1 : Al menos 2 son diferentes

En este caso, como hay solo 5 elementos en una de las muestras, hay que

recurrir a la Tabla A23 para deducir que hα = 5′765 (k = 3 y, con tamanos

muestrales 6,6 y 5, se busca hα tal que P [H ≥ hα |H0] = α).

Para calcular el estadıstico experimental combinamos las muestras, orden-


amos y sumamos rangos:

Observaciones Rangos r1j r2j r3j

C 50 1 1 = r31

C 55 2 2 = r32

C 60′6 3 3 = r33

B 65 4 4 = r21

C 78 5′5 5′5 = r34

C 78 5′5 5′5 = r35

A 79 7 7 = r11

B 83 8 8 = r22

B 85 9 9 = r23

B 87 10 10 = r24

C 93 11 11 = r36

A 98 12 12 = r12

B 100 13 13 = r25

B 115 14 14 = r26

A 125 15 15 = r13

A 140 16 16 = r14

A 218 17 17 = r15

R = 153 R1 = 67 R2 = 58 R3 = 28

Tras asignar los rangos, el estadıstico experimental queda:

Hexp =12

17(17 + 1)

[672

5+

582

6+

282

6

]− 3(17 + 1) = 8′3188

Como Hexp > hα, se rechaza H0.

Si utilizamos el programa estadıstico SPSS (aunque un tamano muestras es

exactamente 5), llegamos a la misma conclusion pues los resultados obtenidos

son:


El P-valor obtenido es 0′016 menor a 0′05, luego rechazamos la hipotesis

nula.

Por tanto, hay que utilizar el metodo de Dunn para saber que marcas son

las que presentan diferencias significativas:

R1 =67

5; R2 =

58

6; R3 =

28

6

p =0′05

3(3− 1)= 0′0083

P [Z ≥ zp] = 0′0083 ⇒ P [Z < zp] = P [Z ≤ zp] = 1− 0′0083 ⇒ zp = 2′395

(de la tabla de la distribucion Z ∼ N(0, 1)).

Primera comparacion:

H0 : No existen diferencias significativas entre las muestras 1 y 2

H1 : Existen diferencias significativas entre las muestras 1 y 2


|R1 − R2|

La region crıtica con un nivel de confianza α = 0′05 es:


|R1 − R2|exp = |675− 58

6| ≥ c12

siendo c12 = zp

√17·1812

(15+ 1

6

)= 7′3234.

Como |R1 − R2|exp = 3′7333 < c12, las marcas A y B no presentan difer-

encias significativas.

Segunda comparacion:




|R1 − R3|


|R1 − R3|exp = |675− 28

6| ≥ c13

siendo c13 = zp

√17·1812

(15+ 1

6

)= 7′3234.

Como |R1−R3|exp = 8′7333 > c13, las marcas A y C sı presentan diferencias

significativas.

Tercera comparacion:




|R2 − R3|

7.4. CONTRASTES DE BONDAD DE AJUSTE 233


|R2 − R3|exp = |586− 28

6| ≥ c13

siendo c23 = zp

√17·1812

(16+ 1

6

)= 6′9826.

Como |R2 − R3|exp = 5 < c23, las marcas B y C no presentan diferencias

significativas.

Notese que A y C presentan diferencias significativas pese a no hacerlo A

con B ni B con C.

7.4. Contrastes de Bondad de Ajuste

Un contraste de bondad de ajuste se emplea para verificar si una muestra

aleatoria procede de una poblacion con una cierta distribucion de probabilidad.

Existen diferentes test de bondad de ajuste.

Kolmogorov y Smirnov (1933), proponen un nuevo test de bondad de ajuste

que utiliza la funcion de distribucion empırica de la muestra2. Si deseamos

saber si una muestra se rige por una determinada funcion de distribucion cono-

cida, es logico que se compare dicha distribucion con la funcion de distribucion

empırica de la muestra, que puede considerarse como el estimador de la fun-

cion de distribucion3. La medida de la diferencia entre funcion de distribucion y

2Fn(x) =

0 x ≤ x(1)

......

kn x(k) < x ≤ x(k+1) , k = 1, 2, . . . , n− 1...

...

1 x ≥ x(n)3Teorema de Glivenco Cantelli


funcion de distribucion empırica de la muestra que dan Kolmogorov y Smirnov

es la distancia maxima, medida en direccion vertical, entre las graficas corre-

spondientes a dichas distribuciones.

Tambien puede aplicarse esta misma idea cuando queremos saber si dos

muestra aleatorias provienen de la misma distribucion. En este caso se com-

pararan entre sı las dos funciones de distribucion empıricas de las muestras.

No desarrollaremos este tipo de contrastes en este tema y nos centraremos

exclusivamente en el test χ2 de Pearson, que luego utilizaremos en las tablas

de contingencia.

7.4.1. Test χ2 de Pearson

Introducido por Pearson, 1900, se utiliza para contrastar si una muestra

aleatoria procede o no de una poblacion con una determinada distribucion. Si

denotamos por F0(x) a dicha distribucion, el test puede escribirse:

H0 : F (x) = F0(x)

H1 : F (x) = F0(x)

La distribucion F0(x) se supone totalmente definida. Si alguno de sus paramet-

ros fuera desconocido, se utiliza el estimador de maxima verosimilitud.

Una vez distribuidos los datos muestrales en k categorıas, se trata de ver la

diferencia entre las frecuencias observadas en cada categorıa y las frecuencias

que se esperan bajo H0, es decir, cuando se supone que la muestra proviene

de una distribucion con funcion de distribucion F0(x). Si esta diferencia es

grande se rechaza la hipotesis nula y si, en cambio, dicha diferencia es pequena

no habra motivos para rechazar y entenderemos que la muestra ha sido extraıda

de la distribucion F0(x).

El estadıstico que se utiliza en este test es el estadıstico χ2 que se obtiene


sumando las diferencias cuadraticas entre frecuencias observadas y esperadas,

divididas por las frecuencias esperadas:

χ2exp =

k∑i=1

(ni − npi)2

npi

donde:

k es el numero de categorıas que consideramos

pi es la probabilidad, bajoH0, de que una observacion este en la categorıa

i. Ası npi son las frecuencias esperadas.

ni son las frecuencias observadas, es decir, las observaciones de la muestra

que caen en cada categorıa.

Teoricamente, el estadıstico χ2 tiene una distribucion ji- cuadrado con k−h− 1 grados de libertad, siendo h el numero de parametros poblacionales esti-

mados por el metodo de maxima verosimilitud. Esta distribucion es asintotica,

por lo que se exige en la aplicacion del test que npi sea mayor que 5.

El contraste, al nivel de significacion α dado, para contrastar la hipotesis

nula H0, tiene la siguiente region crıtica:

χ2exp =

∑ki=1

(ni−npi)2

npi> χ2

1−α

siendo χ21−α tal que P [χ2

k−h−1 > χ21−α] = α

Ejemplo 7.4.1 Una empresa distribuidora de bebidas senala los siguientes

porcentajes sobre las preferencias de los consumidores espanoles:


Tipo de Bebida Porcentaje

Vino 35 0/0

Cerveza 30 0/0

Licores 20 0/0

Otros 15 0/0

Para tratar de comprobar estos porcentajes se realiza una encuesta a 250 con-

sumidores seleccionados al azar obteniendose los siguientes resultados:

Tipo de Bebida Frecuencias

Vino 90

Cerveza 72

Licores 52

Otros 36

A un nivel de significacion del 5 0/0, contrastar si la muestra obtenida se ajusta

a los datos que maneja la empresa distribuidora.

Solucion: Definimos la variable aleatoria:

X : Tipo de bebida preferida por los consumidores espanoles

Esta variable tiene, desde el punto de vista de la empresa distribuidora, la

siguiente distribucion de probabilidad:

Tipo de Bebida, xi Probabilidad, P [X = xi]

Vino 0’35

Cerveza 0’30

Licores 0’20

Otros 0’15

Se trata de contrastar, con la informacion obtenida en la muestra, si la em-

presa distribuidora esta en lo cierto y esta es efectivamente la distribucion


de probabilidad de la variable aleatoria X, o si, en cambio, la distribucion de

probabilidad de la variable es otra distinta. Este contraste puede escribirse:

H0 : p1 = 0′35 , p2 = 0′3 , p3 = 0′2 , p4 = 0′15

H1 : Al menos una pi, i = 1, 2, 3, 4, toma un valor distinto a los anteriores

El estadıstico que se utiliza en este test es el estadıstico χ2 que se obtiene

sumando las diferencias cuadraticas entre frecuencias observadas y esperadas,

divididas por las frecuencias esperadas:

χ2exp =

k∑i=1

(ni − npi)2

npi

Realizamos los calculos en la siguiente tabla:

Bebida, ni pi npi (ni − npi)2 (ni−npi)

2

npi

Vino 90 0’35 87’5 6’25 0’07

Cerveza 72 0’30 75 9 0’12

Licores 52 0’20 50 4 0’08

Otros 36 0’15 37’5 2’25 0’06

n = 250 1 χ2exp = 0′33

La distribucion del estadıstico bajo H0 es χ24−0−1 ≡ χ2

3 y la region crıtica:

0′33 = χ2exp > χ2

0′95

donde χ20′95 es tal que P [χ2

3 ≤ χ20′95] = 0′95, es decir, χ2

0′95 = 7′81. Por tanto,

no hay motivos para rechazar la hipotesis nula y aceptamos que la distribucion

de la variable aleatoria X es la que maneja la empresa distribuidora.

Esto podrıamos haberlo hecho con el programa estadıstico SPSS, escribiendo

las frecuencias observadas y utilizando Analizar\ Pruebas no Parametricas\Chi Cuadrado e introduciendo las frecuencias observadas en el siguiente

cuadro de dialogo:


La salida en la ventana de resultados serıa:

Como podemos observar se obtiene el resultado que antes hemos obtenido de

forma manual.


7.4.2. Contrastes de Normalidad

Existen contrastes especıficos de normalidad. Aquı nos centraremos en dos

que realiza SPSS y que son test de Shapiro-Wilk y test de kolmogorov-Smirnov.

Para ello utilizamosAnalizar\ Estadısticos descriptivos\ Explorar y den-

tro de Graficos solicitamos la opcion Graficos con prueba de normalidad

como podemos ver en el siguiente cuadro de dialogo:

Ejemplo 7.4.2

Ver si los siguientes datos proceden de una poblacion normal, utilizando un

nivel de confianza del 99%.

78 73 132 66 102

96 82 67 79 75

85 68 85 92 68

66 67 68 68 73

75 78 79 82 85

85 92 96 102 132


Para ver si la poblacion normal, utilizando el programa SPSS, observamos

en la tabla:

que el P-valor es menor a 0′01. Por tanto rechazamos la hipotesis de normal-

idad.

7.5. Tablas de Contingencia

El estadıstico χ2 de Pearson se utiliza tambien en inferencia estadıstica con

variables cualitativas.

Para estas variables los datos se agrupan en tablas de contingencia, que son

tablas de doble entrada en las que en la casilla (i, j) se representa la frecuencia

conjunta, nij correspondiente a que se presente la caracterıstica de la fila i-

esima con la caracterıstica de la columna j-esima.

A continuacion se representa una tabla de contingencia con dos variables

cualitativas, X (que tiene r posibles categorıas) e Y (con s posibles categorıas).

7.5. TABLAS DE CONTINGENCIA 241

Y Total Marginal

X B1 B2 · · · Bj · · · Bs ni·

A1 n11 n12 · · · n1j · · · n1s n1·

A2 n21 n22 · · · n2j · · · n2s n2·...

......

. . ....

......

...

Ai ni1 ni2 · · · nij · · · nis ni·...

......

. . ....

......

...

Ar nr1 nr2 · · · nrj · · · nrs nr·

Total Marginal

n·j n·1 n·2 · · · n·j · · · n·s n

Las tablas de contingencia pueden obtenerse automaticamente con SPSS

cruzando dos variables conAnalizar\Estadısticos Descriptivos\Tablas decontingencia

7.5.1. Contrastes de Independencia

Vamos a estudiar si existe independencia entre dos caracterısticas de una

poblacion, X e Y , en donde cada una de ellas presentan r y s categorıas respec-

tivamente. Para ello seleccionamos una muestra de tamano n de la poblacion

y clasificamos los elementos de la muestra segun las categorıas de las carac-

terısticas X e Y en una tabla de contingencia.

El contraste serıa:

H0: X e Y son independientes

H1: X e Y no son independientes.

Si designamos por pij a la probabilidad de que un elemento de la muestra

presente las caracterısticas Ai y Bj, entonces la hipotesis nula de independencia


se puede expresar como:

pij = P [Ai ∩Bj] = P [Ai]P [Bj] = pi·p·j.

Entonces, bajo H0, para medir la diferencia entre frecuencias observadas y

esperadas consideraremos la suma:

r∑i=1

s∑j=1

(nij − npij)2

npij=

r∑i=1

s∑j=1

(nij − npi·p·j)2

npi·p·j

Como los estimadores de maxima verosimilitud de pi· y p·j son respectiva-

mente:

pi· =ni·n

y p·j =n·jn,

el estadıstico χ2 de Pearson para contrastar la independencia sera:

χ2 =r∑

i=1

s∑j=1

(nij − ni·n·j

n

)2ni·n·j

n

,

que se distribuye asintoticamente segun una χ2 con (r − 1)(s − 1) grados de

libertad4.

La region crıtica del test es χ2 > χ21−α, donde χ2

1−α es tal que

P [χ2(r−1)(s−1) > χ2

1−α] = α.

Este contraste puede realizarse con SPSS de la siguiente forma. EnAnalizar\Estadısti-cos Descriptivos\Tablas de contingencia pulsamos la pestana Estadısti-

cos:

4rs− [(r − 1) + (s− 1)]− 1 = rs− r − s+ 1 = r(s− 1)− (s− 1) = (r − 1)(s− 1)


y en la nueva ventana de dialogo pulsamos Chi Cuadrado:

Ejemplo 7.5.1 Para ver si el rendimiento de los trabajadores de una empresa

a primera hora de la manana depende o no del tiempo que tardan en llegar de


su domicilio al trabajo se toma una muestra de 300 trabajadores clasificando

su rendimiento en una tabla de eficiencia de la siguiente forma:

Eficiencia en el trabajo

Minutos de viaje Poco eficientes Eficientes Muy eficientes

(0,15] 2 85 14

(15,30] 3 80 14

(30,90] 10 75 17

Con los datos obtenidos ¿Puede asegurarse que exista tal dependencia? Con-

trastar al 1%.

Solucion: El contraste serıa:

H0: Las variables son independientes

H1: Las variables no son independientes.

El estadıstico χ2 de Pearson para contrastar la independencia sera:

χ2 =3∑

i=1

3∑j=1

(nij − ni·n·j

n

)2ni·n·j

n

,

que se distribuye asintoticamente segun una χ2 con (3− 1)(3− 1) = 4 grados

de libertad.

Construimos la tabla adjunta el la que cada celda posee la siguiente estruc-

tura:

nijni·n·j

n

(nij−ni·n·j

n )2

ni·n·jn



Minutos de viaje Poco eficientes Eficientes Muy eficientes ni·

(0,15] 2 5’05 85 80’8 14 15’15 101

(15,30] 3 4’85 80 77’6 14 14’55 97

(30,90] 10 5’1 75 81’6 17 15’3 102

n·j 15 240 45 n = 300

Como se observa una frecuencia teorica inferior a 5, habra que realizar agru-

paciones. Para tratar de discriminar entre los que emplean un tiempo de viaje

moderado y los que emplean mucho tiempo, agruparemos las dos primeras cat-

egorıas, resultando la siguiente tabla:


Minutos de viaje Poco eficientes Eficientes Muy eficientes ni·

(0,30] 5 9’9 165 158’4 28 29’7 198

2’43 0’275 0’1

(30,90] 10 5’1 75 81’6 17 15’3 102

4’71 0’53 0’19

n·j 15 240 45 n = 300


χ2exp = 2′43 + 0′275 + 0′1 + 4′71 + 0′53 + 0′19 = 8′235.

Si miramos en las tablas de la χ22, tenemos que χ2

0′99 = 9′21. Como χ2exp =

8′235 < 9′21 = χ20′99, no se rechaza la hipotesis de independencia, es decir,

los datos no senalan dependencia significativa entre el tiempo que tardan los

empleados en llegar al trabajo y su eficiencia.

Si lo realizamos utilizando el programa SPSS obtenemos los siguientes re-

sultados:


Como el P-valor obtenido es 0′016 superior a 0′01 no existen evidencias

para rechazar la independencia de las dos variables estudiadas.

7.5.2. Contrastes de Homogeneidad

Consideremos ahora r muestras de observaciones independientes, clasifi-

cadas en las s categorıas de una determinada caracterıstica. Los resultados

pueden expresarse en una tabla semejante a la anterior:

Categorıas de la caracterıstica estudiada Total Marginal

Muestras B1 B2 · · · Bj · · · Bs ni

1 n11 n12 · · · n1j · · · n1s n1

2 n21 n22 · · · n2j · · · n2s n2

......

.... . .

......

......

i ni1 ni2 · · · nij · · · nis ni

......

.... . .

......

......

r nr1 nr2 · · · nrj · · · nrs nr

Total Marginal

mj m1 m2 · · · mj · · · ms n


Ahora queremos contrastar la homogeneidad de las r poblaciones, es decir,

si todas las muestras proceden de la misma poblacion, y por tanto tienen la

misma distribucion con respecto a las caracterısticas B1, B2, . . ., Bs.

El contraste serıa:

H0: Las r muestras son homogeneas

H1: Las r muestras no son homogeneas.

Si designamos por pij a la probabilidad de que un individuo de la muestra

i presente la caracterıstica Bj, entonces la hipotesis nula de independencia se

puede expresar como:

H0 : p1j = p2j = · · · = pij = · · · = prj ∀ j = 1, 2, . . . , s.

Entonces, bajo H0, para medir la diferencia entre frecuencias observadas y

esperadas consideraremos la suma:

r∑i=1

s∑j=1

(nij − nipj)2

nipj.

Como, admitiendo que la hipotesis H0 es cierta, el estimador de maxima

verosimilitud de pij es:

pij =mj

n,

el estadıstico χ2 de Pearson para contrastar la homogeneidad de las muestras

sera:

χ2 =r∑

i=1

s∑j=1

(nij − nimj

n

)2nimj

n

,

que se distribuye asintoticamente segun una χ2 con (r − 1)(s − 1) grados de

libertad5.5r(s− 1)− (s− 1) = (r − 1)(s− 1)


La region crıtica del test es χ2 > χ21−α, donde χ2

1−α es tal que

P [χ2(r−1)(s−1) > χ2

1−α] = α.

Este contraste con el programa estadıstico SPSS se harıa exactamente igual que

los contrastes de independencia donde en las filas pondrıamos la variable que

nos indica a las distintas muestras y como columna las distintas caracterısticas

de la variable estudiada.

Ejemplo 7.5.2 Los organos de gobierno de una Universidad pretenden analizar

el ındice de satisfaccion de los estudiantes de las Licenciaturas de Derecho y

Empresariales. Para ello toma una muestra de 125 alumnos de derecho y otra

de 75 alumnos de Empresariales. Una vez analizados los datos obtenidos, los

resultados obtenidos se muestran en la siguiente tabla:

Satisfaccion de los estudiantes

Licenciatura Poco Satisfechos Satisfechos Muy satisfechos

Empresariales 20 78 27

Derecho 14 40 21

¿Presentan estas dos licenciaturas diferencias significativas en cuanto al grado

de satisfaccion de los estudiantes? Contrastar a un nivel de significacion del

1 0/0.


H0: Las dos muestras son homogeneas

H1: Las dos muestras no son homogeneas.

El estadıstico χ2 de Pearson para contrastar la homogeneidad de las muestras

sera:

χ2 =2∑

i=1

2∑j=1

(nij − nimj

n

)2nimj

n

,


que se distribuye asintoticamente segun una χ2 con (2 − 1)(3 − 1) = 2 grado

de libertad.

Construimos la tabla adjunta el la que cada celda posee la siguiente estruc-

tura:

nijnimj

n

(nij−nimj

n )2

nimjn

Satisfaccion de los estudiantes

Licenciatura Poco satisfechos Satisfechos Muy satisfechos ni

Empresariales 20 21,3 78 73,8 27 30 125

0,08 0,24 0,3

Derecho 14 12,8 40 44,3 21 18 75

0,11 0,42 0,5

mj 34 118 48 n = 200

En la tabla podemos comprobar quenimj

nen todos los casos y que n =

n1 + n2 = 200 > 30.


χ2exp = 0, 08 + 0, 24 + 0, 3 + 0, 11 + 0, 42 + 0, 5 = 1, 65.

Si miramos en las tablas de la χ22, tenemos que χ2

0,99 = 9, 21. Como χ2exp =

1, 65 < 9, 21 = χ20,99, no se rechaza la hipotesis de homogeneidad de mues-

tras, es decir, los datos no senalan diferencias significativas en el grado de

descontento para ambas licenciaturas.

Si utilizamos el programa SPSS obtenemos:


El P-valor obtenido es igual a 0, 438 mayor a 0, 01, luego podemos concluir

que las muestras son homogeneas.


1. En un colectivo de 15 ninos, de ambos sexos, se obtienen las medidas de

sus estaturas con el resultado siguiente:

Ninas 1’43 1’54 1’40 1‘55 1’50 1’60 1’41 1’47 1’51

Ninos 1’62 1’45 1’58 1’61 1’48 1’63

Verifique al 5% de nivel de significacion que las estaturas de las ninas y

los ninos constituyen dos muestras aleatorias.

Solucion: La hipotesis nula que hay que contrastar es la siguiente:

H0: La muestra de estatura de las ninas es aleatoria

H1: La muestra de estatura de las ninas no es aleatoria.


Como en la muestra de ninas p-valor= 0’968 > 0’05 = α no se puede

rechazar la hipotesis nula de que las observaciones muestrales de las

estaturas de las ninas sean aleatorias.

Para la muestra de estaturas de ninos:

H0: La muestra de estatura de los ninos es aleatoria

H1: La muestra de estatura de los ninos no es aleatoria.

Como en la muestra de ninas, p-valor= 0’648 > 0’05 = α, no se puede

rechazar la hipotesis nula de que las observaciones muestrales de las

estaturas de los ninos sean aleatorias.


2. En una fotocopiadora se han producido ciertos desajustes. Se toma una

muestra de 60 fotocopias realizadas durante un dıa y los resultados

obtenidos, por orden de aparicion, son:

BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD BBBD

BBBD BBBD

BBBD BBBD BBBD,

siendo B = fotocopia correcta y D = fotocopia defectuosa. Contraste con

un nivel de significacion del 5% si las 60 observaciones constituyen una

muestra aleatoria.

Solucion: La hipotesis nula que hay que contrastar es la siguiente:

H0 : La muestra de fotocopias es aleatoria

H1 : La muestra de fotocopias no es aleatoria

El numero de rachas sigue una distribucion N(23’5; 2’86). El estadıstico

de prueba vale Zexp = 2’27 y la region crıtica es (-8,-1’96)U(1’96,+8),

por lo que se rechaza la hipotesis relativa a que las 60 observaciones

constituyen una muestra aleatoria.

3. Se toma una muestra de los salarios anuales (en cientos de euros) de

los trabajadores del sector industrial de una determinada Comunidad

Autonoma:

125, 126, 128, 150, 101, 109, 193, 204, 256, 124, 170, 183, 192, 154

Contraste, con un nivel de significacion del 5%, que dichos salarios proce-

den de una poblacion simetrica con mediana de 15300e.

Solucion: La hipotesis nula que hay que contrastar es:

H0 : Me = 153

H1 : Me = 153

Aceptamos la hipotesis nula, es decir, no se puede rechazar que los

salarios del sector industrial sean simetricos con mediana 15300e, pues


el valor experimenta T+exp = 59 pertenece a la region de aceptacion (21,

84).

4. Con el fin de tener una idea sobre las cotizaciones de las acciones, un

inversor selecciono varias sociedades al azar entre las que tenıa partici-

pacion y reviso sus cotizaciones (en miles de euros) de cierre:

Cotizacion 3’8 4’5 1’3 4’3 2’8 5’1 0’8 2’3 5’3 5’4 2’7 1’8 3’3 3’2

1’7 1’9 2’6 4’8

Con estos datos, ¿podrıamos afirmar que mas de la mitad de las so-

ciedades en las que participa este inversor presentan cotizaciones superi-

ores a 2400e? Utilice un nivel de significacion del 1%.

Solucion: La hipotesis nula que hay que contrastar es:

H0 : Me ≤ 2′4

H1 : Me > 2′4

T+exp = 130. Para determinar la region crıtica tenemos en cuenta la dis-

tribucion asintotica del estadıstico T+que es N(85’5; 22’96) para n =

18. Como Zexp = 1’93 < 2’33, no podemos rechazar H0, ası que no

podrıamos afirmar que mas de la mitad de las sociedades en las que par-

ticipa este inversor presentan cotizaciones superiores a 2400e, a un nivel

de significacion del 1%.

5. Se sabe que las cotizaciones en bolsa de dos empresas A y B (medidas en

euros), en una determinada sesion, no se distribuyen segun una normal.

A partir de una muestra aleatoria simple de cotizaciones de cada empresa

se obtuvieron los siguientes resultados:

Empresa A 13 11 12 18 5

Empresa B 20 10 12 8 10

¿Puede admitirse con un nivel de significacion del 5% que la cotizacion

en bolsa de ambas empresas es la misma?



H0 : F (z) = G(z) ∀ z ≡ (µX = µY )

H1 : F (z) = G(z) ∀ z ≡ (µX = µY )

Como el estadıstico de la U de Wilcoxon-Mann-Whitney pertenece a la

region de aceptacion, Ux = 10’5 a (2, 23), no hay evidencias para rechazar

la hipotesis nula. Luego, no existen diferencias significativas entre las

cotizaciones de ambas empresas.

6. Una cadena de supermercados tiene dos tiendas (T1 y T2) en una deter-

minada ciudad. La empresa sospecha que las tiendas no tienen el mismo

nivel de ventas semanal. Se dispone de la siguiente informacion:

T1 18’3 13’5 12’6 14’7 13’2 14’8 13’6 12’8 23’1 14’8 14’9 12’2 14’5

25’1 12’9 15 11’4 13’2 18’5 10’2

T2 26 19’4 13’8 17 9’4 18’8 16’3 19’9 13’9 19’2 14’2 13 16’5

21’2 15’3 22’8 17’6 13’1 15’8 16’9

Ademas se dispone de esta otra informacion:


Utilice un nivel de significacion del 5% para responder a las siguientes

cuestiones:

a) ¿Puede admitirse que el nivel de ventas semanal en ambas tiendas se

distribuye normalmente?

b) Utilizando la informacion del apartado anterior, ¿se puede aceptar

que el nivel de ventas en la tienda T1 es mayor que en la tienda T2?

Solucion:

a) Para contrastar la normalidad de la tienda T1, el contraste que

habrıa que resolver es:

H0: La muestra de ventas de la tienda T1 procede de una poblacion normal

H1: La muestra de ventas de la tienda T1 no procede de una poblacion normal.

Puesto que el tamano muestral es menor de 50, nos fijaremos en el test

de Shapiro-Wilk. Como el p-valor=0’002 < 0’05, rechazamos la hipotesis

nula de normalidad de la muestra del nivel de ventas semanales de la

tienda T1.

Para la tienda T2:

H0: La muestra de ventas de la tienda T2 procede de una poblacion normal

H1: La muestra de ventas de la tienda T2 no procede de una poblacion normal.

Para T2, el p-valor=0’937> 0’05, por lo que al 5% de significacion no hay

evidencias para rechazar la hipotesis nula de normalidad de la muestra

del nivel de ventas semanales de la tienda T2.

b) Como la muestra de la tienda T1 no es normal, el contraste que habrıa

que resolver serıa:

H0 : µx ≤ µy

H1 : µx > µy

, es decir,

H0 : F (x) ≥ G(x)

H1 : F (x) < G(x)


El estadıstico de la U de Wilcoxon-Mann-Whitney vale Ux = 282 (Wx =

328), pero como n1 y n2 > 10 tenemos en cuenta la distribucion asintotica

del estadıstico U que es N(200; 36’9684). Como Zexp = 2’2181 no verifica

la condicion de la region crıtica Zexp ≤ −zα = −1′645, no podemos

rechazar la hipotesis nula. Luego, no se puede aceptar, con un nivel de

confianza del 95%, que el nivel de ventas en la tienda T1 sea mayor que

en la tienda T2.

7. Se desea comparar la calidad de tres clases de coches (Clase I, Clase II y

Clase III). Para ello, se elige una muestra aleatoria simple de individuos

y se les pide que valoren su vehıculo, asignando una puntuacion de 1 a 8

(de menor a mayor calidad). Los resultados son los siguientes:

Clase de

vehıculo

Valoracion

Clase I 8 4 5 3

Clase II 7 5 4 5 7

Clase III 5 5 6 8 6

Se sabe que la valoracion de la Clase II no procede de una poblacion

normal. ¿Se puede aceptar que los tres vehıculos tienen la misma calidad?

Tome un nivel de significacion del 5%.

Solucion: El contraste que se plantea es:

H0 : F1(x) = F2(x) = F3(x), ∀xH1 : Al menos dos de ellas son diferentes


Las sumas de los rangos valen R1 = 23, R2 = 37’5 y R3 = 44’5. Como

Hexp = 1’330 < 5’666 = h0′05 no se puede rechazar la hipotesis nula, es

decir, no hay evidencias de que existan diferencias en la calidad de los

vehıculos.

8. Un profesor quiere contrastar tres metodos distintos de ensenanza. Para

ello, escoge al azar tres grupos de 5 estudiantes cada uno, y aplica a cada

uno un metodo distinto. Tras realizar al final del curso el mismo examen

a todos ellos, se obtienen las notas que se indican a continuacion:

Meto-

do

I

75 82 61 88 83 75

Meto-

do

II

81 85 68 92 90 70

Meto-

do

III

73 79 60 85 81 69

Suponiendo que los datos no siguen una distribucion normal, determine si

hay diferencia significativa entre los tres metodos al nivel de significacion

de 1%.

Solucion: El contraste que hay que resolver es:



Las sumas de los rangos valen R1 = 58, R2 = 68 y R3 = 45. Ası, Hexp

= 1’56 < 9’21 = χ22;0,01, luego no se puede rechazar la hipotesis nula,

es decir, no existen diferencias en los resultados obtenidos por los tres

metodos de ensenanza.

9. En una ciudad se estan probando 3 tipos de sensores para medir el nivel

de ozono y con ello saber si son igualmente fiables. Cada sensor realiza

200 mediciones diarias, de las cuales algunas son erroneas a causa de

diferentes factores. Se han elegido 5 dıas de este verano al azar y se han

contado el numero de mediciones erroneas por sensor. Los resultados se

muestran en la siguiente tabla:

Sensor A Sensor B Sensor C

28 22 33

37 27 30

34 29 39

28 20 33

31 18 38

Suponiendo que los datos no siguen una distribucion normal:

a) ¿Se puede aceptar que los niveles de ozono medidos por los tres sen-

sores son los

mismos?

b) En caso de que haya diferencias en los niveles de medicion ¿indique

cuales de los sensores son distintos?


Utilice un nivel de significacion del 5%.

Solucion:

a) El contraste que hay que resolver es:


Como Hexp = 8’78 > 5’78 = h0′05 se rechaza la hipotesis nula, es decir,

existen diferencias en los niveles de ozono medidos por los tres sensores.

b) Puesto que hay diferencias en los niveles de los sensores, para saber

cuales son los distintos tenemos que resolver tres contrastes de hipotesis.

Antes indiquemos que R1 = 9, R2 = 3’40 y R3 = 11’6, p = 0’0083 y zp

= 2’395.

H0 : No existen diferencias significativas entre las muestras A y B

H1 : Existen diferencias significativas entre las muestras A y B

Como |R1 - R2|exp = 5’6 < 6’774 = c12, los sensores A y B no presentan

diferencias.

H0 : No existen diferencias significativas entre las muestras A y C

H1 : Existen diferencias significativas entre las muestras A y C

Como |R1 - R3|exp = 2’6 < 6’774 = c13, los sensores A y C no presentan

diferencias.


H0 : No existen diferencias significativas entre las muestras B y C

H1 : Existen diferencias significativas entre las muestras B y C

Como |R2 - R3|exp = 8’2 > 6’774 = c23, los sensores B y C sı presentan

diferencias.

10. Contraste, con un nivel de significacion del 5%, si el numero de coches

que poseen las familias de una determinada Comunidad Autonoma sigue

una distribucion de Poisson, utilizando para ello la siguiente muestra

aleatoria simple:

Numero de coches Numero de familias

0 220

1 558

2 140

3 60

4 9

Solucion: La hipotesis a contrastar serıa la siguiente:

H0: La muestra procede de una poblacion de Poisson

H1: La muestra no procede de una poblacion de Poisson.

El estimador maximo verosımil del parametro desconocido lambda es λ =

x, y con los datos de la muestra obtenemos la estimacion λ = 1′06788.

Elaboramos una tabla (archivo adjunto) de la que obtenemos χ2exp=

168’33578 > 7’81 = χ25−1−1;0,05 , (todas las frecuencias esperadas, n · pi,

son mayores que 5) luego se rechaza la hipotesis nula relativa a que el

numero de vehıculos que poseen las familias sigue una distribucion de

Poisson.

11. En una empresa constructora se ha observado el numero de accidentes

que ocurren durante 130 dıas, obteniendose la siguiente distribucion de

frecuencias:


Numero de accidentes por dıa

X

Numero de dıas

0

1

2

3

≥ 4

69

42

15

4

0

Contrastar la hipotesis de que el numero de accidentes por dıa sigue una

distribucion de Poisson con media 0,9. Utilizar los niveles de significacion

de 0,05 y 0,01.


H0: La muestra procede de una poblacion de Poisson

H1: La muestra no procede de una poblacion de Poisson.

En este caso no existe ningun parametro desconocido a estimar.

Elaboramos una tabla (archivo adjunto) de la que obtenemos χ2exp=

8’4144 > 7’81 = χ24−0−1;0,05 , (todas las frecuencias esperadas, n · pi,

son mayores que 5) luego se rechaza la hipotesis nula relativa a que el

numero de accidentes al dıa en esta empresa sigue una distribucion de

Poisson, a un nivel de confianza del 95%.

Para un nivel de significacion del 1%, χ2exp= 8’4144 < 11’34 = χ2

4−0−1;0,01

, luego no se puede rechazar ahora la hipotesis nula relativa a que el

numero de accidentes al dıa en esta empresa sigue una distribucion de

Poisson, a un nivel de confianza del 99%.

12. Se ha obtenido la siguiente muestra correspondiente a los ingresos de los

trabajadores de cierta companıa: 6’5, 8’2, 7’7, 8’1, 7’3, 9, 9’2, 10’1.


¿Podemos asumir que la distribucion de probabilidad es una normal, al

5% de significacion?


H0: La muestra procede de una poblacion normal

H1: La muestra no procede de una poblacion normal.


de Shapiro-Wilk. Como el p-valor = 0’993 > 0’05, no podemos rechazar

la hipotesis nula de normalidad de la muestra.

13. En una comunidad de vecinos los gastos de agua caliente y frıa son costea-

dos hasta el momento con el dinero de la comunidad. En la ultima reunion

celebrada, algunos de los vecinos propusieron modificar este sistema, de

manera que la comunidad pagase solo hasta una determinada cantidad

anual de agua caliente por vivienda, debiendo abonar el propietario el

gasto por la cantidad restante. Para determinar cual deberıa ser la can-

tidad maxima anual por vivienda que pagarıa la comunidad, se selec-

cionaron al azar 15 viviendas contabilizandose en ellas la cantidad de

agua caliente gastada (en m3) al ano. Los resultados fueron:

78, 73, 132, 66, 102, 96, 82, 67, 79, 75, 85, 68, 85, 92, 68

Contraste utilizando un nivel de significacion del 1%, si el consumo anual

de agua caliente en esta comunidad se distribuye normalmente.


H0: La muestra procede de una poblacion normal

H1: La muestra no procede de una poblacion normal.


de Shapiro-Wilk. Como el p-valor = . . .< 0’01, . . . . la hipotesis nula de

normalidad de la muestra.


14. Estudie si existe asociacion entre el nivel educativo de los individuos de

una determinada poblacion y su preferencia por un determinado medio

de comunicacion, utilizando para ello la siguiente informacion muestral:

Prensa Radio Television

Basico 15 10 25

Medio 40 25 45

Superior 45 30 55

Utilice un nivel de significacion del 2’5%.


H0: No existe asocıacion entre las variables

H1: Existe asociacion entre las variables.

Se trata de un contraste de independencia.


Puesto que el estadıstico de prueba χ2exp = 1’259 < 11’143 = χ2

4;0,025 no

puede rechazarse la hipotesis de independencia entre las dos variables, es

decir, la evidencia empırica no indica asociacion entre el nivel educativo

y el medio de educacion.

15. Unos manzanos se abonan con dos tipos distintos de fertilizantes F1 y

F2. En concreto, en 50 de ellos se empleo el fertilizante F1 y en otros 60 el

fertilizante F2, resultando que unos manzanos aumentaron su produccion,

otros la disminuyeron y otros se mantuvieron igual. Contraste la hipotesis

nula de que ambos fertilizantes producen los mismos efectos con un nivel

de significacion de α = 0’10, teniendo en cuenta la informacion siguiente:

F1 F2

Mas produccion 20 35

Misma produc-

cion

20 15

Menos produc-

cion

10 10


H0 : Los dos tipos de fertilizantes producen los mismos efectos

H1 : Los dos tipos de fertilizantes no producen los mismos efectos

Se trata de un contraste de homogeneidad. Tenemos:


F1 F2

Mas 20 25,0 35 30,0 55

1,000 0,833 1,8333

Misma 20 15,9 15 19,1 35

1,052 0,877 1,9286

Menos 10 9,1 10 10,9 20

0,091 0,076 0,1667

50 60 110

Chiˆ2exp3,9286

Chiˆ2;

4; 0,9

4,605

Como χ2exp = 3’9286 < 4’605 = χ2

2;0,10, no se puede rechazar la hipotesis

nula de que ambos fertilizantes producen efectos similares.

teoría estadística ii.pdf

Documents