libro de estadistica

142
´ Indice general 1. An´ alisis de Datos 7 1.1. Introducci ´ on ................... 7 1.2. An´ alisis descriptivo de datos ........... 7 1.3. An´ alisis inferencial ................ 8 1.4. Conjuntos de Datos ............... 10 2. An´ alisis exploratorio de datos univariantes 13 2.1. Introducci ´ on ................... 13 2.2. Presentaci ´ on de los datos ............ 14 2.2.1. Distribuciones de frecuencias ...... 15 2.2.2. Diagramas de puntos y de tallo y hojas . 20 2.3. Representaciones gr ´ aficas ............ 21 2.3.1. Diagramas de sectores .......... 21 2.3.2. Diagrama de rect ´ angulos ......... 22 2.3.3. Diagrama de Pareto ............ 22 2.3.4. Histogramas ................ 22 1

Upload: rqueralt

Post on 27-Dec-2015

44 views

Category:

Documents


1 download

DESCRIPTION

Libro de estadistica universidad

TRANSCRIPT

Page 1: Libro de estadistica

Indice general

1. Analisis de Datos 7

1.1. Introduccion . . . . . . . . . . . . . . . . . . . 7

1.2. Analisis descriptivo de datos . . . . . . . . . . . 7

1.3. Analisis inferencial . . . . . . . . . . . . . . . . 8

1.4. Conjuntos de Datos . . . . . . . . . . . . . . . 10

2. Analisis exploratorio de datos univariantes 13

2.1. Introduccion . . . . . . . . . . . . . . . . . . . 13

2.2. Presentacion de los datos . . . . . . . . . . . . 14

2.2.1. Distribuciones de frecuencias . . . . . . 15

2.2.2. Diagramas de puntos y de tallo y hojas . 20

2.3. Representaciones graficas . . . . . . . . . . . . 21

2.3.1. Diagramas de sectores . . . . . . . . . . 21

2.3.2. Diagrama de rectangulos . . . . . . . . . 22

2.3.3. Diagrama de Pareto . . . . . . . . . . . . 22

2.3.4. Histogramas . . . . . . . . . . . . . . . . 22

1

Page 2: Libro de estadistica

2 J. L. Dıaz–Barrero

2.3.5. Polıgonos de frecuencies . . . . . . . . . 23

2.3.6. Diagramas de linea o cartas temporales . 23

2.4. Descripcion numerica de datos . . . . . . . . . 23

2.4.1. Parametros de posicion . . . . . . . . . . 24

2.4.2. La media aritmetica . . . . . . . . . . . . 24

2.4.3. La Mediana . . . . . . . . . . . . . . . . 27

2.4.4. Los Percentiles . . . . . . . . . . . . . . . 28

2.4.5. La Moda . . . . . . . . . . . . . . . . . . 29

2.4.6. Parametros de dispersion . . . . . . . . . 29

2.4.7. Rango de un conjunto de datos . . . . . . 29

2.4.8. Rango intercuartılico . . . . . . . . . . . 30

2.4.9. Desviaciones respecto a la media . . . . . 30

2.4.10.La varianza y la desviacion tıpica . . . . . 30

2.4.11.Desviacion media . . . . . . . . . . . . . 32

2.4.12.Coeficiente de variacion de Pearson . . . 32

2.4.13.Parametros de simetrıa . . . . . . . . . . 33

2.4.14.Parametros de forma . . . . . . . . . . . 34

2.4.15.Momentos muestrales . . . . . . . . . . . 34

2.4.16.Box-plot y deteccion de valores atıpicos . 35

2.4.17.Transformaciones . . . . . . . . . . . . . 36

2.5. Problemas de Analisis exploratorio de datos . . 37

3. Analis exploratorio de datos bivariantes 45

Page 3: Libro de estadistica

Analisis de Datos 3

3.1. Variables bidimensionales . . . . . . . . . . . . 45

3.2. Ajuste mınimo-cuadratico . . . . . . . . . . . . 47

3.3. Problemas de Analisis Exploratorio de Datos Bi-variantes . . . . . . . . . . . . . . . . . . . . . 51

4. Conceptos Basicos de Probabilidad 57

4.1. Introduccion . . . . . . . . . . . . . . . . . . . 57

4.2. Definicion axiomatica de probabilidad . . . . . . 59

4.3. Tecnicas de conteo. Combinatoria . . . . . . . . 62

4.3.1. Variaciones con repeticion . . . . . . . . 62

4.3.2. Variaciones ordinarias . . . . . . . . . . 63

4.3.3. Permutaciones ordinarias . . . . . . . . . 64

4.3.4. Permutaciones con repeticion . . . . . . . 64

4.3.5. Combinaciones ordinarias . . . . . . . . 65

4.3.6. Combinaciones con repeticion . . . . . . 66

4.4. Probabilidad condicional . . . . . . . . . . . . . 68

4.5. Sucesos dependientes e independientes . . . . . 69

4.6. Teorema de las probabilidades totales . . . . . . 71

4.7. Formula de Bayes . . . . . . . . . . . . . . . . 72

4.8. Problemas de Probabilidad . . . . . . . . . . . . 73

5. Variables Aleatorias Discretas 85

5.1. Variables aleatorias discretas . . . . . . . . . . 85

5.2. Modelos probabilısticos discretos . . . . . . . . 89

Page 4: Libro de estadistica

4 J. L. Dıaz–Barrero

5.2.1. Distribucion de Bernoulli . . . . . . . . . 89

5.2.2. La Distribucion Binomial . . . . . . . . . 90

5.2.3. Distribucion uniforme discreta . . . . . . 91

5.2.4. La distribucion geometrica . . . . . . . . 91

5.2.5. La distribucion de Poisson . . . . . . . . 92

5.2.6. Perıodo de retorno . . . . . . . . . . . . . 94

5.3. Problemas . . . . . . . . . . . . . . . . . . . . . 94

6. Variables Aleatorias Continuas 101

6.1. Parametros de una variable aleatoria continua . 103

6.2. Modelos probabilısticos continuos . . . . . . . . 104

6.2.1. Distribucion uniforme continua . . . . . 104

6.2.2. Distribucion exponencial . . . . . . . . . 104

6.3. La Distribucion Normal . . . . . . . . . . . . . 105

6.4. El teorema del Lımite Central . . . . . . . . . . 107

6.5. Problemas . . . . . . . . . . . . . . . . . . . . . 109

7. Inferencia Estadıstica: Estimacion de Parametros.Contrastes de Hipotesis 117

7.1. Introduccion . . . . . . . . . . . . . . . . . . . 117

7.2. Muestreo . . . . . . . . . . . . . . . . . . . . . 118

7.3. Estimacion de Parametros . . . . . . . . . . . . 120

7.3.1. Metodos de Estimacion Puntual . . . . . 120

7.3.2. Intervalo de probabilidad e intervalo deconfianza . . . . . . . . . . . . . . . . . 122

Page 5: Libro de estadistica

Analisis de Datos 5

7.4. Distribucion de la Media Muestral . . . . . . . . 123

7.5. Intervalos de confianza en poblaciones normales 123

7.6. Contraste de Hipotesis . . . . . . . . . . . . . . 125

7.6.1. Contrastes para la media . . . . . . . . . 127

7.7. Analisis de la Varianza . . . . . . . . . . . . . . 128

7.8. Test de Chi-cuadrado . . . . . . . . . . . . . . 133

7.9. Problemas de inferencia . . . . . . . . . . . . . 136

Page 6: Libro de estadistica

6 J. L. Dıaz–Barrero

Page 7: Libro de estadistica

Capıtulo 1

Analisis de Datos

1.1. Introduccion

El analisis de datos, tecnicas cuantitativas o estadıstica es elconjunto de metodos y procedimientos encargados de la ob-tencion de informacion util a partir de un conjunto de datos.Consiste en la recopilacion, presentacion, analisis y uso dedatos para la toma de decisiones y la resolucion de proble-mas. Por tanto, el objetivo del analisis de datos es la toma dedecisiones frente a la incertidumbre.

1.2. Analisis descriptivo de datos

Los metodos descriptivos tienen por objeto organizar y resu-mir los datos disponibles de manera que sea posible perci-bir rapidamente las caracterısticas principales y las posiblesanomalıas de los procesos de que provienen, sin intentar in-ferir nada que vaya mas alla de los propios datos.

7

Page 8: Libro de estadistica

8 J. L. Dıaz–Barrero

1.3. Analisis inferencial

Tiene por objeto deducir informacion util sobre una pobla-cion a partir del analisis de muestras de la misma. Hay dosformas de abordar el problema:

1. Estimacion de parametros

2. Contraste de hipotesis o decision estadıstica

La primera consiste en aproximar los parametros poblacio-nales con estadısticos muestrales adecuados o bien calcu-lando intervalos muy probables de posibles valores. En cam-bio, la decision estadıstica consiste basicamente en estable-cer hipotesis sobre los parametros poblacionales y a conti-nuacion utilizar la informacion contenida en las muestraspara decidir si las hipotesis formuladas son o no aceptables.

En general, un analisis de datos consta de las siguientes fa-ses:

Planteamiento del problema que se desea estudiar

Diseno de un plan para la recogida de datos

Analisis exploratorio de los datos (tabulacion, sıntesis,deteccion de valores anomalos y obtencion de primerasconclusiones)

Modelacion del problema

Validacion del modelo

Toma de decisiones

Page 9: Libro de estadistica

Analisis de Datos 9

En cualquier caso, el analisis de datos no dira cual es ladecision que se ha de tomar, sino que aportara informacionpara que, juntamente con otras consideraciones, se este encondiciones para tomarla.

Conceptos fundamentales en el analisis de datos son los depoblacion y muestra. La poblacion es el conjunto de todos loselementos que tienen una determinada caracterıstica, es de-cir, lo que se quiere estudiar. Los elementos de una poblacionse llaman individuos o unidades muestrales. Una muestra escualquier subconjunto de la poblacion, i.e., lo que se puedeestudiar. El numero de elementos de que consta es el tamanoo extension de la muestra. Una muestra es aleatoria cuandocada individuo de la poblacion tiene la misma probabilidadde ser incluido en ella.

Segun su caracter los datos se clasifican en cualitativos oatributos y cuantitativos. Estos ultimos a su vez se clasificanen discretos y continuos. Segun el numero de datos observa-dos en cada individuo de la poblacion estos se clasifican enunivariantes (un solo dato) o multivariantes (mas de un dato).

Finalmente, se expone el orden de actuacion que se consideramas adecuado para el tratamiento de los datos:

Recogida, ordenacion, depuracion y presentacion analıti-ca (tablas) de los datos

Representacion grafica

Evaluacion de estadısticos muestrales y obtencion devalores aproximados de los parametros poblacionales.

Page 10: Libro de estadistica

10 J. L. Dıaz–Barrero

Este apartado se puede concluir diciendo que el analisis dedatos es un elemento decisivo para el incremento de la ca-lidad, dado que las tecnicas cuantitativas permiten estudiarla variabilidad, entendida como el resultado de los cambiosen las condiciones sobre las que se hacen las observaciones.

1.4. Conjuntos de Datos

1. En la siguiente tabla aparecen 80 datos que han sidosimulados con MS Excel:

24,34 46,31 48,86 48,70 60,86 39,77 33,98 47,7749,36 48,21 78,95 63,49 34,43 41,82 55,73 53,8626,64 44,57 45,49 40,24 51,89 61,30 73,09 46,2347,18 51,00 62,41 40,85 49,88 61,22 56,36 59,1231,38 67,82 40,01 31,39 42,61 36,32 68,77 33,1262,20 61,73 53,72 56,24 68,47 41,38 66,33 47,0749,21 35,40 37,50 56,71 43,46 63,56 48,31 59,6469,64 46,17 59,55 29,77 55,63 61,75 32,25 65,2752,06 56,69 35,23 57,12 60,50 40,18 55,98 45,6659,28 45,71 52,20 57,18 33,40 47,03 47,85 62,55

2. Los siguientes datos corresponden al tiempo medio (ensegundos) de envasado de una botella de agua mineral:

1,23 2,01 1,72 2,21 2,05 1,96 1,94 2,13 2,18 2,172,12 2,10 1,86 1,64 1,77 1,90 1,74 1,75 2,50 1,791,41 1,88 2,10 2,04 2,08 2,06 1,76 2,09 2,00 1,872,32 2,12 2,01 1,78 2,19 2,14 2,34 2,19 2,07 1,892,75 1,32 2,11 2,24 2,42 2,31 2,03 1,96 1,82 1,781,77 2,25 1,71 1,53 1,64 2,06 2,00 1,83 2,05 1,63

3. Los siguientes datos corresponden a porcentajes de ba-sura reciclada obtenidos en 100 puntos seleccionados

Page 11: Libro de estadistica

Analisis de Datos 11

aleatoriamente en una gran ciudad y su area Metropoli-tana:

13 25 12 27 45 56 27 34 38 3422 52 34 29 55 36 49 44 47 6126 29 37 32 54 30 37 29 38 4349 36 47 27 46 38 42 53 41 3429 45 45 55 32 25 23 40 30 3143 34 22 22 47 39 25 41 29 4445 33 39 45 27 28 46 40 44 4843 27 37 36 48 55 34 33 47 3532 47 47 39 57 28 24 29 25 5535 47 36 28 25 36 31 43 42 48

Problema 1.1 Para los conjuntos de datos anteriores se pide:

1. Ordenarlos, clasificarlos e intentar decir algo sobre la in-formacion contenida en ellos y presentarla de forma re-sumida.

2. A la vista de lo obtenido en el apartado anterior, ¿se pue-den sacar algunas conclusiones? ¿cuales?

Page 12: Libro de estadistica

12 J. L. Dıaz–Barrero

Page 13: Libro de estadistica

Capıtulo 2

Analisis exploratorio dedatos univariantes

2.1. Introduccion

El Analisis descriptivo de datos es la parte de la Estadısticaencargada de contar, organizar, resumir y representar grafi-camente los datos de forma que sean facilmente perceptiblessus principales caracterısticas. Los elementos de trabajo sonlos datos (variables estadısticas) y estos, como ya se ha co-mentado, pueden ser cualitativos o cuantitativos.

La variables cualitativas describen cualidades de los elemen-tos de la poblacion y no toman valores numericos. Por ejem-plo, la ciudad donde se ha nacido, el color del pelo, la ocupa-cion de los padres, etc., son datos cualitativos.

Las variables cuantitativas toman valores numericos y pue-den ser discretas (toman valores numericos enteros en nume-ro finito o infinito numerable) y continuas cuando toman valo-res dentro de un intervalo. El numero de mensajes electroni-

13

Page 14: Libro de estadistica

14 J. L. Dıaz–Barrero

cos recibidos por un usuario o el numero de veces que seha de lanzar una moneda hasta que aparezca cara son ejem-plos de variables discretas. La hora de llegada de un tren a laestacion, el porcentaje de ocupacion hotelera de una deter-minada comarca o la cotizacion de unas acciones en Bolsa,son ejemplos de datos cuantitativos continuos.

Tambien se utilizan las variables dicotomicas cuando la ca-racterıstica observada toma solo los valores cero y/o uno.Suele ser una variable cualitativa, reflejando dos modalida-des posibles o la presencia o ausencia de una cualidad.

Un caso intermedio entre las variables cualitativas y las cuan-titativas son las variables ordinales cuando los valores tienenun caracter nominal pero admiten una ordenacion. Por ejem-plo, las variables de opinion (muy insatisfecho, insatisfecho,indiferente, satisfecho, muy satisfecho).

Finalmente, cuando sobre un mismo individuo se observamas de una caracterıstica diremos que se trata de una varia-ble multidimensional.

2.2. Presentacion de los datos

Se trata basicamente de establecer la forma de organizar losdatos en tablas y representarlos graficamente mediante dia-gramas con el objetivo de proporcionar una rapida y facil per-cepcion de algunas de sus principales caracterısticas.Habitualmente los datos se organizan en tablas llamadas dis-tribuciones de frecuencias y se representan graficamente me-diante diagramas: de puntos, de rectangulos, de barras y sec-tores, histogramas, polıgonos de frecuencias, cartas tempora-les, pictogramas, etc..Antes de proceder a la representacion grafica de los datos

Page 15: Libro de estadistica

Analisis de Datos 15

es conveniente utilizar un procedimiento semigrafico, cono-cido como diagrama de tallo y hojas que sirve para ordenarlos datos y para hacernos una idea de como estos se hallandistribuidos.

2.2.1. Distribuciones de frecuencias

El resultado de observar una muestra o una poblacion es enun conjunto de datos que recoge los valores que toma unavariable estadıstica sobre los individuos observados. Estosvalores suelen registrarse en forma de listados o protocolos ypueden ser nominales, ordinales o numericos, segun el tipode variable observada. Una primera forma de sintetizar losdatos es analizar que valores aparecen y cuantas veces o enque proporcion aparecen.

Supongamos que se observa una determinada caracterısti-ca X sobre n objetos o individuos. El valor n, como ya seha dicho, es el tamano o extension de la muestra. La mues-tra se denotara por Mx = {x1, x2, · · · , xn} (es el conjuntode valores observados sobre los n individuos), y por Dx ={x1, x2, · · · , xk} el conjunto de valores disitintos que apare-cen en la muestra.Se denomina frecuencia absoluta del valor xi al numero deveces ni que aparece el valor xi en el conjunto Mx, y se de-nota por fa(xi) = ni.Se denomina frecuencia relativa del valor xi a la proporcionde apariciones del valor xi en el conjunto Mx, y se indica por

fr(xi) =ni

n.

Con las frecuencias relativas se elimina la influencia del nume-ro total de observaciones y eso permite la comparacion entreconjuntos de datos de distinto tamano.Cuando los valores x1, x2, · · · , xk admiten una ordenacion

Page 16: Libro de estadistica

16 J. L. Dıaz–Barrero

tiene sentido hablar de frecuencia acumulada hasta el va-lor i−esimo. Supuesta una ordenacion creciente x1 ≤ x2 ≤· · · ≤ xk, se define:

Fa(xi) =i∑

k=1

fa(xk) =i∑

k=1

nk;

Fr(xi) =i∑

k=1

fr(xk) =i∑

k=1

nk

n.

Estos resultados se acostumbran a representar en tablas(distribuciones de frecuencias), indicando en la primera co-lumna los valores observados de la caracterıstica X, ordena-dos de menor a mayor cuando ello es posible, y, en columnassucesivas, las frecuencias absolutas y relativas y las frecuen-cias absolutas acumuladas y relativas acumuladas cuandoello tenga sentido.

xi fa(xi) fr(xi) Fa(xi) Fr(xi)

x1 n1

n1

nn1

n1

n

x2 n2

n2

nn1 + n2

n1 + n2

n...

......

......

xk nk

nk

nn1 + n2 + · · · + nk

n1 + n2 + · · · + nk

n

Para la presentacion de los datos en tablas de frecuencias(presentacion analıtica) hay que distinguir entre variablescualitativas y cuantitativas discretas y continuas. El el casode variables cualitativas o cuantitativas discretas hay pocadiferencia como se muestra en los siguientes ejemplos.

Page 17: Libro de estadistica

Analisis de Datos 17

Ejemplo 2.2.1 De los 60 estudiantes que asisten a clase, 40han nacido en Cataluna, 15 en el resto de Espana y 5 sonextranjeros. Presentar los datos en una tabla de frecuencias.

Solucion. En este caso se trata de una variable cualitativaX que toma los valores {Cataluna,Espana,Extranjero}, confrecuencias absolutas {40, 15, 5} respectivamente. La corres-pondiente tabla de frecuencias es la siguiente:

xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)

Cat 40 66.66 40 66.66Esp 15 25 55 91.66Ext 5 8.33 60 100

Total 60

2

Ejemplo 2.2.2 Durante 100 dıas se ha anotado el numero deveces diarias que se han producido deficiencias en el sumu-nistro electrico por parte de la compania suministradora. Losresultados fueron

xi 0 1 2 3 4 5 6ni 60 30 4 3 1 0 2

Presentar los datos en una tabla de frecuencias y concluir si elsumunistro puede considerarse o no satisfactorio.

Solucion. En este caso se trata de una variable cuantitativadiscreta. Su correspondiente tabla de frecuencias es

Page 18: Libro de estadistica

18 J. L. Dıaz–Barrero

xi fa(xi) fr(xi) Fa(xi) Fr(xi)

0 60 0.60 60 0.601 30 0.30 90 0.902 4 0.04 94 0.943 3 0.03 97 0.974 1 0.01 98 0.985 0 0.00 98 0.986 2 0.02 100 1.00

Total 100

En base a los datos contenidos en la tabla se puede decirque el suministro es correcto ya que en el 90 % de los dıas elsuministro o no presenta o a lo sumo sufre una deficiencia.2

En el caso de datos continuos es conveniente agrupar losvalores observados en clases y representar las frecuenciasde estas clases en tablas que como antes se llaman Tablasde frecuencias.Las fases a seguir son las siguientes:

i. Redondear los datos y expresarlos (si se considera con-veniente) en unidades no decimales.

ii. Decidir el numero de clases a considerar. Normalmentees un numero entre 5 i 20. Para determinarlo a veces seutiliza la formula de Sturges:

NUM = E

[3

4+

log n

log 2

].

Tambien se acostumbra a utilizar la raız cuadrada porexceso del numero de datos.

Page 19: Libro de estadistica

Analisis de Datos 19

iii. Contar el numero de observaciones que caen dentro decada clase, i.e., las frecuencies absolutas y completar latabla de frecuencias.

Se utiliza la siguiente terminologıa:

Clase o intervalo de clase: son cada uno de los intervalosen que se han de agrupar los datos (aunque no es nece-sario es conveniente que sean de igual longitud).

Lımites de clase: son los extremos de cada intervalo de cla-se. El lımite inferior se representa por Li y el lımite su-perior por Ls.

Tamano de la clase: es la diferencia entre el Ls − Li.

Marca de clase: es el punto medio del intervalo de clase. To-dos los elementos de la clase se representan por la mar-ca de clase.

Ejemplo 2.2.3 Los datos siguientes corresponden a los por-centajes de basura recilada de 104 puntos seleccionados alazar en una determinada ciudad. Presentar los datos agrupa-dos en clases y construir la correspondiente tabla de frecuen-cias.

96,4 92,6 92,3 92,0 92,0 91,9 91,8 91,5 90,4 89,489,3 88,4 87,7 87,7 87,3 87,3 87,0 85,8 85,1 84,984,7 84,0 83,2 83,2 83,0 82,4 82,4 82,0 81,9 81,781,4 81,3 81,2 81,1 81,1 81,0 81,0 80,9 80,4 79,879,7 79,4 79,4 79,3 79,2 78,9 78,8 77,6 77,3 77,177,1 77,0 77,0 75,9 75,8 75,6 75,3 74,9 74,4 73,973,8 73,6 72,4 71,9 71,5 71,2 70,7 70,7 70,6 69,969,7 68,8 68,5 68,1 68,1 68,0 67,7 67,7 66,8 65,865,5 65,0 64,7 62,2 61,8 61,4 61,2 60,0 60,0 59,259,0 55,9 55,6 54,9 48,9 48,8 46,7 43,6 42,6 39,138,0 35,0 33,8 32,1

Page 20: Libro de estadistica

20 J. L. Dıaz–Barrero

Solucion. Los 104 datos de que disponemos los distribuiremosen 10 clases. La correspondiente tabla de frecuencias es

Li − Ls xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)

30–37 33.5 3 2.885 3 2.88537–44 40.5 4 3.846 7 6.73144–51 47.5 3 2.885 10 9.61651–58 54.5 3 2.885 13 12.50158–65 61.5 10 9.615 23 22.11665–72 68.5 18 17.308 41 39.42472–79 75.5 18 17.308 59 56.73279–86 82.5 28 26.923 87 83.65586–93 89.5 16 15.385 103 99.0493–100 96.5 1 0.962 104 100Total 104

2

2.2.2. Diagramas de puntos y de tallo y hojas

El diagrama de puntos es util para conjuntos pequenos dedatos, dado que permite ver con rapidez y facilidad la ubica-cion o tendencia central de los datos, ası como su dispersiono variabilidad.

El diagrama de tallo y hojas es un procedimiento semigraficopara presentar variables cuantitativas cuando el numero dedatos no es muy elevado. Las fases de su construccion sonlas siguientes:

i. Redondear los datos y expresarlos en unidades no deci-males.

Page 21: Libro de estadistica

Analisis de Datos 21

ii. Disponer los datos en una tabla a dos columnas sepa-radas por una linea vertical de la forma siguiente:

a. Para datos con dos cifras, las decenas que son el ta-llo, a la izquierda de la linea vertical y las unidadesque son las hojas a la derecha.

b. Para datos con tres cifras las centenas y decenasforman el tallo y las unidades las hojas.

Cada tallo se escribe una vez, el numero de hojas da la fre-cuencia del tallo. Los diagramas de tallo y hojas son tambienutiles para ordenar los datos y para hacernos una idea de lasimetrıa de la distribucion.

2.3. Representaciones graficas

La informacion contenida en las tablas de frecuencias pue-de expresarse en forma grafica sin que esta transformacionsuponga una perdida o ganacia de informacion. Las distribu-ciones de frecuencias se representan graficamente mediantediagramas de barras y rectangulos en el caso de variablescualitatives o cuantitativas discretas y mediante histogramasde frecuencias y polıgonos de frecuencias cuando las varia-bles son continuas. En el caso cualitativo tambien se utilizanlos diagramas de sectores.

2.3.1. Diagramas de sectores

Se construyen de forma que su angulo central y por tantosu area sea proporcional a la frecuencia absoluta correspon-diente. Son utiles para presentar resultados de encuestas,procesos electorales, etc.

Page 22: Libro de estadistica

22 J. L. Dıaz–Barrero

2.3.2. Diagrama de rectangulos

En el eje de abcisas se representan los valores de la varia-ble en cualquier orden y en el de ordenadas se representanlas frecuencias. Cada categorıa se representa mediante unrectangulo de altura proporcional a la frecuencia observada.Los rectangulos tienen todos la misma amplitud de base.

2.3.3. Diagrama de Pareto

Es equivalente al diagrama de rectangulos pero ordenandolas categorıas de mayor a menor frecuencia. Se construyenrepresentando los valores observados en una escala horizon-tal (vertical), les frecuencias en una escala vertical (horizon-tal) y se dibujan segmentos sobre los valores observados delongitudes proporcionales a las frecuencias correspondien-tes. Son utiles para variables cualitativas y cuantitativas dis-cretas. El diagrama de barras acumuladas es como el diagra-ma de barras pero para frecuencias acumuladas.

2.3.4. Histogramas

El Histograma se construye para representar la medida de lasobservaciones que estan agrupadas en clases en un eje hori-zontal, las frecuencias de clase en un eje vertical y se dibu-jan rectangulos con sus bases determinadas por los lımitesde clase y sus alturas proporcionales a las correspondientesfrecuencias de clase. La altura de las clases puede calcularsemediante la expresion

altura =frecuencia relativa

Ls − Li

.

A modo de sıntesis diremos que el histograma es la descrip-

Page 23: Libro de estadistica

Analisis de Datos 23

cion grafica mas importante de la distribucion de las varia-bles continuas. Su forma depende basicamente de las clases,que han de ser elegidas antes de construir la distribucion defrecuencias. Es recomendable que ninguna clase contengamas del 30 % de los datos y tambien que no halla muchasclases vacıas.

2.3.5. Polıgonos de frecuencies

En el caso de datos cualitativos o cuantitativos discretos seconstruyen dibujando una poligonal que una los extremossuperiores de los segmentos del diagrama de barras. En elcaso de datos continuos se toman las frecuencies de clase enlas marcas de clase y se unen los puntos medios de la basesuperior de los rectangulos del histograma mediante segmen-tos.

2.3.6. Diagramas de linea o cartas temporales

Una forma de representar la evolucion de una magnitud alo largo del tiempo es a traves de los graficos temporales.Consisten en dibujar en un grafico cartesiano los puntos quetienen por abcisa el momento en que se raliza la observaciony por ordenada la magnitud de la observacion. Uniendo lospuntos consecutivos mediante lineas se obtiene una poligo-nal que proporciona una idea visual de la evolucion temporalde la variable.

2.4. Descripcion numerica de datos

Los parametros poblacionales y los estadısticos muestra-les son cantidades numericas que resumen la informacion

Page 24: Libro de estadistica

24 J. L. Dıaz–Barrero

contenida en los datos. Se llaman parametros cuando ha-cen referencia a la poblacion y estadısticos cuando los datoscorresponden a una muestra. Se clasifican en:

Parametros de posicion (media aritmetica, mediana,moda, centiles)

Parametros de dispersion (rango del conjunto de da-tos, rango intercuartilico, desviaciones respecto a la me-dia, varianza, desviacion tıpica o estandard, desviacionmedia, coeficiente de variacion de Pearson)

Parametros de asimetrıa (coeficiente de simetrıa: asi-metrıa a la izquierda, simetrıa, asimetrıa a la derecha)

Parametros de forma (coeficiente de kurtosis: platicuarti-cas, mesocuarticas, leptocuarticas).

2.4.1. Parametros de posicion

Son descriptores del conjunto total de los datos. En ciertaforma son las medidas que describen el centro del conjuntode datos y por eso tambien se llaman parametros de centra-lizacion o promedios.

2.4.2. La media aritmetica

La medida mas comun de tendencia central o localizacion esel promedio aritmetico ordinario o media aritmetica. Dadoque casi siempre, los datos con los que se trabaja correspon-den a muestras, es por eso que a la media aritmetica tambiense le conoce como media muestral.Si los datos correspondientes a una muestra de tamano nson

Page 25: Libro de estadistica

Analisis de Datos 25

x1, x2, · · · , xk, con frecuencias f1, f2, · · · , fk, f1 + f2 + · · · +fk = n, entonces la media muestral se define como

x =x1f1 + x2f2 + · · · + xkfk

f1 + f2 + · · · + fk

=1

n

k∑i=1

xifi.

La media muestral x representa el valor promedio de todaslas observaciones en la muestra. Tambien es posible pensaren calcular el promedio de todas las observaciones de unapoblacion. Este promedio se conoce como la media pobla-cional y se acostumbra a representar per la letra griega µ.

Ejemplo 2.4.1 Determinar un valor aproximado de la mediaaritmetica de un conjunto de datos del que se dispone de lasiguiente informacion:

Li − Ls xi fa(xi) fr(xi)( %) Fa(xi) Fr(xi)( %)

30–37 33.5 3 2.885 3 2.88537–44 40.5 4 3.846 7 6.73144–51 47.5 3 2.885 10 9.61651–58 54.5 3 2.885 13 12.50158–65 61.5 10 9.615 23 22.11665–72 68.5 18 17.308 41 39.42472–79 75.5 18 17.308 59 56.73279–86 82.5 28 26.923 87 83.65586–93 89.5 16 15.385 103 99.04

93–100 96.5 1 0.962 104 100Total 104

Solucion. La media aritmetica es

x =x1f1 + x2f2 + · · · + xkfk

f1 + f2 + · · · + fk

=1

n

k∑i=1

xifi =7614

104= 73,21

Page 26: Libro de estadistica

26 J. L. Dıaz–Barrero

donde se han tomado las marcas de clase como representan-tes de todos los elementos contenidos en ellas. 2

La media goza de la siguiente propiedad:

(i) x + y + · · · + z = x + y + · · · + z

(ii) ax = ax.

El valor de la media, a diferencia de otros parametros de posi-cion, no depende del orden en que se hayan escrito los datos.Si

x1, x2, · · · , xn

es un conjunto de observaciones, se acostumbra a represen-tar por

x(1), x(2), · · · , x(n)

al conjunto de las mismas observaciones ordenadas de me-nor a mayor.

Se llama robustez de un parametro a su resistencia o sensi-bilidad a los valores extremos, tambien conocidos como da-tos atıpicos o outliers. Son valores correctos, pero que secaracterizan por una diferencia pronunciada respecto a losdemas datos. Deben analizarse cuidadosamente para deter-minar si provienen de otra poblacion. Caso de correspondera la poblacion analizada, puede interesar no considerarlospara el calculo de estadısticos muy sensibles a los valoresextremos.

La media aritmetica, como ya se ha dicho, es muy sensible alos valores extremos. Esta falta de robustez se remedia con lamedia recortada que modera el efecto de los datos atıpicosen el calculo de la media aritmetica suprimiendo los valoresextremos. La media recortada al α por ciento es la media delos datos que quedan despues de suprimir el α/2 por cien-to de los datos mas grandes y el α/2 por ciento de los mas

Page 27: Libro de estadistica

Analisis de Datos 27

pequenos. La media aritmetica ponderada es equivalente ala media aritmetica, pero para observaciones ponderadas porpesos w1, w2, · · · , wk. Se define por

xp =

k∑i=1

wixi

k∑i=1

wi

.

2.4.3. La Mediana

La mediana de un conjunto de datos es un valor que di-vide a la muestra en dos partes iguales cuando estos se ha-llan ordenados. Cuando la muestra consta de un numero parde elementos, cualquier numero entre los dos centrales sa-tisface la definicion de mediana. En tal caso, sin embargo,es conveniente tomar la media aritmetica de los dos valorescentrales como mediana. Sintetizando, con datos ordenadosla mediana se define como

MeX = x =

x(n+12

), n impar,x(n/2) + x(n/2+1)

2, n par.

Cuando los datos estan agrupados en clases, para calcularla mediana se utilizan las expresiones:

(a)

x = MeX = Li + c

(n

2

)− Fi−1

fi

donde Li es el lımite inferior de la clase mediana, c esla amplitud de la clase, n el numero total de datos, Fi−1

la frecuencia absoluta acumulada de la clase anterior a

Page 28: Libro de estadistica

28 J. L. Dıaz–Barrero

la clase mediana y fi la frecuencia absoluta de la clasemediana

(b)

x = MeX = Li + c(j/fi)

donde Li es el lımite inferior de la clase mediana, c esla amplitud de la clase, j es el numero de observacionesen esta clase hasta completar un total de n/2 y fi lafrecuencia de la clase mediana.

Observese que las expresiones (a) y (b) dicen lo mismo dadoque n/2 − Fi−1 = j.

2.4.4. Los Percentiles

Otros parametros mas generals que la mediana son los cen-tiles que son los puntos que dividen la serie de datos orde-nados en cien partes iguales. En general, el k-esimo centil xk

es un valor tal que, al menos el k % de las observaciones que-dan en el valor o por debajo de el, y al menos el (100 − k) %estan en el valor o por encima de el. En el caso de datos agru-pados en clases para aproximar su valor se puede utilizar laformula

xk = Li + c

( nk

100

)− Fk−1

fk

Algunos reciben nombres particulares. Ası x25 = qi = q1 =P0,25 es el cuartil inferior (el 25 % de los datos son mas pe-quenos o iguales que el). La mediana x = x50 = P0,50. Elcentil x75 = qs = q3 = P0,75 es el cuartil superior (el 75 % delos datos son inferiores o iguales a el.)

Page 29: Libro de estadistica

Analisis de Datos 29

2.4.5. La Moda

Es la observacion que presenta mayor frecuencia en la mues-tra. Cuando en la muestra hay mas de una observacion conla maxima frecuencia la distribucion se dice bimodal si haydos modas, y en general, multimodal si hay tres o mas mo-das. En el caso de datos agrupados la moda se puede obteneraproximadamente a partir de la formula

MoX = Li + cD1

D1 + D2

donde Li es el lımite inferior de la clase modal, c es el tamanode la clase modal, D1 la diferencia entre la frecuencia abso-luta de la clase modal y la anterior y D2 la diferencia entre lafrecuencia absoluta de la clase modal y la posterior.

2.4.6. Parametros de dispersion

Las medidas de variabilidad o parametros de dispersion danuna idea de hasta que punto los datos se dispersan o agru-pan en torno a los valores centrales.

2.4.7. Rango de un conjunto de datos

El menor valor observado en la muestra es el mınimo, i.e.,

min{x1, x2, · · · , xn} = x(1).

El mayor valor observado en la muestra es el maximo, i.e.,

max{x1, x2, · · · , xn} = x(n).

Page 30: Libro de estadistica

30 J. L. Dıaz–Barrero

Una de las medidas mas sencillas de variabilidad es el rangoque se define como la diferencia entre los valores maximo ymınimo, es decir,

R = max{x1, x2, · · · , xn}−min{x1, x2, · · · , xn} = x(n)−x(1).

Este parametro es muy sensible (poco robusto) a los valoresextremos de la muestra.

2.4.8. Rango intercuartılico

Se define como la diferencia entre el cuartil superior y el in-ferior, i.e.,

Riq = qs − qi = x75 − x25.

Es menos sensible a los valores extremos que el rango delconjunto de datos.

2.4.9. Desviaciones respecto a la media

Son las diferencias (errores) entre cada dato y su media arit-metica. Si los datos son

x1, x2, · · · , xn,

entonces las desviaciones respecto a la media o errores abso-lutos son x1 − x, x2 − x, · · · , xn − x. Estas diferencias tienenla propiedad de que su suma es zero.

2.4.10. La varianza y la desviacion tıpica

Son las medidas mas importantes de variabilidad. Si x1, x2, · · · , xn,es una muestra de n observaciones, entonces la varianza se

Page 31: Libro de estadistica

Analisis de Datos 31

define como la media aritmetica de los cuadrados de las des-viaciones respecto a la media. Es decir,

s2 =1

n

n∑k=1

(xk − x)2 =1

n

n∑k=1

x2k − x2.

Tambien se puede definir el estadıstico varianza muestral co-rregida por

s2c =

1

n − 1

n∑k=1

(xk − x)2 =1

n − 1

{n∑

k=1

x2k − nx2

}.

La desviacion muestral estandard, s, es la raız cuadradapositiva de la varianza, i.e.,

s =

√√√√ 1

n

n∑k=1

(xk − x)2 =

√√√√ 1

n

n∑k=1

x2k − x2.

La varianza goza de la siguiente propiedad

V ar(aX + b) = a2V ar(X)

y la desviacion tıpica verifica

SaX+b = |a|SX.

El error estandard de la media se define por se = s/√

n.

Cuando solo se conocen la media x y la desviacion tıpica sde un conjunto de datos, la regla empırica de Chebyshevpermite otra interpretacion de la desviecion tıpica propor-cionando informacion sobre el numero de observaciones quecaen en los siguientes intervalos:

(x − 2s, x + 2s) contiene al menos el 75 % de los datos.

Page 32: Libro de estadistica

32 J. L. Dıaz–Barrero

(x − 3s, x + 3s) contiene al menos el 88 % de los datos.

(x − 4s, x + 4s) contiene al menos el 93 % de los datos.

2.4.11. Desviacion media

Es la media aritmetica de los valores absolutos de las desvia-ciones respecto a la media, es decir,

d =1

n

n∑k=1

|xk − x|.

Aunque no se cumple de forma exacta, se puede decir que larelacion entre d y s, viene dada por d ' 0,8s.

2.4.12. Coeficiente de variacion de Pearson

Cuando se quiere expresar la variacion como una fraccion dela media se puede utilizar una medida porcentual de variabi-lidad relativa, denominada coeficiente de variacion mues-tral, que se define por

Cv =s

|x|× 100, x 6= 0

e indica la magnitud promedio del error (desviacion tıpica)como porcentaje de la media. Es util para comparar las dis-persiones de variables que aparecen en unidades distintas oque difieren considerablemente en la magnitud de las obser-vaciones.

Si el Cv es menor que 100, indica homogeneidad en los datos;si es mayor que 150 puede ser indicio de heterogeneidadesdebidas a mezclas de poblaciones distintas; esto puede darse

Page 33: Libro de estadistica

Analisis de Datos 33

de forma no evidente en una primera aproximacion cuandohan sido utilizados instrumentos distintos para la medicionde parte de los objetos, o bien se han realizado las obser-vaciones en momentos distintos o por personas distintas deforma que estos factores hayan influido en los resultados.

2.4.13. Parametros de simetrıa

Otro rasgo interesante, ademas de la posicion y la dispersionde los datos es la simetrıa de las observaciones respecto ala media. Esta puede detectarse a partir de la representaciongrafica de las frecuencias (diagramas de barras, histogramas,polıgonos de frecuencia). Indicadores numericos son la rela-cion entre la media, mediana y moda:

Mo ≈ x ≈ x indica simetrıa.

Mo � x � x indica simetrıa negativa (a la izquierda).

Mo � x � x indica simetrıa positiva (a la derecha).

Otro indicador numerico es el coeficiente de asimetrıa quese define a partir de las desviaciones respecto a la media x1−x, x2 − x, · · · , xn − x, por

CasX =1

ns3X

n∑k=1

(xk − x)3.

Este coeficiente, que es adimensional, vale cero para distri-buciones simetricas alrededor de la media. Es negativo paradistribuciones asimetricas a la izquierda y positivo para dis-tribuciones asimetricas a la derecha.

Si se detecta una asimetrıa junto con datos atıpicos, es con-veniente estudiar la viabilidad de una transformacion de losdatos.

Page 34: Libro de estadistica

34 J. L. Dıaz–Barrero

2.4.14. Parametros de forma

Otra caracterıstica de interes en una distribucion de datos essu apuntamiento o kurtosis. Considerando las cuartas po-tencias de las desviaciones respecto a la media se define elcoeficiente de apuntamiento por

CapX =1

ns4X

n∑k=1

(xk − x)4.

Este apuntamiento se suele comparar con una distribucionpatron, generalmente la normal, y la distribucion se dice lep-tocuartica cuando esta mas apuntada que la normal (Cap ≥3), mesocuartica cuando su apuntamiento es similar al dela normal y platicuartica cuando esta menos apunatada quela normal (Cap ≤ 3).

2.4.15. Momentos muestrales

El momento muestral r-esimo en torno al orıgen se definepor

m′r =

1

n

n∑k=1

xrk.

El momento muestral r-esimo en torno a la media se de-fine por

mr =1

n

n∑k=1

(xk − x)r.

Observese que m′1 = x y m2 = s2.

Page 35: Libro de estadistica

Analisis de Datos 35

2.4.16. Box-plot y deteccion de valores atıpi-cos

El box-plot o diagrama de caja es un procedimiento graficoque permite describir en forma resumida algunas de las ca-racterısticas mas importantes de un conjunto de datos. Estasson: el centro, la dispersion, las asimetrıas y la distribucionde valores anomalos. Su construccion se basa en medidasresistentes a la presencia de valores atıpicos.

Las fases a seguir para construir un box-plot son:

Calculo del rango intercuartilico Riq = q3 − q1.

Calculo de los intervalos [f1, f3] y [F1, F3] con

f1 = q1 − 1,5Riq f3 = q3 + 1,5Riq

yF1 = q1 − 3Riq F3 = q3 + 3Riq.

Si la asimetrıa en los datos es pequena, entonces los va-lores observados en [F1, f1] o en [f3, F3] se considerancomo anomalias moderadas y los observados antes deF1 y despues de F3 como anomalias extremas.

Este diagrama que puede servir para filtrar los datos de po-sibles errores, esta formado por una caja o rectangulo hori-zontal o vertical, que presenta los tres cuartiles y los valo-res maximo y mınimo de los datos. La arista izquierda delrectangulo corresponde al cuartil q1 y la derecha a q3. Den-tro del rectangulo se dibuja una linea que corresponde a lamediana. Desde cualquier arista se extienden unas lineas obigotes que contienen todas las observaciones comprendi-das entre cero y 1,5 veces el rango intercuartılico o barrerasinteriores. Los valores en que finalizan los bigotes se llamanadjuntos.

Page 36: Libro de estadistica

36 J. L. Dıaz–Barrero

2.4.17. Transformaciones

A veces a los datos es conveniente aplicarles transforma-ciones lineales de la forma yi = a + bxi. Se cumple quey = a + bx y que s2

y = b2s2x. Una de las transformaciones

lineales mas importantes es la tipificacion o estandariza-cion de una variable que para una serie de observacionesx1, x2, · · · , xn, se define por

zi =xi − x

s.

Se verifica que z = 0 y s2z = 1 y carece de unidades, lo que

permite una comparacion directa entre fenomenos de distin-ta ındole. Cuando la distribucion es muy asimetrica se sue-len aplicar transformaciones no lineales. Como regla gene-ral se tiene que si el cociente xmax/xmin es menor que 2, latransformacion no modificara mucho la forma de la distribu-cion, mientras que para un cociente mayor que 10 el efectosera acusado. Las mas utilizadas son y = x2 que comprimela escala para valores pequenos y la expande para valoresgrandes. Es util para asimetrıas a la izquierda. Para asime-trıas a la derecha se utilizan las transformaciones y = ln(x)e y = 1/x que comprimen los valores grandes y expanden lospequenos. La mas utilizada es el logaritmo neperiano.

Page 37: Libro de estadistica

Analisis de Datos 37

2.5. Problemas de Analisis explorato-rio de datos

Problema 2.1 Dado el siguiente conjunto de datos

105 221 183 186 121 181 180 14397 154 153 174 120 168 167 141245 228 174 199 181 158 176 110163 131 154 115 160 208 158 133207 180 190 193 194 133 156 123134 178 76 167 184 135 229 146218 157 101 171 165 172 158 169199 151 142 163 145 171 148 158160 175 149 87 160 237 150 135196 201 200 176 150 170 118 149

a. Ordenar los datos.

b. Hacer una tabla de frecuencias agrupando los datos ennueve clases (utilizar el rango 70–250).

c. Representar graficamente la distribucion de frecuencias me-diante un histograma.

d. Dibujar los correspondientes polıgonos de frecuencias (ordi-narias y acumuladas)

Problema 2.2 Para asistir a una feria de la construccion haydos tipos de entradas: empresas 25 euros y particulares 4 eu-ros. Sabiendo que el precio medio resulto 18 euros. ¿Que pro-porcion de empresas asisitio a la feria?

Solucion. Sean p1 y p2 las propociones respectivas de empre-sas y particulares que asisten a la feria y x1 y x2 los precios

Page 38: Libro de estadistica

38 J. L. Dıaz–Barrero

de las entradas. Entonces, x = x1p1 + x2p2 con p1 + p2 = 1.Sustituyendo los datos del enunciado, resulta

25p1 + 4p2 = 18

p1 + p2 = 1

}.

Resolviendo el sistema anterior se obtiene p1 = 2/3 y p2 =1/3. 2

Problema 2.3 Durante los 6 ultimos anos el precio del litro degasoil (en pts.) ha sufrido las siguientes variaciones:

55, 62, 72, 90, 120, 115.

Un pequeno transportista ha tanido 2 camiones los dos pri-meros anos, 3 durante el tercero y 4 los tres ultimos. Hallarel precio medio pagado por el transportista por cada litro degasoil consumido durante los 6 anos.

Solucion. Cuando todos los valores que intervienen en la va-riable X no tienen la misma trascendencia, para obtener lamedia aritmetica es preciso tener en cuenta la importanciade cada dato, esto es ponderarlos.Esta ponderacion se efectua asignando a cada valor un coe-ficiente de importancia o peso. Ası si x1, x2, · · · , xn son losvalores que toma X con frecuencias f1, f2, · · · , fn y pesosw1, w2, · · · , wn, la media aritmetica ponderada se calcula por

x =

n∑k=1

xkfkwk

n∑k=1

fkwk

En el caso que nos ocupa X = {55, 62, 72, 90, 120, 115} con

pesos {2, 2, 3, 4, 4, 4} con lo que x =1750

19= 92,10 pts. 2

Page 39: Libro de estadistica

Analisis de Datos 39

Problema 2.4 En un area de servicio de una autopista se de-sarrollo un proceso para atender a los clientes durante la horapunta del almuerzo. Se registro el tiempo de espera de todoslos clientes que fueron atendidos durante una semana. Se se-lecciono una muestra aleatoria de 16 clientes y los resultadosfueron:

4,21, 5,55, 3,02, 5,13, 4,77, 2,34, 3,54, 4,15

3,20, 4,50, 6,10, 0,38, 5,12, 6,46, 6,19, 3,79

Obtener los siguientes estadısticos muestrales:(1) media aritmetica, (2) mediana, (3) primer cuartil, (4) tercercuartil, (5) segundo decil, (6) percentil x84, (7) el rango, (8) elrango intercartılico, (9) la varianza, (10) la desviacion estandar,(11) la desviacion media, (12) el coeficiente de variacion dePearson.

Problema 2.5 Comprobar que la varianza puede escribirse enla forma

s2 =1

n

n∑k=1

x2k − x2.

¿Cuando sera cero? ¿Y negativa?

Problema 2.6 Dos variables constan de dos datos cada una.La media de estas es la misma, y tambien lo son sus desvia-ciones tıpicas. ¿Son necesariamente iguales los dos conjuntosde datos? ¿Y si las variables tuviesen 3 datos cada una?

Solucion. La respuesta a la primera pregunta es afirmativa.En efecto, sean X = {x1, x2} e Y = {y1, y2} los dos conjun-tos de adtos. Entonces, si x = y resulta

x1 + x2

2=

y1 + y2

2; x1 + x2 = y1 + y2. (2.1)

Page 40: Libro de estadistica

40 J. L. Dıaz–Barrero

Observese que x1 − x =x1 − x2

2, x2 − x =

x1 − x2

2, e igual-

mente y1 − y =y1 − y2

2, y2 − y =

y1 − y2

2.

Entonces,

S2x =

(x1 − x)2 + (x2 − x)2

2=

(x1 − x2)2

4,

S2y =

(y1 − y)2 + (y2 − y)2

2=

(y1 − y2)2

4.

Si S2x = S2

y, entonces

(x1 − x2)2 = (y1 − y2)

2 (2.2)

De (2.1) y (2.2) resulta x1 = y1 y x2 = y2 or x2 = y1 y x1 = y2

como se habıa anunciado.

La respuesta a la segunda pregunta es no. En efecto, bastacon encontrar un contraejemplo. Sean X = {−3, 2, 1} e Y ={−1, −2, 3} ambos tienen media 0 e igual varianza, pero sondistintos. 2

Problema 2.7 En la determinacion complexometrica del Zn con-tenido en una muestra de un determinado material se obtuvie-ron los siguientes resultados ( %): 10,02, 10,04, 9,98, 10,48. Enbase a estos resultados, ¿que dato se podrıa tomar como opti-mo? ¿Porque?

Solucion. La media aritmetica de las observaciones es x =10,125. Las correspondientes desviaciones medias son

|x1 − x| = 0,105, |x2 − x| = 0,085,|x3 − x| = 0,170, |x4 − x| = 0,335.

Parece razonable tomar x2 como valor optimo por ser el quemas se acerca a la media aritmetica de los resultados. 2

Page 41: Libro de estadistica

Analisis de Datos 41

Problema 2.8 Los siguientes datos corresponden a la resis-tencia a la tension (kgf/cm2)de un mortero portland:

17,50 17,63 18,25 18,00 17,8617,75 18,22 17,90 17,96 18,15

Un ingeniero agrega un polımero de latex al mortero para deter-minar sus efectos sobre la resistencia a la tension. Los datosobtenidos con este experimento fueron:

16,85 16,40 17,21 16,35 16,5217,04 16,96 17,15 16,59 16,57

a. Ordenar los datos de ambos conjuntos y representarlos gra-ficamente de forma que sea facil percibir su tendenciacentral ası como su variabilidad. ¿Que se puede concluir?

b. Hallar la media y la desviacion tıpica de cada conjunto dedatos y comparar los resultados con los del apartado an-terior.

Problema 2.9 Cinco determinaciones de Fe en un mineral porvolumetrıa dieron como resultado:

67,48, 67,37, 67,43, 67,40, 67,47.

Calcular los estadısticos que se consideren apropiados paradetectar si hay algun valor anomalo. Suponiendo que el proce-dimiento se acepta como valido siempre que la dispersion delos datos no supere el 0,08 %, ¿podrıa decirse que los resul-tados obtenidos en la volumetrıa anterior han sido satisfacto-rios?

Solucion. Calculando los estadısticos: media, mediana, va-rianza, desviacion tıpica y coeficiente de variacion se obtiene

x = 67,43 M = 67,43 s2 = 0,0017 s = 0,0415 CV = 0,06 %

Page 42: Libro de estadistica

42 J. L. Dıaz–Barrero

Dado que el coeficiente de variacion es inferior al 0,08 % sepuede concluir que los resultados obtenidos son satisfacto-rios. 2

Problema 2.10 Sobre un conjunto de datos X se dispone dela siguiente informacion

Clases Punto medio Frecuencia

58.5–61.5 60 461.5–64.5 63 864.5–67.5 66 1267.5–70.5 69 1370.5–73.5 72 2173.5–76.5 75 1576.5–79.5 78 1279.5–82.5 81 982.5–85.5 84 485.5–88.5 87 2

Calcular el numero de datos. Hallar la media, la mediana, lamoda y los cuartiles. La varianza, desviacion tıpica y coefi-ciente de variacion de Pearson. Los coeficientes de asimetrıa ykurtosis.

Problema 2.11 El Departamento de Recursos Naturales ini-cio un programa de seguimiento de la precipitacion acida conel fin de desarrollar controles apropiados de polucion del airepara reducir el problema de la lluvia acida. Se midio la aci-dez de las primeras 50 lluvias registradas, en escala pH, ob-

Page 43: Libro de estadistica

Analisis de Datos 43

teniendose los siguientes resultados:

3,58 3,80 4,01 4,01 4,05 4,05 4,12 4,18 4,20 4,214,27 4,28 4,30 4,32 4,33 4,35 4,35 4,41 4,42 4,454,45 4,50 4,50 4,50 4,50 4,51 4,52 4,52 4,52 4,574,58 4,60 4,61 4,61 4,62 4,62 4,65 4,70 4,70 4,704,70 4,72 4,78 4,78 4,80 5,07 5,20 5,26 5,41 5,48

Analizar estos datos (tabulacion de frecuencias, calculo de es-tadısticos, representacion grafica y deteccion de valores anoma-los)(Observese que todas las lluvias son mas acidas que la lluvianormal, cuyo pH es 5,6).

Problema 2.12 Para estudiar la presencia de plomo en la atmosfe-ra (µgr/m3) se han realizado 64 mediciones en una autopistay se han obtenido los siguientes resultados:

6,7 5,4 5,2 6,0 8,7 6,0 6,4 8,35,3 5,9 7,6 5,0 6,9 6,8 4,9 6,35,0 6,0 7,2 8,0 8,1 7,2 10,9 9,28,6 6,2 6,1 6,5 7,8 6,2 8,5 6,48,1 2,1 6,1 6,5 7,9 15,1 9,5 10,68,4 8,3 5,9 6,0 6,4 3,9 9,9 7,66,8 8,6 8,5 11,2 7,0 7,1 6,0 9,010,1 8,0 6,8 7,3 9,7 9,3 3,2 6,4

Hacer un analisis exploratorio de estos datos: escribir una ta-bla de frecuencias, calcular los estadısticos que se considerenapropiados, dibujar el histograma y los polıgonos de frecuen-cias ordinarias y acumuladas. Detectar los valores anomalos,si los hay, haciendo el correspondiente box–plot.

Problema 2.13 En las grandes ciudades la calidad del airese controla periodicamente. El estado de alarma L se presen-ta cuando el ındice de contaminacion se halla entre 275 y 350.

Page 44: Libro de estadistica

44 J. L. Dıaz–Barrero

El estado de alarma G se presenta cuando el ındice de con-taminacion supera el valor 350. Suponiendo que el ındice decontaminacion se distribuye con media 125 y desviacion tıpica75 y sin conocer nada mas acerca de la distribucion, ¿que po-demos decir sobre la proporcion de dıas que se declarara laalerta L?, ¿y la alerta G?

Page 45: Libro de estadistica

Capıtulo 3

Analis exploratorio dedatos bivariantes

3.1. Variables bidimensionales

Se llama variable estadıstica bidimensional al conjunto deparejas de valores que resultan de la observacion conjuntade dos caracterısticas medibles X e Y de una poblacion. Unamuestra compuesta por n pares de datos toma la forma

Mx,y = {(x1, y1), (x2, y2), · · · , (xn, yn)}.

De forma analoga a como se hizo en el caso de datos univa-riantes se define la frecuencia absoluta del par (xi, yj) comoel numero de apariciones de (xi, yj) en la muestra Mx,y. Lafrecuencia relativa de (xi, yj) es la proporcion de aparicio-nes de (xi, yj) respecto al numero total de observaciones. Serepresentan, respectivamente, por fa(xi, yj) y fr(xi, yj).

Si x1, x2, · · · , xh son los h valores distintos de la caracterısti-ca X e y1, y2, · · · , yk son los k valores distintos de Y, se llamadistribucion conjunta de frecuencias absolutas a la tablade doble entrada que contiene las frecuencias absolutas de

45

Page 46: Libro de estadistica

46 J. L. Dıaz–Barrero

los pares (xi, yj). En ella, se escriben los elementos de unavariable en fila los de la otra en columna y, en la interseccionde cada fila y cada columna, se escriben las frecuencias de lapareja de valores correspondiente.

X \ Y y1 y2 . . . yk

x1 f11 f12 . . . f1k

x2 f21 f22 . . . f2k

......

... . . . ...xh fh1 fh2 . . . fhk

Si se anade a la tabla de doble entrada de una distribucionbivariante una fila y una columna con los totales respectivosse obtienen dos distribuciones unidimensionales: la formadapor la primera y ultima columna por un lado y la formada porla primera y la ultima fila por otro. Estas reciben el nombrede distribuciones marginales de la X y la Y respectivamen-te.

X \ Y y1 y2 . . . yk

x1 f11 f12 . . . f1k

∑f1j

x2 f21 f22 . . . f2k

∑f2j

......

... . . . ......

xh fh1 fh2 . . . fhk

∑fhj∑

fi1

∑fi2 . . .

∑fik N

Las distribuciones marginales son las distribuciones de cadauna de les variables consideradas por separado, sin tener encuenta los valores de la otra.

Procediendo de forma analoga se obtienen las distribucionesconjunta y marginales de frecuencias relativas.

Page 47: Libro de estadistica

Analisis de Datos 47

3.2. Ajuste mınimo-cuadratico

Si se dispone de n parejas de datos se pueden representargraficamente en un sistema de ejes X-Y. A esta representa-cion cartesiana de las parejas de valores que correspondena una variable bidimensional se le denomina diagrama dedispersion, scattergram o nube de puntos. La observacionde la nube de puntos solo proporciona una idea intuitiva dela posible relacion o dependencia entre las variables. A con-tinuacion se presenta un procedimiento para hallar esta re-lacion cuando sea lineal, i.e. cuando los puntos que resultanestan aproximadamente situados alrededor de una recta. Sise supone que los datos, en general de naturaleza diferente,son

X : x1 x2 . . . xn

Y : y1 y2 . . . yn

Se llama variable control o variable independiente a la va-riable X y variable dependiente o variable respuesta a Y .La variable control toma sus valores libremente, y posible-mente en una etapa previa a la realizacion de los experimen-tos que conduciran a obtener los valores de la variable res-puesta.

Un procedimiento de ajuste es el metodo de los mınimoscuadrados (Legendre, pricipios del siglo XIX) y proporcionalos parametros α = a y β = b de la recta y = α + βx para laque (a, b) es un mınimo de la funcion

L(α, β) =n∑

i=1

[yi − α − βxi

]2

.

Siguiendo el procedimiento habitual para minimizar la fun-cion L(α, β) resultan las ecuaciones normales

Page 48: Libro de estadistica

48 J. L. Dıaz–Barrero

∂L

∂α= 0,

∂L

∂β= 0

que tienen por solucion

β = b =Sxy

S2X

α = a = y − bx

donde

Sxy =1

n

n∑i=1

(xi − x)(yi − y)

es la covarianza muestral de X e Y y S2x =

1

n

n∑i=1

(xi − x)2

es la varianza de X. La diferencia yi − (a+ bxi) = ei se llamaresiduo del modelo en xi. El numero

S2ε =

1

n − 2

n∑i=1

e2i

es un estimador de la varinza residual y sirve para dar unaidea de la magnitud de los residuos.

Supongamos que conocemos la recta de ajuste que liga dosvariables X e Y y que tiene por ecuacion

y = a + bx = y + b(x − x)

Ahora cabe preguntarse como se puede relacionar el valor yi

con el valor predicho por el model yi? La respuesta es que

y = y + b(xi − x).

Page 49: Libro de estadistica

Analisis de Datos 49

En particular,

yi ' yi = y + b(xi − x), i = 1, 2, · · · , n.

De aquı resulta

yi − y ' b(xi − x), i = 1, 2, · · · , n,

o bien

yi − y = b(xi − x) + ei, i = 1, 2, · · · , n (3.1)

Esto significa que la variacion de y respecto a y es debida enparte a la relacion de linealidad entre X e Y y en parte no.La diferencia yi − y se llama variacion total de yi y es iguala la suma de la variacion explicada por el modelo b(xi − x)mas la variacion no explicada o residual ei..

Como puede verse cuanto menor sea |εi|, i.e., cuanto mayorsea la parte de la variacion debida a la relacion lineal mejorsera el ajuste. Ahora conviene tener en cuenta todos los datosy definir:

Variabilidad total≡ V T =n∑

i=1

(yi − y)2

Variabilidad explicada≡ V E =n∑

i=1

b2(xi − x)2

Variabilidad no explicada o residual≡ V NE =n∑

i=1

e2i .

Page 50: Libro de estadistica

50 J. L. Dıaz–Barrero

Puede demostrarse que

n∑i=1

e2i =

n∑i=1

(yi − y)2 −n∑

i=1

b2(xi − x)2.

Dado que

VT=VE+VNE

resulta

n∑i=1

(yi − y)2 = b2

n∑i=1

(xi − x)2 +n∑

i=1

e2i (3.2)

Ahora, a partir de (3.2) se puede escribir

nS2Y = nb2S2

X + (n − 2)S2e

y definir el coeficiente de determinacion como el porcentajede variabilidad explicado por el modelo, i.e.,

r2 =V E

V T=

b2S2X

S2Y

=S2

xy

S2xS2

y

y el coeficiente de correlacion muestral de Pearson por

r =Sxy

SxSy

.

El coeficiente de correlacion (determinacion) sirve para daruna medida de la dependencia funcional (lineal) entre las va-riables X e Y. El criterio que se acostumbra a utilizar es elsiguiente:

Si |r| < 0,5, entonces la dependencia se considera debil.

Page 51: Libro de estadistica

Analisis de Datos 51

Si 0,5 ≤ |r| < 0,8, entonces la dependencia se consideramoderada.

Si 0,8 ≤ |r| < 1, entonces la dependencia se considerafuerte.

Tambien se utiliza la siguiente nomenclatura: si |r| = 1 se di-ce que hay dependencia funcional lineal entre las variables;si −1 < r < 0 se habla de dependencia aleatoria con corre-lacion negativa o inversa; si 0 < r < 1, la dependencia esaleatoria con correlacion positiva o directa y finalmente, sir = 0 se dice que las variables X e Y son incorrelacionadas(condicion necesaria).

Otras expresiones de la recta de ajuste son:

Y sobre X : y − y =Sxy

S2x

(x − x).

X sobre Y : x − x =Sxy

S2y

(y − y).

Observese que la recta de ajuste siempre pasa por (x, y) elcentro de gravedad de los datos. (Reflexionar sobre los valoresatıpicos).

3.3. Problemas de Analisis Explorato-rio de Datos Bivariantes

Problema 3.1 En una muestra de 20 empresas del sector dela construccion se obtuvieron los siguientes datos sobre el nume-ro de empleados X y sus ingresos anuales Y (104 euros)

Page 52: Libro de estadistica

52 J. L. Dıaz–Barrero

X/Y 50-100 100-250 250-100010-30 6 2 030-50 1 1 0

50-100 0 0 10

a) Calcular la media de los ingresos anuales y del numero em-pleados. Obtener tambien su varianza.

b) Calcular los coeficientes de variacion e interpretar los resul-tados obtenidos.

c) Obtener, aplicando el metodo de los mınimos cuadrados,una recta que ajuste los datos y permita predecir los in-gresos medios anuales en funcion del numero de emplea-dos.

Problema 3.2 En un estudio sobre la relacion existente entreel tiempo que tarda un obrero de una autopista en realizaruna tarea en la manana (X) y al final de la tarde (Y ), se hanobtenido los siguientes datos:

10∑k=1

xk = 86,7,10∑

k=1

x2k = 771,35,

10∑k=1

yk = 88,8,

10∑k=1

y2k = 819,34,

10∑k=1

xkyk = 792,92.

Calcular el coeficiente de correlacion e interpretar el resultado.

Problema 3.3 Los datos siguientes corresponden a dos varia-bles X e Y :

X 1.5 1.5 2.0 2.5 2.5 3.0 3.5 3.5 4.0Y 23.0 24.5 25.0 30.0 33.5 40.0 40.5 47.0 49.0

Page 53: Libro de estadistica

Analisis de Datos 53

a) Dibujar la nube de puntos. b) ¿Sugiere este diagrama unaasociacion lineal? Calcular el coeficiente de correlacion mues-tral y determinar la ecuacion de la recta de ajuste mınimo cua-dratico.

Problema 3.4 La materia prima que se usa en la produccionde un determinado material se almacena en un lugar que notiene control de humedad. Las medidas de la humedad rela-tiva y del contenido de humedad de muestras de la materiaprima (en %) en 12 dıas fueron:

Humedad relativa Contenido de humedad

45 1154 1537 1141 1335 1129 761 1845 1443 1149 1634 1140 13

Calcular el coeficiente de correlacion muestral. Ajustar los da-tos a una recta utilizando el metodo de los mınimos cuadrados.Utilizar los resultados anteriores para prdedecir el contenidode humedad cuando la humedad relativa es del 35 %.

Problema 3.5 En el analisis de unos materiales se han medi-do tres caracterısticas: X(ındice de concentracion de carbono),Y (ındice de resistencia a la traccion) y Z(ındice de resistenciaa la torsion):

Page 54: Libro de estadistica

54 J. L. Dıaz–Barrero

X 0.2 0.5 0.7 1.2 2.3 2.4 2.9 3.0Y 3.4 6.5 11.0 13.5 22.0 25.8 33.5 34.6Z 25.6 29.5 29.0 31.2 31.5 33.2 33.4 32.6

a) Utilizar el metodo de los mınimos cuadrados para obtenerlas rectas de ajuste de Y sobre X y de Y sobre Z.

b) Calcular los coeficientes de correlacion rxy, rxz y ryz.

Problema 3.6 Se quiere estudiar que tipo de relacion existeentre la temperatura X en una zona montanosa y el consu-mo de energıa electrica Y . Durante 18 dıas se anotaron lastemperaturas y el consumo de energıa de una vivienda y seobtuvieron los siguientes resultados:

X -1.0 1.5 3.5 -3.0 0.5 2.5Y 94 81 79 97 88 75X 4.0 5.0 -5.0 -0.5 9.0 9.5Y 74 67 107 86 58 55X 7.0 3.0 -2.0 6.0 8.0 10.0Y 65 73 91 65 58 52

a) Calcular los estadısticos que se consideren oportunos y co-mentar la relacion existente entre la temperatura y el con-sumo de energıa.

b) Aplicar el metodo de los mınimos cuadrados para ajustarlos datos a una recta.

c) Estimar el consumo medio de energıa de una vivienda cuan-do la temperatura sea de 0◦C.

Problema 3.7 Se considera el conjunto de datos asosciadosen parejas Mx,y = {(xi, yi) : i = 1, 2, · · · , n}. Probar que la

Page 55: Libro de estadistica

Analisis de Datos 55

covarianza muestral Sxy tambien se escribe en la forma

Sxy =1

n

n∑k=1

xkyk − x y.

Definimos SSxx = nS2x y SSxy = nSxy. Probar que

n∑k=0

[yk − (a + bxk)

]2

= SSyy − bSSxy.

Problema 3.8 Los siguientes datos corresponden al cloro resi-dual en el deposito de aguas de una ciudad en diversos tiem-pos despues de haberse tratado el agua con productos quımi-cos para mantenerla apta para el consumo:

t (horas) 2 4 6 8 10 12Cl (ppm) 1.8 1.5 1.4 1.1 1.1 0.9

a. Calcular el coeficiente de correlacion muestral y comentarel resultado.

b. Obtener una recta de mınimos cuadrados con la que se pue-da predecir el cloro residual en terminos del tiempo trans-currido desde que se trato el agua.

c. Utilizar la recta de mınimos cuadrados para estimar el clororesidual en el deposito 7 horas despues de haber sidotratado.

Page 56: Libro de estadistica

56 J. L. Dıaz–Barrero

Page 57: Libro de estadistica

Capıtulo 4

Conceptos Basicos deProbabilidad

4.1. Introduccion

Un experimento que puede ser repetido tantas veces comose quiera, siempre en las mismas condiciones controlables,y cuyo resultado es impredecible, se llama un experimentoaleatorio; en caso contrario, el experimento se llama deter-minista. Ası, por ejemplo, el lanzamiento de un dado, la horade llegada de un tren a una estacion, un sorteo de loterıa,pueden ser considerados como experimentos aleatorios.

Cada experimento aleatorio lleva asociado el conjunto E detodos los resultados posibles. Dicho conjunto se llama espa-cio muestral, sus elementos se llaman sucesos elementalesy sus subconjuntos sucesos. El conjunto de los sucesos sera,pues, P (E). Dado un suceso A vamos a definir una medidateorica de la ocurrencia de A. A esta medida la llamaremosprobabilidad.

57

Page 58: Libro de estadistica

58 J. L. Dıaz–Barrero

Si el espacio muestral E se halla compuesto por n sucesoselementales, incompatibles dos a dos (disjuntos), y tales que:

(i) E=n⋃

k=1

{ak},

(ii) fr({a1}) = fr({a2}) = · · · = fr({an}).

Entonces, a partir de que fr(E) =n∑

k=1

fr({ak}) = 1, resulta

fr({ak}) = 1/n, k = 1, 2 · · · , n. Ademas, si A = {a1, a2, · · · , ah},entonces fr(A) = fr({a1})+fr({a2})+ · · ·+fr({ah}) = h/n.Llegandose ası a la definicion clasica de probabilidad o re-gla de Laplace (1812) que enuncia:

“La probabilidad de un suceso A es el cociente entre el numerode casos favorables dividido por el numero de casos posibles,considerados como equiprobales,” Es decir,

p[A] =Nf(A)

Np

=N(A)

N(E).

La definicion anterior equivale a entender la probabilidad deun suceso o subconjunto de resultados elementales como lafrecuencia relativa de ese subconjunto en una muestra ex-haustiva. Los principales inconvenientes de esta definicionson que no siempre es posible el muestreo exhaustivo y queno siempre los resultados son equiprobables.

Otra forma de entender la probabilidad consiste en suponerque el experimento se puede repetir indefinidamente de for-ma que un resultado no influya en los siguientes. Ası surgela definicion frecuentista de probabilidad, formalizada porVon Misses en 1919 y que se enuncia

p[A] = lımn→∞

fr(A).

Page 59: Libro de estadistica

Analisis de Datos 59

Aquı hay que suponer que existe el lımite de las frecuen-cias relativas, i.e., existe el lımite y es el mismo para cual-quier subsucesion de experimentos. En otras palabras, lasfrecuencias relativas de un suceso se estabillizan alrededorde un valor fijo (su probabilidad) a medida que el numero depruebas aumenta.

Las dificultades aparecidas en las definiciones anteriores sesolucionan con la definicion axiomatica de Kolmogorov (1943).

4.2. Definicion axiomatica de probabi-lidad

Sea E el espacio muestral asociado a un experimento alea-torio y A una coleccion de subconjuntos de E. Se dice queA es un algebra de Boole cuando se verifican las siguientescodiciones:

1. El espacio muestral E pertenece a A.

2. Si un suceso A ∈ A, A ⊂ E entonces A ∈ A. Comoconsecuencia el conjunto ∅ = E pertenece a A.

3. Si A1, A2, · · · An son elementos de A su unionn⋃

k=1

Ak,

pertenece a A y, por las leyes de Morgan, tambien su

interseccion,n⋂

k=1

Ak.

A es una σ–algebra cuando para cada sucesion numerable

A1, A2, · · · , An, · · · ,

Page 60: Libro de estadistica

60 J. L. Dıaz–Barrero

de sucesos de E, su union∞⋃

k=1

Ak y su interseccion∞⋂

k=1

Ak

pertenecen a A. La σ–algebra se acostumbra a representarpor S, y recoge todos los posibles sucesos de un experimentoaleatorio. Al par (E, S) se le llama espacio probabilizable omedible.

A continuacion expondremos la definicion axiomatica de Kol-mogorov que consta de tres axiomas:

Axioma 1. Si A es un elemento de una σ–algebra, S, exis-te un numero p[A] ≥ 0, denominado probabilidad delsuceso A.

Axioma 2. p[E] = 1.

Axioma 3.1 Dada una sucesion finita de suscesos, disjuntosdos a dos, Ai

⋂Aj = ∅, se verifica que

p[ n⋃

k=1

Ak

]=

n∑k=1

p[Ak].

Axioma 3.2 Dada una sucesion numerable de suscesos, dis-juntos dos a dos, Ai

⋂Aj = ∅, se verifica que

p[ ∞⋃

k=1

Ak

]=

∞∑k=1

p[Ak].

La terna (E, S, p) se conoce como espacio de probabilidad.

Consecuencia de los axiomas de probabilidad son los siguientesteoremas.

Teorema 4.1 La probabilidad del suceso imposible es cero,i.e., p[∅] = 0.

Page 61: Libro de estadistica

Analisis de Datos 61

Demostracion. Considerese la sucesion numerable de sucesosdisjuntos A1, A2, · · · , An, · · · , todos ellos igual al ∅. Segun eltercer axioma de Kolmogorov

p[ ∞⋃

k=1

Ak

]=

∞∑k=1

p[Ak].

En nuestro caso,∞⋃

k=1

Ak =∞⋃

k=1

∅ = ∅. Por tanto,∞∑

k=1

p[∅] =

p[∅], es decir, la suma infinita de una cantidad constante de-be ser esa cantidad, lo cual solo ocurre cuando p[∅] = 0. 2

Teorema 4.2 La probabilidad de la union de n sucesos dis-juntos A1, A2, · · · , An es igual a la suma de las probabilida-des de cada uno de los sucesos Ai, i.e.,

p[ n⋃

k=1

Ak

]=

n∑k=1

p[Ak].

Demostracion. Considesere la suncesion numerable de suce-sos disjuntos A1, A2, · · · , An, An+1, An+2, · · · , siendo los su-cesos An+k = ∅, k ≥ 1. Segun el tercer axioma de Kolmogorov

p[ ∞⋃

k=1

Ak

]=

∞∑k=1

p[Ak].

El primer miembro de la igualdad anterior se puede escribiren la forma

p[ ∞⋃

k=1

Ak

]= p

[ n⋃k=1

Ak

]+ p

[ ∞⋃k=n+1

Ak

]= p

[ n⋃k=1

Ak

].

Por otra parte, el segundo miembro toma la forma

∞∑k=1

p[Ak] =n∑

k=1

p[Ak] +∞∑

k=n+1

p[Ak] =n∑

k=1

p[Ak].

Page 62: Libro de estadistica

62 J. L. Dıaz–Barrero

Identificando, resulta

p[ n⋃

k=1

Ak

]=

n∑k=1

p[Ak].

2

Teorema 4.3 La probabilidad de la union de dos sucesos cua-lesquiera viene dada por

p[A1

⋃A2] = p[A1] + p[A2] − p[A1

⋂A2].

Teorema 4.4 Si A1 ⊂ A2, entonces p[A1] ≤ p[A2].

Teorema 4.5 Si A ∈ S, entonces se verifica que p[A] ≤ 1.

Teorema 4.6 La probabilidad del suceso contrario A, es elcomplemento a uno de la probabilidad de A, i.e., p[A] = 1 −p[A].

4.3. Tecnicas de conteo. Combinatoria

4.3.1. Variaciones con repeticion

Dado un conjunto A = {a1, a2, · · · , an} de n elementos, sellama variacion con repeticion de los n elementos y de or-den k a toda agrupacion de k elementos iguales o distintos,elegidos de entre los n de partida, de forma que dos agrupa-ciones son distintas si difieren en algun elemento, o si tenien-do los mismos estos se hallan escritos en diferente orden.

Para hallar su numero observemos que el primer lugar de lavariacion puede estar ocupado por cualquiera de los n ele-mentos de A; el segundo, como pueden repetirse pude ser

Page 63: Libro de estadistica

Analisis de Datos 63

ocupado por por cualquiera de los n elementos de A, y ası su-cesivamente hasta el k-esimo que tambien puede ser ocupa-do por cualquier elemento de A. En consecuencia, el numerode variaciones con repeticion de n elementos tomados de ken k es

VRkn = n · n · · · n = nk.

Nota 4.1 Observese que cada variacion con repeticion de or-den k es un elemento del producto cartesiano

Ak = {(a1, a2, · · · , ak) | ai ∈ A}.

Nota 4.2 Las variaciones con repeticion de n elementos de or-den k son tambien las imagenes de todas las aplicaciones quese pueden establecer entre un conjunto de cardinal k y el A decardinal n.

4.3.2. Variaciones ordinarias

Dado un conjunto A = {a1, a2, · · · , an} de n elementos, sellama variacion ordinaria de los n elementos de A tomadosde k en k, a toda agrupacion de k elementos distintos, ele-gidos de entre los n de partida de forma que dos de talesagrupaciones son distintas si difieren en algun elemento ocuando teniendo los mismos estos se hallan escritos en dife-rente orden. (Al ser distintos los elementos de cada variacion,necesariamente ha de ser k menor o igual que n).

Para hallar su numero observemos que el primer lugar de lavariacion puede ser ocupado por cualquiera de los n elemen-tos de A; hecha esta eleccion, el segundo lugar puede serocupado por cualquiera de los n − 1 elementos restantes; eltercero, por cualquiera de los n − 2 que aun no han sido ele-gidos; y ası hasta el k-esimo lugar que podra ser ocupado por

Page 64: Libro de estadistica

64 J. L. Dıaz–Barrero

cualquiera de los n − k + 1 elementos restantes. En conse-cuencia, el numero de variaciones ordinarias de n elementosy de orden k es

Vkn = n(n − 1)(n − 2) · · · (n − k + 1) = n(k) =

n!

(n − k)!.

Nota 4.3 Las variaciones ordinarias son las imagenes de to-das las aplicaciones inyectivas que pueden establecerse entreun conjunto de cardinal k, (k ≤ n) y otro de cardinal n.

4.3.3. Permutaciones ordinarias

La variaciones ordinarias de n elementos tomados de n enn se llaman permutaciones ordinarias de n elementos. Sonsecuencias en las que intervienen los n elementos de partidadiferenciandose unas de otras en el orden en que se hallanescritos sus elementos. Su numero es

Pn = Vnn = n!.

Nota 4.4 Las permutaciones ordinarias de los elementos deA = {a1, a2, · · · , an} son las imagenes de las aplicaciones bi-yectivas que pueden establecerse entre el conjunto {1, 2, · · · , n}y A.

4.3.4. Permutaciones con repeticion

Dado el conjunto A = {a, b, · · · , l} de cardinal n, se lla-ma permutacion con repeticion de longitud m de los ele-mentos de A, y de ordenes de repeticion t1, t2, · · · , tn, cont1 + t2 + · · · + tn = m; a cada una de las secuencias de melementos que se pueden formar con t1 iguales a a, t2 iguales

Page 65: Libro de estadistica

Analisis de Datos 65

a b, · · · , tn = l, de forma que todas ellas tienen los mismoselementos pero escritos en orden diferente.

Para hallar su numero supongamos que una tal permutacionfuera

t1︷ ︸︸ ︷a · a · · · a

t2︷ ︸︸ ︷b · b · · · b · · ·

tn︷ ︸︸ ︷l · l · · · l .

Si en ella suponemos que todas las a son distintas qudarıa

a1 · a2 · · · at1

t2︷ ︸︸ ︷b · b · · · b · · ·

tn︷ ︸︸ ︷l · l · · · l .

Permutando las a de todas las formas posibles sin cambiarlos demas elementos, se obtendran t1! permutaciones dife-rentes. Ası si en una secuencia de m elementos hay t1 igualesy se permutan de todas las formas posibles, se obtienen

Pt1m =

m!

t1!

permutaciones diferentes. De forma analoga, si entre los melementos hay t1 iguales a a, t2 iguales a b, · · · , tn iguales al, se obtendran

Pt1,t2,··· ,tn

m =m!

t1!, t2!, · · · , tn!

permutaciones.

Nota 4.5 Las permutaciones con repeticion son las imagenesde aplicaciones exhaustivas predeterminadas.

4.3.5. Combinaciones ordinarias

Dado el conjunto A = {a1, a2, · · · , an} de cardinal n, se lla-ma combinacion ordinaria de estos n elementos y de orden

Page 66: Libro de estadistica

66 J. L. Dıaz–Barrero

k a toda agrupacion de k elementos elegidos de entre los nde partida de forma que dos de ellos son distintos si difierenen algun elemento sin importar el orden en que se hallan es-critos. Dicho de otra forma, las combinaciones ordinarias den elementos tomados de k en k o de orden k son los sub-conjuntos de cardianl k que se pueden formar con los n departida.

Su numero se representa por Ckn. Para calcularlo, suponga-

mos formadas las combinaciones de orden k con los elemen-tos de A de las que hay en total Ck

n. Si en cada una de estascombinaciones permutamos sus elementos de todas las for-mas posibles resulta que el numero de secuencias obtenidases igual al de variaciones ordinarias de orden k que se pue-den formar con los elementos de A. Por otro lado, como cadacombinacion genera k! del total de las variaciones, se tieneque Vk

n = Ckn · k! de donde

Ckn =

Vkn

k!=

n!

k!(n − k)!=

(n

k

).

4.3.6. Combinaciones con repeticion

Dado un conjunto de cardinal n, se llama combinacion conrepeticion de orden k a cada una de las agrupaciones que sepueden formar tomando k de los elementos de partida igualeso distintos y considerando que dos agrupaciones son distin-tas cuando difieren en algun elemento sin importar el ordenen que estos se hallen escritos. Su numero se designa porCRk

n.

Las combinaciones con repeticion de orden 1 coinciden conlas ordinarias, las de orden 2 se obtienen a partir de las deorden 1 escribiendo a la derecha de cada una de ellas su

Page 67: Libro de estadistica

Analisis de Datos 67

ultimo elemento y cada uno de los que le siguen en el ordennatural, obteniendose en total

CR2n =

(n + 2 − 1

2

)= C2

n+2−1.

A parir de las de orden 2 se obtiene las de orden 3, y ası su-cesivamente hasta que las de orden k se obtienen a partir delas de orden k − 1 anadiendo a cada una de ellas su ultimoelemento y todos los que le siguen en el orden natural. Esfacil observar que tales combinaciones se pueden poner encorrespondencia biyectiva con las combinaciones ordinariasde orden k de los elementos del conjunto {1, 2, · · · , n+k−1}siendo ası su numero

CRkn =

(n + k − 1

k

)= Ck

n+k−1.

Nota 4.6 A continuacion se citan dos formulas que puedenser utiles para la resolucion de problemas.

Potencia del binomio (Formula de Tartaglia)

(a + b)n =n∑

k=0

(n

k

)akbn−k.

Potencia de un polinomio (Formula de Liebnitz)

(a1+a2+· · ·+an)m =∑

t1+t2+···+tn=m

(m

t1, t2, · · · , tn

)at1

1 at22 · · · atn

n

=∑

t1+t2+···+tn=m

m!

t1!t2! · · · tn!at1

1 at22 · · · atn

n .

Page 68: Libro de estadistica

68 J. L. Dıaz–Barrero

4.4. Probabilidad condicional

Tiene interes cuando se quieren calcular probabilidades desucesos, sabiendo que o dado que ha ocurrido algo previa-mente. Dado el espacio de probabilidad (E, S, p) y un sucesoA ∈ S con p[A] > 0. Se define la probabilidad condiciona-da del suceso B por A, y se representa por p[B|A], como elcociente

p[B|A] =p[B ∩ A]

p[A].

Analogamente, si p[B] > 0 se define

p[A|B] =p[A ∩ B]

p[B].

Es inmediato comprobar que

pB[A] = p[A|B]

es una probabilidad.

Observese que la probabilidad condicionada de un suceso esla probabilidad del mismo cuando el espacio muestral se hamodificado.

Si A y B son sucesos de probabilidad no nula se tiene que

p[A ∩ B] = p[A]p[B|A] = p[B]p[A|B].

A la probabilidad de la interseccion de varios sucesos se lellama probabilidad compuesta, y a la expresion anterior sele conoce como ley de la probabilidad compuesta para dossucesos. En general, para n sucesos se tiene el siguiente re-sultado.

Page 69: Libro de estadistica

Analisis de Datos 69

Teorema 4.7 Sean A1, A2, · · · , An, n sucesos cualesquierade un experimento aleatorio y tales que la probabilidad de rea-lizacion de los mismos es no nula, entonces

p[A1∩A2∩· · ·∩An] = p[A1]p[A2|A1] · · · p(An|A1∩A2∩· · ·∩An−1).

Demostracion. Para la demostarcion procederemos por induc-cion. Para n = 2, 3 el resultado se comprueba facilmente porinspeccion directa. Supongase cierto para 2, 3, · · · , n − 1 yveamoslo para n. En efecto,

p[A1 ∩ A2 ∩ · · · ∩ An] = p[(A1 ∩ A2 ∩ · · · ∩ An−1) ∩ An

]= p[A1 ∩ A2 ∩ · · · ∩ An−1]p[An|A1 ∩ A2 ∩ · · · ∩ An−1]

= p[A1]p[A2|A1]p[A3|A1 ∩ A2] · · · p[An|A1 ∩ A2 ∩ · · · ∩ An−1].

2

4.5. Sucesos dependientes e indepen-dientes

Se dice que dos sucesos A y B son independientes cuandose verifica que p[B] = p[B|A]. Si por el contrario p[B] 6=p[B|A] se dice que B depende estocasticamente de A. Eneste ultimo caso puede suceder:

(a) p[B] > p[B|A], en cuyo caso, la aparicion de A desfavo-rece la realizacion de B.

(b) p[B] < p[B|A], en este caso, la aparicion de A favorecela realizacion de B.

Se verifican las siguientes condiciones:

Page 70: Libro de estadistica

70 J. L. Dıaz–Barrero

(a) A y B son independientes ⇔ p[A ∩ B] = p[A]p[B].

(b) p[B|A] = p[B] ⇔ p[A|B] = p[A].

(c) Si A y B son independientes tambien lo son A y B.

Extenderemos ahora el concepto de independencia a mas dedos sucesos. Dados tres sucesos A, B y C se dice que son es-tocasticamente independientes, si se verifican simultanea-mente las siguientes condiciones:

(a) p[A ∩ B] = p[A]p[B].

b) p[A ∩ C] = p[A]p[C].

(c) p[B ∩ C] = p[B][C].

(d) p[A ∩ B ∩ C] = p[A]p[B]p[C].

Pudiera parecer superflua la cuarta condicion, pero veremossu necesidad mediante un contraejemplo.Ejemplo de Bernstein. Sea E = {1, 2, 3, 4} y consideremoslos sucesos A = {1, 2}, B = {1, 3} y C = {1, 4}. Es evidente

que p[A] = p[B] = p[C] =1

2. Por otro lado, como A ∩ B =

A ∩ C = B ∩ C = {1}, entonces

p[A ∩ B] = p[A ∩ C] = p[B ∩ C] =1

4y

p[A]p[B] = p[A]p[C] = p[B]p[C] =1

4.

En cambio,

p[A ∩ B ∩ C] = p[{1}] =1

46= p[A]p[B]p[C] =

1

8.

Esto prueba la necesidad de la cuarta condicion.Dados n sucesos A1, A2, · · · , An, se dice que son indepen-dientes cuando se verifica

Page 71: Libro de estadistica

Analisis de Datos 71

(a) p[Ai ∩ Aj] = p[Ai]p[Aj].

(b) p[Ai ∩ Aj ∩ Ak] = p[Ai]p[Aj]p[Ak].

· · ·

(`) P [A1 ∩ A2 ∩ · · · ∩ An] = p[A1]p[A2] · · · p[An].

4.6. Teorema de las probabilidades to-tales

Diremos que A1, A2, · · · , An es un sistema completo de su-cesos o una particion cuando se verifica

(a) E = A1 ∪ A2 ∪ · · · ∪ An.

(b) Ai ∩ Aj = ∅ si i 6= j.

Teorema 4.8 (Formula de las probabilidades totales) SeaA1, A2, · · · , An un sistema completo de suscesos con P [Ai] >0, i = 1, 2, · · · , n. Sea B un suceso para el que se conocen lasprobabilidades p[B|Ai]. Entonces,

p[B] =n∑

k=1

p[Ak]p[B|Ak].

Demostracion. Al ser A1, A2, · · · , An un sistema completo desuscesos se tiene que

p[B] = p[B ∩ E] = p[B ∩

( n⋃k=1

Ak

)]

= p[ n⋃

k=1

(B ∩ Ak)]

=n∑

k=1

p[Ak]p[B|Ak].

2

Page 72: Libro de estadistica

72 J. L. Dıaz–Barrero

4.7. Formula de Bayes

El siguiente resultado, conocido como la Formula de Bayes,uno de los mas importantes y fructıferos de la teorıa de laprobabilidad, se recoge en el siguiente teorema.

Teorema 4.9 Sea A1, A2, · · · , An un sistema completo de su-cesos con p[Ak] > 0, y sea B un suceso cualquiera para el quese conocen las probabilidades p[B|Ak] que llamaremos vero-similitudes, entonces

p[Ak|B] =p[Ak]p[B|Ak]

n∑k=1

p[Ak]p[B|Ak]

.

A las probabilidades p[Ak] se les llama probabilidades a prio-ri y a las p[Ak|B] probabilidades a posteriori.

Demostracion. De la definicion de probabilidad condicionadaresulta

p[Ak ∩ B] = p[Ak]p[B|Ak] = p[B]p[Ak|B].

Por tanto,

p[Ak|B] =p[Ak]p[B|Ak]

p[B],

pero segun la formula de las probabilidades totales,

p[B] =n∑

k=1

p[Ak]p[B|Ak]

de donde se deduce que

p[Ak|B] =p[Ak]p[B|Ak]

n∑k=1

p[Ak]p[B|Ak]

.

2

Page 73: Libro de estadistica

Analisis de Datos 73

4.8. Problemas de Probabilidad

Problema 4.1 Explicar por que hay un error en cada una delas siguientes afirmaciones:

a. La probabilidad de que llueva en una zona desertica es 0,12y la de que nieve es −0,40.

b. La probabilidad que llueva es 0,6 y la probabilidad que llue-va o nieve es 0,45.

c. La probabilidad que en la proxima epoca de lluvias lasaguas sobrepasen el umbral de un rio es 0,77, la probabi-lidad que se alcance el umbral es 0,08, y la probabilidadque no se alcance el umbral es 0,05.

Solucion.

a. Una probailidad nunca puede ser negativa.

b. No puede ser que p[A] > p[A ∪ B].

c. Sean los sucesos A = {las aguas sobrepasan el umbral} y B = { las aguas alcanzan el umbral }. Entonces,p[A] = 0,77, p[B] = 0,08 y p[A ∪ B] = 0,05. De la ultimarelacion se obtiene p[A ∪ B] = 0,95. Lo que implicarıap[A ∩ B] = −0,10 (Absurdo)

2

Problema 4.2 En un plan general para control de riadas, sedesea saber si una canalizacion construida anteriormente pa-ra un arroyo es suficiente para aliviar los posibles caudalesmaximos (siendo el maximo total de 10 m3/s). Tras un estudio

Page 74: Libro de estadistica

74 J. L. Dıaz–Barrero

de riadas anteriores, las probabilidades de caudal maximo enun cierto ano se definen como sigue:

A = 3 a 6 m3/s, p[A] = 0,6;B = 5 a 10 m3/s, p[B] = 0,6;C = A ∪ B, p[C] = 0,7.

Calcular p[A∩B], p[A], p[B ∪A], p[A ∪ B], p[A ∩ B], y definircada uno de los sucesos cuyas probabilidades se pide calcu-lar.

Problema 4.3 Hallar la probabilidad de un suceso, sabiendoque la suma de su cuadrado y la del cuadrado de la probabi-

lidad del suceso contrario es igual a5

9.

Solucion. Sea p[A] = p, entonces p[A] = 1 − p. Segun elenunciado se tiene p2 + (1 − p)2 = 5/9; 9p2 − 9p + 2 = 0;p = 1/3, p = 2/3. 2

Problema 4.4 En una reunion hay mas hombres que muje-res, mas mujeres que beben que hombres que fuman, y masmujeres que fuman y no beben que hombres que no beben nifuman. Se elige una persona al azar y se pregunta: Que esmas probale?

a. Es mujer que no bebe ni fuma.

b. Es hombre que bebe y no fuma.

Solucion. Sea E el conjunto de personas que asisten a la reu-nion. Formemos la siguiente particion (sistema completo desuscesos) de E :

E =8⋃

k=1

Xk

Page 75: Libro de estadistica

Analisis de Datos 75

siendo

X1 = H ∩ B ∩ F , X5 = M ∩ B ∩ F ,X2 = H ∩ B ∩ F , X6 = M ∩ B ∩ F,X3 = H ∩ B ∩ F, X7 = M ∩ B ∩ F,X4 = H ∩ B ∩ F, X8 = M ∩ B ∩ F .

Veremos que el suceso X1 es mujer que no bebe ni fuma esmas probable que el suceso X8 es hombre que bebe y no fuma.Esto es equivalente a comprobar que el cardinal de X1 esmayor que el cardinal de X8. Denotaremos el cardinal de Xi

por N(Xi), i = 1, 2, · · · , 8.

Segun el enunciado se tienen las siguientes desigualdades:

4∑i=1

N(Xi) >8∑

x=5

N(Xi),

N(X5) + N(X6) > N(X3) + N(X4),N(X7) > N(X2).

Sumando miembro a miembro resulta

N(X1)+N(X2)+N(X3)+N(X4)+N(X5)+N(X6)+N(X7)

> N(X5)+N(X6)+N(X7)+N(X8)+N(X3)+N(X4)+N(X2).

Simplificando, se obtiene

N(X1) > N(X8).

Esto completa la demostracion. 2

Problema 4.5 En una encuesta sobre la liberalizacion de lospeajes en las autopistas se han consultado 1000 personas,obteniendose los siguientes resultados:

Page 76: Libro de estadistica

76 J. L. Dıaz–Barrero

sexo edadhombre mujer menor de 25 25-50 myor de 50

a favor 198 243 200 180 61en contra 125 126 50 111 90depende 147 161 100 159 49

Se escoge al azar una de las personas consultadas y se deseasaber:

1. Probabilidad de que este a favor de la liberalizacion.

2. Probabilidad que tenga menos de 25 anos.

3. Si esta a favor de la liberalizacion, ¿cual es la probabilidadde que sea mujer?

Se escogen dos personas al azar entre las encuestadas. Sepide:

1. Probabilidad que sean de distinto sexo.

2. Probabilidad que ambas tengan menos de 50 anos.

3. Si las dos estan a favor de la liberalizacion, ¿cual es laprobabilidad de que sean dos mujeres?

Problema 4.6 En una ciudad costera se inauguraron el anopasado un puerto deportivo, un pequeno aeropuerto y un deposi-to para el suministro de agua. La probabilidad que dentro de100 anos continue funcionando el puerto deportivo es 0.76, lade que no funcione el aeropuerto es 0.18 y la de que funcioneel deposito de agua es 0.40. Se pide cual es la probabilidadque dentro de 100 anos: a) Continuen funcionando los tres. b)No funcione ninguno de ellos. c) Funcione solamente el aero-puerto. d) Funcione exactamente uno de ellos.

Page 77: Libro de estadistica

Analisis de Datos 77

Solucion. Tenemos que P [P ] = 0,76, la P [A] = 1 − P [A] =1− 0,18 = 0,82 y la P [D] = 0,4. Ademas, por las caracterısti-cas del enunciado los sucesos P, A y D son independientesy tambien lo son los sistemas que resultan de susutituir al-guno de ellos por sus contrarios. Entonces:

a. P [P ∩ A ∩ D] = P [P ]P [A]P [D] = 0,76 × 0,82 × 0,4 =0,2492.

b. P [P ∩ A ∩ D] = P [P ]P [A]P [D] = 0,24 × 0,18 × 0,6 =0,0259.

c. P [P ∩ A ∩ D] = 0,24 × 0,82 × 0,6 = 0,1180.

d. P [P ∩ A ∩ D] + P [P ∩ A ∩ D] + P [P ∩ A ∩ D] = 0,0820 +0,1180 + 0,0172 = 0,2172.

2

Problema 4.7 Justo despues de ser puestos en circulacion,algunos autobuses fabricados por cierta companıa presentangrietas en la pintura de los laterales de los vehiculos. Supon-gamos que una ciudad tiene 80 de estos autobuses y que endoce de ellos han aparecido grietas.

a. ¿De cuantas maneras se puede seleccionar una muestra de10 vehiculos para inspecionarla?

b. ¿De cuantas formas distintas puede una muestra de 10autobuses contener 10 vehiculos con grietas?

c. Determinar la probabilidad que en una muestra de 10 vehi-culos, elegidos al azar, 4 tengan grietas.

Problema 4.8 La probabilidad que un vuelo del puente aereoMadrid-Barcelona salga puntual es 0,92, la de que llegue pun-tual es 0,93, y la de que salga y llegue puntual 0,84. ¿Que es

Page 78: Libro de estadistica

78 J. L. Dıaz–Barrero

mas probable: que llegue puntual un vuelo que ha salido pun-tual o que haya salido puntual un vuelo que ha llegado pun-tual.

Solucion. Sean los sucesos A = { sale puntual} y B = { llegapuntual }. Entonces, p[A] = 0,92, p[B] = 0,93, y p[A ∩ B] =0,84. A partir de aquı resulta que

p[B|A] =p[A ∩ B]

p[A]= 0,91,

p[A|B] =p[A ∩ B]

p[B]= 0,90.

Por tanto, es mas probable que llegue puntual un vuelo queha salido puntual. 2

Problema 4.9 Las probabilidades que tres meteorologos inde-pendientemente pronostiquen correctamente el tiempo para undeterminado fin de semana son respectivamente, 1/6,1/4 y1/3. Si cada uno de ellos, pronostica el tiempo para el proximofin de semana, se pide:

1. Probabilidad que solamente uno de ellos acierte.

2. Si solamente acierta uno, ¿cual es la probabilidad quesea el primero?

Solucion. Sean los sucesos A = {acierta el primero}, B ={acierta el segund} y C = {acierta el tercero}. Las probabili-dades de estos sucesos y sus contarrios son, respectivamen-te,

P [A] =1

6, P [B] =

1

4, P [C] =

1

3

P [A] =5

6, P [B] =

3

4, P [A] =

2

3

Page 79: Libro de estadistica

Analisis de Datos 79

1.- Sea X = {acierta solamente uno}, entonces

X = (A ∩ B ∩ C) ∪ (A ∩ B ∩ C) ∪ (A ∩ B ∩ C)

siendo dicha union disjunta. Por tanto,

P [X] = P [(A ∩ B ∩ C) ∪ (A ∩ B ∩ C) ∪ (A ∩ B ∩ C)]

= P [A ∩ B ∩ C] + P [A ∩ B ∩ C] + P [A ∩ B ∩ C]

= P [A]P [B]P [C] + P [A]P [B]P [C] + P [A]P [B]P [C]

=31

72= 0,4305

2.- En este caso hemos de calcular

P [A|X] =P [A ∩ X]

P [X]=

P [A ∩ B ∩ C]

P [X]=

6

31= 0,1935

2

Problema 4.10 Tres maquinas A, B y C han producido res-pectivamente 100, 200 y 300 piezas. Se sabe que A produce un5 % de defectuosas, B un 6 % y C un 7 %. Se selecciona unapieza al azar y se pide:

1. Probabilidad de que no sea defectuosa.

2. Sabiendo que es defectuosa, probabilidad de que haya sidofabricada por la maquina A.

Problema 4.11 Se estudian tres tipos de defectos de las me-morias montadas sobre los circuitos integrados: Defectos delos circuitos de encuadracion (Hipotesis H1 : p[H1] = 0,1); de-fectos provocados por acoplamientos parasitos entre las celu-las (Hipotesis H2 : p[H2] = 0,6), y defectos de las barras dedireccion (Hipotesis H3 : p[H3] = 0,3). La diagnosis se lleva acabo con ayuda de una serie de tests T1, T2, · · · , Tn cada uno

Page 80: Libro de estadistica

80 J. L. Dıaz–Barrero

de los cuales comprueba un estado determinado de la celulade memeoria. El resultado observable es el estado de la celulaescogida respecto a cada test. Supongmos que la diagnosis seha realizado y se ha observado cierto resultado A. Si antesde la prueba es conocido que p[A|H1] = 0,4, p[A|H2] = 0,2 yp[A|H3] = 0,3. ¿Que hipotesis tiene la maxima probabilidad aposteriori? Es decir, ¿que defecto es mas probable?

Solucion. Aplicando la formula de las probabilidades totalesse tiene

p[A] = p[H1]p[A|H1] + p[H2]p[A|H2] + p[H3]p[A|H3] = 0,25

Aplicando la formula de Bayes, resulta

p[H1|A] = 0,16, p[H2|A] = 0,48, p[H3|A] = 0,36.

Por tanto, la maxima probabilidad la tiene la hipotesis H2 :Defectos por acoplamiento de parasitos. 2

Problema 4.12 Un jugador arroja un dado, le sale 6 y gana.Hallar la probabilidad de que haya hecho trampa. (Se suponeque el 40 % de los jugadores hacen trampa)

Solucion. El espacio muestral se puede descomponer en laforma E = T∪T , T∩T = ∅ con p[T ] = 2/5, p[T ] = 3/5, p[6|T ] =1, y p[6|T ] = 1/6. Aplicando la formula de Bayes se obtiene

p[T |6] =p[T ]p[6|T ]

p[T ]p[6|T ] + p[T ]p[6|T ]=

4

5.

2

Problema 4.13 Un ladron perseguido por la policia llega a ungarage que tiene tres puertas: una conduce al recinto A dondehay 5 coches tres de los cuales tienen gasolina; la segunda al

Page 81: Libro de estadistica

Analisis de Datos 81

recinto B donde de los 4 coches que hay uno solo tiene com-bustible; y finalmente, la tercera conduce al recinto C dondehay 7 coches cinco de los cuales tienen gasolina. Elige unapuerta y un coche. ¿cual es la probabilidad de escapar? Si sesabe que ha escapado, determinar la probabilidad de que ha-ya salido por la puerta A.

Solucion. Denotaremos por G al suceso tener combustible.Entonces, podemos pensar los recintos como urnas con lasiguientes composiciones:

A(3G, 2G), B(1G, 3G), C(5G, 2G)

todas igualmente probables, es decir, p[A] = p[B] = p[C] =1/3. Sea F el suceso escapar, entones

p[F |A] =3

5, p[F |B] =

1

4, p[F |C] =

5

7.

Ası

p[F ] = p[A]p[F |A] + p[B]p[F |B] + p[C]p[F |C] = 0,5214.

Por otro lado, teniendo en cuenta la formula de Bayes, resul-ta

p[A|F ] =p[A]p[F |A]

p[A]p[F |A] + p[B]p[F |B] + p[C]p[F |C]= 0,3835.

2

Problema 4.14 La mitad de los habitantes de Barcelona y suarea metropolitana acuden al trabajo en vehıculo propio, el40 % utiliza el transporte publico y el resto van andando. Seestima que el 10 % de los que usan vehıculo propio, el 3 % delos que utilizan los transportes publicos y el 1 % de los que vanandando llegan tarde al trabajo. Se pide:

Page 82: Libro de estadistica

82 J. L. Dıaz–Barrero

1. Porcentaje de individuos que llegan puntuales al trabajo.

2. Si un individuo llego tarde al trabajo, ¿cual es la probabi-lidad que utilizase vehıculo propio?

Solucion.

Segun los datos del enunciado, tenemos

Prioris Verosimilitudes Posteriorisp[V]=50/100 p[t|V]=10/100 p[V|t]=(1/C)× 50/100×10/100p[T]=40/100 p[t|T]=3/100 p[T|t]=(1/C)× 40/100×3/100p[A]=10/100 p[t|A]=1/100 p[A|t]=(1/C)× 10/100×1/100

donde C (constante de normalizacion) es la probabilidad queun individuo llegue tarde. Es decir,

C = p[t] =50

100×

10

100+

40

100×

3

100+

10

100×

1

100=

63

1000.

Por tanto, p[t] = 1 −63

1000=

937

1000.

En el segundo apartado nos piden p[V |t] =1

C× p[V ] ×

p[t|V ] =50

63. 2

Problema 4.15 (Problema de los cumpleanos) Hallar la pro-babilidad que en una reunion de n personas todas tengan fe-cha de cumpleanos diferente .

Solucion. Puesto que hay n personas y 365 dıas en un ano,resulta que el numero de formas distintas de cumplir anosque se pueden presentar es

VRn365 = 365n.

Page 83: Libro de estadistica

Analisis de Datos 83

Por otro lado, si las personas han de tener fechas distintasde cumpleanos, se tienen para la primera persona 365 posi-bilidades, para la segunda, 364; pra la tercera, 363 y ası su-cesivamente, hasta que para la n-esima se tienen 365−n+1.

Por tanto, la probabilidad pedida es

p =365 × 364 × · · · × (365 − n + 1)

365n=

Vn365

VRn365

.

2

Nota 4.7 Cuando n ≥ 23 se verifica que p <1

2lo que se

puede interpretar diciendo que a partir de 23 personas enadelante es mas probable que dos coincidan en la fecha denacimiento, a que todos tengan fechas de nacimiento distin-tas.

Problema 4.16 El gerente de una empresa que fabrica neu-maticos para maquinaria de construccion estudia el lanzamien-to de un nuevo neumatico. En el pasado, el 40 % de los neuma-ticos proyectados han tenido exito y el 60 % han fracasado.Antes de lanzar el neumatico se hace un estdio de mercadoy se solicita un informe, ya sea favorable o desfavorable. Enetapas anteriores, el 80 % de los neumaticos con informe favo-rable tuvieron exito y solo el 30 % de los que fracasaron tenıaninforme favorable. Calcular la probabilidad que un neumaticotenga exito si recibe un informe favorable.

Solucion. Sea E = {neumatico con exito} y F = {informe favorable}.Entonces,

Prioris Verosimilitudes Posteriorisp[E]=40/100 p[F|E]=80/100 p[E|F]=(1/C)× 40/100×80/100p[E]=60/100 p[F|E]=30/100 p[E|F]=(1/C)× 60/100×30/100

Page 84: Libro de estadistica

84 J. L. Dıaz–Barrero

Entonces C =1

2y p[E|F ] = (1/C)×40/100×80/100 =

64

100.

2

Problema 4.17 Se dispone de tres urnas con las siguientescomposiciones: U1(3B, 2N), U2(2B, 3N) y U3(1B, 4N). Se lan-za un dado, si sale 1 se elige la primera urna, si sale primo lasegunda y si sale 4 o 6 la tercera. A continuacion, se extraeuna bola de la urna elegida. Hallar la probabilidad de que seablanca. Si ha resultado ser blanca, ¿Cual es la probabilidadque hubiese salido primo en el lanzamiento del dado?

Page 85: Libro de estadistica

Capıtulo 5

Variables AleatoriasDiscretas

El concepto de variable aleatoria (v.a.) viene motivado por lanecesidad de trasladar el estudio de los sucesos del algebrade sucesos a la recta real. Dado un espacio muestral E, unavariable aleatoria X es una aplicacion X : E → R que aso-cia a cada suceso un numero real que viene determinadopor el resultado de un experimento aleatorio. Esta asocia-cion permitira expresar los sucesos en terminos numericos.En otras palabras, una variable aleatoria es la modelizacionteorica de las variables estadısticas anteriormente estudia-das. Tienen la ventaja de obviar la descripcion del espacio deprobabilidad. Distinguiremos entre variables aleatorias dis-cretas y continuas.

5.1. Variables aleatorias discretas

Una variable aleatoria X es discreta cuando el conjunto devalores que toma X(E) es finito o infinito numerable, i.e.,

85

Page 86: Libro de estadistica

86 J. L. Dıaz–Barrero

X(E) = {x1, x2, x3, · · · }. Dado un espacio de probabilidad(E, S, p) y una v.a. X definida sobre E. Llamamos

Dx = {x1, x2, x3, · · · , xn, · · · } ≡ X

al conjunto de valores posibles de X y definimos la funcionde densidad de probailidad p(x) de X como la aplicacionp : R → [0, 1] definida por p(x) = p[X = x], que verifica lassiguientes condiciones:

1. p(x) ≥ 0, para todo x ∈ Dx.

2. p(x) = 0 para todo x ∈ R − Dx.

3.∑

x∈Dx

p(x) = 1.

Toda funcion p(x) tal que para un conjunto de valores fi-nito o infinito numerable cumple las condiciones anterioreses funcion de densidad de una variable aleatoria discreta X.Tambien se utiliza la notacion fX(x) = p(x).

La funcion de distribucion acumulada FX(x) de una va-riable aleatoria discreta X con funcion de densidad p(x) sedefine para cada x ∈ R por

FX(x) = p[X ≤ x] =∑

{y : y≤x}

p(y)

y verifica:

1. lımx→−∞

FX(x) = 0.

2. lımx→+∞

FX(x) = 1.

3. Para culesquiera numeros reales a y b con a < b se verifi-ca que FX(a) ≤ FX(b) (no decreciente)

Page 87: Libro de estadistica

Analisis de Datos 87

4. lımx→a+

FX(x) = FX(a) para todo a ∈ R (continua por la

derecha)

La funcion de distribucion goza de las siguientes propieda-des:

1. p[a < X ≤ b] = FX(b) − FX(a).

2. p(x) = fX(x) = FX(x) − lımy→x−

FX(y).

Sea p(x) la funcion de densidad de una variable aleatoria dis-creta. La esperanza matematica o valor esperado de X sedefine por

E(X) = µ =∑

xk∈Dx

xkp(xk)

y la esperanza de la funcion g(X) de la v.a. X por

E[g(X)] = µg(X) =∑

xk∈Dx

g(xk)p(xk).

La esperanza es una medida de tendencia central y su va-lor es un numero real. La esperanza existe siempre que seaconvergente la correspondiente serie que la define. Se verificaque

E(aX + b) = aE(X) + b, a, b ∈ R.

Los momentos ordinarios de una variable aleatoria, si exis-ten, se definen como las esperanzas de potencias de la varia-ble aleatoria, i.e.,

µk = E(Xk) =∑

xi∈Dx

xki fX(xi)

De entre ellos destacan µ0 = 1 y µ1 = µ = E(X) llamadamedia de X.

Page 88: Libro de estadistica

88 J. L. Dıaz–Barrero

Los momentos centrados sobre µ, si existen, se definen co-mo

mk = E[(X − E[X])k

]=

∑xi∈Dx

(xi − µ)kfX(xi).

Son momentos destacados m0 = 1, m1 = 0, m2 = V ar(X) =∑xi∈Dx

(xi − µ)2fX(xi). La desviacion tıpica o estandar es la

raız cuadrada positiva de la varianza, i.e.,

σX =√

V ar(X) ={ ∑

xi∈Dx

(xi − µ)2fX(xi)}1/2

.

La varianza goza de las sguientes propiedades:

1. V ar(X) = E(X2) −[E(X)

]2

.

2. V ar(aX + b) = a2V ar(X), a, b ∈ R.

Entre los momentos centrados y ordinarios se verifica la si-guiente relacion

mk = E[(X − E[X])k

]= E

[ k∑j=0

(−1)k−j

(k

j

)Xjµk−j

]=

k∑j=0

(−1)k−j

(k

j

)µk−j

1 µj.

La funcion generadora de momentos, si existe, se definecomo

mX(t) = E(etX) =∑

xj∈Dx

etxjp(xj)

y la funcion caracterıstica como

ϕX(t) = E(eitX) =∑

xj∈Dx

eitxjp(xj).

Se verifica

Page 89: Libro de estadistica

Analisis de Datos 89

1. mX(t) = ϕX(−it), ϕX(t) = mX(it)

2.dk

dtkmX(t)

∣∣∣t=0

= µk

3.dk

dtkϕX(t)

∣∣∣t=0

= ikµk.

5.2. Modelos probabilısticos discretos

5.2.1. Distribucion de Bernoulli

Si un experimento aleatorio tiene dos resultados posiblesexito y fracaso, i.e., E = {e, f}. Entonces, la aplicacionX : E → R definida por X(e) = 1 y X(f) = 0 es una variablealeatoria que tiene como funcion de densidad de probabilidad

fX(x) =

{1 − p si x = 0,

p si x = 1

se llama distribucion de Bernoulli de parametro p, i.e., X ∼Ber(p). Su esperanza es E(X) = p, su varianza V ar(X) =p(1 − p) y mX(t) = E(etX) = 1(1 − p) + etp = 1 + p(et − 1).

Ejemplo 5.2.1 La probabilidad anual que se produzca un tor-nado en Mallorca es 0,2. La variable aleatoria

X =

{0 si no se produce,

1 si se produce

es una variable aleatoria de Bernoulli de parametro p = 0,2con funcion de densidad

fX(x) =

{0,8 si x = 0,

0,2 si x = 1.

Page 90: Libro de estadistica

90 J. L. Dıaz–Barrero

5.2.2. La Distribucion Binomial

En el experimento que consiste en la realizacion de repeticio-nes independientes de una prueba de Bernoulli, si n repre-senta el numero de pruebas y X es la variable aleatoria quetoma como valores el numero de exitos en estas n repeticio-nes, entonces

X = {0, 1, 2, · · · , n}.

Su funcion de densidad de probabilidad fX(k) = p[X = k]representa la probabilidad de obtener k exitos y n − k fra-casos en n repeticiones del experimento. Dado que las repe-ticiones se consideran independientes cualquier ordenacionde k exitos y n − k fracasos tiene probabilidad pk(1 − p)n−k

y como hay PRk,n−kn ordenaciones posibles, entonces, para

k = 0, 1, · · · , n, se tiene que

p[X = k] = PRk,n−kn pk(1 − p)n−k

=n!

k!(n − k)!pk(1 − p)n−k =

(n

k

)pk(1 − p)n−k.

La distribucion de probabilidad anteriormente definida se re-presenta con la notacion X ∼ B(n; p) y se denomina Distri-bucion Binomial porque los valores que toma su funcion dedensidad coinciden con los terminos del binomio

[(1 − p) + p]n =n∑

k=0

(n

k

)pk(1 − p)n−k.

Sus parametros son:

1. µ = E(X) = np,

2. V ar(X) = σ2 = np(1 − p), σ =√

np(1 − p)

3. mX(t) = [(1 − p) + pet]n.

Page 91: Libro de estadistica

Analisis de Datos 91

5.2.3. Distribucion uniforme discreta

Una variable aleatoria que puede asumir n valores diferentescon igual probabilidad diremos que tiene una distribucionuniforme discreta, i.e., si Dx = {1, 2, · · · , n} entonces

X ∼ U{1, 2, · · · , n} ⇐⇒ fX(x) =1

n, x = 1, 2, · · · , n.

Sus parametros son:

1. E[X] =n + 1

2

2. V ar(X) =n2 − 1

12.

3. mX(t) =1

n

n∑k=1

ekt.

5.2.4. La distribucion geometrica

La distribucion geometrica modela el numero de fracasoshasta el primer exito. Existen dos versiones: (1) La que cuen-ta unicamente el numero de fracasos y (2) La que cuentael numero de pruebas incluyendo la que constituye el primerexito. Puesto que modela unidades, en general de tiempo, quehay que esperar hasta obtener el primer exito, se denominatambien variable aleatoria discreta de tiempo de espera.Se dice que la variable aleatoria X con Dx = {0, 1, 2, · · · }sigue una distribucion geometrica de parametro p si

fX(x) = p(1 − p)x, x = 0, 1, 2, · · · .

Esta distribucion modela el numero de fracasos hasta el pri-mer exito, sin incluirlo. Sus parametros son:

Page 92: Libro de estadistica

92 J. L. Dıaz–Barrero

1. E(X) =1 − p

p,

2. V ar(X) =1 − p

p2.

3. mX(t) =p

1 − et(1 − p).

La variable aleatoria X con Dx = {1, 2, 3, · · · } sigue una dis-tribucion geometrica de parametro p cuando

fX(x) = p(1 − p)x−1, x = 1, 2, 3, · · ·

Sus parametros son

1. E(X) =1

p,

2. V ar(X) =1 − p

p2.

Modela el numero de pruebas hasta alcanzar el primer exito,incluyendo este.

5.2.5. La distribucion de Poisson

Una variable aleatoria X con Dx = {0, 1, 2, · · · } se dice quesigue una Distribucion de Poisson de parametro λ cuandoy solo cuando

fX(x) = p[X = x] =λxe−λ

x!, x ∈ Dx, λ > 0.

Sus parametros son:

Page 93: Libro de estadistica

Analisis de Datos 93

1. E(X) = λ,

2. V ar(X) = λ.

3. mX(t) = eλ(et−1).

Esta distribucion es un modelo adecuado para muchos fenome-nos aleatorios, independientes, que cuentan exitos por uni-dad de tiempo, espacio, longitud, etc. Ejemplos: numero detornados, terremotos o inundaciones que ocurren en una de-terminada zona por ano.

La distribucion de Poisson puede obtenerse como lımite de laBinomial. En efecto, supongamos que en un tiempo t se reali-zan n experimentos independientes de Bernoulli con parame-tro p. Si X es la variable aleatoria que cuenta el numero deexitos, entonces se distribuye como una Binomial de parame-tros n y p, es decir, X ∼ B(n, p) con

fX(x) = p[X = x] =

(n

x

)px(1 − p)n−x, x = 0, 1, 2, · · · , n.

Supongamos que en el periodo t aumentamos el numero deexperimentos de forma que el promedio de exitos sea cons-

tante, i.e., E(X) = np = λ = cte., entonces p =λ

ny

fX(x) = p[X = x] =

(n

x

)(λ

n

)x(1−

λ

n

)n−x

, x = 0, 1, 2, · · · , n.

Tomando lımite con n → ∞ se obtiene

fX(x) = p[X = x] =λxe−λ

x!, x = 0, 1, 2, · · · .

Sintetizando, la distribucion de Poisson se obtiene como lımi-te de una Binomial para la que el numero de experimentosde Bernoulli crece indefinidamente manteniendo constanteel numero medio de exitos por unidad de tiempo.

Page 94: Libro de estadistica

94 J. L. Dıaz–Barrero

5.2.6. Perıodo de retorno

Se llama perıodo de retorno al tiempo esperado entre suce-sos. Es decir, si A es un suceso y T es la variable aleatoria(temporal) que mide el tiempo entre ocurrencias consecuti-vas de A, entonces el periodo de retorno de A es E(T ). Porejemplo, si T = numero de anos que transcurren hasta larealizacion de un suceso A, entonces T ∼ G(p) con p = p[A].

Por tanto, τ = E(T ) =1

pes el periodo de retorno de A.

5.3. Problemas

Problema 5.1 Se considera la distribucion de probabilidad (X, fX)donde X ≡ {1, 2, · · · , 9, 10} y fX(x) = 1/10, x = 1, 2, · · · , 9, 10.

a. Representar graficamente las funciones de densidad de pro-babilidad y de distribucion.

b. Calcular la esperanza y la varianza de X.

c. Calcular p[X > 5], p[3 < X ≤ 8], p[X ≥ 7].

Problema 5.2 La probabilidad anual de que se produzcan inun-daciones en la costa del Maresme es 0,45. Calcular la probabi-lidad que en los proximos 10 anos se produzcan inundaciones:

a. Todos los anos.

b. Al menos dos anos.

c. Exactamente 4 anos.

d. Mas de cuatro pero menos de ocho anos.

Page 95: Libro de estadistica

Analisis de Datos 95

Problema 5.3 Trece hormigoneras estan suministrando hor-migon a una obra. La probabilidad que al final de una jorna-da una hormigonera continue funcionando es de 0,60. Si lashormigoneras funcionan independientemente hallar cual es elnumero mas probable de hormigoneras en funcionamiento alfinal del dıa y cual es su probabilidad.

Solucion. Sea X = numero de hormigoneras en funciona-miento al final del dia. Bajo la hipotesis de independencia Xse distribuye segun una Binomial de parametros n = 13 yp = 0,60. La correspondiente funcion de densidad es

x 0 1 2 3 4 5 6fX 6.6e-06 0.0001 0.0011 0.0063 0.0238 0.0643 0.1287x 7 8 9 10 11 12 13

fX 0.1932 0.2173 0.1811 0.1086 0.0444 0.0113 0.0013

La mayor probabilidad es fX(8) = 0,2173 y por tanto 8 esel numero mas probable de maquinas en funcionamiento alfinal del dıa y su probabilidad es 0,2173. 2

Problema 5.4 Calcular la probabilidad de que en una reunionde 100 personas, elegidas al azar, hallan nacido k, (0 ≤ k ≤100) en el mismo dıa.

Solucion. Parece natural asignar a un individuo, elegido alazar, la probabilidad

p =1

365

de haber nacido un determinado dıa del ano.

Tenemos 100 personas y de ellas seleccionamos k. La proba-bilidad de que todos ellos hayan nacido el mismo dıa y que

Page 96: Libro de estadistica

96 J. L. Dıaz–Barrero

no lo hayan hecho ninguno de los 100 − k restantes es( 1

365

)k(1 −

1

365

)100−k

.

Dado que con las 100 personas que tenemos se pueden for-

mar(100

k

)grupos de k personas, entonces la probabilidad

pedida es

p =

(100

k

)( 1

365

)k(1 −

1

365

)100−k

.

2

Problema 5.5 Se tiene un dado trucado. En 10 tiradas inde-pendientes la probabilidad de que aparezca numero par 5 ve-ces es el doble de la probabilidad de aparezca 4 veces. Cualsera la probabilidad de que aparezca par al menos una vez enlas 10 tiradas?

Solucion. Sean p y q las probabilidades de que al lanzar eldado aparezca par e impar respectivamente. La probabilidadde que aparezca par en 5 ocasiones es(

10

5

)p5q5

y la de que aparezca en 4 ocasiones(10

4

)p4q6.

Segun los datos del enunciado se tine(10

5

)p5q5 = 2

(10

4

)p4q6

Page 97: Libro de estadistica

Analisis de Datos 97

o 6p = 10q. Por otro lado, q = 1 − p. Resolviendo el sistema

anterior se obtiene p =5

8y q =

3

8.

Por tanto, la probabilidad pedida es la del suceso contrario ala no aparicion de par, es decir,

p = 1 −(10

0

)p0q10 = 1 −

(3

8

)10

' 0,999945.

2

Problema 5.6 Trafico pretende modificar la normativa de cir-culacion de modo que un conductor pierda su permiso de con-ducir si recibe tres multas por exceso de velocidad. Cada vezque un conductor coge su coche tiene una probabilidad de0,001 de ser sancionado por exceso de velocidad.

a. Calcular la probabilidad que un conductor reciba su prime-ra multa por exceso de velocidad la decimoquinta vez quecoja el coche despues de la aplicacion de la nueva norma-tiva.

b. ¿Cual es el numero esperado de veces que cogera el cochehasta que reciba la primera multa por exceso de veloci-dad?

c. ¿Cual es la probabilidad de que un conductor coja su cocheal menos tres veces hasta que reciba la primera multa?¿Y la de que lo coja al menos tres veces antes de recibirsu primera multa?

d. Si un conductor ha salido ya tres veces con su coche y to-davıa no ha sido multado por exceso de velocidad, ¿cuales la probabilidad de que conduzca al menos una vezmas antes de recibir la primera multa?

Page 98: Libro de estadistica

98 J. L. Dıaz–Barrero

Solucion. (a) Sea X el numero de veces que el conductor cogesu coche antes de ser sancionado por primera vez, i.e., X ={0, 1, 2, · · · }. La probabilidad de ser sancionado por excesode velocidad es p = 0,001 y la de no ser sancionado es 1−p =0,999. Por tanto, se trata de una repeticion de variables deBernoulli independientes hasta que se produzca la primerasancion, es decir, X sigue una distribucion geometrica deparametro p = 0,001, i.e.,

X ∼ G(0,001).

La probabilidad pedida es p[X = 14] = (1−p)14p = 0,99914×0,001 = 0,00099.

(b) Ahora hay que calcular el numero esperado de veces quecoge el coche sin recibir sancion y anadirle una vez mas (lavez que conduce y recibe la sancion), i.e.,

N = E(X) + 1 = 1 +1 − p

p= 1000 veces.

(c) Las probabilidades pedidas son p[X ≥ 2] = La sancionpuede ocurrir en la tercera vez o siguientes = 0,998; y p[X ≥3] = La sancion puede ocurrir en la cuarta vez o siguientes= 0,9970.

(d) Si la tercera vez que coge el coche todavıa no ha sidomultado, entonces la variable X tomara valores mayores oiguales que 3, pues la primera multa llegarıa en el peor delos casos, la cuarta vez. Por tanto, la probabilidad pedida es

p[X ≥ 4|X ≥ 3] =p[X ≥ 4 ∩ X ≥ 3]

p[X ≥ 3]=

p[X ≥ 4]

p[X ≥ 3]= 0,999.

2

Problema 5.7 Determinar la esperanza y la varianza para lasdistribuciones geometrica y de Poisson. (Utilizar la funcion ge-neratiz de momentos)

Page 99: Libro de estadistica

Analisis de Datos 99

Solucion. (a) La funcion generatriz de momentos para unavariable aleatoria que sigue una distribucion geometrica deparametro p es

mX(t) = E(etX) =∞∑

x=0

etxfX(x) =∞∑

x=0

etxp(1 − p)x

= p∞∑

x=0

etx(1 − p)x = p[1 + et(1 − p) + e2t(1 − p)2 + . . .

]

= p[ 1

1 − et(1 − p)

]si et(1 − p) < 1.

Por tanto, dado que mX(t) =p

1 − et(1 − p), entonces

E(X) = lımt→0

d

dtmX(t) = lım

t→0

p(1 − p)[1 − et(1 − p)

]2 =1 − p

p.

Ahora es facil obtener que V ar(X) =1 − p

p2.

(b) Si X ∼ Poiss(λ) entonces

mX(t) = E(etX) =∞∑

x=0

etxfX(x) =∞∑

x=0

e−λ(λet)x

x!

= e−λ

∞∑x=0

(λet)x

x!= eλ(et−1).

A partir de mX(t) se obtiene

E(X) = lımt→0

d

dtmX(t) = lım

t→0

[eλ(et−1)λet

]= λ.

E(X2) = lımt→0

d2

dt2mX(t)

Page 100: Libro de estadistica

100 J. L. Dıaz–Barrero

= lımt→0

[eλ(et−1)λet + λ2e2teλ(et−1)

]= λ + λ2.

Por tanto, V ar(X) = E(X2) − E2(X) = λ. 2

Problema 5.8 Suponiendo que el numero de tornados obser-vados en un ano en una cierta region tiene una distribucion dePoisson de parametro λ = 8.

1. Calcular p[X ≤ 5

], p

[6 ≤ X ≤ 9

], p

[10 ≤ X

].

2. ¿Cuantos tornados cabe esperar que se produzcan en unano y cual es la desviacion tıpica del numero de tornadosobservados?

Solucion. 1.- Dado que P[X = x

]=

λxe−λ

x!, entonces

P [X ≤ 5] =5∑

x=0

8xe−8

x!= 0,191.

p[6 ≤ X ≤ 9] =9∑

x=6

8xe−8

x!= 0,526.

p[x ≥ 10] = 1 − p[X < 10] = 1 −9∑

x=0

8xe−8

x!= 0,283.

(b) E(X) = 8, V ar(X) = 8 y σX =√

V ar(X) = 2,828.

2

Page 101: Libro de estadistica

Capıtulo 6

Variables AleatoriasContinuas

Dado un espacio de probabilidad (E, S, p); una variable alea-toria X definida sobre S con Dx ⊆ R (intervalo) se dice quees una variable aleatoria continua.

La funcion de densidad de probabilidad de una variablealeatoria continua X se define como una funcion fX : R →[0, 1] tal que para todo a, b ∈ R, con a < b,

p[a < X ≤ b] =

∫ b

a

fX(x) dx.

La funcion de densidad verifica:

1. fX(x) ≥ 0, para todo x ∈ R.

2.∫ ∞

−∞fX(x) dx = 1.

Al igual que en el caso discreto toda funcion fX : R → [0, 1]que cumpla las dos condiciones anteriores es funcion de den-sidad de una variable aleatoria X, en este caso continua.

101

Page 102: Libro de estadistica

102 J. L. Dıaz–Barrero

La funcion de densidad goza de las siguientes propiedades:

1. p[X = c] = 0, para toda constante c ∈ R.

2. p[a < X ≤ b] = p[a ≤ X ≤ b] = p[a ≤ X < b] = p[a <X < b], para todo a, b ∈ R, a < b.

A la pareja formada por (X, fX) se le llama distribucion con-tinua de probabilidad.

La funcion de distribucion acumulada FX(x) de una varia-ble aleatoria continua X se define por

FX(x) = p[X ≤ x] =

∫ x

−∞fX(x) dx,

y verifica las siguientes propiedades:

1. lımx→−∞

FX(x) = 0,

2. lımx→+∞

FX(x) = 1,

3. FX(a) ≤ FX(b), para todo a < b (no decreciente),

4. lımx→a+

FX(x) = FX(a) (continua derecha),

5. p[a < X ≤ b] = p[X ≤ b] − p[X ≤ a] = FX(b) − FX(a),para todo a, b ∈ R, a < b,

6. La funcion de densidad es la derivada de la funcion dedistribucion

fX(x) = F ′X(x) =

dFX(x)

dx.

Page 103: Libro de estadistica

Analisis de Datos 103

6.1. Parametros de una variable alea-toria continua

La esperanza matematica de una variable aleatoria conti-nua se define por

E(X) = µ =

∫ ∞

−∞xfX(x) dx,

y la esperanza o valor esperado de la funcion g(X) por

E[g(X)] = µg(X) =

∫ ∞

−∞g(x)fX(x) dx.

La esperanza es un parametro de centralizacion que existesiempre y cuando sea convergente la integral que la define.

La varianza de X se define por

V ar(X) = σ2X =

∫ ∞

−∞(x − µ)2fX(x) dx = E(X2) − E2(X).

La desviacion tıpica es la raız cuadrada positiva de la va-rianza, i.e.,

σX =√

V ar(X).

La desigualdad de Chebychev enuncia que para toda varia-ble aleatoria X con esperanza µ y varianza finita σ2, y todak > 0,

p[|X − µ| ≥ kσ] ≤1

k2,

o equivalentemente,

p[µ − kσ < X < µ + kσ] ≥ 1 −1

k2.

Page 104: Libro de estadistica

104 J. L. Dıaz–Barrero

El percentil q−esimo se define para todo q ∈ [0, 1], comoaquel valor ξq tal que

ξq = mın{xk|FX(xk) ≥ q}.

La moda se define como el valor o valores de x donde fX

alcanza sus maximos.

6.2. Modelos probabilısticos continuos

6.2.1. Distribucion uniforme continua

La distribucion uniforme continua o distribucion rectangu-lar sirve para modelar fenomenos que toman valores en unintervalo finito [a, b] donde se supone la equiprobabilidad delos subintervalos de igual longitud. Ejemplo: situar puntossobre un segmento. Se dice que X ∼ U [a, b] cuando su fun-cion de densidad es

fX(x) =1

b − aI{a ≤ X ≤ b}.

Sus parametros son

1. E(X) =a + b

2,

2. V ar(X) =(b − a)2

12.

6.2.2. Distribucion exponencial

Es util para modelar tiempos entre sucesos de Poisson. Sedice que la variable aleatoria X con Dx = R+ sigue una dis-

Page 105: Libro de estadistica

Analisis de Datos 105

tribucion exponencial de parametro λ, (λ > 0), i.e.,

X ∼ Exp(λ) ⇐⇒ fX(X) = λe−λxI{0 ≤ x}.

Sus parametros son

1. E(X) =1

λ(perıodo de retorno)

2. V ar(X) =1

λ2.

6.3. La Distribucion Normal

Una variable aleatoria continua X se dice que sigue unaDistribucion Normal o Distribucion de Gauss–Laplace deparametros µ, σ2 si tiene por funcion de densidad

fX(x) =1

σ√

2πe−

1

2

(x − µ

σ

)2

.

Probablemente es la mas importante y la mas utilizada de lasdistribuciones de probabilidad, entre otras, por las siguientesrazones:

1. Es basica en la aplicacion de la inferencia estadıstica alanalisis de datos, dado que gran cantidad de estadısti-cos muestrales tienden a la distribucion normal a medi-da que aumenta el tamano de la muestra.

2. Gran parte de los fenomenos observables se representanmediante la distribucion normal al menos en una pri-mera aproximacion.

3. Las variables aleatorias continuas que dependen de ungran numero de causas independientes, que suman susefectos y que ninguna de ellas es preponderante sobrelas demas, tambien sigue una distribucion normal.

Page 106: Libro de estadistica

106 J. L. Dıaz–Barrero

Esta distribucion aparece en el siglo XVIII definida en formaempırica o grafica en problemas relacionados con el comercioy la navegacion. En 1733 De Moivre la introdujo como lımitede la Binomial (aproximacion) cuando el numero de prue-bas n crece indefinidamente. Posteriormente, Gauss (1808)y Laplace (1812) presentan el modelo normal expresandolocon una funcion de densidad y lo utilizan para estudiar ladistribucion de los errores al realizar mediciones fısicas (As-tronomıa).

La grafica de fX(x) tiene forma de campana con un maximoen x = µ. Las dos colas se extienden indefinidamente sien-do y = 0 una asıntota horizontal. Cualesquiera que sean losvalores de µ y σ2 para una variable aleatoria normal, el areabajo la curva fX es igual a 1 y se verifica que aproximada-mente el 68,25 % de los valores de la distribucion se encuen-tran en el intervalo [µ−σ, µ+σ], el 95,5 % en [µ−2σ, µ+2σ]y el 99,7 % en [µ − 3σ, µ + 3σ].

Puede comprobarse que si X ∼ N(µ, σ2) sus parametrosson:

1. E(X) = µ,

2. V ar(X) = σ2,

3. mX(t) = eµt +

1

2σ2t2

.

Dado que la p[a ≤ X ≤ b] viene dada por

p[a ≤ X ≤ b] =

∫ b

a

fX(x) dx

y que esta integral no es resoluble por cuadraturas, se nece-sita aproximarla numericmente mediante tablas. Esto com-portarıa hacer una tabla para cada pareja de valores µ, σ2.

Page 107: Libro de estadistica

Analisis de Datos 107

Este problema se resuelve mediante la tipificacion de la va-riable que consiste en hacer el cambio de variable

Z =X − µ

σ

que permite pasar de la variable X ∼ N(µ, σ2) a la normalestandard Z ∼ N(0, 1). En efecto,

E(Z) = E(X − µ

σ

)=

1

σ

{E(X) − µ

}=

1

σ(µ − µ) = 0.

V ar(Z) = V ar(X − µ

σ

)=

1

σ2V ar(X) =

σ2

σ2= 1.

6.4. El teorema del Lımite Central

La aparicion historica de variables aleatorias normales en lasaplicaciones proviene del hecho que cuando se suman varia-bles aleatorias, el resultado tiende a comportarse como unavariable aleatoria normal. Esto se justifica con el Teoremadel Lımite Central que es uno de los mas importantes enla Teorıa de la Probabilidad y con enormes consecuencias enEstadıstica. A continuacion, se enuncia una version sencillade este resultado:

Teorema del Lımite CentralSean X1, X2, . . . , Xn variables aleatorias independientes eidenticamente distribuidas, con E(Xi) = µ y V ar(Xi) =

σ2, i = 1, 2, . . . , n. Definimos Sn =n∑

i=1

Xi. Entonces, la va-

riable Sn tipificada

Zn =Sn − E(Sn)√

V ar(Sn)=

Sn − nµ

σ√

n

Page 108: Libro de estadistica

108 J. L. Dıaz–Barrero

tiene distribucion FZn(x) tal que, para cualquier x ∈ R

lımn→+∞

FZn(x) = FZ(x).

En otras palabras,

lımn→+∞

p[a ≤ Zn ≤ b] = p[a ≤ Z ≤ b]

con Z ∼ N(0, 1). Sintetizando, este resultado enuncia que:En una sucesion de pruebas repetidas e independientes lamedia muestral estandarizada tiende a la normal estandarda medida que el numero de pruebas aumenta.

El teorema del lımite central puede aplicarse a la suma devariables aleatorias discretas. El siguiente teorema, anterioral del lımite central, puede considerarse un corolario.

Teorema de De Moivre–Laplace

Sea X ∼ B(n, p). Definimos Zn =X − np√np(1 − p)

cuya distri-

bucion escalonada es FZn. Entonces,

lımn→+∞

FZn(x) = FZ(x).

Es decir, para valores grandes de n, si p no es proximo a 1,la distribucion normal

N(np, np(1 − p)

)se puede utilizar para aproximar a la Binomial. Cuanto ma-yor sea n y p mas proximo a 0,5 mejor sera la aproximacion.

Finalmente, se ha de comentar que actualmente con la tecnolo-gıa que tenemos a nuestro alcance las aproximaciones de laBinomial por la la normal carecen de sentido.

Page 109: Libro de estadistica

Analisis de Datos 109

6.5. Problemas

Problema 6.1 En una fabrica de cementos se anuncia quelos pedidos son atendidos en 30 minutos. Supongamos queel tiempo en atender los pedidos se distribuye segun una va-riable aleatoria continua X ∼ U(25, 35). se pide:

1. Definir las funciones de densidad de probabilidad y dis-tribucion y dibujar sus graficas.

2. ¿Cual es la probabilidad que el tiempo de atencion delsiguiente pedido exceda los 33 minutos?

3. ¿Cual es la probabilidad que el tiempo en que un pedidoes atendido difiera en 2 minutos del tiempo anunciado?

4. Para cada a tal que 25 < a < a + 2 < 35, ¿cual es laprobabilidad que un pedido sea atendido en el intervalo[a, a + 2]?

Problema 6.2 Un estudio realizado sobre la cantidad de “Cha-papote” retirado diariamente por los equipos de limpieza (vo-luntarios, pescadores y ejercito), revela que el 50 % de los equi-pos retiran mas de 100 y menos de 200 teneladas, el 25 % masde 200 y menos de 300 y el resto no llega a las 100 tonela-das. Con esta informacion construir una funcion de densidadque modelice la distribucion X (en cientos de toneladas) de losresiduos recogidos por los equipos de limpieza y, a partir deella, obtener:

1. La funcion de distribucion de X.

2. La media de residuos recogidos y su desviacion tıpica.

3. El porcentaje de equipos que recogen entre 50 y 150 to-neladas diarias.

Page 110: Libro de estadistica

110 J. L. Dıaz–Barrero

Solucion. El numero de toneladas recogidas, segun el infor-me, oscila entre 0 y 300 toneladas diarias. Entonces, La fun-cion de densidad es

fX(x) =

1/4, 0 ≤ x < 1;1/2, 1 ≤ x < 2;1/4, 2 ≤ x < 3;0, en el resto.

1. FX(x) =

∫ x

−∞fX(x) dx =

0, x < 0;x/4, 0 ≤ x < 1;x/2 − 1/4, 1 ≤ x < 2;x/4 + 1/4, 2 ≤ x < 3.1, x ≥ 3.

En efecto, para x < 0, FX(x) =

∫ x

∞0 dx = 0. Para 0 ≤

x < 1, FX(x) =

∫ 0

−∞0 dx +

∫ x

0

1/4 dx =x

4. Para 1 ≤

x < 2, FX(x) =

∫ 0

−∞0 dx +

∫ 1

0

1/4 dx +

∫ x

1

1/2 dx =

x

2−

1

4. Para 2 ≤ x < 3, FX(x) =

∫ 0

∞0 dx +

∫ 1

0

1/4 dx +∫ 2

1

1/2 dx+

∫ x

2

1/4 dx =x

4+

1

4. Finalmente, para x ≥ 3,

FX(x) =

∫ 0

−∞0 dx+

∫ 1

0

1/4 dx+

∫ 2

1

1/2 dx+

∫ 3

2

1/4 dx =

1.

2. E(X) =

∫ ∞

−∞xfX(x) dx =

3

2, i.e., 150 toneladas. E(X2) =∫ ∞

−∞x2fX(x) dx =

34

12. Por tanto, V ar(X) = 0,5833 y

sX = 0,7638.

3. P [0,5 ≤ X ≤ 1,5] =

∫ 1,5

0,5

fX(x) dx = FX(1,5)−FX(0,5) =

0,375. Es decir, el 37,5 % de los equipos.

Page 111: Libro de estadistica

Analisis de Datos 111

2

Problema 6.3 Sea Z una variable aleatoria que se distribuyesegun una normal estandard. Calcular las siguientes probabi-lidades:

p(0 ≤ z ≤ 2,2) p(z ≤ 1,37) p(−2,5 ≤ z ≤ 2,5)p(0 ≤ z ≤ 1) p(−1,8 ≤ z) p(1,4 ≤ z ≤ 2,5)

p(−2,5 ≤ z ≤ 0) p(−1,5 ≤ z ≤ 2) p(1,5 ≤ z)

Problema 6.4 Hallar los valores aproximados de los siguien-tes percentiles de la distribucion normal estandadrd:

a. 91 b. 9 c. 75 d . 95

Solucion. a. Se ha de calcular el valor de a de forma quep(z ≤ a) = 0,91. Directamente de las tablas se obtiene quea = 1,34. En los otros casos los valores aproximados sonrespectivamente: −1,34, 0,68, 1,645. 2

Problema 6.5 Obtener el valor de k en las siguientes ecuacio-nes para la variable aleatoria N(0, 1):

p(z ≥ k) = 0,01 p(−k ≤ z ≤ k) = 0,6826p(−k ≤ z ≤ k) = 0,98 p(−k ≤ z ≤ k) = 0,9544

p(z ≤ −k) = 0,01 p(z ≥ k) = 0,95

Solucion. En el primer caso hay que tener encuenta que p(z ≥k) = 0,01 es equivalente a que 1 − p(z < k) = 0,01 o p(z <k) = 0,99. Directamente de las tablas resulta que k = 2,33.En los otros casos se obtienen los valores 2,33, 2,33, 1,00, 2,00y −1,645 respectivamente. 2

Problema 6.6 Sea X una variable aleatoria que se distribuyesegun una N(30, 25). Hallar las siguientes probabilidades:

P (30 ≤ X ≤ 37,1) P (21,05 ≤ X ≤ 27,3) P (26,35 ≤ X ≤ 30)P (23,15 ≤ X ≤ 40,05) P (33,25 ≤ X ≤ 36,3) P (|X| ≤ 32,5)

Page 112: Libro de estadistica

112 J. L. Dıaz–Barrero

Solucion. Tipificando la variable mediante la transformacion

z =x − µ

σ, se obtienen losisguientes resultados:

0,4222 0,1540 0,2673 0,8925 0,2579 0,6913

2

Problema 6.7 Suponiendo que los errores en la medida de300 observaciones topograficas siguen una distribucion nor-mal de media 0 y desviacion estandar 4, calcular :

(i) La probabilidad de que un error no sea mayor que 6

(ii) La probabilidad de que sea por defecto y mayor que 8

(iii) Si llamamos pequenos a los errores menores que 7 y gran-des a los mayores que 7, calcular el numero esperado deerrores grandes y pequenos en las 300 observaciones.

Solucion. Si X ∼ N(0, 16) y Z ∼ N(0, 1), entonces:(i) p[|X| ≤ 6] = p[−6 ≤ X ≤ 6] = p[−1,5 ≤ Z ≤ 1,5] =0,8662.(ii) p[X < −8] = p[Z < −2] = 0,0228.(iii) p[ error pequeno]=p[|X| ≤ 7] = p[|Z| ≤ 1,75] = 0,9198 yp[error grande] = 1 − 0,9198 = 0,0802. Por tanto, el nume-ro esperado de rrores pequenos es de 276 y el de errroresgrandes de 24. 2

Problema 6.8 Supongamos que el pH del suelo de la cuencade un rio es una variable aleatoria que se distribuye normal-mente con media 6 y desviacion tıpica 0,10. Si se elige unamuestra al azar del suelo y se determina su pH:

1. ¿Cual es la probabilidad que el pH resultante este entre5,90 y 6,25?

Page 113: Libro de estadistica

Analisis de Datos 113

2. ¿Cual es la probabilidad que el pH se mayor que 6,10?

3. ¿Que valor sera superado solamente por el 5 % de los posi-bles pH?

Problema 6.9 Para conocer el grado de concienciacion de losproblemas medio ambientales que tienen los trabajadores delas constructoras un inspector ha aplicado un test de ambien-talizacion a los 500 trabajadores de una empresa. Se suponeque las puntuaciones obtenidas se distribuyen se gun una nor-mal de media 80 y desviacion tıpica 12. (a) ¿Que puntuacionsepara al 25 % de los trabajadores con menor conocimiento delos problemas ambientales? (b) ¿A partir de que puntuacion seencuentra el 25 % de los trabajadores con mejor conocimientode la ambientalizacion? (c) El inspector visita otra empresa yal aplicar el mismo test a sus trabajadores encuentra que laspuntuaciones se distribuyen segun una N (82, 169). ¿Que sepuede decir? ¿Hay en la segunda empresa trabajadores conmejor conocimiento de los problemas ambientales que en laprimera?

Solucion. (a) p[X ≤ x] = 0,25; p(X − 80

12≤ z

)= 0,25.

z = −0,67;X − 80

12= −0,67; X = 71,96.

El 25 % de los trabajadores con menor conocimiento en am-bientalizacion obtiene puntuaciones inferiores a 71,96.

(b) P [X ≤ x] = 0,75; p(X − 80

12≤ z

)= 0,75. z = 0,67;

X − 80

12= 0,67; X = 88,04

A partir de 88,04 se encuentra el 25 % de los trabajadores conmejor conocimiento de los problemas ambientales.

(c) Teniendo en cuenta que en el intervalo (µ − σ, µ + σ) se

Page 114: Libro de estadistica

114 J. L. Dıaz–Barrero

halla el 68,2 % de los individuos; en (µ−2σ, µ+2σ) el 95,4 %y en (µ − 3σ, µ + 3σ) el 99,7 %, entonces

68.2 % 95.4 % 99.7 %Empresa 1 (68,92) (56,104) (44,116)Empresa 2 (69,95) (56,108) (43,121)

Se puede concluir que en la segunda empresa hay trabaja-dores con mejor conocimiento de los problemas ambientalesque en la primera, ya que los lımites inferiores de los inter-valos son muy proximos; en cambio los superiores son sen-siblemente mas altos en la segunda empresa. 2

Problema 6.10 La vida de una hormigonera se distribuye nor-malmente con media 10000 horas. Por la experiencia acumula-da, se sabe que el 50 % de ellas dura menos de 9190 horas omas de 10810 horas. Se pide:

1. ¿Cual es la desviacion estandard del tiempo de vida delas hormigoneras?

2. ¿Cual es el porcentaje de hormigoneras que funcionara masde 11500 horas?

3. Si una hormigonera lleva funcionando 12000 horas, ¿cuales la probabilidad de que continue funcionando despuesde las 13000 horas?

Solucion. La vida de las hormigoneras X se distribuye segununa N(10000, σ2). Tipificando, mediante el cambio de varia-

ble z =x − 10000

σse obtiene que Z ∼ N(0, 1). Entonces:

1. z1 =10810 − 10000

σ=

810

σ, z2 =

9190 − 10000

σ=

−810

σ.

Page 115: Libro de estadistica

Analisis de Datos 115

Segun el enunciado, tenemos

p[Z >

810

σ

]= p

[Z ≤

−810

σ

]p[Z >

810

σ

]+ p

[Z ≤

−810

σ

]= 0,5

De donde p[Z ≤

810

σ

]= 0,75;

810

σ= 0,675 y σ = 1200.

2. p[X ≥ 11500] = 1 − p[X < 11500] = 1 − p[Z < 1,25] =1 − 0,8944 = 0,1056.

3. p[X > 13000|X ≥ 12000] =p[X > 13000 ∩ X ≥ 12000]

p[X ≥ 12000]=

p[X > 13000]

p[X ≥ 12000]= 0,1278. 2

Problema 6.11 La temperatura que se registra en la superfıciede un satelite meteorologico se puede considerar que se distri-buye segun una variable aleatoria normal. Cuando se encuen-tra afectado por la sombra de la Tierra, se tiene que en un 95 %de los casos la temperatura es inferior a los 263◦K, mientrasque supera los 253◦K en el 40 % de las mediciones.

1. Calcular la media y la varianza de la temperatura en es-tas condiciones.

2. Cuando el satelite recibe directamente la luz solar, la tem-peratura en su superfıcie presenta la misma varianza queen el caso anterior, pero su media se incrementa en 35◦K.¿Cual es la probabilidad que la temperatura supere los278◦K?

Solucion. (1) La variable aleatoria temperatura en la sombrase distribuye segun una normal X ∼ N(µ, σ2). Ademas,

p[X < 263] = 0,95, y p[X > 253] = 0,4

Page 116: Libro de estadistica

116 J. L. Dıaz–Barrero

o equivalentemente,

263 − µ

σ= 1,645, y

253 − µ

σ= 0,255

Resolviendo el sistema anterior resulta: µ = 251,16◦K y σ =7,19◦K.

(2) La variable aleatoria temperatura al sol se distribuye segununa normal Y ∼ N(µ + 35, σ2). Entonces,

p[Y > 278] = 1−p[Y ≤ 278] = 1−p

[278 − 286,16

7,19

]= 0,871.

2

Problema 6.12 La probabilidad que un cliente pague con VI-SA la compra de unos materiales de lampisteria es del 50 %.Hallar la probabilidad que de los 100 proximos clientes:

1. Exactamente 60 paguen con VISA.

2. A lo sumo 40 paguen con VISA.

3. Mas de 40 paguen con VISA.

Solucion. Ahora se trata de una distribucion Binomial B(100, 0,5).Como np = 50 > 5 y nq = 50 > 5, entonces aplicandoel teorema de De Moivre se puede aproximar mediante unaN(µ, σ) donde µ = np = 50 y σ =

√npq = 5. Por tanto,

1. P [X = 60] ∼ P [59,5 ≤ X ≤ 60,5] = P [1,9 ≤ Z ≤2,1] = 0,0108

2. P [X ≤ 40,5] = P [Z ≤ −1,9] = 0,0287.

3. P [X > 40,5] = 1 − P [X ≤ 40,5] = 1 − 0,0287 = 0,9713.

2

Page 117: Libro de estadistica

Capıtulo 7

Inferencia Estadıstica:Estimacion de Parametros.Contrastes de Hipotesis

7.1. Introduccion

La inferencia estadıstica tiene como objetivo obtener infor-macion sobre la poblacion (lo que se quiere estudiar) a partirde una o varias muestras de ella misma (lo que se puedeestudiar). La inferencia es un conjunto de tecnicas y procedi-mientos que permiten de alguna forma cuantificar la incerti-dumbre acerca del modelo y de sus parametros. Es deseable,que la tecnica elegida sea la mas apropiada para seleccionarel modelo que permita tomar las mejores decisiones a partirde la informacion obtenida en las muestras.Sintetizando, podrıamos decir que el objetivo de la estadısticaes obtener conclusiones sobre una caracterıstica de la po-blacion a partir de la informacion proporcionada por unamuestra, para lo cual, es clave garantizar que la muestra searepresentativa de la poblacion.

117

Page 118: Libro de estadistica

118 J. L. Dıaz–Barrero

7.2. Muestreo

Por poblacion se entiende un conjunto homogeneo de ele-mentos en los que se estudia una cracterıstica o variable da-da. Una muestra es un conjunto representativo de los ele-mentos de la poblacion. Para obtener datos de una pobla-cion se puede proceder de dos formas, mediante un censo(se estudia toda la poblacion) o seleccionando una muestra(se estudia parte de la poblacion). Este ultimo procedimientose denomina muestreo. Existen varios tipos de muestreo:

1. Muestreo aleatorio simple. Es un procedimiento de se-leccion de una muestra de forma que cada individuo dela poblacion tiene la misma probabilidad de ser elegido.Cuando la seleccion se realiza con reemplazamiento,de forma que la poblacion es identica en todas las ex-tracciones, la muestra se llama aleatoria simple.

2. Muestreo aleatorio sistematico. Se utiliza cuando elnumero de individuos de la poblacion es elevado. Pararealizarlo, se calcula primero el parametro k que es laparte entera del cociente entre el tamano del censo N yel tamanno de la muestra n. A continuacion, se selec-ciona aleatoriamente el primer elemento de la muestraentre los k primeros elementos de la poblacion (orde-nados siguiendo algun criterio), el segundo entre los ksiguientes y ası hasta completar la muestra.

3. Muestreo aleatorio estratificado. Se utiliza en pobla-ciones heterogeneas cuando los individuos de la pobla-cion se agrupan en estratos (grupos de caracterısticashomogeneas, como sexo, renta,...). Consiste en dividirla poblacion en estratos y mediante muestreo aleatoriosimple seleccionar una muestra representativa de ca-da uno de ellos. Puede ser constante (cuando se extraeel mismo numero de individuos de cada estrato) o pro-porcional (cuando el numero de elementos que se se-

Page 119: Libro de estadistica

Analisis de Datos 119

leccionan de cada estrato es proporcional al numero deelementos del estrato en la poblacion).

4. Muestreo aleatorio por clusters o conglomerados. Seutiliza cuando no se dispone de un censo de la poblaciono cuando sus individuos se hallan muy dispersos geo-graficamente. Asume como unidades muestrales gruposde la poblacion y no individuos particulares. El procedi-miento consiste es seleccionar tantos clusters o conglo-merados como individuos tenga la muestra y despuesseleccionar mediante muestro aleatorio simple un indi-viduo de cada cluster para poder ası formar una mues-tra representativa de la poblacion.

5. Muestreo aleatorio dirigido. Consiste en seleccionaruna muestra con un cierto criterio, de forma que losindividuos selecionados se supongan representativos dela poblacion.

6. Muestreo no aleatorio por cuotas. Se utiliza en en-cuestas de opinion. Se basa en un buen conocimientode la poblacion. El investigador selecciona, segun su cri-terio, el numero de estratos o individuos que consideramas apropiados para su investigacion.

7. Muestreo no aleatorio deliberado. Consiste en selec-cionar la muestra a partir de un segmento concreto dela poblacion (por ejemplo, la guia telefonica) o seleccio-nando deliberadamente los individuos que se conside-ran mas apropiados para constituir la muestra objetode estudio.

Finalmente, comentaremos que la representatividad de unamuestra no se halla solamente en el metodo de muestreo sino que el tamano de la muestra es fundamental. Los criteriosgenerales para seleccionar el tamano de una muestra son:

Page 120: Libro de estadistica

120 J. L. Dıaz–Barrero

1. El objetivo perseguido.

2. Las caracterısticas de la poblacion investigada.

3. El grado de error que se pueda tolerar.

7.3. Estimacion de Parametros

Dada una poblacion caracterizada por una variable aleatoriaX, se llama muestra aleatoria a un conjunto X1, X2, . . . , Xn

de variables aleatorias independientes, identicamente distri-buidas, todas con la misma distribucion y los mismos prame-tros que X. La funcion de densidad conjunta de la muestraes

f(x1, x2, . . . , xn) =n∏

i=1

f(xi).

Observese que antes de tomar la muestra los Xi son variablesaleatorias que al realizarse generan la muestra x1, x2, . . . , xn.

Un estimador es una funcion de la muestra apropiada paraestimar un parametro de la poblacion. Es una variable alea-toria y cada vez que se realiza ( sustitucion de la v.a. por unamuestra) produce una estimacion puntual del parametro,i.e., un numero.

7.3.1. Metodos de Estimacion Puntual

Dada una muestra aleatoria X1, X2, . . . , Xn, y una realiza-cion de la misma x1, x2, . . . , xn, el metodo de los momen-tos consiste en identificar los momentos muestrales con losmomentos poblacionales. Los estimadores de los parametros

Page 121: Libro de estadistica

Analisis de Datos 121

son las soluciones del sistema de ecuaciones

µk = E(Xk) =1

n

n∑i=1

Xki = m′

k, k = 1, 2, . . .

El sistema, que tiene tantas ecuaciones como parametros aestimar, no siempre tiene solucion unica. Tambien puedenutilizarse los momentos centrados en torno a la media.

El metodo de la maxima verosimilitud consiste en hallarlos valores de los parametros que hacen mas verosımil (pro-bable) la muestra. Es decir, se trata de hallar los valores delos parametros que maximizan la funcion de verosimilitud

L(θ1, θ2; x1, x2, . . . , xn) =n∏

k=1

f(xk; θ1, θ2).

En la practica es mas comodo maximizar el logaritmo de lafuncion de verosimilitud, i.e.,

ln L(θ1, θ2; x1, x2, . . . , xn) =n∑

k=1

ln f(xk; θ1, θ2).

Uno de los objetivos que se ha de procurar conseguir cuandose hace la estimacion de un parametro es, obtener de en-tre todos los posibles, el que sea mas adecuado. Al intentarobtener este estimador es util el concepto de error cuadati-co medio (RMS) del estimador. Si θ = ϑ(X1, X2, . . . , Xn) esun estimador de θ, se llama error cuadatico medio de θ a laesperanza de la diferencia entre θ y θ, i.e.,

RMS(θ) = E[(θ − θ)2].

Desarrollando la expresion anterior, se obtiene

RMS(θ) = E[(θ − θ)2] = V ar(θ) + [θ − E(θ)]2.

Page 122: Libro de estadistica

122 J. L. Dıaz–Barrero

Como puede observarse el error cuadratico medio es la sumade dos cantidades no negativas, la varianza del estimador yel cuadrado de su sesgo respecto al parametro desconocido.Esto pone de manifiesto que las propiedades deseables de unestimador han de ser que su varianza sea lo mas pequenaposible y que la distribucion muestral de θ se concentre alre-dedor del parametro.

Un estimador se dice que es insesgado o centrado cuandoE(θ) = θ. Es decir, cuando su sesgo E(θ) − θ = 0. Un es-timador con sesgo negativo subestima al parametro y si elsesgo es positivo lo sobrestima. Si,

lımn→∞

E(θ) = θ,

entonces el estimador es asintoticamente insesgado. Un es-timador se dice que es consistente en media cuadratica si ysolo si,

lımn→∞

E[(θ − θ)2] = 0.

Se dice que el estimador θ1 es mas eficiente que θ2 si

V ar(θ1) < V ar(θ2).

Un estimador es optimo cuando es insesgado y de varianzamınima. Finalmente, un estimador θ se dice que es suficien-te para un parametro θ, cuando utiliza en la estimacion todala informacion contenida en la muestra sobre el parametro θ.

7.3.2. Intervalo de probabilidad e intervalo deconfianza

Dada una muestra aleatoria X1, X2, . . . , Xn, sean `1, `2 dosfunciones de la muestra, i.e.,

`i = `i(X1, X2, . . . , Xn), i = 1, 2,

Page 123: Libro de estadistica

Analisis de Datos 123

tales que `1 ≤ `2 y p[`1 < θ < `2] = 1 − α. Entonces, sedice que (`1, `2) es un intervalo de probabilidad 1 − α, (0 <α < 1) para θ. Su realizacion, que se obtiene al sustituir enla muestra aleatoria los valores obtenidos, se llama intervalode confianza al 100(1 − α). %

7.4. Distribucion de la Media Muestral

Si se considera una caracterıstica de una poblacion que sedistribuye segun una variable aleatoria de parametros µ yσ2, i.e., X ∼ X(µ, σ2) y se seleccionan un gran numero demuestras aleatorias simples de tamano n, entonces la mediamuestral X es una variable aleatoria que tiene por media

µX = µ y por varianza σ2X

=σ2

n. Es decir,

X ∼ X(µ, σ2) =⇒ X ∼ X(µ,

σ2

n

).

Segun el Teorema del Lımite Central se tiene que indepen-dientemente de la poblacion original, la distribucion de la me-dia muestral X sera aproximadamente normal para muestrassuficientemente grandes (n > 30). Es decir, si X es normal,entonces X sera normal independientemente del tamano delas muestras. En cambio, si X no es normal X sera aproxi-madamente normal solo para valores grandes de n.

7.5. Intervalos de confianza en pobla-ciones normales

En lo que sigue, consideraremos muestras aleatorias proce-dentes de variables aleatorias normales o muestras grandesde poblaciones cualesquiera.

Page 124: Libro de estadistica

124 J. L. Dıaz–Barrero

1. Intervalo de confianza para la media con varianzaconocida. Supongamos que X ∼ N(µ, σ2), en don-de el parametro µ es desconocido y deseamos obtenerun intervalo de confianza para µ al nivel de confianza100(1 − α) %. Para ello tomamos una muestra de ta-mano n, X1, X2, . . . , Xn de una poblacion normal o deuna poblacion cualquiera con n > 30 y hallamos dosnumeros `1, `2 tales que

p[`1 ≤ X ≤ `2] = 1 − α.

Para determinar los valores de `1, `2 utilizaremos la me-dia muestral X (que se distribuye segun una normal deparametros µ y σ2/n). Entonces, tipificando, resulta

Z =x − µ

σ/√

n

que se distribuye como una N(0, 1) y por tanto, utilizan-do la normal estandard, podemos encontrar dos valores`1, `2 tales que

p[`1 ≤

x − µ

σ/√

n≤ `2

]= 1 − α (7.1)

de donde se deduce

p[x − `2

σ√

n≤ µ ≤ x − `1

σ√

n

]= 1 − α

y en consecuencia el intervalo[x − `2

σ√

n, x − `1

σ√

n

]. (7.2)

Pero la expresion (7.1) no quiere decir que `1, `2 seanunicos. Entonces, de entre todos los posibles valorestendremos que elegir aquellos que hagan mınima la lon-gitud del in tervalo (7.2). Es decir, hemos de minimizarla funcion (longitud del intervalo):

L(`1, `2) =(x − `1

σ√

n

)−

(x − `2

σ√

n

)=

σ√

n(`2 − `1)

Page 125: Libro de estadistica

Analisis de Datos 125

sujeta a la condicion dada en (7.1), i.e.,

p[`1 ≤ Z ≤ `2] =

∫ `2

`1

fZ(z) dz = 1 − α.

Aplicando un metodo de minimizacion, por ejemplo, elde los multiplicadores de Lagrange, se obtienen los valo-res `1 = −zα/2 y `2 = zα/2. Ası, el intervalo de confianzapara la media de una normal con varianza conocida vie-ne dado por [

x − zα/2

σ√

n, x + zα/2

σ√

n

]donde x es la media muestral observada y zα/2 es tal

que p[Z > zα/2] =α

2.

2. Intervalo de confianza para la media con varianzadesconocida.

Cuando la varianza es desconocida, y la media y la va-rianza muestrales observadas son x y s2, entonces unintervalo de confianza para la media poblacional µ al100(1 − α) % de confianza viene dado por[

x − tα/2,n−1

s√

n, x + tα/2,n−1

s√

n

]donde tα/2,n−1 es tal que p[tn−1 > tα/2,n−1] =

α

2y tn−1

sigue una distribucion t−Student con n − 1 grados delibertad.

7.6. Contraste de Hipotesis

El objetivo de este tipo de inferencia es determinar, a partirdel analisis de una muestra, si hay o no evidencia estadısti-ca suficiente para concluir si es o no razonable la hipotesishecha sobre un parametro de la poblacion.

Page 126: Libro de estadistica

126 J. L. Dıaz–Barrero

Dada una variable aleatoria X con funcion de densisdadfX(x) y una muestra aleatoria X1, X2, . . . , Xn, un contrastede hipotesis o test parmetrico sobre los parametros de lapoblacion consta de las siguientes fases:

1. Una hipotesis nula o primaria que se representa porH0 especifica siempre el valor de uno o varios parame-tros de la poblacion. Si se reduce a un unico valor sedice simple y en caso contrario compuesta.

2. Una hipotesis alternativa que se representa por Ha oH1.

3. El test de prueba que es una funcion de la muestraaleatoria con funcion de densidad conocida. Habitual-mente un estimador del parametro.

4. El nivel de significacion del contraste. Se acostumbraa representar por α.

5. La regla de decision para aceptar o rechazar la hipote-sis nula. Define el rango de valores del test de pruebapara rechazar la hipotesis primaria H0.

La hipotesis nula puede ser verdadera o falsa y por tanto sonposibles dos decisiones correctas:

1. No rechazarla cuando es correcta.

2. Rechazarla cuando es incorrecta.

Pero tambien son posibles dos decisiones incorrectas:

1. Rechazar H0 cuando es correcta.

2. No rechazarla cuando es incorrecta.

Page 127: Libro de estadistica

Analisis de Datos 127

En este ultimo caso, a (1) se le llama error de tipo I y a(2) error de tipo II. La probabilidad de un error de tipo I serepresenta por α y la de un error de tipo II por β. Se llamapotencia del contraste al valor 1 − β. Cuando la hipotesisH1 es compuesta el error de tipo II esta definido para unainfinidad de valores. Entonces, β es una curva (caracterısticade operacion) y en este caso 1 − β es la funcion de potenciadel test.

7.6.1. Contrastes para la media

1. Test de dos colas

Hipotesis nula : H0 : µ = µ0

Hipotesis alternativa : HA : µ 6= µ0

Test de prueba: z =x − µ0

σ/√

n

Regla de decision : Rechazo de H0 si z > zα/2 o siz < −zα/2, o equivalentmente, rechazo de H0 si |z| >zα/2.

2. Test de una cola por la derecha

Hipotesis nula : H0 : µ = µ0

Hipotesis alternativa : HA : µ > µ0

Test de prueba: z =x − µ0

σ/√

n

Regla de decision : Rechazo de H0 si z > zα.

Page 128: Libro de estadistica

128 J. L. Dıaz–Barrero

3. Test de una cola por la izquierda

Hipotesis nula: H0 : µ = µ0

Hipotesis alternativa: HA : µ < µ0

Test de prueba: z =x − µ0

σ/√

n

Regla de decision : Rechazo de H0 si z < −zα.

En poblaciones de varianza desconocida σ ≡ sx. A continua-cion, se exponen algunos ejemplos de test parametricos.

7.7. Analisis de la Varianza

El objetivo que se pretende con este analisis es la compa-racion de las medias de dos o mas poblaciones cuando losdatos son cuantitativos. La tecnica que se utiliza emplea lasvarianzas muestrales para detectar las diferencias entre lasmedias, siendo esta la razon por la que se conoce como anali-sis de la varianza o metodo ANOVA. Dadas k poblaciones

Xi ∼ N(µi, σ2), i = 1, 2, . . . , n,

que se suponen normales con medias desconocidas y varian-zas desconocidas pero iguales (homocedasticas), se seleccio-nan k muestras independientes

Mi(ni, xi, s2i ), i = 1, 2, . . . , k.

A continuacion se realiza el siguiente test de hipotesis:

1. Hipotesis nula: H0 : µ1 = µ2 = . . . = µk.

Page 129: Libro de estadistica

Analisis de Datos 129

2. Hipotesis alternativa: H1 : Al menos dos medias sondiferentes.

3. Test de prueba: El estadıstico de prueba que se utilizatiene en cuenta tanto la variabilidad entre los grupos(muestras) como la variabilidad dentro de cada gru-po (muestra). Se denotan por SST (sum of squares fortreatments) y SSE (sum of squares for error) respecti-vamente. Se definen por

SST =k∑

j=1

nj(xj − x)2,

donde x es la media de todas las observaciones, y

SSE =k∑

j=1

nj∑i=1

(xij − xj)2 =

k∑j=1

(nj − 1)s2j .

A continuacion se evaluan las medias de los cuadra-dos:

MST =SST

k − 1, MSE =

SSE

n − k

y el test de prueba que se utiliza es

F =MST

MSE

con ν1 = k − 1 grados de libertad del numerador y ν2 =n − k grados de libertad del denominador.

4. Regla de decision: Rechazo de H0 si F > Fα,k−1,n−k.Los calculos anteriores se acostumbran a disponer enuna tabla como la que se describe a continuacion.

Page 130: Libro de estadistica

130 J. L. Dıaz–Barrero

Tabla ANOVA

variabilidad df SS MS F-ratio

e.m. k-1 SST MST=SST

k − 1

d.c.m n-k SSE MSE=SSE

n − kF=

MST

MSETotal n-1 SS(Total)

Ejemplo 7.7.1 Un nuevo producto ha sido introducido en elmercado de los materiales de construccion. Para saber si haydiferencia entre las medias de ventas de tres importantes mer-cados regionales se han anotado las ventas de los ultimos 8dıas y se han obtenido (en unidades apropiadas) los siguien-tes resultados:

Mercado 1 15 17 22 20 18 16 14 19Mercado 2 10 12 15 17 12 13 15 16Mercado 3 13 18 19 16 17 16 15 18

¿Se puede concluir al 5 % de significacion que hay diferenciaentre las medias de ventas de los tres mercados? (Se suponeque las poblaciones son normales y con varianzas iguales).

Solucion. En este caso las hipotesis son:

1. H0 : µ1 = µ2 = µ3

2. H1 : Al menos dos medias son diferentes.

Page 131: Libro de estadistica

Analisis de Datos 131

3. Estadıstico de prueba:

x1 =15 + 17 + . . . + 19

8=

141

8= 17,625

x2 =10 + 12 + . . . + 16

8=

110

8= 13,750

x3 =13 + 18 + . . . + 18

8=

132

8= 16,500

x =15 + 17 + . . . + 18

24=

383

24= 15,958

SST =3∑

j=1

nj(xj − x)2 = 63,59.

s21 = 7,125, s2

2 = 5,643, s23 = 3,714

SSE = (n1 − 1)s21 + (n2 − 1)s2

2 + (n3 − 1)s23 = 115,375

MST =SST

k − 1=

63,59

3 − 1= 31,80

MSE =SSE

n − k=

115,375

24 − 3= 5,49

F =MST

MSE=

31,80

5,49= 5,79.

El numero de grados de libertad del numerador es ν1 =k − 1 = 3 − 1 = 2 y los del denominador ν2 = n − k =24 − 3 = 21, por tanto, Fα,ν1,ν2 = F0,05,2,21 = 3,47.

4. Regla de decision: Rechazamos H0 si F > Fα,ν1,ν2. Portanto, dado que 3,47 < 5,79, en base a los datos analiza-dos, rechazaremos la hipotesis primaria al 5 % de nivelde significacion.

2

Page 132: Libro de estadistica

132 J. L. Dıaz–Barrero

Los datos de la tabla ANOVA se pueden utilizar para obtenerintervalos de confianza para las medias de cada una de laspoblaciones y para la diferencia de medias entre dos de ellasmediante las expresiones:

xj ± tα/2,n−k

√MSE

nj

(xj − xm) ± tα/2,n−k

√MSE

( 1

nj

+1

nm

).

Considerando el mismo ejemplo de antes hallaremos interva-los de confianza al 95 % para µ1 y µ1 − µ2 respectivamente.

En el primer caso es x1 = 17,625 y s1 = 2,67. Por tanto, si1 − α = 95 % el metodo tradicional da:

x1 ± tα/2,n1−1

s1√n

= 17,625 ± 2,365 ×2,67√

8= 17,625 ± 2,23

con una cota de error E = 2,23. En cambio, utilizando latabla ANOVA se obtiene

x1 ± tα/2,21

√MSE

n1

= 17,625 ± 2,080

√5,49

8= 17,625 ± 1,72

con una cota de error E = 1,72. Dado que en este caso lacota de error es menor la estimacion es mejor.

En el segundo caso, el intervalo pedido es

(x1 − x2) ± tα/2,n−k

√MSE

( 1

n1

+1

n2

)= (17,625 − 13,75) ± 2,080

√5,49(1/8 + 1/8) = 3,875 ± 2,44

y el intervalo de confianza es [1,435, 6,315].

Page 133: Libro de estadistica

Analisis de Datos 133

7.8. Test de Chi-cuadrado

El objetivo que se pretende con este tipo de tests es compararlas proporciones de dos o mas poblaciones. La tecnica utili-zada es parecida a la que se utiliza en las tablas ANOVA perocon variables cualitativas. Los test que habitualmente se rea-lizan son los de bondad del ajuste y de independencia.

Supongamos que realizamos un experimento tal que sus re-sultados se pueden clasificar en k categorıas o celulas, y quelo repetimos n veces. Ademas supondremos que las probabi-lidades o proporciones de los diferentes resultados son

p1, p2, · · · , pk, p1 + p2 + · · · + pk = 1,

y que en el total de las n repeticiones las frecuencias obser-vadas de cada uno de estos resultados ha sido:

O1, O2, · · · , Ok, O1 + O2 + · · · + Ok = n.

Entonces un Test de bondad de ajuste consiste en :

1. H0 : π1 = p10, π2 = p20, · · · , πk = pk0.

2. Ha : Al menos un πi 6= pi0.

3. Nivel de significacion : α.

4. Estadıstico de contraste:

χ2 =k∑

i=1

(Oi − ei)2

ei

donde ei = npi (frecuencia esperada).

5. Regla de decision: Rechazo de H0 si χ2 > χ2α,k−1.

Page 134: Libro de estadistica

134 J. L. Dıaz–Barrero

Ejemplo 7.8.1 Cosiderar 300 repeticiones de un mismo expe-rimento con 5 celulas donde las frecuencias observadas son:

Categorıa 1 2 3 4 5Frecuencia 24 65 86 70 55

contrastar las hipotesis :

1. H0 : π1 = 0,1, π2 = 0,2, π3 = 0,3, π4 = 0,2, π5 = 0,2

2. H1 : Al menos un πi 6= pi0.

con un nivel de significacion del 1 %.

Solucion. Una vez hechas las hipotesis y fijado el nivel de sig-nificacion se procedera a evaluar el estadıstico de contraste:

e1 = np1 = 300(0,1) = 30, e2 = np2 = 300(0,2) = 60

e3 = np3 = 300(0,3) = 90, e4 = np4 = 300(0,2) = 60,

e5 = np5 = 300(0,2) = 60.

χ2 =5∑

i=1

(Oi − ei)2

ei

=(24 − 30)2

30+

(65 − 60)2

60

+(86 − 90)2

90+

(70 − 60)2

60+

(55 − 60)2

60

=36

30+

25

60+

16

90+

100

60+

25

60= 3,88.

El valor de χ20,01,4 = 13,27. Dado que 3,88 < 13,27, en base a

estos datos, no se puede rechazar la hipotesis nula. 2

El segundo test de chi-cuadrado trata con datos ordenadosen una tabla de contingencia y determina si dos clasifica-ciones de una poblacion cualitativa son o no independientes.Las hipotesis a contrastar son:

Page 135: Libro de estadistica

Analisis de Datos 135

1. H0 : Las dos clasificaciones son independientes.

2. H1 : Las dos clasificaciones son dependientes.

3. Estdıstico de contraste:

χ2 =h∑

i=1

k∑j=1

(Oij − eij)2

eij

, eij =(∑

Fi) × (∑

Cj)

n.

4. Nivel de significacion : α.

5. Regla de decision: Rechazo de H0 si χ2 > χ2α,(h−1)(k−1),

donde h es el numero de filas de la matriz de contingen-cia y k el numero de columnas.

Ejemplo 7.8.2 En un momento determinado el gobierno deuna Cominudad Autonoma tiene dos opciones en polıtica economi-ca: recortar el Gasto publico o subir los impuestos. Antes de to-mar ninguna descision se realiza un sondeo entre la poblaciondel que resulta:

Afiliacion R.G.P S.I. TotalesA 62 90 152B 103 85 188C 31 29 60

Totales 196 204 400

¿Se puede concluir al 10 % de nivel de significacion que hayrelacion entre la afiliacion polıtica y el soporte del electorado acada una de las opciones economicas?.

Solucion. Las hipotesis a contrastar son:

1. H0 : Las dos opciones son independientes.

2. H1 : Las dos opciones son dependientes.

Page 136: Libro de estadistica

136 J. L. Dıaz–Barrero

3. Estadıstico de contraste:

χ2 =h∑

i=1

k∑j=1

(Oij − eij)2

eij

, eij =(∑

Fi) × (∑

Cj)

n.

Afiliacion R.G.P S.I. TotalesA 62(74.48) 90(77.52) 152B 103(92.12) 85(95.88) 188C 31(29.40) 29(30.60) 60

Totales 196 204 400

χ2 =h∑

i=1

k∑j=1

(Oij − eij)2

eij

=(62 − 74,48)2

74,48

+(103 − 92,12)2

92,12+

(31 − 29,40)2

29,40+

(90 − 77,52)2

77,52

+(85 − 95,88)2

95,88+

(29 − 30,60)2

30,60= 6,79

El valor del modelo de probabilidad es χ20,1,(3−1)(2−1) = χ2

0,1,2 =4,60517. Dado que 6,79 > 4,60 hemos de rechazar H0, lo quesignifica que los datos obtenidos en este sondeo aportan evi-dencia estadıstica suficiente para creer que hay relacion en-tre la afiliacion polıtica y el soporte a la opcion economica.2

7.9. Problemas de inferencia

Problema 7.1 El gerente de una fabrica de pinturas para lasenalizacion de las carreteras ha observado que el conntenidode las bolsas medianas (33 kg.) se distribuye normalmentecon media 33,2 y desviacion estandard 0,3. Se pide:

Page 137: Libro de estadistica

Analisis de Datos 137

1. Hallar la probabilidad que una bolsa de pintura compra-da por un cliente contenga menos de 33 kg.

2. Probabilidad de que si compra un paquete de 6 bolsas, lamedia del contenido de estas sea inferior a 33 kg.

Solucion. El contenido de las bolsas de pintura es una v.a. Xque se distribuye normalmente con media 33,2 y desviacionesandard 0,3, i.e. X = N(33,2, 0,3).

1. En este caso la ecuacion de tipificacion es z =x − µ

σ=

33 − 33,2

0,3= −0,667 y P [x < 33] = P [z < −0,667] =

0,2514.

2. X es una v.a. normalmente distribuida con media 33,2y desviacion estandard σ/

√n = 0,2/

√6 = 0,12. Por

tanto, X = N(33,2, 0,12), z =x − 33,2

0,12= −1,667 y

P [x < 33] = P [z < −1,667] = 0,0485.

2

Problema 7.2 Sea X1, X2, . . . , Xn una muestra aleatoria deuna distribucion normal con funcion de densidad de probabili-dad

fX(x) =1

σ√

2πexp

[−

1

2

(x − µ

σ

)2].

Hallar por metodo de la maxima verosimilitud estimadores deµ y σ2. En una realizacion de la muestra con n = 10 se han ob-servado los valores: 26,3, 35,1, 23,0, 28,4, 31,6, 30,9, 25,2, 28,0,27,3, 29,2. Utilizar los resultados anteriores para obtener esti-maciones de los parametros µ y σ2.

Page 138: Libro de estadistica

138 J. L. Dıaz–Barrero

Solucion. En primer lugar definiremos la funcion de verosimi-litud que dependera de los parametros µ y σ2. Es decir,

L(µ, σ2; x) =n∏

k=1

1

σ√

2πexp

[−

1

2

(xk − µ

σ

)2]

=( 1

σ√

)n

exp[−

1

2σ2

n∑k=1

(xk − µ)2].

A continuacion procederemos a maximizar la funcion

ln L(µ, σ2; x) = −n

2ln 2π −

n

2ln σ2 −

1

2σ2

n∑k=1

(xk − µ)2.

Para ello calcularemos sus derivadas parciales respecto a µy σ2 y resolveremos el sistema de ecuaciones

∂ ln L(µ, σ2; x)

∂µ= −

1

σ2

n∑k=1

(xk − µ) = 0

∂ ln L(µ, σ2; x)

∂σ2= −

n

2σ2+

1

2σ4

n∑k=1

(xk − µ)2 = 0.

Despejando µ de la primera ecuacion y sustituyendo en lasegunda se obtienen los estimadores

µ =1

n

n∑k=1

Xk; σ2 =1

n

n∑k=1

(Xk − X)2.

Una vez tenemos una realizacion de la muestra, una estima-cion de la media es x = 28,5 y una estimacion de la varianzaes s2 = 10,71. 2

Problema 7.3 Sea X una variable aleatoria que se distribuyesegun una N(µ, σ2) con σ conocida. Se pide:

Page 139: Libro de estadistica

Analisis de Datos 139

1. ¿Cual es el nivel de confianza para el intervalo(x − 2,58

σ√

n, x + 2,58

σ√

n

).

2. ¿Cual es el nivel de confianza para el intervalo x±1,645σ

√n

.

3. Calcular un intervalo para la media µ al 95 % de confian-za cuando n = 100 y x = 58,3 (Tomar σ = 3).

Solucion.

1. Si zα/2 = 2,58 esto significa que p[z > 2,58] = α/2 oeqivalentemente que p[z ≤ 2,58] = 1 − α/2. Directa-mente de las tablas de la N(0, 1) se obtiene 1 − α/2 =0,9951, α = 0,0098 y el nivel de confianza es 100(1 −α) % = 99 %.

2. Procediendo como en el caso anterior el nivel de con-fianza es 100(1 − α) % = 90 %.

3. Un intervalo de confianza para la media viene dado por

x ± zα/2

σ√

n= 58,3 ± 1,96

3√

100= 58,3 ± 0,588 o equi-

valentemente (57,71, 58,89).

2

Problema 7.4 Un test de turbidez realizado sobre 16 mues-tras de aguas arenosas en el delta de un rio arrojo los siguien-tes resultados:

26,7 25,8 24,0 24,9 26,4 25,9 24,4 21,724,1 25,9 27,3 26,9 27,3 24,8 23,6 25,0

Suponiendo que el muestreo se llevo a cabo sobre una pobla-cion normal, estimar intervalos al 90 %, 95 % y 99 % de nivelde confianza para la media de turbidez .

Page 140: Libro de estadistica

140 J. L. Dıaz–Barrero

Solucion. Se trata de obtener estimaciones de intervalos deconfianza para la media de una poblacion normal de varianzadesconocida a partir de una muestra de 16 observaciones.Las estimaciones las obtendremos al realizar los estimadores

`1 = X−tα/2,n−1

S√

ny `2 = X+tα/2,n−1

S√

nsobre la muestra.

Teniendo en cuenta que x = 25,29 y s = 1,47, entonces:

1. Si 1 − α = 90 %, α/2 = 0,05, tα/2,15 = 1,753 y la estima-

cion del intervalo es 25,29±1,753×1,47

4= 25,29±0,64,

i.e., (24,65, 25,93).

2. Si 1−α = 95 %, α/2 = 0,025, tα/2,15 = 2,131 y la estima-

cion del intervalo es 25,29±2,131×1,47

4= 25,29±0,78,

i.e., (24,51, 26,07).

3. Si 1−α = 99 %, α/2 = 0,005, tα/2,15 = 2,947 y la estima-

cion del intervalo es 25,29±2,947×1,47

4= 25,29±1,08,

i.e., (24,21, 26,37).

2

Problema 7.5 Una companıa que produce neumaticos paraautomoviles de turismo esta considerando la posibilidad de in-torducir una cierta modificacion en el diseno de sus productos.El gerente de la companıa considera que la inversion economi-ca que supone dicha modificacion estarıa justificada solo sise aumentase la duracion promedio de los neumaticos que ac-tualmente es de 20000 km. Se selecciona una muestra aleato-ria de 16 prototipos del neumatico modificado y se observa quela duracion promedio de los mismos es de 20758 km. Suponien-do que la vida media de los neumaticos se distribuye normal-mente con desviacion estandard 1500 km. (La del neumaticoque actualmente se fabrica), ¿sugiere este experimento que se

Page 141: Libro de estadistica

Analisis de Datos 141

dan las condiciones apropiadas para que el gerente autorice elcambio de diseno? (Tomar α = 0,01).)

Solucion. Se realizara un test parametrico para la media queconsta de las siguientes fases:

1. Hipotesis primaria H0 : µ = 20000.

2. Hipotesis alternativa H1 : µ > 20000.

3. Nivel de significacion y cuantil que marca la zona derechazo de la hipotesis primaria: α = 0,01, zα = z0,01 =2,33.

4. Estadıstico de contraste: z =x − µ0

σ/√

n=

20758 − 20000

1500/√

16=

2,02.

5. Como z = 2,02 < 2,33 = z0,01, en base a los datoscontenidos en esta muestra, no se puede rechazar lahipotesis primaria y por tanto se recomienda continuarla produccion tal y como se venia haciendo hasta ahora.

2

Problema 7.6 Una empresa de telefonıa movil realiza una en-cuesta entre 470 personas para determinar si la opinion de laspersonas respecto a la instalacion de una antena, depende dela distancia entre su lugar de residencia y la ubicacion de laantena. Para ello se clasifico a los encuestados en tres zonas(zona 1, zona 2, zona 3) siendo la zona 1 la mas proxima y lazona 3 la mas alejada del lugar donde se piensa instalar laantena. La informacion obtenida es

Page 142: Libro de estadistica

142 J. L. Dıaz–Barrero

Opinion zona 1 zona 2 zona 3 TotalA favor 40 55 60 155

En contra 85 70 50 205Indecisos 30 40 40 110

Total 155 165 150 470

1. Contrastar la independencia entre la opinion acerca de laantena y la distancia a la misma (α = 0,05).

2. Comentar la discrepancia entre las frecuencias observa-das y esperadas para la zona 1.

Solucion. 1) Las frecuencias esperadas son

Opinion zona 1 zona 2 zona 3 TotalA favor 51.12 54.51 49.47 155

En contra 67.61 71.97 65.43 205Indecisos 36.28 38.62 35.11 110

Total 155 165 150 470

Entonces χ2 = 14,448 y χ20,05,4 = 9,49. Por tanto, RH0.

(2) Para la zona 1, el rechazo es mayor que el que serıa deesperar si las caracterısticas fueran independientes. 2