Download - U1. Estadística descriptiva

Matemáticas

3er semestre

Estadística I

Unidad 1. Estadística descriptiva

Clave:

05142318/06142318

Universidad Abierta y a Distancia de México

Estadística I Unidad 1. Estadística descriptiva

UnADM | DCEIT | MT | MEST1 2

Índice

Unidad 1. Estadística Descriptiva ................................................................................... 3

Presentación de la unidad ............................................................................................... 3

Competencia específica .................................................................................................. 3

Logros de la unidad ......................................................................................................... 3

1.1. Introducción al estudio de la estadística ................................................................ 3

1.1.1. Estadística .............................................................................................................. 6

1.1.2. Estadística descriptiva .......................................................................................... 7

1.1.3. Inferencia estadística ............................................................................................. 7

1.2. Medidas de Tendencia Central ................................................................................. 8

1.2.1 Escalas y tipos de variables ................................................................................... 8

1.2.2. Media, moda, mediana media recortada ............................................................. 10

1.3. Medidas de dispersión ........................................................................................... 17

1.3.1. Rango intercuartílico ........................................................................................... 17

1.3.2. Diagramas de caja ............................................................................................... 20

1.3.3. Varianza, desviación estándar ............................................................................ 22

1.4. Medidas de Asociación .......................................................................................... 28

1.4.1. Regresión lineal ................................................................................................... 28

1.4.2. Coeficiente correlación de Pearson y Spearman .............................................. 31

Cierre de la unidad......................................................................................................... 33

Fuentes de consulta ...................................................................................................... 33



Unidad 1. Estadística Descriptiva

Presentación de la unidad

Esta primera unidad está dedicada a la Estadística descriptiva. Uno de los principales objetivos es

la recolección de datos a través de muestras. Estas enormes cantidades de datos se han de

resumir en unos parámetros o medidas que le proporcionen al investigador una concreción de lo

que se propone investigar.

En la Estadística descriptiva se trata, por lo tanto, de la descripción lo más cercana posible al

comportamiento real de la población que es objeto de estudio. Para este fin, se cuenta con la

noción de las medidas de tendencia central, dispersión y asociación, que serán vistas en esta

unidad.

Competencia específica

Analizar un conjunto de datos agrupados y no agrupados que permiten resolver problemas de tipo

estadístico utilizando las medidas de tendencia central, dispersión y asociación.

Logros de la unidad

• Utilizar las medidas de tendencia central, así como las de dispersión y de asociación con la

finalidad de describir e interpretar la información obtenida.

1.1. Introducción al estudio de la estadística

A lo largo de la historia de las matemáticas se han desarrollado áreas de conocimiento específico,

como el caso de la Estadística, cuyo uso data de las primeras civilizaciones. En textos antiguos se

aprecia cómo algunos emperadores o reyes decidieron realizar censos de poblaciones

conquistadas. La estadística se convirtió en una herramienta muy útil para el conocimiento y

manejo de las nuevas conquistas.

Identificar la situación de una población es muy importante a la hora de tomar decisiones. Al

analizar actividades muy antiguas como los

Juegos de azar, como lanzar un par de dados ¿a qué numero apostar? ¿lo dejaban a la suerte?

¿Todos los números tienen la misma probabilidad de salir? Para contestar estas preguntas se

desarrolló la Estadística.



A continuación, se revisarán los principales conceptos de esta rama de las Matemáticas:

Población:

Todo estudio estadístico investiga una población para lo cual el investigador el científico o la

empresa que paga el estudio define los límites de la población, la frontera. Por ejemplo: si se

investiga el crecimiento demográfico en el Distrito Federal se analiza sólo este fenómeno en el

territorio de esta ciudad. . . A otro investigador puede interesarle sólo la variación demográfica en

la delegación Miguel Hidalgo, por tanto, su población está acotada a la demarcación de esta

delegación.

En términos generales una población es un conjunto de cosas, objetos, individuos, que tienen

características en común. La población es el objeto de estudio.

Ejemplo 1:

Si se desea estudiar la edad promedio de los habitantes de la ciudad de México es importante

limitar la investigación sólo en las 16 delegaciones que integran al Distrito Federal.

En este ejemplo la Ciudad de México es la población objeto de estudio. En otro ejemplo la

misma localidad puede ser sólo parte de la población objeto de estudio. A su vez puede darse el

caso de que únicamente se interese conocer el dato de una delegación.

Ejemplo 2:

El delegado (a) en turno de la delegación Azcapotzalco desea saber el nivel de estudios de su

población adulta. El estudio queda suscrito a esta localidad.



En este ejemplo la delegación Azcapotzalco es la población objeto de estudio.

Muestra:

Una muestra es cualquier subconjunto de la población, es decir, cualquier pequeño grupo

seleccionado de la totalidad de elementos.

Ejemplo 3:

Si se desea estudiar la edad promedio de los habitantes de la Ciudad de México,

Nuestra población queda limitada al Distrito Federal. Otro ejemplo de muestra es si se toman

los datos únicamente de la delegación Azcapotzalco (o Milpa Alta, o cualquier otra).

En este ejemplo la Ciudad de México es la población objeto de estudio. La delegación

Azcapotzalco puede ser una muestra de esa población, aunque probablemente poco

representativa para todo el Distrito Federal.



Muestra aleatoria:

La muestra aleatoria es un subconjunto representativo de la población elegida. Significa que cada

elemento de la población debe de tener la misma oportunidad de ser seleccionado. De este modo

los resultados que se obtengan pueden ser generalizados al resto de la población.

Nota: Se pueden tener varias muestras aleatorias de una población. Y a pesar de ser aleatorias y

representativas, estas van a arrojar valores diferentes, por lo tanto, es necesario tener claro de

que sólo nos dan idea de los valores, pero no la información real de la población.

1.1.1. Estadística

La Estadística es la rama de las Matemática que se encarga del estudio de los métodos,

recolección de información e interpretación de ésta en forma adecuada. También se encarga del

análisis de la información y la toma de decisiones con base en los resultados de este análisis.

Actualmente la Estadística es la herramienta primordial de la investigación científica tanto para las

Ciencias sociales como para las Ciencias exactas. Cabe señalar la importancia que la Estadística ha

representado para los gobiernos y sus instituciones, pues se ha convertido en una herramienta

imprescindible para conocer la magnitud de los nacimientos, muertes, nivel de estudios, nivel de

ingresos, entre otras cosas, que constituyen datos poblaciones importantes para todo gobierno.

La Estadística se divide en dos grandes campos de estudio:

A lo largo de este curso se estudiarán los principales temas de ambas áreas. En la unidad uno se

revisará la Estadística descriptiva; en tanto, las unidades restantes estarán dedicadas a la

Estadística Inferencial.

Áreas de la Estadística

Estadística descriptiva

Estadística inferencial



1.1.2. Estadística descriptiva

La Estadística descriptiva es aquella rama o área de estudio de la Estadística que se encarga del

conocimiento de los métodos adecuados para la recolección de datos, de la organización,

presentación y descripción de toda la información numérica y describir las características

principales de una población que es objeto de estudio.

La Estadística descriptica emplea métodos que le permiten resumir los principales aspectos de los

valores de la muestra de la población elegida. Asimismo, se basa en cálculos numéricos y gráficos

para sus fines. Las gráficas de barras, el gráfico circular, los pictogramas, los histogramas, los

diagramas de árbol, entre otros son valiosas herramientas para presentar los resultados

obtenidos.

En este curso, se estudiarán las Medidas de Tendencia Central, las Medidas de Dispersión y las

Medidas de Asociación.

• Medidas de tendencia central. - son quizá las más conocidas, consideradas como los

pilares sobre los cuales se edifica el resto de la estadística. Estas medidas permiten la

descripción (Estadística descriptiva) de los datos, ya que con los valores obtenidos se

pueden realizar aseveraciones cuantitativas que indiquen las características de la

población.

• Medidas de dispersión. - también se conocen como medidas de variabilidad y se utilizan

para establecer la variación de los datos respecto al valor central. Para fines de este curso

se verá la varianza, desviación estándar, rango intercuartílico y diagramas de caja.

• Medidas de asociación. - calculan la asociación entre varías variables estadísticas, en este

curso se abordará únicamente el coeficiente de correlación.

1.1.3. Inferencia estadística

La Estadística inferencial se encarga del estudio de los métodos con los cuáles se pueden hacer

generalizaciones. Sacar conclusiones basadas en la probabilidad de una población determinada es

lo que permite la toma de decisiones para este conjunto de habitantes.

Es la más usada en los trabajos de investigación.

La Estadística inferencial permite deducir, a partir de los valores que arrojen las muestras extraídas



de una población, los resultados o conclusiones acerca de la población investigada.

Estimar es hacer una buena aproximación de los valores de las características principales de la

población de interés.

Para fines de este curso se estudiarán las estimaciones, y las pruebas de hipótesis.

1.2. Medidas de Tendencia Central

Dentro de la rama de la Estadística descriptiva el tema más conocido es el de Medidas de

tendencia central. ¿Quién no ha escuchado de la moda o ha calculado un promedio?

En este curso las Medidas de tendencia central que se verán son:

Antes de entrar al estudio de Medidas de tendencia central, se revisará un tema previo

importante.

1.2.1 Escalas y tipos de variables

Escalas de medidas.

Se puede decir que existen 4 tipos de escalas desde el punto de vista estadístico:

1. Nominal.

2. Ordinal.

3. Escala por intervalos.

4. Escala de razón o proporción.

Tipos de variables.

Las variables en la Estadística se organizan en dos grandes grupos:

Med

idas

de

ten

den

cia

cen

tral

la Media

La media recortada

La moda

la mediana



1. Las variables cuantitativas o numéricas. Están asociadas a un proceso cuantificable o

medible.se refieren a datos numéricos. Por ejemplo, el peso de una persona.

2. Las variables cualitativas o categóricas. Éstas se refieren a cualidades, características, o

atributos no numerables. Los datos recolectados en estas variables son expresados en

palabras. Por ejemplo, el sexo de una persona no es un dato numérico. Generalmente se

recurre a la asociación de un número a una determinada cualidad para poder trabajar la

variable.

A su vez cada una presenta una subdivisión. Se pueden resumir en el siguiente esquema:

Existen otros tipos de variables:

• Nominal. - Cuando no se puede establecer una relación entre los datos, en cuanto a cuál es

mejor o peor. Por ejemplo, el sexo. No se puede establecer que masculino sea peor que

femenino o viceversa.

Tipos de variables

Cualitativa

Nominal

Ordinal

Cuantitativa

Discreta

Continua



• Ordinal. - Se establece una relación de importancia entre los datos, o bien un orden

jerárquico. Por ejemplo, se ganó medalla de oro, plata o bronce.

• Discreta. - Se trata de una variable cuyos datos son números enteros. Por ejemplo, el número

de hermanos. pueden ser 1,2, 3, …, pero no se puede tener 1.23 hermanos.

• Continua. - Si puede asumir cualquier valor numérico, generalmente se expresa en números

con decimales. Por ejemplo, la estatura de una persona es de 1.8 metros.

Ejemplo:

Se selecciona un grupo de usuarios de transporte colectivo metro. Se reportan las siguientes

variables observables. {Color de ojos, sexo, estatura y peso}.

Registramos las variables y el tipo al que corresponden. El problema radica en clasificar el tipo

de variable.

Solución:

Variable Tipo de variable

Color de ojos Cualitativa

Sexo Cualitativa

Estatura en metros Cuantitativa

Peso en kilogramos Cuantitativa

La estatura y el peso son variables cuantitativas porque esta medición arroja un valor numérico.

El color de ojos y el sexo son variables cualitativas por que no se pueden medir.

1.2.2. Media, moda, mediana media recortada

Existen métodos y técnicas que no permiten trabajar con las variables, pues hacen que la

recolección e interpretación de datos sea más fácil de manejar, como es el caso de la media,

moda, mediana, media recortada). Una vez que se comprenden los tipos de variables, es

importante saber cómo se han de medir.

Para ello se tienen las diferentes Medidas de tendencia central:



Media.

Se trata de una de las medidas estadísticas más utilizadas por todos ¿Quién no ha calculado su

promedio de calificaciones?

Es importante mencionar que hay varios tipos de Media, por ejemplo, la media aritmética (que

generalmente se conoce como promedio), la media geométrica y la media armónica.

En este curso se estudiará la media aritmética, pues es la que se utiliza más y está relacionada con

los temas que se van a analizar.

A grosso modo se puede decir que la media es la suma de los valores de un conjunto de datos

recolectados (observaciones, Etc.) dividida entre el tamaño de la muestra (total de datos

recolectados). Estadísticamente representa el centro de un conjunto de datos como se puede

apreciar en la siguiente figura:

Para esta media se utiliza la siguiente expresión matemática:

n

xxxx n+++=

.......21

Ejemplo:

Se tienen los datos sobre la calificación que obtuvieron estudiantes que cursan la materia de

Probabilidad y son los siguientes: 10, 8, 6, 5, 1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9.

Se desea calcular su media o promedio.



Solución:

Son 20 datos, por lo tanto, n= 20

Se procede a calcular la media mediante la formula:

n

xxxx n+++=

.......21

Sustituyendo los valores:

Media o promedio =1+5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9+10

20= 5.9

El resultado es:

Media =5.9

Media recortada (trimmed media 5%)

La media recortada permite eliminar los datos muy extremos, tanto en la zona superior como en

la inferior. Es idéntica a la media aritmética vista anteriormente, sólo que para calcularla primero

se reduce el 5% de los valores en el extremo superior y también el 5% del extremo inferior.

Se ordenan los valores en forma ascendente para identificar cuáles son los que quedan en los

extremos. Esta media permite eliminar la distorsión producida al tener valores en los extremos

muy alejados de la media.

Ejemplo:

Se cuenta con los siguientes datos, producto de una muestra aleatoria sobre la calificación que

obtuvieron estudiantes que cursan la materia de Probabilidad: 10, 8, 6, 5, 1, 5, 5,

6,7,6,7,5,6,7,8,7,6,5,8,9.



1.- Se ordenan los datos en forma ascendente (o descendente) esto es:

1,5,5,5,5,5,6,6,6,6,6,7,7,7,7,8,8,8,9,10.

2.- Se elimina, el 5% para cada uno de los extremos (superior e inferior) ... Si se tuvieran una

muestra de 100 datos el 5% sería de 5 datos.

3.- Una vez que se han eliminado los datos de los extremos superior e inferior (que cada uno

representa el 5% de la muestra), como se presenta abajo:

Se procede a calcular la media recortada de igual manera como se hizo para la media

aritmética.

Mediante la formula:

n

xxxx n+++=

.......21

Sustituyendo los valores:

Media recortada =5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9

18= 6.44

El resultado por lo tanto es:

Media recortada=6.44

Mediana.

La mediana es el valor que divide en dos partes iguales una distribución de frecuencias, es decir

aquel valor que deja igual numero de datos del lado derecho e izquierdo de él. En otras palabras,

se puede definir como el valor que se encuentra justamente en medio de todos los valores

ordenados en forma ascendente (o descendente). Esto se puede ver en la siguiente ilustración:

50 % ___!___ 50% .

Mínimo Mediana Máximo



Para localizar la mediana de una serie de datos se pueden presentar dos situaciones:

Primer caso. - que el total de los datos sea impar.

Segundo caso. - que el total de los datos sea par.

El procedimiento para localizar la mediana es el siguiente:

Primero, se ordenan todos los datos en forma ascendente (o descendente).

Segundo, si se trata del primer caso, (impar) el dato buscado se localiza exactamente en medio de

la distribución.

Ejemplo:

Se va a hacer el cálculo basado en los siguientes datos, producto de tomar una muestra

aleatoria sobre la calificación que obtuvieron estudiantes que cursan la materia de probabilidad:

10, 8, 6, 5, 9, 10, 5, 6,7.

Primero se ordenan en forma ascendente (o descendente) esto es:

5,5,6,6,7,8,9,10,10.

Segundo, el total de los datos es impar, por lo tanto, basta con localizar el dato que divide en

dos partes iguales la distribución. Note el estudiante, que, una vez ordenados en forma

ascendente los datos, quedan exactamente cuatro valores del lado izquierdo del siete y cuatro

valores a la derecha de él, como se puede apreciar en seguida:

Para este ejemplo la mediana es el “7”. se puede representar como:

5,5,6,6 _ __7___ 8,9,10,10 .

mínimo Mediana máximo

Por el contrario, si el total de los datos es par, quedaran dos valores justo en la mitad de la

distribución. Por lo tanto, se procederá a calcular la media aritmética de estos dos valores.

Ejemplo:



Con los siguientes datos, producto de tomar una muestra aleatoria sobre la calificación que

obtuvieron estudiantes que cursan la materia de Probabilidad, se buscará la Mediana:

{10, 8, 6, 5, 9, 10,8, 5, 6,7.}

Primero, se ordenan en forma ascendente (o descendente) esto es:

5,5,6,6,7,8,8,9,10,10.

Segundo, el total de los datos es par, hay que localizar los datos que dividen en dos partes

iguales la distribución.

Tercero, es necesario obtener la media aritmética de estas cantidades para calcular la

Mediana:

7 + 8

2= 7.5

Por lo tanto, para este ejemplo la Mediana es el “7.5”.

Moda.

Se puede definir la moda como el valor de la variable que se presenta con mayor frecuencia en un

conjunto de datos. Ejemplo.

Ejemplo 9:

Se tomó una muestra representativa de 20 alumnos de primer semestre que cursan el

bachillerato, a los cuales se les preguntó su edad. Los datos recolectados fueron los siguientes:

{15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21}

Solución:

Nuestra variable es la edad hay que identificar ¿cuál es la edad que se presenta con mayor

frecuencia?

Para contestar a la pregunta hagamos una tabla (distribución de frecuencias), con los datos.

Variable (edad) Frecuencia (número de alumnos)

15 8

16 5



17 3

18 2

19 1

21 1

Por lo tanto, la moda es 15, ya que es el dato que se presenta con más frecuencia.

La moda también se presenta en variables categóricas o cualitativas ejemplo:

Ejemplo:

Con una muestra representativa de 20 alumnos de primer semestre que cursan el bachillerato, a

los cuales se les pregunto cuál es su calzado habitual, se obtuvieron los siguientes datos: los

siguientes:

{tenis, tenis, zapatos, tenis, botas, tenis, sandalias, botas, zapatos, tenis, zapatos, tenis, zapatos}

{zapatos, tenis, sandalias, zapatos, sandalias, sandalias, zapatos}

Nuestra variable es el calzado habitual ¿Cuál es el calzado que se presenta con mayor frecuencia

en esta muestra?

Para contestar a la pregunta hagamos una tabla (distribución de frecuencias) con los datos.

Variable (calzado) Frecuencia (número de alumnos)

Tenis 7

Botas 2

Zapatos 7

Sandalias 4

En este caso se tienen dos datos con mayor frecuencia: tenis y zapatos con 7. Por lo tanto, se

tienen dos modas: tenis y zapatos.

Es importante señalar que la moda es el único valor central con el cual se suele trabajar con

variables cualitativas. Cabe señalar que, si bien la moda está considerada una Medida de

tendencia central, puede estar muy cerca de los extremos de la muestra, pues indica el valor que

se presenta con mayor frecuencia.



1.3. Medidas de dispersión

También se conocen como Medidas de variabilidad y se utilizan para establecer la variación de los

datos respecto al valor central.

Los conceptos más relevantes son la varianza y la desviación típica o estándar. Estos serán

abordados en el presente apartado, pero antes se revisarán los temas de cuartiles y diagramas de

caja, correspondientes a las medidas de posición.

1.3.1. Rango intercuartílico

Rango.

El rango se define como la diferencia entre dos valores, el máximo y el mínimo.

Su expresión matemática para calcularlo es:

Rango = Xmax. – Xmin

Ejemplo:

En una muestra representativa de 20 alumnos que cursan el primer semestre de bachillerato, se

les pregunto su edad. Los datos recolectados fueron los siguientes:

15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21

Calcule el rango para la muestra recolectada.

Solución:

De acuerdo a la formula, se busca el dato con el valor máximo y el valor mínimo Por lo tanto se

tiene:

Xmax=21

Xmin= 15

Rango = Xmax. – Xmin



Sustituyendo en la fórmula:

Rango = 21-15 = 6

Cuartiles.

Los cuartiles son una medida de posición no central integrada por tres valores que divide la

totalidad de los datos en cuatro partes iguales. Por lo tanto, cada cuartíl representa el 25% del

total, esto se aprecia en el siguiente diagrama:

En esta representación se observa que el primer cuartil Q1, divide a la totalidad de los datos

dejando por debajo el 25%, y al mismo tiempo por encima el 75% de las cifras. Al obtener el 50%

de la información se divide en dos partes de 50% cada una, este valor corresponde para el

segundo cuartil, Q2.

Q1=N(25%)

Q2=N(50%)

Q3=N(75%)

N= número total de datos

Rango intercuartílico.

Es muy parecido al concepto de rango visto líneas arriba. Sólo que para los cuartiles se va a

emplear la expresión matemática:

Rango intercuartilico= Q3- Q1

Ejemplo:

Con los siguientes datos correspondientes a una muestra aleatoria sobre la calificación de

estudiantes que cursan la materia de Probabilidad 1:

0, 8, 6, 5, 9, 5, 6,7.

obtener el rango intercuartílico



Solución:

1.- Se ordenan los datos en forma ascendente o descendente:

5,5,6,6,7,8,9,10.

2.- Se obtienen los cuartiles:

3.- Se aplica la fórmula para encontrar los cuartiles:

Q1=N(25%) = 8 (0.25)= 2 El cuartil Q1 está ubicado en el segundo lugar y corresponde al

número “5”.

Q3=N(75%) = 8 (0.75) = 6 El tercer cuartil está en el sexto dato y es el número, “8”.

Nota: en caso de dar un resultado fraccionario o decimal hay que redondear hacia el número

superior inmediato.

Otra perspectiva de esta medida es considerar que como son 8 datos, al dividirlos en cuatro

partes queda el 25%, 4 datos el 50%, 6 datos el 75% ya que los 8 datos son el 100%, por lo tanto,

se puede representar así:

Con esta representación e pueden apreciar los valores para los cuartiles.

Como se mencionó anteriormente, el primer cuartil representa el 25% de los datos, y el tercer

cuartil el 75%.

Así se tiene que:

Q3= 8

Q1= 5



Por lo tanto, el rango intercuartílico queda:

Rango intercuartilico= Q3 - Q1 = 8-5 = 3

1.3.2. Diagramas de caja

Los Diagramas de caja se utilizan para representar gráficamente las cinco Medidas de dispersión,

los valores extremos, (valor máximo, valor mínimo), la mediana y los cuartiles Q1, Q3. Lo que nos

falta de estos valores es explicar cómo se trazan los diagramas correspondientes, lo que se hará

mejor con un ejemplo:

Ejemplo 13:

Se tienen los datos correspondientes a una muestra aleatoria sobre la calificación que

obtuvieron estudiantes de la asignatura de Probabilidad: 10, 8, 6, 5, 9, 5, 6,7.

Obtener el diagrama de caja.

Solución:

1.- Se ordenan en forma ascendente o descendente los datos:

5,5,6,6,7,8,9,10.

2.- Se obtienen los cuartiles:

Del ejemplo anterior se obtuvieron los cuartiles:

Q3= 8

Q1= 5

Los valores extremos son claramente:

Xmax= 10



Xmin = 5

La mediana se calcula como una media aritmética de los dos valores centrales, dado que el

tamaño de la muestra es par, así se tiene que:

Mediana = 6+7

2 = 6.5

Ya se tienen los cinco valores necesarios para la construcción del diagrama de caja: Es

conveniente trazar una línea que sirva de referente que contenga los datos de la muestra.

Lo primero es trazar los “bigotes”, esto se logra usando los valores extremos, para este caso

Xmax= 10, Xmin = 5, así que:

La caja se construye con los cuartiles Q1, Q3.

La caja tiene de largo el rango intercuartílico. En este ejemplo coincidió el “bigote” del valor

mínimo, con el del primer cuartil Q1, de ahí que se observe la figura como si le faltara el

“bigote” de la izquierda.



Por último, se traza la mediana que para este ejemplo es de 6.5.

La longitud de los “bigotes” indica qué tan concentrados están los valores en el primer 25%, y en

el último 25% (que va del 75% al 100%). En este ejemplo lo que se nota es que en el último 25%

los datos están poco concentrados pues su longitud es considerable, en tanto que para el

primer 25% están muy concentrados y el “bigote” carece de longitud.

1.3.3. Varianza, desviación estándar

La varianza

Esta medida de dispersión sirve para calcular el grado de variabilidad de los datos con respecto a

la media se calcula en unidades cuadradas.

Para obtener la varianza se utilizará la siguiente expresión matemática:

1

2)(1

−

−

=

=

n

xxif

Vx

n

i

Nota: f= frecuencia absoluta del dato x.



Usualmente la varianza se representa con la letra griega 2cuando se trata de una población, y se

divide entre “N”, que es el total de datos de la población.

2

N

xxifn

i

=

−

= 1

2)(

Por otro lado, la letra “s2” se refiere a una muestra (tomada de una población).

s2

1

2)(1

−

−

=

=

n

xxifn

i

Como puede verse en la expresión matemática, la varianza está definida como la media aritmética

de los cuadrados de las desviaciones de cada uno de los valores respecto al promedio.

Ejemplo:

En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La

muestra se tomó de manera aleatoria. Calcule la varianza de la muestra.

Variable (x) edad del

niño

Frecuencia (f)

6 15

7 8

8 16

9 20

10 13

11 24

Solución:

La fórmula para su cálculo es:

1

2)(1

−

−

=

=

n

xxif

Vx

n

i



1.- Obtener el promedio o media aritmética de la muestra.

xN

xin

i

== 1

N= tamaño de la muestra= número de datos= 96

x = 6∗15+7∗8+8∗16+9∗20+10∗13+11∗24

96

x = 848

96

Por lo tanto, sustituyendo se tiene que el valor de la media o promedio es:

x = 8.833

Para el cálculo de la varianza resulta útil trabajar en la tabla de distribución de frecuencias la cual

está formada con las siguientes columnas:

Variable

(x)

Frecuencia (f)

X- x (X- x )2 (X- x )2*f

6 15 6-8.83=-2.83 (-2.83)2=8.0 120

7 8 7-8.83=-1.83 =3.34 26.72

8 16 8-8.83=-0.83 =0.6889 11

9 20 9-8.83=0.17 =0.0289 0.578

10 13 10-8.83=1.17 =1.36 17.68

11 24 11-8.83= 2.17 =4.7 112.8

=

−n

i

xxif1

2)( =288.778

Se tiene la ecuación:

1

2)(1

−

−

=

=

n

xxif

Vx

n

i

Se sustituyen datos:

Vx= 288.778

96−1



Vx=3.04

Desviación estándar:

La desviación estándar se obtiene al sacar la raíz cuadrada de la varianza. Esconveniente que las

unidades que describen la variabilidad sean idénticas a las unidades del conjunto original para que

pueda ser utilizada la desviación estándar en lugar de la varianza cuyas unidades son cuadráticas.

Para calcular la desviación estándar se utilizará la siguiente expresión matemática:

1

2)(1

−

−

=

=

n

xxif

Vx

n

i

Usualmente la desviación típica o estándar se representa con la letra griega cuando se trata de

una población:

N

xxif

Vx

n

i

=

−

== 1

2)(

En el caso de la letra s, se usa cuando se refiere a una muestra (tomada de una población).

1

2)(1

−

−

==

=

n

xxif

Vxs

n

i

Como puede verse en la expresión matemática, la desviación se define como la raíz cuadrada de la

varianza.

Gráficamente la desviación se puede representar de la siguiente manera (se ha tomado una

distribución de tipo normal):



Ejemplo:

En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La

muestra se tomó de manera aleatoria.

Variable (x) edad del niño

Frecuencia (f)

6 15 7 8 8 16 9 20

10 13 11 24

Calcular la desviación estándar.

Solución:

La fórmula para el cálculo de la desviación estándar nos indica que hay que obtener la varianza.

Como se está retomando el problema para ejemplificar la varianza, nos vamos a saltar el cálculo

de ésta, y únicamente tomaremos el valor obtenido.

Vx=3.04

Así que para calcular la desviación bastará sustituir en la fórmula.



Coeficiente de variación.

Este concepto es útil pues nos permite hacer una comparación entre dos variables que tengan

unidad de medida diferente.

La expresión matemática para su cálculo es:

cv = s / x x 100

Como se puede apreciar en la ecuación, el coeficiente de variación es el cociente de la desviación

estándar y el promedio aritmético.

Si el valor del coeficiente de variación es menor o igual al 10% se dice que varía poco o presenta

poca variación. Por el contrario, si es mayor a 50% se tiene una variación excesiva. En los rangos

intermedios se considera que la variación es grande pero aceptable.

Ejemplo:

En la siguiente distribución de frecuencias, se reportan las edades de niños de una primaria. La

muestra se tomó de manera aleatoria.

Variable (x) edad del niño Frecuencia (f)

6 15

7 8

8 16

9 20

10 13

11 24

Calcular el coeficiente de variación.

04.3=s

Por lo tanto, el valor de la desviación estándar es:

S =1.74

𝑆=

1.



Solución:

La ecuación matemática nos lleva a calcular la desviación estándar, lo que a su vez nos remite al

cálculo previo de la varianza.

Retomando el problema utilizado para ejemplificar la varianza, y la desviación estándar, nos

vamos a saltar estos cálculos y únicamente tomaremos el valor obtenido para la desviación.

Así que para calcular la desviación bastará sustituir en la fórmula.

𝑆 = 1.74

= 8.833

𝑐𝑣 = (𝑠

𝑥) 100

𝑐𝑣 = (1.74

8.83) 100

por lo tanto el valor del cv es:

𝑐𝑣 = 19.74 %

1.4. Medidas de Asociación

Miden la asociación entre diversas variables estadísticas. En este curso se abordará el coeficiente

de correlación, para lo cual se requiere conocimientos previos, como es el caso de la contrastación

de hipótesis. Sin embargo, se tratará el tema de manera sencilla para no causar contratiempos en

el estudiante.

1.4.1. Regresión lineal

Hasta el momento se han revisado conceptos y se han realizado cálculos que involucran una sola

variable. ¿Qué pasa cuando se tienen dos o más variables?

Numerosos problemas requieren determinar la relación que existe entre una o más variables

involucradas en el mismo problema. Estas relaciones se convierten en correlaciones.

Antes de iniciar el tema del coeficiente de correlación, es necesario revisar los siguientes

conceptos: Correlación lineal. Donde puede haber dos tipos de correlación lineal: Una positiva,



cuando se presenta una relación directamente proporcional entre las variables, es decir que si

aumenta una aumenta la otra, y a la inversa si disminuyen los valores de una disminuirán los

valores de la otra. La otra es una correlación que se denomina negativa, que se presenta cuando

las variables tienen una relación inversamente proporcional, es decir que, si los valores de una

variable van en aumento, mientras que los de la otra irán en decremento y a la inversa.

Regresión lineal. Es un modelo que permite describir la variación conjunta de dos variables

continuas.

Diagrama de dispersión. Muestra la localización de puntos, para lo cual se utiliza un sistema de

coordenadas en donde el eje “y” y el “x”, representan los valores de las variables que están

correlacionadas.

El diagrama de dispersión representa una idea clara del grado de correlación entre las variables.

En seguida se muestran los principales grados de relación entre dos variables mediante el uso de

estos diagramas.

En estas primeras imágenes la correlación lineal es muy fuerte, sólo cambia el sentido de la

pendiente y esto se verá reflejado en el signo del valor del coeficiente.

Diagrama 1

Diagrama 2

En los siguientes tres diagramas (del 3 al 5), la correlación es lineal pero no muy fuerte como en el

caso anterior.



Diagrama 3

Diagrama 4

Diagrama 5

Diagrama 6

En el diagrama 6 existe una correlación que no es de tipo lineal, se trata de una relación curva.

Diagrama 7

Este último diagrama representa el caso donde no se tiene relación entre las variables, pues no

hay correlación.



1.4.2. Coeficiente correlación de Pearson y Spearman

Coeficiente de correlación lineal.

Expresa cuantitativamente qué tan relacionadas están las variables o qué tan estrecha es su

relación.

La expresión matemática para el cálculo del coeficiente de correlación, sobre una población

estadística es:

Para el caso de una muestra se tiene la expresión matemática:

Los valores que puede tomar este coeficiente van de -1 a +1. El signo del valor del coeficiente debe

coincidir con la pendiente de la recta de regresión. La magnitud de esta recta está relacionada

íntimamente con el grado de dependencia lineal entre las variables.

La correlación va a ser más fuerte o débil, dependiendo de que el valor del coeficiente de

correlación esté aproximado a uno, cero o menos uno. El valor cero representa la ausencia de

correlación lineal.

Ejemplo:

Una empresa tiene ventas reportadas en los últimos cinco años, las cuales aparecen en la

siguiente tabla, donde la utilidad está en millones de pesos:

Variable (x) años Variable (y) ventas en millones de pesos 1 8.3 2 10.2 3 11.1 4 12.5 5 14.6

x= 15 y=56.7



Calcular el coeficiente de correlación

Solución:

De acuerdo a la fórmula del cálculo del coeficiente resultará muy conveniente agregar varias

columnas a la tabla de datos para simplificar los cálculos.

x y x*y x2 y2

1 8.3 8.3 1 68.89 2 10.2 20.4 4 104.04 3 11.1 33.3 9 123.21 4 12.5 50.0 16 156.25 5 14.6 73.0 25 213.16

x= 15 y=56.7 y=185 x2= 55 y2= 665.55 Ahora vayamos a la ecuación.

Sustituyendo los datos:

𝑟 =5(185) − 15 (56.7)

√5(55) − (15)(15) ∗ √5(665.55) − (56.7)(56.7)

𝑟 =(925) − (850.5)

√275 − 225 ∗ √(3327.75) − (3214.89)

𝑟 =74.5

√50 ∗ √112.86

𝑟 =74.5

√50 ∗ √112.86

𝑟 =74.5

75.11



r= 0.9917

El resultado muestra un coeficiente muy cercano a la unidad y esto representa la enorme

correlación que existe entre las dos variables, es decir, las ventas y el tiempo de la empresa están

muy relacionados.

Cierre de la unidad

Las medidas estadísticas aprendidas en esta unidad son muy importantes y básicas para cualquier

estudio estadístico. Con el dominio de estos conceptos será más fácil abordar la siguiente unidad,

por lo que se recomienda al estudiante, revisar los temas cuantas veces sea necesario, pues son

los pilares para cualquier estudio posterior.

Fuentes de consulta

Kuby, J. (2012). Estadística elemental. México: Cengage.

Ojer, L. (1990). Estadística básica. Madrid: Dossat.

Huntsberger, D. (1983). Elementos de Estadística inferencial. España: Continental.

Download - U1. Estadística descriptiva

Top Related