Download - U1. Estadística descriptiva
Matemáticas
3er semestre
Estadística I
Unidad 1. Estadística descriptiva
Clave:
05142318/06142318
Universidad Abierta y a Distancia de México
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 2
Índice
Unidad 1. Estadística Descriptiva ................................................................................... 3
Presentación de la unidad ............................................................................................... 3
Competencia específica .................................................................................................. 3
Logros de la unidad ......................................................................................................... 3
1.1. Introducción al estudio de la estadística ................................................................ 3
1.1.1. Estadística .............................................................................................................. 6
1.1.2. Estadística descriptiva .......................................................................................... 7
1.1.3. Inferencia estadística ............................................................................................. 7
1.2. Medidas de Tendencia Central ................................................................................. 8
1.2.1 Escalas y tipos de variables ................................................................................... 8
1.2.2. Media, moda, mediana media recortada ............................................................. 10
1.3. Medidas de dispersión ........................................................................................... 17
1.3.1. Rango intercuartílico ........................................................................................... 17
1.3.2. Diagramas de caja ............................................................................................... 20
1.3.3. Varianza, desviación estándar ............................................................................ 22
1.4. Medidas de Asociación .......................................................................................... 28
1.4.1. Regresión lineal ................................................................................................... 28
1.4.2. Coeficiente correlación de Pearson y Spearman .............................................. 31
Cierre de la unidad......................................................................................................... 33
Fuentes de consulta ...................................................................................................... 33
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 3
Unidad 1. Estadística Descriptiva
Presentación de la unidad
Esta primera unidad está dedicada a la Estadística descriptiva. Uno de los principales objetivos es
la recolección de datos a través de muestras. Estas enormes cantidades de datos se han de
resumir en unos parámetros o medidas que le proporcionen al investigador una concreción de lo
que se propone investigar.
En la Estadística descriptiva se trata, por lo tanto, de la descripción lo más cercana posible al
comportamiento real de la población que es objeto de estudio. Para este fin, se cuenta con la
noción de las medidas de tendencia central, dispersión y asociación, que serán vistas en esta
unidad.
Competencia específica
Analizar un conjunto de datos agrupados y no agrupados que permiten resolver problemas de tipo
estadístico utilizando las medidas de tendencia central, dispersión y asociación.
Logros de la unidad
• Utilizar las medidas de tendencia central, así como las de dispersión y de asociación con la
finalidad de describir e interpretar la información obtenida.
1.1. Introducción al estudio de la estadística
A lo largo de la historia de las matemáticas se han desarrollado áreas de conocimiento específico,
como el caso de la Estadística, cuyo uso data de las primeras civilizaciones. En textos antiguos se
aprecia cómo algunos emperadores o reyes decidieron realizar censos de poblaciones
conquistadas. La estadística se convirtió en una herramienta muy útil para el conocimiento y
manejo de las nuevas conquistas.
Identificar la situación de una población es muy importante a la hora de tomar decisiones. Al
analizar actividades muy antiguas como los
Juegos de azar, como lanzar un par de dados ¿a qué numero apostar? ¿lo dejaban a la suerte?
¿Todos los números tienen la misma probabilidad de salir? Para contestar estas preguntas se
desarrolló la Estadística.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 4
A continuación, se revisarán los principales conceptos de esta rama de las Matemáticas:
Población:
Todo estudio estadístico investiga una población para lo cual el investigador el científico o la
empresa que paga el estudio define los límites de la población, la frontera. Por ejemplo: si se
investiga el crecimiento demográfico en el Distrito Federal se analiza sólo este fenómeno en el
territorio de esta ciudad. . . A otro investigador puede interesarle sólo la variación demográfica en
la delegación Miguel Hidalgo, por tanto, su población está acotada a la demarcación de esta
delegación.
En términos generales una población es un conjunto de cosas, objetos, individuos, que tienen
características en común. La población es el objeto de estudio.
Ejemplo 1:
Si se desea estudiar la edad promedio de los habitantes de la ciudad de México es importante
limitar la investigación sólo en las 16 delegaciones que integran al Distrito Federal.
En este ejemplo la Ciudad de México es la población objeto de estudio. En otro ejemplo la
misma localidad puede ser sólo parte de la población objeto de estudio. A su vez puede darse el
caso de que únicamente se interese conocer el dato de una delegación.
Ejemplo 2:
El delegado (a) en turno de la delegación Azcapotzalco desea saber el nivel de estudios de su
población adulta. El estudio queda suscrito a esta localidad.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 5
En este ejemplo la delegación Azcapotzalco es la población objeto de estudio.
Muestra:
Una muestra es cualquier subconjunto de la población, es decir, cualquier pequeño grupo
seleccionado de la totalidad de elementos.
Ejemplo 3:
Si se desea estudiar la edad promedio de los habitantes de la Ciudad de México,
Nuestra población queda limitada al Distrito Federal. Otro ejemplo de muestra es si se toman
los datos únicamente de la delegación Azcapotzalco (o Milpa Alta, o cualquier otra).
En este ejemplo la Ciudad de México es la población objeto de estudio. La delegación
Azcapotzalco puede ser una muestra de esa población, aunque probablemente poco
representativa para todo el Distrito Federal.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 6
Muestra aleatoria:
La muestra aleatoria es un subconjunto representativo de la población elegida. Significa que cada
elemento de la población debe de tener la misma oportunidad de ser seleccionado. De este modo
los resultados que se obtengan pueden ser generalizados al resto de la población.
Nota: Se pueden tener varias muestras aleatorias de una población. Y a pesar de ser aleatorias y
representativas, estas van a arrojar valores diferentes, por lo tanto, es necesario tener claro de
que sólo nos dan idea de los valores, pero no la información real de la población.
1.1.1. Estadística
La Estadística es la rama de las Matemática que se encarga del estudio de los métodos,
recolección de información e interpretación de ésta en forma adecuada. También se encarga del
análisis de la información y la toma de decisiones con base en los resultados de este análisis.
Actualmente la Estadística es la herramienta primordial de la investigación científica tanto para las
Ciencias sociales como para las Ciencias exactas. Cabe señalar la importancia que la Estadística ha
representado para los gobiernos y sus instituciones, pues se ha convertido en una herramienta
imprescindible para conocer la magnitud de los nacimientos, muertes, nivel de estudios, nivel de
ingresos, entre otras cosas, que constituyen datos poblaciones importantes para todo gobierno.
La Estadística se divide en dos grandes campos de estudio:
A lo largo de este curso se estudiarán los principales temas de ambas áreas. En la unidad uno se
revisará la Estadística descriptiva; en tanto, las unidades restantes estarán dedicadas a la
Estadística Inferencial.
Áreas de la Estadística
Estadística descriptiva
Estadística inferencial
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 7
1.1.2. Estadística descriptiva
La Estadística descriptiva es aquella rama o área de estudio de la Estadística que se encarga del
conocimiento de los métodos adecuados para la recolección de datos, de la organización,
presentación y descripción de toda la información numérica y describir las características
principales de una población que es objeto de estudio.
La Estadística descriptica emplea métodos que le permiten resumir los principales aspectos de los
valores de la muestra de la población elegida. Asimismo, se basa en cálculos numéricos y gráficos
para sus fines. Las gráficas de barras, el gráfico circular, los pictogramas, los histogramas, los
diagramas de árbol, entre otros son valiosas herramientas para presentar los resultados
obtenidos.
En este curso, se estudiarán las Medidas de Tendencia Central, las Medidas de Dispersión y las
Medidas de Asociación.
• Medidas de tendencia central. - son quizá las más conocidas, consideradas como los
pilares sobre los cuales se edifica el resto de la estadística. Estas medidas permiten la
descripción (Estadística descriptiva) de los datos, ya que con los valores obtenidos se
pueden realizar aseveraciones cuantitativas que indiquen las características de la
población.
• Medidas de dispersión. - también se conocen como medidas de variabilidad y se utilizan
para establecer la variación de los datos respecto al valor central. Para fines de este curso
se verá la varianza, desviación estándar, rango intercuartílico y diagramas de caja.
• Medidas de asociación. - calculan la asociación entre varías variables estadísticas, en este
curso se abordará únicamente el coeficiente de correlación.
1.1.3. Inferencia estadística
La Estadística inferencial se encarga del estudio de los métodos con los cuáles se pueden hacer
generalizaciones. Sacar conclusiones basadas en la probabilidad de una población determinada es
lo que permite la toma de decisiones para este conjunto de habitantes.
Es la más usada en los trabajos de investigación.
La Estadística inferencial permite deducir, a partir de los valores que arrojen las muestras extraídas
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 8
de una población, los resultados o conclusiones acerca de la población investigada.
Estimar es hacer una buena aproximación de los valores de las características principales de la
población de interés.
Para fines de este curso se estudiarán las estimaciones, y las pruebas de hipótesis.
1.2. Medidas de Tendencia Central
Dentro de la rama de la Estadística descriptiva el tema más conocido es el de Medidas de
tendencia central. ¿Quién no ha escuchado de la moda o ha calculado un promedio?
En este curso las Medidas de tendencia central que se verán son:
Antes de entrar al estudio de Medidas de tendencia central, se revisará un tema previo
importante.
1.2.1 Escalas y tipos de variables
Escalas de medidas.
Se puede decir que existen 4 tipos de escalas desde el punto de vista estadístico:
1. Nominal.
2. Ordinal.
3. Escala por intervalos.
4. Escala de razón o proporción.
Tipos de variables.
Las variables en la Estadística se organizan en dos grandes grupos:
Med
idas
de
ten
den
cia
cen
tral
la Media
La media recortada
La moda
la mediana
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 9
1. Las variables cuantitativas o numéricas. Están asociadas a un proceso cuantificable o
medible.se refieren a datos numéricos. Por ejemplo, el peso de una persona.
2. Las variables cualitativas o categóricas. Éstas se refieren a cualidades, características, o
atributos no numerables. Los datos recolectados en estas variables son expresados en
palabras. Por ejemplo, el sexo de una persona no es un dato numérico. Generalmente se
recurre a la asociación de un número a una determinada cualidad para poder trabajar la
variable.
A su vez cada una presenta una subdivisión. Se pueden resumir en el siguiente esquema:
Existen otros tipos de variables:
• Nominal. - Cuando no se puede establecer una relación entre los datos, en cuanto a cuál es
mejor o peor. Por ejemplo, el sexo. No se puede establecer que masculino sea peor que
femenino o viceversa.
Tipos de variables
Cualitativa
Nominal
Ordinal
Cuantitativa
Discreta
Continua
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 10
• Ordinal. - Se establece una relación de importancia entre los datos, o bien un orden
jerárquico. Por ejemplo, se ganó medalla de oro, plata o bronce.
• Discreta. - Se trata de una variable cuyos datos son números enteros. Por ejemplo, el número
de hermanos. pueden ser 1,2, 3, …, pero no se puede tener 1.23 hermanos.
• Continua. - Si puede asumir cualquier valor numérico, generalmente se expresa en números
con decimales. Por ejemplo, la estatura de una persona es de 1.8 metros.
Ejemplo:
Se selecciona un grupo de usuarios de transporte colectivo metro. Se reportan las siguientes
variables observables. {Color de ojos, sexo, estatura y peso}.
Registramos las variables y el tipo al que corresponden. El problema radica en clasificar el tipo
de variable.
Solución:
Variable Tipo de variable
Color de ojos Cualitativa
Sexo Cualitativa
Estatura en metros Cuantitativa
Peso en kilogramos Cuantitativa
La estatura y el peso son variables cuantitativas porque esta medición arroja un valor numérico.
El color de ojos y el sexo son variables cualitativas por que no se pueden medir.
1.2.2. Media, moda, mediana media recortada
Existen métodos y técnicas que no permiten trabajar con las variables, pues hacen que la
recolección e interpretación de datos sea más fácil de manejar, como es el caso de la media,
moda, mediana, media recortada). Una vez que se comprenden los tipos de variables, es
importante saber cómo se han de medir.
Para ello se tienen las diferentes Medidas de tendencia central:
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 11
Media.
Se trata de una de las medidas estadísticas más utilizadas por todos ¿Quién no ha calculado su
promedio de calificaciones?
Es importante mencionar que hay varios tipos de Media, por ejemplo, la media aritmética (que
generalmente se conoce como promedio), la media geométrica y la media armónica.
En este curso se estudiará la media aritmética, pues es la que se utiliza más y está relacionada con
los temas que se van a analizar.
A grosso modo se puede decir que la media es la suma de los valores de un conjunto de datos
recolectados (observaciones, Etc.) dividida entre el tamaño de la muestra (total de datos
recolectados). Estadísticamente representa el centro de un conjunto de datos como se puede
apreciar en la siguiente figura:
Para esta media se utiliza la siguiente expresión matemática:
n
xxxx n+++=
.......21
Ejemplo:
Se tienen los datos sobre la calificación que obtuvieron estudiantes que cursan la materia de
Probabilidad y son los siguientes: 10, 8, 6, 5, 1, 5, 5, 6,7,6,7,5,6,7,8,7,6,5,8,9.
Se desea calcular su media o promedio.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 12
Solución:
Son 20 datos, por lo tanto, n= 20
Se procede a calcular la media mediante la formula:
n
xxxx n+++=
.......21
Sustituyendo los valores:
Media o promedio =1+5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9+10
20= 5.9
El resultado es:
Media =5.9
Media recortada (trimmed media 5%)
La media recortada permite eliminar los datos muy extremos, tanto en la zona superior como en
la inferior. Es idéntica a la media aritmética vista anteriormente, sólo que para calcularla primero
se reduce el 5% de los valores en el extremo superior y también el 5% del extremo inferior.
Se ordenan los valores en forma ascendente para identificar cuáles son los que quedan en los
extremos. Esta media permite eliminar la distorsión producida al tener valores en los extremos
muy alejados de la media.
Ejemplo:
Se cuenta con los siguientes datos, producto de una muestra aleatoria sobre la calificación que
obtuvieron estudiantes que cursan la materia de Probabilidad: 10, 8, 6, 5, 1, 5, 5,
6,7,6,7,5,6,7,8,7,6,5,8,9.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 13
1.- Se ordenan los datos en forma ascendente (o descendente) esto es:
1,5,5,5,5,5,6,6,6,6,6,7,7,7,7,8,8,8,9,10.
2.- Se elimina, el 5% para cada uno de los extremos (superior e inferior) ... Si se tuvieran una
muestra de 100 datos el 5% sería de 5 datos.
3.- Una vez que se han eliminado los datos de los extremos superior e inferior (que cada uno
representa el 5% de la muestra), como se presenta abajo:
Se procede a calcular la media recortada de igual manera como se hizo para la media
aritmética.
Mediante la formula:
n
xxxx n+++=
.......21
Sustituyendo los valores:
Media recortada =5+5+5+5+5+6+6+6+6+6+7+7+7+7+8+8+8+9
18= 6.44
El resultado por lo tanto es:
Media recortada=6.44
Mediana.
La mediana es el valor que divide en dos partes iguales una distribución de frecuencias, es decir
aquel valor que deja igual numero de datos del lado derecho e izquierdo de él. En otras palabras,
se puede definir como el valor que se encuentra justamente en medio de todos los valores
ordenados en forma ascendente (o descendente). Esto se puede ver en la siguiente ilustración:
50 % ___!___ 50% .
Mínimo Mediana Máximo
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 14
Para localizar la mediana de una serie de datos se pueden presentar dos situaciones:
Primer caso. - que el total de los datos sea impar.
Segundo caso. - que el total de los datos sea par.
El procedimiento para localizar la mediana es el siguiente:
Primero, se ordenan todos los datos en forma ascendente (o descendente).
Segundo, si se trata del primer caso, (impar) el dato buscado se localiza exactamente en medio de
la distribución.
Ejemplo:
Se va a hacer el cálculo basado en los siguientes datos, producto de tomar una muestra
aleatoria sobre la calificación que obtuvieron estudiantes que cursan la materia de probabilidad:
10, 8, 6, 5, 9, 10, 5, 6,7.
Primero se ordenan en forma ascendente (o descendente) esto es:
5,5,6,6,7,8,9,10,10.
Segundo, el total de los datos es impar, por lo tanto, basta con localizar el dato que divide en
dos partes iguales la distribución. Note el estudiante, que, una vez ordenados en forma
ascendente los datos, quedan exactamente cuatro valores del lado izquierdo del siete y cuatro
valores a la derecha de él, como se puede apreciar en seguida:
Para este ejemplo la mediana es el “7”. se puede representar como:
5,5,6,6 _ __7___ 8,9,10,10 .
mínimo Mediana máximo
Por el contrario, si el total de los datos es par, quedaran dos valores justo en la mitad de la
distribución. Por lo tanto, se procederá a calcular la media aritmética de estos dos valores.
Ejemplo:
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 15
Con los siguientes datos, producto de tomar una muestra aleatoria sobre la calificación que
obtuvieron estudiantes que cursan la materia de Probabilidad, se buscará la Mediana:
{10, 8, 6, 5, 9, 10,8, 5, 6,7.}
Primero, se ordenan en forma ascendente (o descendente) esto es:
5,5,6,6,7,8,8,9,10,10.
Segundo, el total de los datos es par, hay que localizar los datos que dividen en dos partes
iguales la distribución.
Tercero, es necesario obtener la media aritmética de estas cantidades para calcular la
Mediana:
7 + 8
2= 7.5
Por lo tanto, para este ejemplo la Mediana es el “7.5”.
Moda.
Se puede definir la moda como el valor de la variable que se presenta con mayor frecuencia en un
conjunto de datos. Ejemplo.
Ejemplo 9:
Se tomó una muestra representativa de 20 alumnos de primer semestre que cursan el
bachillerato, a los cuales se les preguntó su edad. Los datos recolectados fueron los siguientes:
{15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21}
Solución:
Nuestra variable es la edad hay que identificar ¿cuál es la edad que se presenta con mayor
frecuencia?
Para contestar a la pregunta hagamos una tabla (distribución de frecuencias), con los datos.
Variable (edad) Frecuencia (número de alumnos)
15 8
16 5
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 16
17 3
18 2
19 1
21 1
Por lo tanto, la moda es 15, ya que es el dato que se presenta con más frecuencia.
La moda también se presenta en variables categóricas o cualitativas ejemplo:
Ejemplo:
Con una muestra representativa de 20 alumnos de primer semestre que cursan el bachillerato, a
los cuales se les pregunto cuál es su calzado habitual, se obtuvieron los siguientes datos: los
siguientes:
{tenis, tenis, zapatos, tenis, botas, tenis, sandalias, botas, zapatos, tenis, zapatos, tenis, zapatos}
{zapatos, tenis, sandalias, zapatos, sandalias, sandalias, zapatos}
Nuestra variable es el calzado habitual ¿Cuál es el calzado que se presenta con mayor frecuencia
en esta muestra?
Para contestar a la pregunta hagamos una tabla (distribución de frecuencias) con los datos.
Variable (calzado) Frecuencia (número de alumnos)
Tenis 7
Botas 2
Zapatos 7
Sandalias 4
En este caso se tienen dos datos con mayor frecuencia: tenis y zapatos con 7. Por lo tanto, se
tienen dos modas: tenis y zapatos.
Es importante señalar que la moda es el único valor central con el cual se suele trabajar con
variables cualitativas. Cabe señalar que, si bien la moda está considerada una Medida de
tendencia central, puede estar muy cerca de los extremos de la muestra, pues indica el valor que
se presenta con mayor frecuencia.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 17
1.3. Medidas de dispersión
También se conocen como Medidas de variabilidad y se utilizan para establecer la variación de los
datos respecto al valor central.
Los conceptos más relevantes son la varianza y la desviación típica o estándar. Estos serán
abordados en el presente apartado, pero antes se revisarán los temas de cuartiles y diagramas de
caja, correspondientes a las medidas de posición.
1.3.1. Rango intercuartílico
Rango.
El rango se define como la diferencia entre dos valores, el máximo y el mínimo.
Su expresión matemática para calcularlo es:
Rango = Xmax. – Xmin
Ejemplo:
En una muestra representativa de 20 alumnos que cursan el primer semestre de bachillerato, se
les pregunto su edad. Los datos recolectados fueron los siguientes:
15,16,15,16,17,17,15,18,19,15,16,17,15,16,15,15,15,16,18,21
Calcule el rango para la muestra recolectada.
Solución:
De acuerdo a la formula, se busca el dato con el valor máximo y el valor mínimo Por lo tanto se
tiene:
Xmax=21
Xmin= 15
Rango = Xmax. – Xmin
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 18
Sustituyendo en la fórmula:
Rango = 21-15 = 6
Cuartiles.
Los cuartiles son una medida de posición no central integrada por tres valores que divide la
totalidad de los datos en cuatro partes iguales. Por lo tanto, cada cuartíl representa el 25% del
total, esto se aprecia en el siguiente diagrama:
En esta representación se observa que el primer cuartil Q1, divide a la totalidad de los datos
dejando por debajo el 25%, y al mismo tiempo por encima el 75% de las cifras. Al obtener el 50%
de la información se divide en dos partes de 50% cada una, este valor corresponde para el
segundo cuartil, Q2.
Q1=N(25%)
Q2=N(50%)
Q3=N(75%)
N= número total de datos
Rango intercuartílico.
Es muy parecido al concepto de rango visto líneas arriba. Sólo que para los cuartiles se va a
emplear la expresión matemática:
Rango intercuartilico= Q3- Q1
Ejemplo:
Con los siguientes datos correspondientes a una muestra aleatoria sobre la calificación de
estudiantes que cursan la materia de Probabilidad 1:
0, 8, 6, 5, 9, 5, 6,7.
obtener el rango intercuartílico
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 19
Solución:
1.- Se ordenan los datos en forma ascendente o descendente:
5,5,6,6,7,8,9,10.
2.- Se obtienen los cuartiles:
3.- Se aplica la fórmula para encontrar los cuartiles:
Q1=N(25%) = 8 (0.25)= 2 El cuartil Q1 está ubicado en el segundo lugar y corresponde al
número “5”.
Q3=N(75%) = 8 (0.75) = 6 El tercer cuartil está en el sexto dato y es el número, “8”.
Nota: en caso de dar un resultado fraccionario o decimal hay que redondear hacia el número
superior inmediato.
Otra perspectiva de esta medida es considerar que como son 8 datos, al dividirlos en cuatro
partes queda el 25%, 4 datos el 50%, 6 datos el 75% ya que los 8 datos son el 100%, por lo tanto,
se puede representar así:
Con esta representación e pueden apreciar los valores para los cuartiles.
Como se mencionó anteriormente, el primer cuartil representa el 25% de los datos, y el tercer
cuartil el 75%.
Así se tiene que:
Q3= 8
Q1= 5
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 20
Por lo tanto, el rango intercuartílico queda:
Rango intercuartilico= Q3 - Q1 = 8-5 = 3
1.3.2. Diagramas de caja
Los Diagramas de caja se utilizan para representar gráficamente las cinco Medidas de dispersión,
los valores extremos, (valor máximo, valor mínimo), la mediana y los cuartiles Q1, Q3. Lo que nos
falta de estos valores es explicar cómo se trazan los diagramas correspondientes, lo que se hará
mejor con un ejemplo:
Ejemplo 13:
Se tienen los datos correspondientes a una muestra aleatoria sobre la calificación que
obtuvieron estudiantes de la asignatura de Probabilidad: 10, 8, 6, 5, 9, 5, 6,7.
Obtener el diagrama de caja.
Solución:
1.- Se ordenan en forma ascendente o descendente los datos:
5,5,6,6,7,8,9,10.
2.- Se obtienen los cuartiles:
Del ejemplo anterior se obtuvieron los cuartiles:
Q3= 8
Q1= 5
Los valores extremos son claramente:
Xmax= 10
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 21
Xmin = 5
La mediana se calcula como una media aritmética de los dos valores centrales, dado que el
tamaño de la muestra es par, así se tiene que:
Mediana = 6+7
2 = 6.5
Ya se tienen los cinco valores necesarios para la construcción del diagrama de caja: Es
conveniente trazar una línea que sirva de referente que contenga los datos de la muestra.
Lo primero es trazar los “bigotes”, esto se logra usando los valores extremos, para este caso
Xmax= 10, Xmin = 5, así que:
La caja se construye con los cuartiles Q1, Q3.
La caja tiene de largo el rango intercuartílico. En este ejemplo coincidió el “bigote” del valor
mínimo, con el del primer cuartil Q1, de ahí que se observe la figura como si le faltara el
“bigote” de la izquierda.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 22
Por último, se traza la mediana que para este ejemplo es de 6.5.
La longitud de los “bigotes” indica qué tan concentrados están los valores en el primer 25%, y en
el último 25% (que va del 75% al 100%). En este ejemplo lo que se nota es que en el último 25%
los datos están poco concentrados pues su longitud es considerable, en tanto que para el
primer 25% están muy concentrados y el “bigote” carece de longitud.
1.3.3. Varianza, desviación estándar
La varianza
Esta medida de dispersión sirve para calcular el grado de variabilidad de los datos con respecto a
la media se calcula en unidades cuadradas.
Para obtener la varianza se utilizará la siguiente expresión matemática:
1
2)(1
−
−
=
=
n
xxif
Vx
n
i
Nota: f= frecuencia absoluta del dato x.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 23
Usualmente la varianza se representa con la letra griega 2cuando se trata de una población, y se
divide entre “N”, que es el total de datos de la población.
2
N
xxifn
i
=
−
= 1
2)(
Por otro lado, la letra “s2” se refiere a una muestra (tomada de una población).
s2
1
2)(1
−
−
=
=
n
xxifn
i
Como puede verse en la expresión matemática, la varianza está definida como la media aritmética
de los cuadrados de las desviaciones de cada uno de los valores respecto al promedio.
Ejemplo:
En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La
muestra se tomó de manera aleatoria. Calcule la varianza de la muestra.
Variable (x) edad del
niño
Frecuencia (f)
6 15
7 8
8 16
9 20
10 13
11 24
Solución:
La fórmula para su cálculo es:
1
2)(1
−
−
=
=
n
xxif
Vx
n
i
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 24
1.- Obtener el promedio o media aritmética de la muestra.
xN
xin
i
== 1
N= tamaño de la muestra= número de datos= 96
x = 6∗15+7∗8+8∗16+9∗20+10∗13+11∗24
96
x = 848
96
Por lo tanto, sustituyendo se tiene que el valor de la media o promedio es:
x = 8.833
Para el cálculo de la varianza resulta útil trabajar en la tabla de distribución de frecuencias la cual
está formada con las siguientes columnas:
Variable
(x)
Frecuencia (f)
X- x (X- x )2 (X- x )2*f
6 15 6-8.83=-2.83 (-2.83)2=8.0 120
7 8 7-8.83=-1.83 =3.34 26.72
8 16 8-8.83=-0.83 =0.6889 11
9 20 9-8.83=0.17 =0.0289 0.578
10 13 10-8.83=1.17 =1.36 17.68
11 24 11-8.83= 2.17 =4.7 112.8
=
−n
i
xxif1
2)( =288.778
Se tiene la ecuación:
1
2)(1
−
−
=
=
n
xxif
Vx
n
i
Se sustituyen datos:
Vx= 288.778
96−1
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 25
Vx=3.04
Desviación estándar:
La desviación estándar se obtiene al sacar la raíz cuadrada de la varianza. Esconveniente que las
unidades que describen la variabilidad sean idénticas a las unidades del conjunto original para que
pueda ser utilizada la desviación estándar en lugar de la varianza cuyas unidades son cuadráticas.
Para calcular la desviación estándar se utilizará la siguiente expresión matemática:
1
2)(1
−
−
=
=
n
xxif
Vx
n
i
Usualmente la desviación típica o estándar se representa con la letra griega cuando se trata de
una población:
N
xxif
Vx
n
i
=
−
== 1
2)(
En el caso de la letra s, se usa cuando se refiere a una muestra (tomada de una población).
1
2)(1
−
−
==
=
n
xxif
Vxs
n
i
Como puede verse en la expresión matemática, la desviación se define como la raíz cuadrada de la
varianza.
Gráficamente la desviación se puede representar de la siguiente manera (se ha tomado una
distribución de tipo normal):
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 26
Ejemplo:
En la siguiente distribución de frecuencias se reportan las edades de niños de una primaria. La
muestra se tomó de manera aleatoria.
Variable (x) edad del niño
Frecuencia (f)
6 15 7 8 8 16 9 20
10 13 11 24
Calcular la desviación estándar.
Solución:
La fórmula para el cálculo de la desviación estándar nos indica que hay que obtener la varianza.
Como se está retomando el problema para ejemplificar la varianza, nos vamos a saltar el cálculo
de ésta, y únicamente tomaremos el valor obtenido.
Vx=3.04
Así que para calcular la desviación bastará sustituir en la fórmula.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 27
Coeficiente de variación.
Este concepto es útil pues nos permite hacer una comparación entre dos variables que tengan
unidad de medida diferente.
La expresión matemática para su cálculo es:
cv = s / x x 100
Como se puede apreciar en la ecuación, el coeficiente de variación es el cociente de la desviación
estándar y el promedio aritmético.
Si el valor del coeficiente de variación es menor o igual al 10% se dice que varía poco o presenta
poca variación. Por el contrario, si es mayor a 50% se tiene una variación excesiva. En los rangos
intermedios se considera que la variación es grande pero aceptable.
Ejemplo:
En la siguiente distribución de frecuencias, se reportan las edades de niños de una primaria. La
muestra se tomó de manera aleatoria.
Variable (x) edad del niño Frecuencia (f)
6 15
7 8
8 16
9 20
10 13
11 24
Calcular el coeficiente de variación.
04.3=s
Por lo tanto, el valor de la desviación estándar es:
S =1.74
𝑆=
1.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 28
Solución:
La ecuación matemática nos lleva a calcular la desviación estándar, lo que a su vez nos remite al
cálculo previo de la varianza.
Retomando el problema utilizado para ejemplificar la varianza, y la desviación estándar, nos
vamos a saltar estos cálculos y únicamente tomaremos el valor obtenido para la desviación.
Así que para calcular la desviación bastará sustituir en la fórmula.
𝑆 = 1.74
= 8.833
𝑐𝑣 = (𝑠
𝑥) 100
𝑐𝑣 = (1.74
8.83) 100
por lo tanto el valor del cv es:
𝑐𝑣 = 19.74 %
1.4. Medidas de Asociación
Miden la asociación entre diversas variables estadísticas. En este curso se abordará el coeficiente
de correlación, para lo cual se requiere conocimientos previos, como es el caso de la contrastación
de hipótesis. Sin embargo, se tratará el tema de manera sencilla para no causar contratiempos en
el estudiante.
1.4.1. Regresión lineal
Hasta el momento se han revisado conceptos y se han realizado cálculos que involucran una sola
variable. ¿Qué pasa cuando se tienen dos o más variables?
Numerosos problemas requieren determinar la relación que existe entre una o más variables
involucradas en el mismo problema. Estas relaciones se convierten en correlaciones.
Antes de iniciar el tema del coeficiente de correlación, es necesario revisar los siguientes
conceptos: Correlación lineal. Donde puede haber dos tipos de correlación lineal: Una positiva,
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 29
cuando se presenta una relación directamente proporcional entre las variables, es decir que si
aumenta una aumenta la otra, y a la inversa si disminuyen los valores de una disminuirán los
valores de la otra. La otra es una correlación que se denomina negativa, que se presenta cuando
las variables tienen una relación inversamente proporcional, es decir que, si los valores de una
variable van en aumento, mientras que los de la otra irán en decremento y a la inversa.
Regresión lineal. Es un modelo que permite describir la variación conjunta de dos variables
continuas.
Diagrama de dispersión. Muestra la localización de puntos, para lo cual se utiliza un sistema de
coordenadas en donde el eje “y” y el “x”, representan los valores de las variables que están
correlacionadas.
El diagrama de dispersión representa una idea clara del grado de correlación entre las variables.
En seguida se muestran los principales grados de relación entre dos variables mediante el uso de
estos diagramas.
En estas primeras imágenes la correlación lineal es muy fuerte, sólo cambia el sentido de la
pendiente y esto se verá reflejado en el signo del valor del coeficiente.
Diagrama 1
Diagrama 2
En los siguientes tres diagramas (del 3 al 5), la correlación es lineal pero no muy fuerte como en el
caso anterior.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 30
Diagrama 3
Diagrama 4
Diagrama 5
Diagrama 6
En el diagrama 6 existe una correlación que no es de tipo lineal, se trata de una relación curva.
Diagrama 7
Este último diagrama representa el caso donde no se tiene relación entre las variables, pues no
hay correlación.
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 31
1.4.2. Coeficiente correlación de Pearson y Spearman
Coeficiente de correlación lineal.
Expresa cuantitativamente qué tan relacionadas están las variables o qué tan estrecha es su
relación.
La expresión matemática para el cálculo del coeficiente de correlación, sobre una población
estadística es:
Para el caso de una muestra se tiene la expresión matemática:
Los valores que puede tomar este coeficiente van de -1 a +1. El signo del valor del coeficiente debe
coincidir con la pendiente de la recta de regresión. La magnitud de esta recta está relacionada
íntimamente con el grado de dependencia lineal entre las variables.
La correlación va a ser más fuerte o débil, dependiendo de que el valor del coeficiente de
correlación esté aproximado a uno, cero o menos uno. El valor cero representa la ausencia de
correlación lineal.
Ejemplo:
Una empresa tiene ventas reportadas en los últimos cinco años, las cuales aparecen en la
siguiente tabla, donde la utilidad está en millones de pesos:
Variable (x) años Variable (y) ventas en millones de pesos 1 8.3 2 10.2 3 11.1 4 12.5 5 14.6
x= 15 y=56.7
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 32
Calcular el coeficiente de correlación
Solución:
De acuerdo a la fórmula del cálculo del coeficiente resultará muy conveniente agregar varias
columnas a la tabla de datos para simplificar los cálculos.
x y x*y x2 y2
1 8.3 8.3 1 68.89 2 10.2 20.4 4 104.04 3 11.1 33.3 9 123.21 4 12.5 50.0 16 156.25 5 14.6 73.0 25 213.16
x= 15 y=56.7 y=185 x2= 55 y2= 665.55 Ahora vayamos a la ecuación.
Sustituyendo los datos:
𝑟 =5(185) − 15 (56.7)
√5(55) − (15)(15) ∗ √5(665.55) − (56.7)(56.7)
𝑟 =(925) − (850.5)
√275 − 225 ∗ √(3327.75) − (3214.89)
𝑟 =74.5
√50 ∗ √112.86
𝑟 =74.5
√50 ∗ √112.86
𝑟 =74.5
75.11
Estadística I Unidad 1. Estadística descriptiva
UnADM | DCEIT | MT | MEST1 33
r= 0.9917
El resultado muestra un coeficiente muy cercano a la unidad y esto representa la enorme
correlación que existe entre las dos variables, es decir, las ventas y el tiempo de la empresa están
muy relacionados.
Cierre de la unidad
Las medidas estadísticas aprendidas en esta unidad son muy importantes y básicas para cualquier
estudio estadístico. Con el dominio de estos conceptos será más fácil abordar la siguiente unidad,
por lo que se recomienda al estudiante, revisar los temas cuantas veces sea necesario, pues son
los pilares para cualquier estudio posterior.
Fuentes de consulta
Kuby, J. (2012). Estadística elemental. México: Cengage.
Ojer, L. (1990). Estadística básica. Madrid: Dossat.
Huntsberger, D. (1983). Elementos de Estadística inferencial. España: Continental.