curso de estadistica descriptiva
DESCRIPTION
Curso de Estadística descriptiva. Estadística I.TRANSCRIPT
Página 1 de 38
REPÚBLICA BOLIVARIANA DE VENEZUELA
MINISTERIO DEL PODER POPULAR PARA
LA EDUCACIÓN UNIVERSITARIA
UNIVERSIDAD NACIONAL EXPERIMENTAL
“SIMÓN RODRIGUEZ”
NÚCLEO: PALO VERDE
CÁTEDRA: Estadística I
Curso elemental de
Estadística Descriptiva.
Blog: stredelblogs.blogspot.com
Email: [email protected]
Facilitador:
Prof. Lisber Stredel
Palo Verde, domingo, 20 de enero de 2013
Página 2 de 38
Contenido del Curso.
Estadística Descriptiva. ................................................................................................................... 4
Desarrollo del curso de Estadística Descriptiva.......................................................................... 6
Datos Vehículos: Documentación .................................................................................................. 7
Datos Participantes: Documentación ............................................................................................. 8
Análisis superficial de los datos. .................................................................................................... 9
1. Distribución de Frecuencias y gráfica de variables cualitativas ...................................... 10
Construcción de la Distribución de Frecuencias: En tres pasos. ............................................. 10
1.1. Distribución de Frecuencias y gráfica de la variable cualitativa: MARCA ..................... 11
1.2. Distribución de Frecuencias y gráfica de la variable cualitativa: MENCION ................ 12
2. Distribución de Frecuencias y gráfica de variables cuantitativas.................................... 14
Construcción de la Distribución de Frecuencias: En tres pasos. ............................................. 15
2.1. Distribución de Frecuencias y gráfica de la variable cuantitativa: RPM ........................ 16
2.2. Distribución de Frecuencias y gráfica de la variable cuantitativa: Nota Estad ............. 18
Gráfica de las variables cualitativas y cuantitativas. ................................................................. 19
3. Análisis Numérico para datos brutos, primarios o no agrupados. ..................................... 20
3.1. Medidas de Tendencia Central o de Promedio o de Posición. ....................................... 22
Media aritmética (Xa) = ∑ (Xi) / n donde ∑ significa sumatoria .................................................... 23
Media geométrica (Xg) = [ ∏ (Xi )]1/n donde ∏ significa productorio ...................................... 23
Media armónica (Xh) = n / ∑ (1/Xi) donde 1/Xi significa reciproco ...................................... 24
Media cuadrática(Xc) = √(∑ (Xi2) / n) donde √ significa Raiz Cuadrada ................................. 24
Media ponderada (Xw) = ∑ (WiXi) / ∑ Wi ........................................................................................... 25
Moda (Mo) No Existe fórmula sino un procedimiento y concepto ................................................... 25
Mediana (Me) No Existe fórmula sino un procedimiento y concepto .............................................. 26
Página 3 de 38
Quartiles (Q1 ; Q2 ; Q3) No Existe fórmula sino un procedimiento y concepto ................................... 26
Percentiles (P%) No Existe fórmula sino un procedimiento y concepto ............................................ 27
Rango Percentil (Rp) No Existe fórmula sino un procedimiento y concepto .................................... 27
3.2. Medidas de Dispersión o de Variación o de Sesgo ....................................................... 28
Rango (R) también llamado Amplitud o Recorrido = Máximo - Mínimo .......................................... 28
Rango intercuartílico (RI) = Q3 – Q1 ................................................................................................... 28
Desviación cuartil (DQ) = (Q3 – Q1) / 2 .............................................................................................. 29
Desviación media (DM) = ∑ lXi - Xal/ n; ............................................................................................ 29
Desviación Estándar (σ)= √ (∑ (Xi - Xa )2 / (n-1)) ; ............................................................................ 29
Varianza (V) = σ2 = ∑ (Xi - Xa )2 /( n-1) .............................................................................................. 30
Coeficiente de variación (CV) = σ * 100 / Xa .................................................................................... 30
Coeficiente de desviación media (CDM) = DM *100 / Xa ................................................................. 31
Coeficiente de desviación cuartil (CDQ) = (Q3 – Q1) * 100 / (Q3 + Q1).............................................. 31
4. Análisis Numérico para datos procesados, secundarios o agrupados. .............................. 31
4.1. Medidas de Tendencia Central o de Promedio o de Posición. ....................................... 32
Media aritmética (Xa) = = ∑ (Xifi) / ∑fi ......................................................................................... 33
Moda (Mo) = L + (Δ1* ic/ ( Δ1 + Δ2 )) ........................................................................................... 33
Percentiles (P%) = L + ((% *n - ∑fi-1 ) / f% i ) * ic.............................................................................. 34
4.2. Medidas de Dispersión o de Variación o de Sesgo ....................................................... 35
Rango (R) también llamado Amplitud o Recorrido = Máximo - Mínimo ............................. 35
Desviación Estándar (σ)= √ (∑ (Xi - Xa )2 * fi / (n-1)) ; .............................................................. 35
Coeficiente de variación (CV) = σ * 100 / Xa .............................................................................. 36
5. Resumen de los cálculos para Datos Primarios y Datos Secundarios. ............................. 37
Conclusion. ........................................................................................................................................ 37
Página 4 de 38
Estadística Descriptiva.
Debido a lo extenso y variado del campo cubierto por la Estadística es difícil
proponer una definición precisa del concepto. No obstante, tácitamente todos los
estadísticos están de acuerdo en clasificar la materia en dos tipos, cuales son, la
Estadística Descriptiva y la Estadística Inductiva o Inferencial.
La Estadística Descriptiva trata del resumen y descripción de los datos. Dicho
resumen puede ser Tabular, Grafico o Numérico. El análisis se limita en sí mismo
a los datos coleccionados y no se realiza inferencia alguna o generalización acerca
de la totalidad de donde provienen esas observaciones (Población).
Si bien la descripción de los hechos recolectados es a veces en sí misma el fin que
se propone, en la mayoría de los análisis estadísticos estamos realmente más al
comienzo de la tarea que al término de la misma. La estadística descriptiva no es
más que el trabajo preliminar para la inferencia.
Por ejemplo, si un jefe de personal somete a un test de aptitud a un grupo de
graduados universitarios recientemente contratados; entre lo que puede hacer con
los datos que resultan del test valiéndose de la estadística descriptiva, están los
aspectos siguientes: Tabular los datos o clasificarlos de manera que con solo dar un
vistazo se pueda tener una imagen general de los mismos; calcular algunos
promedios y reconocer algo sobre la aptitud típica de los empleados; construir
tablas, graficas y cuadros para visualizar el comportamiento de los datos o bien
convertir los datos brutos en rangos o en percentiles para hacer comparaciones;
utilizar el promedio como punto de localización y describir la variabilidad o
dispersión de los datos. Además, si después se obtienen ciertas medidas sobre el
rendimiento en el trabajo de estos empleados, se puede tratar de describir la
relación entre los valores obtenidos en el test y dichas mediciones. Y en cuanto se
establezca una relación semejante, se puede predecir el rendimiento de un
empleado en su trabajo con base a los resultados obtenidos en el test de aptitud.
La Estadística Inferencial o Inductiva es el proceso de hacer predicciones acerca
de un todo o tomar decisiones al basarnos en la información recogida en la
muestra, por lo tanto la estadística inferencial se refiere a la rama de la estadística
Página 5 de 38
que trata de los procesos inferenciales, la que a su vez comprende la teoría de
estimación y prueba de hipótesis.
Al reseñar las dos facetas de la estadística, se puede resumir como sigue el
significado de estadística: “La Estadística es la ciencia, pura y aplicada, que crea,
desarrolla y aplica técnicas, de modo que pueda evaluarse la incertidumbre
derivada de inferencias inductivas”.
Las decisiones estadísticas se basan en DATOS que pueden ser numéricos o
categóricos, los primeros corresponden a variables cuantitativas, mientras que los
segundos a variables cualitativas; no obstante también podemos estudiar
situaciones donde estén presentes variables que impliquen aptitudes, actitudes y
otras características, para ello debemos aplicarles una escala de modo que
podamos medirlos, evaluarlos, estudiarlos y obtener conclusiones.
Los datos pueden contener magnitudes de una variable en fechas sucesivas, tales
datos se llaman Series Temporales o Series Cronológicas. Los datos pueden
combinarse simultáneamente de manera que el elemento tiempo no interviene,
además este tipo de datos puede contener solo una variable o dos o varias,
llamadas respectivamente univariante, bivariante y multivariante.
En este momento, es importante distinguir entre una categórica (cualitativa) y una
variable numérica (cuantitativa).
Variables cualitativas son aquellas que se cuentan, no se miden en la mayoría de
los casos, forman grupos y representan características, ejemplos de ellos son:
Sexo: dicotómica Municipios del estado Profesión: Mención
Estado civil Uso de la Tierra Artículos defectuosos
Tipo de vivienda Sector productivo Tamaño Grupo familiar
Desempleo o paro Aprobado o aplazados Tipo de personal
Variables cuantitativas son aquellas que se pueden medir, son numéricas y no
forman grupos en la mayoría de los casos, ejemplos de ellos son:
Página 6 de 38
Ingreso en Bs.F Edades en años Gastos en pasajes
Consumo Los salarios de los obreros Evaluaciones de las
pruebas
Estatura en metros Diámetro en mm Ventas en Bs.F
Peso en Kgs Precio Años de estudio
La descripción de una sola variable, para la cual el tiempo no es un factor, supone
tres mediciones principales: la distribución, el promedio y la variación de la
variable.
Los cálculos del promedio y de la variación suelen requerir en muchos casos de la
distribución como base, por consiguiente comenzaremos nuestro análisis formal de
los datos de masas con la distribución de una variable.
Desarrollaremos el cuadro de distribución de frecuencias y los gráficos asociados
al mismo: Histograma, polígono de frecuencias y la ojiva ascendente; luego
calcularemos las medidas de tendencia central y de dispersión y todas las otras.
Desarrollo del curso de Estadística Descriptiva
Con el objeto de facilitar la comprensión del tema, hemos decidido desarrollarlo
como Estudio de Casos, para ello nos hemos planteado dos casos a saber:
Primer Caso: Adquisición de una flota de vehículos por Marcas para una
empresa privada u organismo gubernamental o empresa del estado.
Segundo Caso: Contratación de participantes de la UNESR por Mención de
parte de una empresa privada u organismo gubernamental o empresa del
estado.
En ambos casos se ha hecho uso de DATOS, en el primer caso la información fue
suministrada por los fabricantes de vehículos en sus páginas Web, mientras que
en el segundo caso, la información fue recabada por encuestas realizadas a los
participantes de la UNESR del Núcleo Palo Verde.
Página 7 de 38
La información y los cálculos se presentan en un archivo denominado Anexos del
Curso de Estadística Descriptiva que pueden descargar del Blog:
www.stredelblogs.blogspot.com donde aparece con el mismo nombre.
El estudio y análisis lo iremos haciendo para ambos casos en forma simultánea, de
manera que se puedan observar las similitudes y las diferencias. Los participantes
podrán darse cuenta que desde el punto de vista estadístico, el análisis es idéntico
y solo difiere en la aplicación de los casos.
Datos Vehículos: Documentación
Variables Tipo Descripción
Planilla No es variable, solo identifica la
planilla donde están los datos
Modelo No es variable, solo identifica el
modelo del vehículo, unidad de
observación o análisis.
Marca Cualitativa Identifica la Marca
Precio Cuantitativa Precio del vehículo en Bs.F
Cilindros Cualitativa Numero de cilindros del vehículo
Cilindrada Cuantitativa Capacidad en centímetros cúbicos
Potencia Cuantitativa Potencia en HP
RPM Cuantitativa Revoluciones por minutos
Peso Cuantitativa Peso del vehículos en Kgs
Puestos Cualitativa Numero de puesto incluido el chofer
Cons90 Cuantitativa Consumo de gasolina en litros/100 Km
a 90 Km/h
Página 8 de 38
Cons120 Cuantitativa Consumo de gasolina en litros/100 Km
a 120 Km/h
Consurb Cuantitativa Consumo de gasolina en litros/100 Km
en la ciudad
Velocidad Cuantitativa Velocidad en Km/h
Aceleración Cuantitativa Tiempo en segundos en alcanzar 100
Km/h
Datos Participantes: Documentación
Variables Tipo Descripción
Planilla No es variable, solo identifica la
planilla donde están los datos
Cédula No es variable, solo identifica al
encuestado, unidad de muestreo o
respondiente.
Mención Cualitativa Identifica la Mención que estudia
Ingreso Fam Cuantitativa Ingreso mensual de la familia en Bs.F
Núcleo Fam Cualitativa Número de miembros en la familia
Edad Cuantitativa Edad en años
Aprec Num Cualitativa Aprecio por los números: 1 = Poco; 2 =
Medio y 3 = Mucho
Prim Eval Cuantitativa
o cualitativa
Nota de la primera evaluación en la
escala del 1 al 20
Seg Eval Cuantitativa Nota de la segunda evaluación en la
Página 9 de 38
o cualitativa escala del 1 al 20
Género Cualitativa Género del participante
Municipio Cualitativa Municipio donde vive
Nota Estad Cuantitativa
o cualitativa
Nota de Estadística en la escala del 1 al
20
Nota Matem Cuantitativa
o cualitativa
Nota de Matemática en la escala del 1
al 20
Empleado Cualitativa Si o no está empleado actualmente
Estatura Cuantitativa Estatura en metros
Análisis superficial de los datos.
En una primera revisión al archivo: Anexos al Curso de Estadística Descriptiva,
encontramos en ambas hojas de datos, variables cualitativas y variables
cuantitativas, pero es importante resaltar que hay dos columnas o variables (En lo
sucesivo nos referiremos a variables y omitiremos la palabra columna) de datos
que no representan ninguna variable. La variable Planilla en ambos archivos solo
sirve para chequear la información en caso de discrepancias o errores en la
transcripción de los datos, mientras que la variable Modelo en el archivo Vehículos
o Cédula en el archivo Participantes tampoco representan variables sino la unidad
de muestreo o de observación del estudio en cuestión y se utiliza con fines de
supervisión de la información.
Quien tenga práctica en el examen de un conjunto de datos podrá descubrir, tras
un par de minutos y con esfuerzo considerable, la distribución de los vehículos por
Marcas o de los participantes por Menciones, mientras que para una mente no
acostumbrada el cuadro anterior carece de significado.
Comenzaremos nuestro estudio, analizando las variables cualitativas, solo que en
este caso lo haremos con una de ellas en cada hoja. Utilizaremos la variable
Página 10 de 38
MARCA del archivo vehículo y la variable MENCION del archivo Participantes. El
curso lo hará con las demás.
1. Distribución de Frecuencias y gráfica de variables cualitativas
Una distribución de frecuencias es un cuadro de doble entrada y debe tener la
siguiente información:
Titulo: Es el encabezado del cuadro
Columnas: Tres columnas, la primera es denominada clase, la segunda es
reservada para la frecuencia absoluta y la tercera y última se destina para la
frecuencia relativa.
Total: Se ubica en la parte inferior del cuadro totalizando las frecuencias
Fuente y fecha de emisión: Se ubica en el pie de página
El grafico tiene la misma información que la distribución, solo que presentada en
forma grafica.
Construcción de la Distribución de Frecuencias: En tres pasos.
Una distribución de frecuencias de variables categóricas o cualitativas muestra el
número de observaciones, absolutas o relativas, que corresponden a cada una de
las clases, por otra parte, es relativamente sencillo construirlo porque no
necesitamos preocuparnos por detalles matemáticos como los limites de clases, los
intervalos de clases, los puntos medios o marcas de clases o el número de clases o
categorías que han de usarse como sucede cuando la variable es cuantitativa. Las
clases deben ser mutuamente excluyentes y exhaustivas o suficientes para contener
todos los datos. Sin embargo es muy fácil errar escogiendo clases traslapantes en
vez de datos cualitativos.
1er. Paso: Formar las clases
Las clases son las diferentes Marcas o Menciones. Estas clases se obtienen de una
revisión simple de los datos.
2do. Paso: Hallar las frecuencias absolutas.
Las frecuencias absolutas (Cantidad de vehículos o de participantes), se obtiene
contando el número de veces que aparece cada Marca o Mención.
Página 11 de 38
Los datos son la unidad de muestreo y también la unidad informante en algunos
casos. Cada dato sobre la marca corresponde a un vehículo y cada dato sobre la
mención corresponde a un participante.
3er) Paso: Calcular las frecuencias relativas porcentuales.
La frecuencia relativa porcentual se obtiene dividiendo cada valor de la frecuencia
absoluta entre el total y el resultado multiplicarlo por 100 para expresarlo en
porcentaje.
1.1. Distribución de Frecuencias y gráfica de la variable cualitativa: MARCA
Distribución Muestral de los Vehículos por Marcas
MARCAS Número de Vehículos en
unidades
%
ASIA MOTORS 3 2,40
CHEVROLET 1 0,80
DAIHATSU 1 0,80
FORD 7 5,60
JEEP 10 8,00
KIA 2 1,60
LADA 2 1,60
LAND ROVER 15 12,00
MERCEDES 6 4,80
MITSUBISHI 15 12,00
NISSAN 19 15,20
OPEL 9 7,20
SSANGYONG 4 3,20
Página 12 de 38
SUZUKI 19 15,20
TATA 2 1,60
TOYOTA 6 4,80
UAZ 4 3,20
TOTAL 125 100
Fuente: Feria del Automóvil de Francia, Noviembre 2012
Resumen: Puede observarse que la mayoría de los vehículos de la muestra son de
la marca Nissan o Suzuki con 19 vehículos cada marca lo que representan entre las
dos 30.40 % ; es decir 1 de cada 3 vehículos son de las marcas Nissan o Suzuki.
1.2. Distribución de Frecuencias y gráfica de la variable cualitativa: MENCION
Distribución Muestral de los Participantes por Menciones
MENCIONES Número de Participantes
en unidades
%
Educ. Ingles 5 4,00
Página 13 de 38
Educ. Inicial 19 15,20
Educ. Integral 16 12,80
Educ. Matemática 2 1,60
Informática 14 11,20
Mercadeo 24 19,20
Org y Sistema 10 8,00
Rec. Humanos 15 12,00
Rec. Mat y Financ 20 16,00
TOTAL 125 100
Fuente: Unesr, Diciembre de 2012
Resumen: Puede observarse que la mayoría de los participantes de la muestra
estudian Mercadeo o Recursos Materiales y Financieros con 44 participantes que
representan el 35,20 % del total. Es preocupante lo que ocurre con las menciones
Educación Ingles y Educación Matemática, apenas un 5,60 %
Debe resaltarse que podemos utilizar cualquier gráfico para informar sobre el
comportamiento de la variable en estudio, igualmente puede utilizarse la
frecuencia absoluta o la frecuencia relativa en cada gráfico pero no ambas porque
Página 14 de 38
la escala de medición de la frecuencia es diferente, es decir la frecuencia absoluta se
mide en unidades mientras que la frecuencia relativa se mide en porcentajes.
Cuando se presenta un estudio con un número de datos relativamente pequeño es
decir menos de 300 observaciones, estas distribuciones se hacen manualmente pero
es latoso y se genera mucho error y cansancio visual, por ello, recomendamos que
se utilice la función “Contar si” de EXCEL o su equivalente en LINUX para
realizar el trabajo.
Si el número de datos de una variable alcanza una cifra de 1200 observaciones o
más, entonces es preferible manejar esa información con software estadístico como
el SPSS de una versión actualizada, por ejemplo la versión 15 o más recientes.
Continuamos nuestro estudio, analizando las variables cuantitativas, solo que en
este caso lo haremos con una de ellas en cada hoja. Utilizaremos la variable RPM
del archivo Vehículo y la variable NOTA ESTAD del archivo Participantes. El
curso lo hará con las demás.
2. Distribución de Frecuencias y gráfica de variables cuantitativas
Una distribución de frecuencias es un cuadro de doble entrada y debe tener la
siguiente información:
Titulo: Es el encabezado del cuadro
Columnas: Cinco columnas, la primera es denominada clase, la segunda es
reservada para la frecuencia absoluta, la tercera se destina para la
frecuencia relativa, la cuarta es usada para reflejar la frecuencia absoluta
acumulada y la quinta y última para la frecuencia relativa acumulada.
Total: Se ubica en la parte inferior del cuadro totalizando las frecuencias
absolutas y relativas pero no las acumuladas.
Fuente y fecha de emisión: Se ubica en el pie de página
El grafico tiene la misma información que la distribución, solo que presentada en
forma grafica.
Página 15 de 38
Construcción de la Distribución de Frecuencias: En tres pasos.
Una distribución de frecuencias de variables cuantitativas muestra el número de
observaciones, absolutas o relativas, simple o acumuladas, que corresponden a
cada una de las clases, por otra parte, necesitamos preocuparnos por detalles
matemáticos como los limites de clases, los intervalos de clases, los puntos medios
o marcas de clases o el número de clases o categorías que han de usarse. Las clases
deben ser mutuamente excluyentes y exhaustivas o suficientes para contener todos
los datos. Sin embargo es muy fácil errar escogiendo clases traslapantes.
1er. Paso: Formar las clases: Cuantas y Cuales y las marcas de clases o punto
medio.
a.- Encontrar los valores máximo y mínimo de los datos: Max y Min y
Calcular el rango R = Rango = Max – Min
N = 1 + 3.3 Log (n) = 1 + 1.43 Ln (n) , donde N es el numero de clases y n el
numero de datos. El valor de N se escoge generalmente entre 5 y 12
Calcular el IC = Intervalo de clase = R / N
b.- Calcular los limites superiores y limites inferiores de cada clase.
Límite superior de cada clase: Al valor Mínimo se le suma el IC y formamos
el primer límite superior de la primera clase, luego a ese resultado le
sumamos el IC y obtenemos el segundo límite superior de la segunda clase
y así se hace en forma sucesiva hasta completar el límite superior de todos
los intervalos incluyendo el último que deberá ser igual o mayor al Máximo.
Límite inferior de cada clase: El primer límite inferior es el Mínimo. Los
límites inferiores sucesivos de cada clase se forma sumándole una decima o
centésima al límite superior del intervalo inmediato anterior para evitar el
solapamiento.
c.- Calcular las marcas de clases.
Las Marcas de clases o punto medio de las clases se halla sumando los dos
valores: límite inferior + límite superior de la clase y el total se divide entre
2; Xi = (Lim Inferior + Lim Superior) / 2
2do. Paso: Hallar las frecuencias absolutas y relativas %.
Las frecuencias absolutas (Cantidad de vehículos o de participantes), se
obtiene contando el número de valores de la variable en estudio que
contiene cada intervalo o clase correspondiente. Previamente se va
asignando cada valor a la clase a la cual pertenece o es elemento de la
Página 16 de 38
misma, es decir pertenece a la clase si se encuentra dentro de los límites de
la clase.
La frecuencia relativa porcentual se obtiene dividiendo cada valor de la
frecuencia absoluta entre el total y el resultado multiplicarlo por 100 para
expresarlo en porcentaje.
3er. Paso: Hallar las frecuencias acumuladas absolutas y acumuladas relativas % .
La frecuencia absoluta acumulada se halla sumando la frecuencia absoluta
de arriba hacia abajo comenzando con la primera. El valor máximo debe ser
igual al total
La frecuencia relativa acumulada se halla sumando la frecuencia relativa de
arriba hacia abajo comenzando con la primera. El valor máximo debe ser
igual a 100
Los datos son la unidad de muestreo y también la unidad informante en algunos
casos. Cada dato sobre la marca corresponde a un vehículo y cada dato sobre la
mención corresponde a un participante.
2.1. Distribución de Frecuencias y gráfica de la variable cuantitativa: RPM
Distribución de los Vehículos en función de las revoluciones por minutos RPM
Revoluciones
Por Minutos
(RPM)
Revolución
media
Número
de
vehículos
%
Número
acumulado
de
vehículos
Porcentaje
acumulado
%
3.237,5 3599,9 3418,75 0 0
3.600,0 3.962,5 3781,25 9 7,20 9 7,20
3.962,6 4.325,0 4143,80 43 34,40 52 41,60
4.325,1 4.687,5 4506,30 17 13,60 69 55,20
4.687,6 5.050,0 4868,80 13 10,40 82 65,60
5.050,1 5.412,5 5231,30 19 15,20 101 80,80
5.412,6 5.775,0 5593,80 16 12,80 117 93,60
5.775,1 6.137,5 5956,30 6 4,80 123 98,40
6.137,6 6.500,0 6318,80 2 1,60 125 100,00
6500,1 6.862,5 6681,30 0
Página 17 de 38
Total 125 100,00
Fuente: Feria del Automóvil de Francia, Noviembre 2012
Página 18 de 38
2.2. Distribución de Frecuencias y gráfica de la variable cuantitativa: Nota Estad
Distribución de los Participantes en función de las Notas de Estadísticas
Notas en
Estadísticas
en la Escala
del 1 al 20
Notas
medias
Número de
participantes %
Número
acumulado
de
participantes
Porcentaje
acumulado
%
-2,8 0,9 -0,90 0 0
1,0 4,8 2,90 25 20,00 25 20,00
4,9 8,6 6,75 21 16,80 46 36,80
8,7 12,4 10,55 35 28,00 81 64,80
12,5 16,2 14,35 21 16,80 102 81,60
16,3 20,0 18,15 23 18,40 125 100,00
20,1 23,8 21,95 0
Total 125 100
Fuente: Unesr, Diciembre de 2012
Página 19 de 38
Resumen: Puede observarse en relación a la variable RPM que la mayoría de los
vehículos (34.4% es decir 43 de 125 chequeados) sus revoluciones oscila entre
3962,6 rpm y 4325 rpm y adicionalmente podemos decir que el 41.60 % es decir 52
de 125 vehículos tiene una revolución igual o menor a 4325 rpm.
Por otra parte, si nos referimos a la variable Notas en Estadísticas podemos decir
que el 28% de los participantes (35 de un total de 125) tiene notas entre 8.7 y 12.4
puntos mas sin embargo un 35.2% tiene notas por encima de 12.4 puntos y el 8.4%
supera la nota de 16.2 puntos, calificados como EXCELENTES. Aclaramos que la
escala de nota es del 1 al 20, ambos inclusive.
Por otra parte es preocupante que 64.8 % (81 de 125) de los participantes hayan
resultados reprobados dado que obtuvieron notas iguales o inferiores a 12.4 puntos
en base a 20 máximo.
Gráfica de las variables cualitativas y cuantitativas.
Como ustedes podrán ver, una imagen expresa más que 1000 palabras. Hemos
presentados los resultados en forma gráfica, utilizando para ello varios gráficos.
En el caso de las variables cualitativas utilizamos el diagrama de barra y el gráfico
de sectores, mientras que para las variables cuantitativas aplicamos el Histograma
cuya presentación es en forma de barra, el polígono de frecuencia cuya forma es
Página 20 de 38
por medio de una curva quebrada y por último aplicamos la ojiva ascendente que
es una curva suave. Todos los gráficos fueron desarrollados en EXCEL y copiado y
pegado en WORD.
Cuando se presenta un estudio con un número de datos relativamente pequeño es
decir menos de 300 observaciones, estas distribuciones se hacen manualmente pero
es latoso y se genera mucho error y cansancio visual, por ello, recomendamos que
se utilice la función “Frecuencia” de EXCEL o su equivalente en LINUX para
realizar el trabajo.
Si el número de datos de una variable alcanza una cifra de 1200 observaciones o
más, entonces es preferible manejar esa información con software estadístico como
el SPSS de una versión actualizada, por ejemplo la versión 15 o más recientes.
3. Análisis Numérico para datos brutos, primarios o no agrupados.
En este momento, es importante distinguir entre datos brutos o primarios o no
agrupados y datos procesados o secundarios o agrupados.
Los datos brutos o primarios o no agrupados son aquellos que fueron recogidos,
recopilados o recolectados y se presentan generalmente en columnas o en filas o en
tablas, una muestra de ello, es la información presentada en dos hojas de EXCEL
denominadas Datos Vehículos y Datos Participantes y lo pueden descargar del
Blog: www.stredelblogs.blogspot.com donde aparece con el nombre de Anexos
del Curso de Estadística Descriptiva.
Los datos procesados o secundarios o agrupados son aquellos que se presentan en
cuadro de distribución de frecuencias o cuadros resúmenes o tablas de
contingencias, donde una distribución de frecuencias de variables cualitativas o
cuantitativas muestra el número de observaciones, absolutas o relativas, simple o
acumuladas, que corresponden a cada una de las clases o variables. Estos tipos de
datos lo hemos presentados en los puntos:
1.1 Distribución Muestral de los Vehículos por Marcas
1.2 Distribución Muestral de los Participantes por Menciones
2.1 Distribución de los Vehículos en función de las revoluciones por minutos RPM
2.2 Distribución de los Participantes en función de las Notas de Estadísticas
Página 21 de 38
Hemos realizado la recopilación, la tabulación y las gráficas de los datos, ahora nos
centraremos en el análisis numérico de los mismos.
La distribución de frecuencias no solo es un método de organizar los datos; es
también una medida descriptiva. En realidad, puede considerarse como una serie
de estadísticas descriptivas, puesto que cada número que indica la densidad de
observaciones en una clase es una estadística descriptiva. Sin embargo, con
frecuencia necesitamos una sola estadística descriptiva que pueda enfocar la
atención más nítidamente en la naturaleza de los datos que se están midiendo; el
uso de un solo número es, sin duda, más ventajoso que la distribución de
frecuencias.
Un número usado para describir una serie debe ser representativo de los datos
medidos por él, por esta razón, un número representativo se considera como una
medida. Más comúnmente, es conocido como un Promedio.
Los promedios, las desviaciones o las medidas de dispersión basados en sus
propiedades matemáticas, forman partes de las denominadas medidas descriptivas
numéricas las cuales se clasifican en Parámetros cuando se calculan a partir de los
datos de la población, siendo N el tamaño de la población y en Estadísticos
cuando se calculan a partir de los datos de una muestra, siendo n el tamaño de la
muestra.
Un promedio, como un valor significativo adoptado para representar la tendencia
central de una serie, es una medida muy poderosa. Sin embargo, el uso de un solo
valor para describir una distribución, oculta muchos hechos importantes. La toma
de decisiones con frecuencia exige la revelación de estas características ocultas de
la distribución, por consiguiente, debemos exponer ahora medidas características
para resumir y describir esas características ocultas.
Casi sin excepción, las cantidades incluidas en una distribución siempre difieren
del valor central, aunque el grado de desviación varía de una serie a otra. Además,
poco puede revelarse sobre la dispersión, aunque se computen varios promedios
para la serie. Así, se necesita una medida del grado de dispersión o variación con
objeto de dar una descripción más completa de las principales características de
una distribución o hacer posible una comparación efectiva de dos o mas
distribuciones.
Página 22 de 38
La variación es, con mucho, la característica más importante de una distribución;
puede ser la base para la toma de decisiones o una medida para seguir
desarrollando la teoría y el método estadístico.
La variedad no es solo la sal de la vida, sino también la esencia de la Estadística.
3.1. Medidas de Tendencia Central o de Promedio o de Posición.
Desarrollaremos fórmulas, procedimientos y cálculos para este tipo de datos que
como ya lo hemos indicado son aquellos que fueron recogidos, recopilados o
recolectados y se presentan generalmente en columnas o en filas o en tablas, puede
utilizarse para el cálculo, calculadoras que en su funcionamiento incluya el modo
“SD”, computadoras o cualesquiera otros medios dependiendo del número de
datos que se esté manipulando.
La información sobre las variables y los cálculos se presentan en un archivo
denominado Anexos del Curso de Estadística Descriptiva que pueden descargar
del Blog: www.stredelblogs.blogspot.com donde aparece con el mismo nombre.
Las variables que analizaremos son las mismas que hemos venido usando hasta
ahora: MARCA y RPM del archivo Vehículo y MENCION y NOTA ESTAD del
archivo Participantes.
Debo mencionar que la aplicación EXCEL o su equivalente CALC en UBUNTU
tienen funciones estadísticas que permiten obtener los resultados de forma directa.
Se indicará el nombre de la función utilizada, si existe.
Las medidas que desarrollaremos se presentan a continuación:
Media aritmética (Xa )
Media geométrica (Xg)
Media armónica (Xh)
Media cuadrática (Xc)
Media ponderada (Xw)
Representan centro de gravedad o punto de equilibrio o
regularidad.
Moda (Mo) Es el valor que más se repite o es más frecuente.
Página 23 de 38
Mediana (Me) Valor que divide a la población en dos partes iguales, es decir
50 % por debajo y 50% por encima del mismo
Cuartiles (Q1 ; Q2 ; Q3) Q 1 Valor que divide a la población en dos partes, 25% por
debajo y 75% por encima del mismo; Q 2 Valor que divide a la
población en dos partes, 50 % por debajo y 50% por encima
del mismo y Q 3 Valor que divide a la población en dos partes,
75 % por debajo y 25% por encima del mismo.
Percentiles (P%) Valor que divide a la población en dos partes, es decir p% por
debajo y (100 – p)% por encima del mismo
Rango percentil Rp Porcentaje de la población que está por debajo de valor X
definido previamente, entendiéndose que un porcentaje
complementario a 100 estará por encima de ese valor.
Media aritmética (Xa) = ∑ (Xi) / n donde ∑ significa sumatoria
Se suman los valores de la variable y el resultado se divide entre el número de datos.
Funcion: Promedio
Operacion MARCA MENCION RPM NOTA ESTAD
Sumatoria No aplica No aplica 583.860 1285
N (Numero de
datos)
125 125 125 125
Media aritmetica No aplica No aplica 4670,88 10,3
Media geométrica (Xg) = [ ∏ (Xi )]1/n donde ∏ significa productorio
Primeramente se debe obtener el logaritmo neperiano de cada valor y sumarse. Ese
total se divide entre n que es el tamaño de la muestra y finalmente se calcula el
exponencial del valor obtenido Xg = e∑Ln(xi)/n Funcion: Media.Geom
Página 24 de 38
Operacion MARCA MENCION RPM NOTA ESTAD
Sumatoria del Ln No aplica No aplica 1055,00 259,00
N (Numero de
datos)
125 125 125 125
Media geometrica No aplica No aplica 4658,0 8,0
Media armónica (Xh) = n / ∑ (1/Xi) donde 1/Xi significa reciproco
Primeramente se debe obtener el recíproco de cada valor y sumarse. Luego n que
es el tamaño de la muestra se divide entre ese total obtenido. Media.Armo
Operacion MARCA MENCION RPM NOTA ESTAD
Sumatoria del 1/Xi No aplica No aplica 0,02737 25,35767
N (Numero de
datos)
125 125 125 125
Media armonica No aplica No aplica 4567,1 4,9
Media cuadrática(Xc) = √(∑ (Xi2) / n) donde √ significa Raiz Cuadrada
Primeramente se debe obtener el cuadrado de cada valor y sumarse. Ese total se
divide entre n que es el tamaño de la muestra y finalmente se calcula la raíz
cuadrada. No Existe
Operacion MARCA MENCION RPM NOTA ESTAD
Sumatoria del Xi2 No aplica No aplica 2790716 17119
N (Numero de
datos)
125 125 125 125
Página 25 de 38
Media cuadratica No aplica No aplica 4725,0 11,7
Media ponderada (Xw) = ∑ (WiXi) / ∑ Wi
Tenemos que definir primeramente cual es la variable o factor de ponderación.
Luego se obtiene el producto del factor de ponderación por el valor de la variable y se
suman esos productos; igualmente debe obtenerse la suma de factor de ponderación.
Finalmente el total de los productos se divide entre el total del factor de ponderación.
Operacion MARCA MENCION RPM NOTA ESTAD
Sumatoria del WiXi No aplica No aplica 5.980.110 5.980.110
Sumatoria del Wi,
donde Wi = RPM
583.860
Sumatoria del Wi,
donde Wi = Nota
Estad
1285
Media ponderada No aplica No aplica 4653,78
10,242
Moda (Mo) No Existe fórmula sino un procedimiento y concepto Se halla inspeccionando los datos y se selecciona de la serie aquel valor o valores que
aparezca más veces que cualquier otro. Puede haber mas de una Moda. Moda
MARCA MENCION RPM NOTA ESTAD
Nissan y Suzuki con
19 veces
Mercadeo con 24
veces
4000 con 34 veces
11 con 11 veces
Página 26 de 38
Mediana (Me) No Existe fórmula sino un procedimiento y concepto
Se halla inspeccionando y ordenando los datos en orden ascendente y se selecciona de la
serie aquel valor que divida a la población en dos partes iguales, es decir 50% y 50%. Un
procedimiento es calcular la ubicación de la mediana, la cual estara en la posición (n +
1) / 2 si n es impar o [ n/2 ] o el siguiente si n es par. Donde n es el tamaño de la
muestra Mediana
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 4500
10
Quartiles (Q1 ; Q2 ; Q3) No Existe fórmula sino un procedimiento y concepto
Se halla inspeccionando y ordenando los datos en orden ascendente y se selecciona de la
serie aquel valor que divida a la población en dos partes de acuerdo a la distribución quie
indique el cuartil. Un procedimiento es calcular la ubicación del cuartil, la cual estara en
la posición n/4 o n/2 o 3n/4 ya sea que se trate de Q1 o Q2 o Q3. Donde n es el tamaño
de la muestra. Debe indicarse que Q2 es la Mediana, Cuartil
Cuartil MARCA MENCION RPM NOTA ESTAD
0 o minimo No aplica No aplica 3600 1
1 o primer No aplica No aplica 4000 7
2 o segundo No aplica No aplica 4500 10
3 o tercer No aplica No aplica 5200 15
4 o máximo No aplica No aplica 6500 20
Página 27 de 38
Percentiles (P%) No Existe fórmula sino un procedimiento y concepto
Se halla inspeccionando y ordenando los datos en orden ascendente y se selecciona de la
serie aquel valor que divida a la población en dos partes de acuerdo a la distribución que
indique el percentil. Un procedimiento es calcular la ubicación del percentil la cual estara
en la posición [p% * n]. Donde n es el tamaño de la muestra. Debe indicarse que P50
es la Mediana, Percentil
Percentil MARCA MENCION RPM NOTA ESTAD
42 No aplica No aplica 4400 9
80 No aplica No aplica 5400 16
Rango Percentil (Rp) No Existe fórmula sino un procedimiento y concepto
Se halla inspeccionando y ordenando los datos en orden ascendente y se halla el valor X
de la serie (el primero de ellos) y se determina la posición p que ocupa con respecto a n.
Donde n es el tamaño de la muestra. El Rp se calcula dividiendo la posición p entre n y
se multiplica por 100 para expresarlo en porcentaje. Rango.Percentil
RPM NOTA
ESTAD
MARCA MENCION Rango
Percentil de
RPM
Rango percentil
de NOTA
ESTAD
4000 12 No aplica No aplica 7,25 60,48
5000 16 No aplica No aplica 63,7 78,22
Página 28 de 38
3.2. Medidas de Dispersión o de Variación o de Sesgo
Rango o Amplitud (R)
Rango intercuartílico (RI)
Desviación cuartil (DQ)
Desviación media (DM)
Desviación Estándar (σ)
Representan error o riesgo o calidad. En el caso del
Rango representa margen o distancia o error máximo, dado
que mide la distancia entre el máximo y el mínimo.
La desviación estándar representa un promedio de las
desviaciones y es la más utilizada seguida del rango
Varianza (V) Es el cuadrado de la Desviación Estándar y es un operador
matemático y estadístico
Coeficiente de variación
(CV)
Son medidas relativas y se expresan en porcentajes. Significa
que porcentaje de desviación existe con respecto al valor
central o regular. Coeficiente de desviación
media (CDM)
Coeficiente de desviación
cuartil (CDQ)
Rango (R) también llamado Amplitud o Recorrido = Máximo - Mínimo
Representa margen o distancia o error máximo y se calcula realizando la diferencia del
máximo menos el mínimo. No Existe.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 2900 19
Rango intercuartílico (RI) = Q3 – Q1
Representa margen o distancia o error máximo entre el 50% centralizado y se calcula
realizando la diferencia de Q3 menos Q1. No Existe.
Página 29 de 38
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 1200 8
Desviación cuartil (DQ) = (Q3 – Q1) / 2 Representa un promedio del margen o distancia o error máximo entre el 50% centralizado
y se calcula realizando la diferencia de Q3 menos Q1 y el resultado se divide entre 2. No
Existe.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 600 4
Desviación media (DM) = ∑ lXi - Xal/ n;
Las barras significan valor absoluto y Xa es la media aritmética.
Representa sesgo promedio. Primeramente se debe obtener el valor absoluto de las
diferencias de cada valor con respecto a la media y sumarse. Ese total se divide
entre n que es el tamaño de la muestra. Desvprom
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 619,69 4,65
Desviación Estándar (σ)= √ (∑ (Xi - Xa )2 / (n-1)) ;
El símbolo √ significa raíz cuadrada y la letra σ se lee sigma, Xa es la media
aritmética.
Representa error o variación promedio. Primeramente se debe obtener el cuadrado
de las diferencias de cada valor con respecto a la media y sumarse. Ese total se
Página 30 de 38
divide entre n -1 donde n es el tamaño de la muestra y finalmente al resultado de
la división se le extrae la raíz cuadrada. Desvest
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 716,04 5,61
Varianza (V) = σ2 = ∑ (Xi - Xa )2 /( n-1)
La varianza es el cuadrado de la Desviación Estándar (σ). Se realizan todos los pasos
del cálculo anterior sin extraer la raíz cuadrada. Var
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 512714,54 31,53
Coeficiente de variación (CV) = σ * 100 / Xa
Representa el porcentaje de desviación que tienen los valores con respecto a la media
aritmética. σ (sigma) es la desviación estándar y Xa es la media aritmética. Se divide la
desviación estándar entre la media aritmética y el resultado se multiplica por 100 para
expresarlo en porcentaje. No Existe
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 15,33 % 54,62 %
Página 31 de 38
Coeficiente de desviación media (CDM) = DM *100 / Xa
Representa el porcentaje de desviación que tienen los valores con respecto a la media
aritmética. DM es la desviacion media y Xa es la media aritmética. Se divide la
desviación media entre la media aritmética y el resultado se multiplica por 100 para
expresarlo en porcentaje. No Existe
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 13,27 % 45,28 %
Coeficiente de desviación cuartil (CDQ) = (Q3 – Q1) * 100 / (Q3 + Q1) Representa el porcentaje del rango intercuartilico medio con respecto al punto medio de
los Cuartiles 1 y 3. Se divide el rango intercuartilico entre la suma de los Cuartiles Q1 y
Q3 y el resultado se multiplica por 100 para expresarlo en porcentaje. No Existe.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 13,04 % 36,36 %
4. Análisis Numérico para datos procesados, secundarios o agrupados.
Los datos procesados o secundarios o agrupados son aquellos que se presentan en
cuadro de distribución de frecuencias o cuadros resúmenes o tablas de
contingencias, donde una distribución de frecuencias de variables cualitativas o
cuantitativas muestra el número de observaciones, absolutas o relativas, simple o
acumuladas, que corresponden a cada una de las clases o variables. Estos tipos de
datos lo hemos presentados en los puntos:
1.1 Distribución Muestral de los Vehículos por Marcas
1.2 Distribución Muestral de los Participantes por Menciones
2.1 Distribución de los Vehículos en función de las revoluciones por minutos RPM
Página 32 de 38
2.2 Distribución de los Participantes en función de las Notas de Estadísticas
4.1. Medidas de Tendencia Central o de Promedio o de Posición.
Desarrollaremos fórmulas, procedimientos y cálculos para este tipo de datos, y
puede utilizarse calculadoras que en su funcionamiento incluya el modo “SD”,
computadoras o cualesquiera otros medios.
La información sobre las variables y los cálculos se presentan en un archivo
denominado Anexos del Curso de Estadística Descriptiva que pueden descargar
del Blog: www.stredelblogs.blogspot.com donde aparece con el mismo nombre.
Las variables que analizaremos son las mismas que hemos venido usando hasta
ahora: MARCA y RPM del archivo Vehículo y MENCION y NOTA ESTAD del
archivo Participantes.
Debo mencionar que la aplicación EXCEL o su equivalente CALC en UBUNTU no
tienen funciones estadísticas que permiten obtener los resultados de forma directa
para este tipo de variables presentada como datos procesados.
Todas las medidas que desarrollamos en el punto 3.1. también pueden calcularse
para datos procesados, pero dado el hecho practico nos centraremos solo en las
más comunes y utilizadas. Las medidas que desarrollaremos se presentan a
continuación:
Media aritmética (Xa )
Representan centro de gravedad o punto de equilibrio o
regularidad.
Moda (Mo) Es el valor que más se repite o es más frecuente.
Percentiles (P%) Valor que divide a la población en dos partes, es decir
p% por debajo y (100 – p)% por encima del mismo.
El Percentil 0 es el Mínimo, el Percentil 25 es el Primer
Cuartil Q1, el Percentil 50 es el Segundo Cuartil Q2 y es
también la Mediana Me, el Percentil 75 es el Tercer
Cuartil Q3 y finalmente el Percentil 100 es el Máximo.
Página 33 de 38
Media aritmética (Xa) = = ∑ (Xifi) / ∑fi
donde ∑ significa sumatoria, Xi es la marca de clase y fi es la frecuencia absoluta.
Se multiplica los valores de Xi por fi , se suman y el resultado se divide entre el
número de datos.
Operación MARCA MENCION RPM NOTA ESTAD
Sumatoria No aplica No aplica 589387,05 1302,3
N (Número de
datos)
125 125 125 125
Media aritmética No aplica No aplica 4715,10 10,4
Moda (Mo) = L + (Δ1* ic/ ( Δ1 + Δ2 ))
Donde L es el límite inferior de la clase modal; Δ1 es la diferencia entre la
frecuencia de la clase modal y la frecuencia de la clase pre modal (despréciese los
signos); Δ2 es la diferencia entre la frecuencia de la clase modal y la frecuencia de la
clase pos modal (despréciese los signos); ic es el tamaño del intervalo de clase de la
clase modal. La clase modal es aquella que tiene mayor frecuencia, la pre modal es
la anterior y la pos modal la siguiente.
En el caso de las variables cualitativas se halla inspeccionando el cuadro de
distribución de frecuencia y se selecciona de la serie aquel valor o valores que
aparezca más veces que cualquier otro. Puede haber mas de una Moda.
Si la variable es cuantitativa se procede como aparece en la fórmula arriba
presentada y se realizan los cálculos como lo indica la notación.
Página 34 de 38
MARCA MENCION RPM NOTA ESTAD
Nissan y Suzuki con
19 veces
Mercadeo con 24
veces
4167,96
10,55
Percentiles (P%) = L + ((% *n - ∑fi-1 ) / f% i ) * ic
Donde L es el límite inferior de la clase percentil; n es el total de observaciones
muestrales; ∑fi-1 es la suma de todas las frecuencias acumuladas hasta la clase
inmediata anterior a la clase percentil; f% i es la frecuencia absoluta de la clase
percentil; ic es el tamaño del intervalo de clase de la clase percentil.
La clase percentil es aquella donde se acumula el porcentaje dado de datos.
El Percentil 0 es el Mínimo, el Percentil 25 es el Primer Cuartil Q1, el Percentil 50
es el Segundo Cuartil Q2 y es también la Mediana Me, el Percentil 75 es el Tercer
Cuartil Q3 y finalmente el Percentil 100 es el Máximo.
Solo es aplicable para variables cuantitativa, se procede como aparece en la
fórmula arriba presentada y se realizan los cálculos como lo indica la notación.
Percentil MARCA MENCION RPM NOTA
ESTAD
42 No aplica No aplica 4335,76 9,39
80 No aplica No aplica 5393,43 15,85
Página 35 de 38
4.2. Medidas de Dispersión o de Variación o de Sesgo
Todas las medidas que desarrollamos en el punto 3.2. también pueden calcularse
para datos procesados, pero dado el hecho práctico nos centraremos solo en las
más comunes y utilizadas. Las medidas que desarrollaremos se presentan a
continuación:
Rango o Amplitud (R)
Representan error o riesgo o calidad. En el caso del
Rango representa margen o distancia o error máximo,
dado que mide la distancia entre el máximo y el
mínimo.
Desviación Estándar
(σ)
Representa un promedio de las desviaciones y es la más
utilizada
Coeficiente de
variación (CV)
Son medidas relativas y se expresan en porcentajes.
Significa que porcentaje de desviación existe con
respecto al valor central o regular.
Rango (R) también llamado Amplitud o Recorrido = Máximo - Mínimo
Representa margen o distancia o error máximo. Utilizando el cuadro de la
distribución de frecuencia se calcula realizando la diferencia del límite superior de
la última clase menos el límite inferior de la primera clase.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 2900 19
Desviación Estándar (σ)= √ (∑ (Xi - Xa )2 * fi / (n-1)) ;
El símbolo √ significa raíz cuadrada y la letra σ se lee sigma; donde ∑ significa
sumatoria, Xi es la marca de clase, Xa es la media aritmética y fi es la frecuencia
absoluta.
Página 36 de 38
Representa error o variación promedio. Primeramente se debe obtener el cuadrado
de las diferencias de cada valor con respecto a la media, luego multiplicarse por la
frecuencia fi y sumarse. Ese total se divide entre n -1 donde n es el tamaño de la
muestra y finalmente al resultado de la división se le extrae la raíz cuadrada.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 664,39 5,23
Coeficiente de variación (CV) = σ * 100 / Xa
Representa el porcentaje de desviación que tienen los valores con respecto a la
media aritmética. σ (sigma) es la desviación estándar y Xa es la media
aritmética. Se divide la desviación estándar entre la media aritmética y el
resultado se multiplica por 100 para expresarlo en porcentaje.
MARCA MENCION RPM NOTA ESTAD
No aplica No aplica 14,09 % 50,00 %
Página 37 de 38
5. Resumen de los cálculos para Datos Primarios y Datos Secundarios.
Medidas vs
Variables
Marca Mención RPM Nota Estad
Prima-
rios
Secunda-
rios
Prima-
rios
Secunda-
rios
Media No
aplica
No
aplica
4670,88 4715,10 10,3 10,4
Moda Si
aplica
Si aplica 4000 4167,96 11 10,55
Desviación
Estándar
No
aplica
No
aplica
716,04 664,39 5,61 5,23
Coeficiente
de
variación
(%)
No
aplica
No
aplica
15,33 14,09 54,62 50
Perc42 No
aplica
No
aplica
4400 4335,76 9 9,39
Perc80 No
aplica
No
aplica
5400 5393,43 16 15,85
Conclusion.
Puede concluirse después de analizar por separados los datos primarios y los datos
secundarios lo siguiente:
Las variables cualitativas solo permite el cálculo de la Moda.
Pueden calcularse las medidas estadísticas ya sea que se trate de datos
primarios o datos secundarios.
Página 38 de 38
Hay diferencia en los resultados obtenidos de las medidas para la misma
variable. Esa es la regla.
Los datos primarios tienen errores de muestreo y ajenos al muestreo,
mientras que los secundarios tienen adicional a los anteriores, errores de
representatividad como es el caso de las marcas de clase.
Los datos primarios son costoso y requiere tiempo para su recolección, por
otra parte, las empresas no los publican, mientras que los secundarios son
de fácil acceso porque las instituciones y empresas si lo hacen, generalmente
sin costo alguno o a un bajo costo.
Es preferible datos primarios que secundarios pero a falta de pan bueno son
tortas, es decir mejor es algo que nada.
Finalmente es posible relacionar las variables cualitativas con las
cuantitativas.
Las cualitativas se utilizan preferiblemente para agrupar características,
mientras que las cuantitativas se usan para determinar Estadísticos o
Parámetros, y se relacionan ambos tipos de variables por medio de tablas
dinámicas o cuadros de varias entradas.
La información presentada en este tipo de tabla y los cálculos realizados en
EXCEL se presentan en un archivo denominado Anexos del Curso de
Estadística Descriptiva que pueden descargar del Blog:
www.stredelblogs.blogspot.com donde aparece con el mismo nombre.
Espero que sea de utilidad este Curso Elemental de Estadística Descriptiva.