Download - 09. Estadistica Descriptiva
-
ESTADISTICA APLICADA
M.Sc. Sabino Edgar Mamani [email protected]
-
MEDIDAS DE TENDENCIA CENTRAL
Media
Mediana
Moda
-
MEDIDAS DE POSICIN
Mnimo y MximoPercentilesDecilesQuintilesCuartiles
MEDIDAS DE DISPERSIN
RangoRango intercuartil, desviacin cuartlicaDesviacin MediaDesviacin Estndar Varianza
-
MEDIDAS DE DISPERSIN RELATIVA
Coeficiente de variacinCoeficiente de desviacin mediaCoeficiente de desviacin cuartlica
MEDIDAS DE ASIMETRA
Coeficiente de PearsonCoeficiente de BowleySesgo
-
MEDIDAS DE CONCENTRACIN
( Apuntamiento )
MOMENTOS DE UNA DISTRIBUCIN
EFECTO DE TRANSFORMACIONESLINEALES, SOBRE ALGUNAS MEDIDASDE TENDENCIA CENTRAL YVARIABILIDAD
-
Proporciona la oportunidad, para quienes no estnfamiliarizados con anlisis estadsticos, decomprender los resultados, al conocer que estnreflejando.
ANLISIS EXPLORATORIO DE DATOS
Tanto en caso de monitoreo como en evaluaciones mas profundas constituye el primer paso.
Pretende revelar estructuras simples y patrones presentes en los datos.
-
Permite detectar errores e inconsistencias antesde avanzar a fases mas complejas del anlisis.
Incluye anlisis grfico, ordenamiento, clculo demedidas de posicin, tendencia central y dedispersin (variabilidad), identificacin depuntos extraos, posibles transformaciones paraun adecuado manejo de datos y detectartendencias.
-
Permite apreciar si los datos cumplen con losrequerimientos tericos de anlisis y si no, lasmedidas remediales.
ANLISIS GRAFICO
Si se aprecian patrones especiales, se sugieren posibles estrategias de anlisis y no solo el resumen escueto de resultados.
Se pueden intuir relaciones especiales entre variables que ameriten una exploracin mas profunda.
-
Es un ndice de localizacin central, empleados enla descripcin de las distribuciones de frecuencia.
Es el centro de una distribucin que puede serdefinida de diferentes maneras.
MEDIDAS DE TENDENCIA CENTRAL
MEDIA ARITMETICA
X = ( X1 + X2 + ... Xn) / n
X = Xi / n
-
CARACTERSTICAS
1. Desviacin : Xi X desviaciones : ( Xi X) = 0
La media equilibra los puntajes superiores einferiores a ella.
Promedio
*********
*
*
*
*
*
*
*
*
-
2. La media es muy sensible a las medicionesextremas cuando estas medidas no estnequilibradas a ambos lados.
Ejemplos:
3, 5, 7, 9, 11 X = 7
3, 5, 7, 9, 11, 25 X = 10
-
3. La suma de los cuadrados de las desviaciones con respecto a la media es menor que si se toma otro valor como punto de referencia.
Xi (X-2)2 (X-20)2 (X-8)2 (X-9.2)2
2481220
0436100324
324256144640
3616016144
51.8427.041.447.84
116.64
46 464 788 212 204.8
Prom 9.2
-
El mtodo de localizacin de la mediamediante la suma de los cuadrados de lasdesviaciones se llama mnimos cuadrados.
-
LA MEDIANA
Es un valor real o potencial por debajo del cual seencuentra el 50% de los datos.
Si n, el nmero de datos es par : p = n / 2q = (n/2)+1
mediana : (Xp + Xq) / 2
Ejemplo:
4, 6, 8, 10n = 4p = 2q = 3
Mediana : (X2 + X3) / 2 = (6 + 8) / 2 = 7
-
Si n, el nmero de datos es impar: r = ( n + 1) / 2Mediana : Xr
Ejemplo:
4, 6, 8
n = 3
r = ( 3 + 1) / 2 = 2
mediana : X2 = 6
-
CARACTERSTICAS
Insensible a extremos.
No se obtiene con todos los datos
No es nica (valor potencial).
-
LA MODA.
Es el valor mas frecuente. Se obtiene porinspeccin.
En algunos casos hay dos valores masfrecuentes, o varios, en cuyo caso se habla dedistribucin bimodal o multimodalrespectivamente.
Ejemplo 1: 2, 3, 3, 3, 4, 6 Moda = 3
Ejemplo 2: 2, 3, 3, 4, 6, 6 Moda = 3, 6
Ejemplo 3: 2, 3, 4, 5, 6, 7 Moda = no hay
-
CARACTERSTICAS
No siempre puede determinarse.
En datos agrupados, puede cambiar segn ladefinicin de los lmites de clase.
-
Resumen de las principales caractersticas.
Caractersticas Madia aritmtica Mediana Moda
Clculo basado en: Cada valor Valor central Valor con mayor frecuencia
Afectada por valoresextremos
La mas afectada No (afectada solamente por elementos)
No
Manipulacinalgebraica
Si: X = Xi / n No (promedio posicional, valor interpolado en muchos casos)
No (promedio concentrado, cuatro mtodos para datos agrupados)
propiedadesmatemticas
(Xi X) = 0(Xi X)
2 es mnimo(Xi Md) es mnimo(desdeando signos)
-
Aplicacin con clasesabiertas
Indeterminada Determinada Indeterminada
Tipo de datos preferidos
Mayora de tipos Valor central es tpico, excluyendo extremos.
Datos con distintatendencia central.
Comparacin de respuestas para los mismos datos.
Mayor que G y H Entre X y Mo Puede ser mayor omenor que Md y X
-
MEDIDAS DE POSICIN
Son medidas que indican la posicin relativa deuna calificacin.
Se parte ordenando los datos en formaascendente y se calcula la frecuencia acumulada,en trminos absolutos y relativos.
El ordenamiento permite ver los extremos:Mnimo y Mximo
Se define como rango percentil, el porcentaje delos casos que alcanz valores menores que elcitado.
-
A su vez, la calificacin asociada con un percentildado es el valor por debajo del cual estacumulado el porcentaje sealado.
Rango percentil = (Frecuencia amulada * 100) / N
Frecuencia acumulada = (Rango percentil * N) / 100
Algunos percentiles mas utilizados son:Percentil 10 = primer decil
Percentil 20 = segundo decil = primer quintil
Percentil 25 = primer cuartil
Percentil 50 = Mediana = segundo cuartil
Percentil 75 = tercer cuartil
-
100 200 300 400 500 600 700 800 900 1000
600
500
400
300
200
100
190 1er. Cuartil
370 2do. Cuartil
510 3er. Cuartil
Familias
Ingresos
-
Los Cuartiles: Son valores que dividen a la muestra en 4 partes aprox. iguales. El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil, representado por Q1.
El siguiente 25 % de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al segundo cuartil.
El 75 % de los datos son menores o iguales que el cuartil superior o tercer cuartil, representado por Q3, y el restante 25% de datos son mayores o iguales que Q3.
-
Los Deciles: Son valores que dividen a la muestra en 10 partes iguales.
Los Percentiles: Dado un cierto porcentaje 100p, donde p vara entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil.
La mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%.
-
MEDIDAS DE DISPERSIN ABSOLUTA
Para una descripcin completa de unadistribucin se requiere informacin relativa a ladispersin con respecto a la medida de tendenciacentral.
RANGO
Distancia escalar entre la mayor y la menor de las calificaciones
CARACTERSTICAS
Inestable por su sensibilidad a extremos
-
RANGO INTERCUARTIL
DESVIACIN CUARTILICA
No se han hecho desarrollos analticossuperiores
-
DESVIACIN MEDIA
Desviacin con respecto a la media : Xi media
DM = ( |desviaciones con respecto a la media| ) / N
CARACTERSTICAS
Representa una medida muy prctica, perodebido al manejo incmodo del valor absolutono se utiliza.
-
DESVIACIN ESTANDAR Y VARIANZA
Se toma la desviacin con respecto a la media, seeleva al cuadrado (con lo cual se elimina elproblema de los signos) y se calcula el promedio,este valor se llama varianza.
S2 = (Xi X)2 / N
La raz cuadrada de la varianza es la desviacinestndar, la cual est expresada en unidades igualesa las de la variable.
El hecho de que la varianza sea mnima cuando secalcula con respecto a la media, nos permite suponerque si sobre cierta poblacin se hace una prediccinigual a su promedio, se comete el mnimo error.
-
Cuanto mayor sean la varianza y desviacin estndar, mayor ser la dispersin de la distribucin.
La varianza viene expresada en unidades de la variable al cuadrado, mientras que la desviacin estndar est en las mismas unidades de la variable.
-
Significado Prctico de la D.E.
Desigualdad de Tchebysheff
Dado un nmero K > 1 y un conjunto de n
observaciones X1, X2, Xn, por lo menos
1 1/K2 de ellas se encuentran dentro
de K desviaciones estndar de la media.
-
XKK
Por lo menos1 1/K2
P ( - K X + K) 1 K-2
-
La DistribucinNormal
-3 -2 -1 +1 +2 +3
Promedio
68.26%
95.44%
99.74%
= Desviacin Estndar
-
DISPERSIN RELATIVA
Si dos conjuntos de valores estn siendo comparados, los valores de su dispersin son claros, solo cuando sus promedios son similares y las unidades de medidas son iguales.
An cuando las unidades de medida fueran lasmismas, la diferencia en los promedios dificultala comparacin por lo tanto, una medida dedispersin debe estandarizarse. Esto da lugar alcoeficiente de variacin.
CV = S / X
-
Medidas de Asimetra
Si al tomar la medida de tendencia central como eje de referencia, la distribucin de los datos a izquierda y a derecha es igual, se trata de una distribucin simtrica.
De lo contrario, se dice que hay sesgo.
Distribucin simtrica: _X = Md = Md
-
El sesgo positivo indica que la mayora de losvalores estn al lado izquierdo, pero hay algunosvalores al lado derecho que pueden tenermagnitud extrema.
_Mo Md X
El sesgo negativo indica que la mayora de losvalores estn al lado derecho, pero hay algunosvalores al lado izquierdo que pueden tenermagnitud extrema.
_X Md Mo
-
YXModa Mediana Media
Area de asimetria
Y
XModaMedianaMedia
Area de asimetra
Mo Md X
X Md Mo
Sesgo
-
X = Md = Mo
Y
XMediaMediana
Moda
Distribucin Simtrica
-
_Skewness = n Xi X 3
(n-1)(n-2) S
Valor positivo : Sesgo hacia la derechaValor negativo : Sesgo hacia la izquierdaValor igual a cero : Distribucin normal
Coeficiente de sesgo de Pearson_
P = 3 ( X Md)S
P < 0 : Sesgo hacia la izqiuerdaP > 0 : Sesgo hacia la derechaP = 0 : Distribucin Normal
-
YXLeptocrticas
Apuntamiento o Kurtosis
Alta concentracin en valores altos
Kurtosis > 0
Y
XMesocrtica
Normal
Concentracin en un intervalo mayorKurtosis = 0
Y
XPlaticrticas
Muy dispersoKurtosis < 0
Es el cuarto recurso para identificar una distribucin y muestra el grado de concentracin de los datos.
-
_Kurtosis = n (n+1) Xi X 4 - 3(n-1)2 .
(n-1)(n-2)(n-3) S (n-2)(n-3)
Valor positivo : Concentracin en valores altos
Valor negativo : Disperso
Valor igual a cero : Distribucin normal
-
Intervalos de confianza para
El procedimiento para calcular el intervalo (a,b) que comprenda al parmetro con una propabilidad de 1 - recibe el nombre e estimacin por intervalos.
Probabilidad ( a < < b) = 1 - _ _
P (X Z x S / n < < X Z x S / n) = 1 -
Z : Calificacin estndar a partir de la cual el rea vale /2_X : Media muestral
S : Desviacin estndar
N : Tamao de la muestra
b-a : Medida de precisin
1 - : Medida de confiabilidad
-
Ejemplo._X = 200S2 = 1225n = 49
P ( a < < b) = 0.95
a = 180 1.96*35 /49 = 170.2
b = 180 + 1.96*35 /49 = 189.8
P ( 170.2 < < 189.8 ) = 0.95
-
a) Primer momento, describe la tendencia central (media,
mediana y moda). Ilustra el primer momento donde la
distribucin se mide por la media () o valor promedio.
Skewness = 0
Kurtosis = 0
FIGURA 5
PRIMER MOMENTO (MEDIA)
1 221
1 221
Fuente: Mun J. (2006)
Estadsticos descriptivos basados en los momentos
-
Estadsticos descriptivos basados en los momentos
b) Segundo momento, describe la amplitud o extensin de una
distribucin, mide la variabilidad o los potenciales escenarios de los
resultados, y constituye una medida de riesgo.
Primer momento idntico, pero segundos momentos (riesgos) diferentes.
Skewness = 0
Kurtosis = 0
FIGURA 6
SEGUNDO MOMENTO (AMPLITUD)
1
2
21
Fuente: Mun J. (2006)
-
Estadsticos descriptivos basados en los momentos
c) Tercer momento, mide la desviacin (sesgo o
eventos ms probables) de una distribucin. La
figura 7.1, ilustra sesgo hacia la izquierda y la
figura 7.2 ilustra sesgo hacia la derecha.
La media se mueve pero la desviacin
estndar, varianza o amplitud pueden
permanecer aun constante. Si el eje horizontal
representa beneficios netos, una distribucin
desviada negativamente podra ser preferida
puesto que denota probabilidad ms alta de
mayores beneficios, ocurrira lo contrario con
una distribucin con sesgo positivo.
En una distribucin sesgada, la media es la
mejor medida de los beneficios, puesto que la
mediana en ambos casos (figuras 7.1 y 7.2) es
idntica.
En consecuencia omitir el sesgo de una
distribucin podra significar escoger un
proyecto incorrecto, cabe la posibilidad de que
dos proyectos tengan primer y segundo
momento idnticos, es decir, ambos tienen
beneficios y perfiles de riesgo idnticos, pero el
sesgo de las distribuciones pueden ser muy
diferentes.
Skewness > 0
Kurtosis = 0
FIGURA 7.1
TERCER MOMENTO (SESGO)
Skewness < 0
Kurtosis = 0
FIGURA 7.2
TERCER MOMENTO (SESGO)
21
1 2 21
21
121 2
Fuente: Mun J. (2006)
Fuente: Mun J. (2006)
-
Estadsticos descriptivos basados en los momentos
d) Cuarto momento, mide el punto ms alto
de una distribucin, la amplitud en las colas
significan grandes ganancias o prdidas
catastrficas. Considerando 0 como el nivel
normal de Curtosis, los valores de Curtosis
negativas indican colas mas planas
(platicrticas), mientras que los valores
positivos indican colas ms gruesas
(leptocurticas).
La figura ilustra que la distribucin en lnea
continua tiene Curtosis mas alta, de modo
que el rea bajo la curva es ms gruesa en
las colas y tiene menos rea en el cuerpo
central, condicin que tiene mayor impacto
en el anlisis de riesgo.
Los primeros tres momentos (media,
desviacin estndar y sesgo) pueden ser
idnticos, pero el cuarto momento es
diferente.
Esta condicin significa que, aunque los
beneficios y riesgo sean idnticos, las
probabilidades de que ocurran eventos
extremos y catastrficos (grandes ganancias
o prdidas) sean ms altas para una
distribucin de alta Curtosis.
Skewness = 0
Kurtosis > 0
FIGURA 8
CUARTO MOMENTO (CURTOSIS)
21
21
Fuente: Mun J. (2006)
-
a b
c d
e f
Max
Max
Max
O
O
O
X X
X X
X X
1. Incremento en el rendimiento sin cambio en la varianza
2. Incremento en el rendimiento y cambio en la varianza
3. Cambio en la asimetra de la distribucin; de positivo a negativo
Fuente: Adaptado de Crissman Ch. (1991).
1) asumiendo constante los otros
factores de la distribucin, los
agricultores preferiran (b) a (a).
2) los niveles variables de insumos
afectan a la varianza y la simetra de la
distribucin; los agricultores adversos
al riesgo podran preferir un menor
rendimiento mas constante (c) que
otro mayor, pero con mayor
variabilidad (d).
3) bajo condiciones favorables, existe
mayor probabilidad de que los
rendimientos sean mayores al
promedio, con una distribucin
asimtrica negativa (e), mientras que
en condiciones desfavorables ocurrira
lo contrario, correspondiendo a una
distribucin asimtrica positiva (f).
Posibles distribuciones de los rendimientos
-
Transformacin de datos
-
Transformacin de datos
-
Transformacin de datos
-
Manejo de Datos Agrupados
Distribucin de frecuencias:agrupamiento de datos en categoras que muestran el nmero de observacines en cada categora mutumente excluyente.
-
Manejo de Datos Agrupados
1. Nmero de clases o categoras.K = 1 + 3.3 Log (n); SQR(n)
2. Rango.R = Mximo - Mnimo
3. Amplitud de clase (C). C = R / K
4. Amplitud de tabla (r). r = C x K
-
5. Lmite inferior de la primera clase. LI1 = X(I) (r R)
2X(I): Valor Mnimo de los datos
6. Clases o categorias. LS(1) = X(I) + C (1ra. Clase)
LIi = LIi-1 + C
LSi = LIi + C
7. Lmites reales.LRI = (LIi + LSi-1) / 2LRS = (LSi + Lii+1) / 2
-
8. Marca de clase. Xi = (LIi + LSi) / 2
Tabla de Frecuencias: Los datos cuantitativos se organizan en tablas, llamadas Tablas de Distribucin de frecuencias.
Frecuencia absoluta: Indica el nmero de veces que se repite un valor de la variable.
Frecuencia absoluta acumulada: Indica el nmero de valores que son menores o iguales que el valor dado.
-
Frecuencia relativa: Indica la proporcin con que se repite un valor.
Se obtiene dividiendo la frecuencia absoluta entre el tamao de la muestra. Para una mejor interpretacin es ms conveniente mutiplicarla por 100 para trabajar con una Frecuencia relativaporcentual.
Frecuencia relativa porcentual acumulada:Indica el porcentaje de datos que son menores o iguales que el valor dado.
-
Lmites de
Clase
Lmites
reales
Marca
de clase
Frec.
Absolutas
Fec.
Relativas
LI LS LRI LRS Xi fi Fi hi Hi fiXi Xi2 fiXi2
-
Ejemplo.
Para evaluar el efecto de un suplemento alimenticio para ganado bovino, se registraron los datos de peso vivo en un lote de 100 vacunos, seleccionados por edad, peso, tamao y raza. Los datos son (pesos en kg.):
110 115 117 122 126 128 128 133 135 137
137 140 140 142 143 143 143 144 146 146
147 150 152 153 153 153 153 154 155 157
158 158 159 161 161 162 163 164 165 166
166 167 168 168 168 168 169 169 169 169
170 171 172 172 173 173 173 174 175 175
176 177 179 179 180 182 185 185 186 186
186 186 188 188 188 189 189 190 191 192
193 193 193 196 196 197 199 201 201 201
203 204 206 206 207 210 214 215 218 220
-
Marca de
Clase Abs. Abs. Acum. Relat. R. Acum.
LI LS LRI LRS Xi fi Fi hi Hi fiXi Xi2
fiXi2
110 123 109.5 123.5 116.5 4 4 0.04 0.04 466.0 13572.3 54289.0
124 137 123.5 137.5 130.5 7 11 0.07 0.11 913.5 17030.3 119211.8
138 151 137.5 151.5 144.5 11 22 0.11 0.22 1589.5 20880.3 229682.8
152 165 151.5 165.5 158.5 17 39 0.17 0.39 2694.5 25122.3 427078.3
166 179 165.5 179.5 172.5 25 64 0.25 0.64 4312.5 29756.3 743906.3
180 193 179.5 193.5 186.5 19 83 0.19 0.83 3543.5 34782.3 660862.8
194 207 193.5 207.5 200.5 12 95 0.12 0.95 2406.0 40200.3 482403.0
208 221 207.5 221.5 214.5 5 100 0.05 1.00 1072.5 46010.3 230051.3
100 16998.0 2947485.0
FrecuenciasLmites
reales
Lmites de
Clase
Cuadro de distribucin de frecuencias.
-
010
20
30
40
50
60
70
80
90
100
116.5 130.5 144.5 158.5 172.5 186.5 200.5 214.5
Peso Vivo (Kg)
No
. Vac
as
153 169 188
-
mediana
mn Q1 Q3 mx
12 14 16 18 20 22 24 26 28 30 32
Un diagrama de caja es una ilustracin grfica, basada en cuartiles, que ayuda a visualizar un conjunto de datos.
Se requieren cinco tipos de datos para construir un diagrama de caja: el valor mnimo, el primer cuartil, la mediana, el tercer cuartil, y el valor mximo.
-
Medidas de tendencia central y dispersin en datos agrupados
Media._X = fiXi = fiXi
n fi
fi : Frecuencia de observaciones de cada claseXi : Marca de clase (punto medio de cada clase)n : Tamao de la muestra
-
La mediana.
Md = Lmd + n/2 - Fmd Cfmd
Lmd : Lmite inferior de la clase de la mediana
F : Frecuencia acumulada de la clase anteriora la clase de la mediana
fmd : Frecuencia de la clase de la mediana
C : Amplitud de clase
-
La moda
Mo = Lmo + Da CDb + Da
Lmo : Lmite inferior de la clase modal
Da : Diferencia entre la frecuencia de la clase modaly la clase anterior
Db : Diferencia entre la frecuencia de la clase modaly la clase posterior
C : Amplitud de clase
-
La varianza._
S2 = fiXi2 - nX2
n - 1
Desviacin Estndar
S = S2
-
La frmula de la variancia para datos agrupados usada como estimador de la variancia poblacional es:
donde f es la frecuencia de clase y Xes el punto medio de la clase.
S
fXfX
n
n
2
2
2
1
( )
-
El primer cuartil es el valor correspondiente
al punto debajo del cual se encuentra el
25% de las observaciones en un conjunto
ordenado de datos.
donde L = lmite de las clasese que contienen Q1,
CF = frecuencia acumulda que precede a la clase
que contiene a Q1, f = frecuencia de la clase que
contiene Q1, i= tamao de la clase que contiene
Q1.
Q L
nCF
fi1
4
( )
-
El tercer cuartil es el valor correspondiente
al punto debajo del cual se encuentra 75%
de las observaciones en un conjunto
ordenado de datos:
donde L = lmite inferior de la clase que contiene a
Q3, CF = frecuencia acumulada precedente a la clase
que contiene a Q3, f = frequencia de la clase que
contiene a Q3, i = tamao de la clase que contiene a
Q3.
)(4
3
+=3 if
CFn
LQ
-
100)1+(=
PnLp
Percentiles