estadística descriptiva - estadísticos · mediaaritmética mediaaritmética(¯x):...
TRANSCRIPT
Estadística DescriptivaEstadísticos
Edimer David Jaramillo - Bioestadística 1
Agosto de 2018
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 1 / 25
1 Medidas de resumen para una variable
2 Medidas de tendencia central
3 Medidas de dispersión
4 Medidas de posición
5 Medidas de distribución o forma
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 2 / 25
Medidas de resumen para una variable
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 3 / 25
Medidas de resumen
Las medidas de resumen permiten caracterizar la información queaportan los n datos de la muestra considerada.Los estadísticos o valores típicos pretenden caracterizar o describirla muestra, indicando el valor de la variable hacia el cual tienden aagruparse los datos.
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 4 / 25
Medidas de tendencia central
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 5 / 25
Medidas de tendencia central
Las medidas de centralización son las más importantes, aunque nobasta con ellas para resumir la información.
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 6 / 25
Media aritmética
Media aritmética (x̄): el promedio es la suma de los valores xi de lasobservaciones dividido por el tamaño n de la muestra.
x̄ =∑n
i=1 xin = x1 + x2 + ...+ xn
n
La media es susceptible a valores extremos.Cuando se tienen variables discretas, es posible que el resultado de x̄no pertenezca al conjunto de valores posibles (ej. el número dehermanos).
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 7 / 25
Mediana
Mediana (Me): la mediana es el valor central en el sentido del orden.La mediana deja por encima y por debajo de ella, el 50% de los datos.
No se afecta por valores extremos.En distribuciones simétricas, la media es aproximadamente igual a lamediana.En distribuciones con sesgo a la derecha (sesgo positivo), la mediatiende a ser mayor que la mediana.En distribuciones con sesgo a la izquierda (sesgo negativo) la mediatiede a ser menor que la mediana.
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 8 / 25
Moda y media ponderada
Moda (Mo): la moda es el valor que ocurre con mayor frecuencia, esdecir, el dato que más se repite.
Unimodal: una sola modaBimodal: dos modasMultimodal: más de dos modas
Media ponderada (Mp): es una medida donde todas lasobservaciones no poseen el mismo grado de importancia.
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 9 / 25
Medidas de dispersión
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 10 / 25
Rango
Las medidas de dispersión expresan el grado de homogeneidad oheterogeneidad de los datos en torno a un valor central.
Rango: es la diferencia entre el valor máximo y el mínimo.
Máximo −M ínimo
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 11 / 25
Varianza
Varianza(S2): proporciona una medida de dispersión relativa altamaño muestral de las distintas observaciones respecto a la mediaaritmética x̄ . Se define como la suma de los cuadrados de lasdiferencias entre cada valor de la muestra y su media.
Para la población:
σ2 =∑n
i=1(xi − x̄)N
2
Para la muestra:
S2 =∑n
i=1(xi − x̄)n − 1
2
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 12 / 25
Desviación estándar
Desviación estándar(S): se define como la raíz cuadrada de lavarianza. Tiene la propiedad de estar definida en las mismas unidadesde la variable analizada.
Para la población:σ =√σ2
Para la muestra:S =√
S2
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 13 / 25
Coeficiente de variación
Coeficiente de variación(CV ): se define como el cociente entre ladesviación típica y la media aritmética, expresado en porcentaje.
CV = Sx̄ × 100
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 14 / 25
Medidas de posición
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 15 / 25
PercentilesLos percentiles, cuantiles y deciles indican la posición relativa de un datorespecto al resto de la muestra.
Percentiles: dividen la muestra en 100 partes iguales. Son los valoresque dejan determinado porcentaje de observaciones por debajo de ellos.Por ejemplo, el percentil 10, es el valor superior al 10% de los datos,pero inferior al 90% restante.
Ubicación del percentil k:
Pk = k(n + 1)100
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 16 / 25
Deciles
Deciles: dividen la muestra en 10 partes iguales.
Ubicación del decil k:Dk = k(n + 1)
10
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 17 / 25
Cuartiles
Cuartiles: dividen la muestra en cuatro partes iguales.Cuartil 1: 25% de las observacionesCuartil 2: 50% de las observacionesCuartil 3: 75% de las observaciones
Ubicación del cuartil k:Qk = k(n + 1)
4
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 18 / 25
Rango intercuartílico
Rango intercuartil: el rango intercuartílico (RIQ) se obtiene como ladiferencia entre los cuartiles 3 (Q3) y 1 (Q1). La mitad de lasobservaciones se clasifican dentro de este rango.
RIQ = Q3− Q1
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 19 / 25
Medidas de distribución o forma
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 20 / 25
Coeficiente de asimetría
Coeficiente de asimetría (g1): indica el grado de simetría de ladistribución de datos. Puede ser:
Distribución simétrica si g1 = 0Distribución asimétrica negativa si g1 < 0Distribución asimétrica positiva si g1 > 0
Fórmula del coeficiente de asimetría:
g1 =[ n
(n − 1)(n − 2)
] [∑ni=1(xi − x̄)3
S3
]
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 21 / 25
Coeficiente de asimetría
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 22 / 25
Coeficiente de curtosis
Coeficiente de curtosis (g2): evalua el grado de concentración de losdatos alrededor de la media y de los extremos (o colas). Puede ser:
Distribución mesocúrtica si g2 = 0Distribución leptocúrtica si g2 > 0Distribución platicúrtica si g2 < 0
Fórmula del coeficiente de curtosis:
g2 =[ n(n + 1)
(n − 1)(n − 2)(n − 3)
] [∑ni=1(xi − x̄)4
S4
]−[
3(n − 1)2
(n − 2)(n − 3)
]
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 23 / 25
Coeficiente de curtosis
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 24 / 25
Edimer David Jaramillo - Bioestadística 1 Estadística Descriptiva Agosto de 2018 25 / 25