09. estadistica descriptiva

Upload: jose-benito

Post on 06-Mar-2016

223 views

Category:

Documents


0 download

DESCRIPTION

Estadística

TRANSCRIPT

  • ESTADISTICA APLICADA

    M.Sc. Sabino Edgar Mamani [email protected]

  • MEDIDAS DE TENDENCIA CENTRAL

    Media

    Mediana

    Moda

  • MEDIDAS DE POSICIN

    Mnimo y MximoPercentilesDecilesQuintilesCuartiles

    MEDIDAS DE DISPERSIN

    RangoRango intercuartil, desviacin cuartlicaDesviacin MediaDesviacin Estndar Varianza

  • MEDIDAS DE DISPERSIN RELATIVA

    Coeficiente de variacinCoeficiente de desviacin mediaCoeficiente de desviacin cuartlica

    MEDIDAS DE ASIMETRA

    Coeficiente de PearsonCoeficiente de BowleySesgo

  • MEDIDAS DE CONCENTRACIN

    ( Apuntamiento )

    MOMENTOS DE UNA DISTRIBUCIN

    EFECTO DE TRANSFORMACIONESLINEALES, SOBRE ALGUNAS MEDIDASDE TENDENCIA CENTRAL YVARIABILIDAD

  • Proporciona la oportunidad, para quienes no estnfamiliarizados con anlisis estadsticos, decomprender los resultados, al conocer que estnreflejando.

    ANLISIS EXPLORATORIO DE DATOS

    Tanto en caso de monitoreo como en evaluaciones mas profundas constituye el primer paso.

    Pretende revelar estructuras simples y patrones presentes en los datos.

  • Permite detectar errores e inconsistencias antesde avanzar a fases mas complejas del anlisis.

    Incluye anlisis grfico, ordenamiento, clculo demedidas de posicin, tendencia central y dedispersin (variabilidad), identificacin depuntos extraos, posibles transformaciones paraun adecuado manejo de datos y detectartendencias.

  • Permite apreciar si los datos cumplen con losrequerimientos tericos de anlisis y si no, lasmedidas remediales.

    ANLISIS GRAFICO

    Si se aprecian patrones especiales, se sugieren posibles estrategias de anlisis y no solo el resumen escueto de resultados.

    Se pueden intuir relaciones especiales entre variables que ameriten una exploracin mas profunda.

  • Es un ndice de localizacin central, empleados enla descripcin de las distribuciones de frecuencia.

    Es el centro de una distribucin que puede serdefinida de diferentes maneras.

    MEDIDAS DE TENDENCIA CENTRAL

    MEDIA ARITMETICA

    X = ( X1 + X2 + ... Xn) / n

    X = Xi / n

  • CARACTERSTICAS

    1. Desviacin : Xi X desviaciones : ( Xi X) = 0

    La media equilibra los puntajes superiores einferiores a ella.

    Promedio

    *********

    *

    *

    *

    *

    *

    *

    *

    *

  • 2. La media es muy sensible a las medicionesextremas cuando estas medidas no estnequilibradas a ambos lados.

    Ejemplos:

    3, 5, 7, 9, 11 X = 7

    3, 5, 7, 9, 11, 25 X = 10

  • 3. La suma de los cuadrados de las desviaciones con respecto a la media es menor que si se toma otro valor como punto de referencia.

    Xi (X-2)2 (X-20)2 (X-8)2 (X-9.2)2

    2481220

    0436100324

    324256144640

    3616016144

    51.8427.041.447.84

    116.64

    46 464 788 212 204.8

    Prom 9.2

  • El mtodo de localizacin de la mediamediante la suma de los cuadrados de lasdesviaciones se llama mnimos cuadrados.

  • LA MEDIANA

    Es un valor real o potencial por debajo del cual seencuentra el 50% de los datos.

    Si n, el nmero de datos es par : p = n / 2q = (n/2)+1

    mediana : (Xp + Xq) / 2

    Ejemplo:

    4, 6, 8, 10n = 4p = 2q = 3

    Mediana : (X2 + X3) / 2 = (6 + 8) / 2 = 7

  • Si n, el nmero de datos es impar: r = ( n + 1) / 2Mediana : Xr

    Ejemplo:

    4, 6, 8

    n = 3

    r = ( 3 + 1) / 2 = 2

    mediana : X2 = 6

  • CARACTERSTICAS

    Insensible a extremos.

    No se obtiene con todos los datos

    No es nica (valor potencial).

  • LA MODA.

    Es el valor mas frecuente. Se obtiene porinspeccin.

    En algunos casos hay dos valores masfrecuentes, o varios, en cuyo caso se habla dedistribucin bimodal o multimodalrespectivamente.

    Ejemplo 1: 2, 3, 3, 3, 4, 6 Moda = 3

    Ejemplo 2: 2, 3, 3, 4, 6, 6 Moda = 3, 6

    Ejemplo 3: 2, 3, 4, 5, 6, 7 Moda = no hay

  • CARACTERSTICAS

    No siempre puede determinarse.

    En datos agrupados, puede cambiar segn ladefinicin de los lmites de clase.

  • Resumen de las principales caractersticas.

    Caractersticas Madia aritmtica Mediana Moda

    Clculo basado en: Cada valor Valor central Valor con mayor frecuencia

    Afectada por valoresextremos

    La mas afectada No (afectada solamente por elementos)

    No

    Manipulacinalgebraica

    Si: X = Xi / n No (promedio posicional, valor interpolado en muchos casos)

    No (promedio concentrado, cuatro mtodos para datos agrupados)

    propiedadesmatemticas

    (Xi X) = 0(Xi X)

    2 es mnimo(Xi Md) es mnimo(desdeando signos)

    -

    Aplicacin con clasesabiertas

    Indeterminada Determinada Indeterminada

    Tipo de datos preferidos

    Mayora de tipos Valor central es tpico, excluyendo extremos.

    Datos con distintatendencia central.

    Comparacin de respuestas para los mismos datos.

    Mayor que G y H Entre X y Mo Puede ser mayor omenor que Md y X

  • MEDIDAS DE POSICIN

    Son medidas que indican la posicin relativa deuna calificacin.

    Se parte ordenando los datos en formaascendente y se calcula la frecuencia acumulada,en trminos absolutos y relativos.

    El ordenamiento permite ver los extremos:Mnimo y Mximo

    Se define como rango percentil, el porcentaje delos casos que alcanz valores menores que elcitado.

  • A su vez, la calificacin asociada con un percentildado es el valor por debajo del cual estacumulado el porcentaje sealado.

    Rango percentil = (Frecuencia amulada * 100) / N

    Frecuencia acumulada = (Rango percentil * N) / 100

    Algunos percentiles mas utilizados son:Percentil 10 = primer decil

    Percentil 20 = segundo decil = primer quintil

    Percentil 25 = primer cuartil

    Percentil 50 = Mediana = segundo cuartil

    Percentil 75 = tercer cuartil

  • 100 200 300 400 500 600 700 800 900 1000

    600

    500

    400

    300

    200

    100

    190 1er. Cuartil

    370 2do. Cuartil

    510 3er. Cuartil

    Familias

    Ingresos

  • Los Cuartiles: Son valores que dividen a la muestra en 4 partes aprox. iguales. El 25% de los datos son menores o iguales que el cuartil inferior o primer cuartil, representado por Q1.

    El siguiente 25 % de datos cae entre el cuartil inferior y la mediana, la cual es equivalente al segundo cuartil.

    El 75 % de los datos son menores o iguales que el cuartil superior o tercer cuartil, representado por Q3, y el restante 25% de datos son mayores o iguales que Q3.

  • Los Deciles: Son valores que dividen a la muestra en 10 partes iguales.

    Los Percentiles: Dado un cierto porcentaje 100p, donde p vara entre 0 y 1, el percentil del 100p% es un valor tal que 100p% de los datos caen a la izquierda del percentil.

    La mediana y los cuartiles son percentiles. El primer cuartil es el percentil de 25%, la mediana es el percentil del 50% y el tercer cuartil es el percentil del 75%.

  • MEDIDAS DE DISPERSIN ABSOLUTA

    Para una descripcin completa de unadistribucin se requiere informacin relativa a ladispersin con respecto a la medida de tendenciacentral.

    RANGO

    Distancia escalar entre la mayor y la menor de las calificaciones

    CARACTERSTICAS

    Inestable por su sensibilidad a extremos

  • RANGO INTERCUARTIL

    DESVIACIN CUARTILICA

    No se han hecho desarrollos analticossuperiores

  • DESVIACIN MEDIA

    Desviacin con respecto a la media : Xi media

    DM = ( |desviaciones con respecto a la media| ) / N

    CARACTERSTICAS

    Representa una medida muy prctica, perodebido al manejo incmodo del valor absolutono se utiliza.

  • DESVIACIN ESTANDAR Y VARIANZA

    Se toma la desviacin con respecto a la media, seeleva al cuadrado (con lo cual se elimina elproblema de los signos) y se calcula el promedio,este valor se llama varianza.

    S2 = (Xi X)2 / N

    La raz cuadrada de la varianza es la desviacinestndar, la cual est expresada en unidades igualesa las de la variable.

    El hecho de que la varianza sea mnima cuando secalcula con respecto a la media, nos permite suponerque si sobre cierta poblacin se hace una prediccinigual a su promedio, se comete el mnimo error.

  • Cuanto mayor sean la varianza y desviacin estndar, mayor ser la dispersin de la distribucin.

    La varianza viene expresada en unidades de la variable al cuadrado, mientras que la desviacin estndar est en las mismas unidades de la variable.

  • Significado Prctico de la D.E.

    Desigualdad de Tchebysheff

    Dado un nmero K > 1 y un conjunto de n

    observaciones X1, X2, Xn, por lo menos

    1 1/K2 de ellas se encuentran dentro

    de K desviaciones estndar de la media.

  • XKK

    Por lo menos1 1/K2

    P ( - K X + K) 1 K-2

  • La DistribucinNormal

    -3 -2 -1 +1 +2 +3

    Promedio

    68.26%

    95.44%

    99.74%

    = Desviacin Estndar

  • DISPERSIN RELATIVA

    Si dos conjuntos de valores estn siendo comparados, los valores de su dispersin son claros, solo cuando sus promedios son similares y las unidades de medidas son iguales.

    An cuando las unidades de medida fueran lasmismas, la diferencia en los promedios dificultala comparacin por lo tanto, una medida dedispersin debe estandarizarse. Esto da lugar alcoeficiente de variacin.

    CV = S / X

  • Medidas de Asimetra

    Si al tomar la medida de tendencia central como eje de referencia, la distribucin de los datos a izquierda y a derecha es igual, se trata de una distribucin simtrica.

    De lo contrario, se dice que hay sesgo.

    Distribucin simtrica: _X = Md = Md

  • El sesgo positivo indica que la mayora de losvalores estn al lado izquierdo, pero hay algunosvalores al lado derecho que pueden tenermagnitud extrema.

    _Mo Md X

    El sesgo negativo indica que la mayora de losvalores estn al lado derecho, pero hay algunosvalores al lado izquierdo que pueden tenermagnitud extrema.

    _X Md Mo

  • YXModa Mediana Media

    Area de asimetria

    Y

    XModaMedianaMedia

    Area de asimetra

    Mo Md X

    X Md Mo

    Sesgo

  • X = Md = Mo

    Y

    XMediaMediana

    Moda

    Distribucin Simtrica

  • _Skewness = n Xi X 3

    (n-1)(n-2) S

    Valor positivo : Sesgo hacia la derechaValor negativo : Sesgo hacia la izquierdaValor igual a cero : Distribucin normal

    Coeficiente de sesgo de Pearson_

    P = 3 ( X Md)S

    P < 0 : Sesgo hacia la izqiuerdaP > 0 : Sesgo hacia la derechaP = 0 : Distribucin Normal

  • YXLeptocrticas

    Apuntamiento o Kurtosis

    Alta concentracin en valores altos

    Kurtosis > 0

    Y

    XMesocrtica

    Normal

    Concentracin en un intervalo mayorKurtosis = 0

    Y

    XPlaticrticas

    Muy dispersoKurtosis < 0

    Es el cuarto recurso para identificar una distribucin y muestra el grado de concentracin de los datos.

  • _Kurtosis = n (n+1) Xi X 4 - 3(n-1)2 .

    (n-1)(n-2)(n-3) S (n-2)(n-3)

    Valor positivo : Concentracin en valores altos

    Valor negativo : Disperso

    Valor igual a cero : Distribucin normal

  • Intervalos de confianza para

    El procedimiento para calcular el intervalo (a,b) que comprenda al parmetro con una propabilidad de 1 - recibe el nombre e estimacin por intervalos.

    Probabilidad ( a < < b) = 1 - _ _

    P (X Z x S / n < < X Z x S / n) = 1 -

    Z : Calificacin estndar a partir de la cual el rea vale /2_X : Media muestral

    S : Desviacin estndar

    N : Tamao de la muestra

    b-a : Medida de precisin

    1 - : Medida de confiabilidad

  • Ejemplo._X = 200S2 = 1225n = 49

    P ( a < < b) = 0.95

    a = 180 1.96*35 /49 = 170.2

    b = 180 + 1.96*35 /49 = 189.8

    P ( 170.2 < < 189.8 ) = 0.95

  • a) Primer momento, describe la tendencia central (media,

    mediana y moda). Ilustra el primer momento donde la

    distribucin se mide por la media () o valor promedio.

    Skewness = 0

    Kurtosis = 0

    FIGURA 5

    PRIMER MOMENTO (MEDIA)

    1 221

    1 221

    Fuente: Mun J. (2006)

    Estadsticos descriptivos basados en los momentos

  • Estadsticos descriptivos basados en los momentos

    b) Segundo momento, describe la amplitud o extensin de una

    distribucin, mide la variabilidad o los potenciales escenarios de los

    resultados, y constituye una medida de riesgo.

    Primer momento idntico, pero segundos momentos (riesgos) diferentes.

    Skewness = 0

    Kurtosis = 0

    FIGURA 6

    SEGUNDO MOMENTO (AMPLITUD)

    1

    2

    21

    Fuente: Mun J. (2006)

  • Estadsticos descriptivos basados en los momentos

    c) Tercer momento, mide la desviacin (sesgo o

    eventos ms probables) de una distribucin. La

    figura 7.1, ilustra sesgo hacia la izquierda y la

    figura 7.2 ilustra sesgo hacia la derecha.

    La media se mueve pero la desviacin

    estndar, varianza o amplitud pueden

    permanecer aun constante. Si el eje horizontal

    representa beneficios netos, una distribucin

    desviada negativamente podra ser preferida

    puesto que denota probabilidad ms alta de

    mayores beneficios, ocurrira lo contrario con

    una distribucin con sesgo positivo.

    En una distribucin sesgada, la media es la

    mejor medida de los beneficios, puesto que la

    mediana en ambos casos (figuras 7.1 y 7.2) es

    idntica.

    En consecuencia omitir el sesgo de una

    distribucin podra significar escoger un

    proyecto incorrecto, cabe la posibilidad de que

    dos proyectos tengan primer y segundo

    momento idnticos, es decir, ambos tienen

    beneficios y perfiles de riesgo idnticos, pero el

    sesgo de las distribuciones pueden ser muy

    diferentes.

    Skewness > 0

    Kurtosis = 0

    FIGURA 7.1

    TERCER MOMENTO (SESGO)

    Skewness < 0

    Kurtosis = 0

    FIGURA 7.2

    TERCER MOMENTO (SESGO)

    21

    1 2 21

    21

    121 2

    Fuente: Mun J. (2006)

    Fuente: Mun J. (2006)

  • Estadsticos descriptivos basados en los momentos

    d) Cuarto momento, mide el punto ms alto

    de una distribucin, la amplitud en las colas

    significan grandes ganancias o prdidas

    catastrficas. Considerando 0 como el nivel

    normal de Curtosis, los valores de Curtosis

    negativas indican colas mas planas

    (platicrticas), mientras que los valores

    positivos indican colas ms gruesas

    (leptocurticas).

    La figura ilustra que la distribucin en lnea

    continua tiene Curtosis mas alta, de modo

    que el rea bajo la curva es ms gruesa en

    las colas y tiene menos rea en el cuerpo

    central, condicin que tiene mayor impacto

    en el anlisis de riesgo.

    Los primeros tres momentos (media,

    desviacin estndar y sesgo) pueden ser

    idnticos, pero el cuarto momento es

    diferente.

    Esta condicin significa que, aunque los

    beneficios y riesgo sean idnticos, las

    probabilidades de que ocurran eventos

    extremos y catastrficos (grandes ganancias

    o prdidas) sean ms altas para una

    distribucin de alta Curtosis.

    Skewness = 0

    Kurtosis > 0

    FIGURA 8

    CUARTO MOMENTO (CURTOSIS)

    21

    21

    Fuente: Mun J. (2006)

  • a b

    c d

    e f

    Max

    Max

    Max

    O

    O

    O

    X X

    X X

    X X

    1. Incremento en el rendimiento sin cambio en la varianza

    2. Incremento en el rendimiento y cambio en la varianza

    3. Cambio en la asimetra de la distribucin; de positivo a negativo

    Fuente: Adaptado de Crissman Ch. (1991).

    1) asumiendo constante los otros

    factores de la distribucin, los

    agricultores preferiran (b) a (a).

    2) los niveles variables de insumos

    afectan a la varianza y la simetra de la

    distribucin; los agricultores adversos

    al riesgo podran preferir un menor

    rendimiento mas constante (c) que

    otro mayor, pero con mayor

    variabilidad (d).

    3) bajo condiciones favorables, existe

    mayor probabilidad de que los

    rendimientos sean mayores al

    promedio, con una distribucin

    asimtrica negativa (e), mientras que

    en condiciones desfavorables ocurrira

    lo contrario, correspondiendo a una

    distribucin asimtrica positiva (f).

    Posibles distribuciones de los rendimientos

  • Transformacin de datos

  • Transformacin de datos

  • Transformacin de datos

  • Manejo de Datos Agrupados

    Distribucin de frecuencias:agrupamiento de datos en categoras que muestran el nmero de observacines en cada categora mutumente excluyente.

  • Manejo de Datos Agrupados

    1. Nmero de clases o categoras.K = 1 + 3.3 Log (n); SQR(n)

    2. Rango.R = Mximo - Mnimo

    3. Amplitud de clase (C). C = R / K

    4. Amplitud de tabla (r). r = C x K

  • 5. Lmite inferior de la primera clase. LI1 = X(I) (r R)

    2X(I): Valor Mnimo de los datos

    6. Clases o categorias. LS(1) = X(I) + C (1ra. Clase)

    LIi = LIi-1 + C

    LSi = LIi + C

    7. Lmites reales.LRI = (LIi + LSi-1) / 2LRS = (LSi + Lii+1) / 2

  • 8. Marca de clase. Xi = (LIi + LSi) / 2

    Tabla de Frecuencias: Los datos cuantitativos se organizan en tablas, llamadas Tablas de Distribucin de frecuencias.

    Frecuencia absoluta: Indica el nmero de veces que se repite un valor de la variable.

    Frecuencia absoluta acumulada: Indica el nmero de valores que son menores o iguales que el valor dado.

  • Frecuencia relativa: Indica la proporcin con que se repite un valor.

    Se obtiene dividiendo la frecuencia absoluta entre el tamao de la muestra. Para una mejor interpretacin es ms conveniente mutiplicarla por 100 para trabajar con una Frecuencia relativaporcentual.

    Frecuencia relativa porcentual acumulada:Indica el porcentaje de datos que son menores o iguales que el valor dado.

  • Lmites de

    Clase

    Lmites

    reales

    Marca

    de clase

    Frec.

    Absolutas

    Fec.

    Relativas

    LI LS LRI LRS Xi fi Fi hi Hi fiXi Xi2 fiXi2

  • Ejemplo.

    Para evaluar el efecto de un suplemento alimenticio para ganado bovino, se registraron los datos de peso vivo en un lote de 100 vacunos, seleccionados por edad, peso, tamao y raza. Los datos son (pesos en kg.):

    110 115 117 122 126 128 128 133 135 137

    137 140 140 142 143 143 143 144 146 146

    147 150 152 153 153 153 153 154 155 157

    158 158 159 161 161 162 163 164 165 166

    166 167 168 168 168 168 169 169 169 169

    170 171 172 172 173 173 173 174 175 175

    176 177 179 179 180 182 185 185 186 186

    186 186 188 188 188 189 189 190 191 192

    193 193 193 196 196 197 199 201 201 201

    203 204 206 206 207 210 214 215 218 220

  • Marca de

    Clase Abs. Abs. Acum. Relat. R. Acum.

    LI LS LRI LRS Xi fi Fi hi Hi fiXi Xi2

    fiXi2

    110 123 109.5 123.5 116.5 4 4 0.04 0.04 466.0 13572.3 54289.0

    124 137 123.5 137.5 130.5 7 11 0.07 0.11 913.5 17030.3 119211.8

    138 151 137.5 151.5 144.5 11 22 0.11 0.22 1589.5 20880.3 229682.8

    152 165 151.5 165.5 158.5 17 39 0.17 0.39 2694.5 25122.3 427078.3

    166 179 165.5 179.5 172.5 25 64 0.25 0.64 4312.5 29756.3 743906.3

    180 193 179.5 193.5 186.5 19 83 0.19 0.83 3543.5 34782.3 660862.8

    194 207 193.5 207.5 200.5 12 95 0.12 0.95 2406.0 40200.3 482403.0

    208 221 207.5 221.5 214.5 5 100 0.05 1.00 1072.5 46010.3 230051.3

    100 16998.0 2947485.0

    FrecuenciasLmites

    reales

    Lmites de

    Clase

    Cuadro de distribucin de frecuencias.

  • 010

    20

    30

    40

    50

    60

    70

    80

    90

    100

    116.5 130.5 144.5 158.5 172.5 186.5 200.5 214.5

    Peso Vivo (Kg)

    No

    . Vac

    as

    153 169 188

  • mediana

    mn Q1 Q3 mx

    12 14 16 18 20 22 24 26 28 30 32

    Un diagrama de caja es una ilustracin grfica, basada en cuartiles, que ayuda a visualizar un conjunto de datos.

    Se requieren cinco tipos de datos para construir un diagrama de caja: el valor mnimo, el primer cuartil, la mediana, el tercer cuartil, y el valor mximo.

  • Medidas de tendencia central y dispersin en datos agrupados

    Media._X = fiXi = fiXi

    n fi

    fi : Frecuencia de observaciones de cada claseXi : Marca de clase (punto medio de cada clase)n : Tamao de la muestra

  • La mediana.

    Md = Lmd + n/2 - Fmd Cfmd

    Lmd : Lmite inferior de la clase de la mediana

    F : Frecuencia acumulada de la clase anteriora la clase de la mediana

    fmd : Frecuencia de la clase de la mediana

    C : Amplitud de clase

  • La moda

    Mo = Lmo + Da CDb + Da

    Lmo : Lmite inferior de la clase modal

    Da : Diferencia entre la frecuencia de la clase modaly la clase anterior

    Db : Diferencia entre la frecuencia de la clase modaly la clase posterior

    C : Amplitud de clase

  • La varianza._

    S2 = fiXi2 - nX2

    n - 1

    Desviacin Estndar

    S = S2

  • La frmula de la variancia para datos agrupados usada como estimador de la variancia poblacional es:

    donde f es la frecuencia de clase y Xes el punto medio de la clase.

    S

    fXfX

    n

    n

    2

    2

    2

    1

    ( )

  • El primer cuartil es el valor correspondiente

    al punto debajo del cual se encuentra el

    25% de las observaciones en un conjunto

    ordenado de datos.

    donde L = lmite de las clasese que contienen Q1,

    CF = frecuencia acumulda que precede a la clase

    que contiene a Q1, f = frecuencia de la clase que

    contiene Q1, i= tamao de la clase que contiene

    Q1.

    Q L

    nCF

    fi1

    4

    ( )

  • El tercer cuartil es el valor correspondiente

    al punto debajo del cual se encuentra 75%

    de las observaciones en un conjunto

    ordenado de datos:

    donde L = lmite inferior de la clase que contiene a

    Q3, CF = frecuencia acumulada precedente a la clase

    que contiene a Q3, f = frequencia de la clase que

    contiene a Q3, i = tamao de la clase que contiene a

    Q3.

    )(4

    3

    +=3 if

    CFn

    LQ

  • 100)1+(=

    PnLp

    Percentiles