estadistica y prob 05

Upload: sheny-adama-c

Post on 07-Aug-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

  • 8/20/2019 Estadistica y Prob 05

    1/124

    Ing. William León Velásquez

    [email protected]

  • 8/20/2019 Estadistica y Prob 05

    2/124

    Las medidas de posicióntambién facilitan informaciónsobre la serie de datos que sedesea analizar.

    La descripción de un conjuntode datos, incluye como unelemento de importancia laubicación de éstos, dentro deun contexto de valoresposible.

    ING. WILLIAM LEON V. 2MEDIDA DE POSICIÓN

  • 8/20/2019 Estadistica y Prob 05

    3/124

    Se trata de encontrar unas

    medidas que sinteticen lasdistribuciones de frecuencias.En vez de manejar todos losdatos sobre las variables,

    tarea que puede ser pesada,se puede describir sudistribución de frecuenciasmediante algunos valores

    numéricos, eligiendo comoresumen de los datos un valorcentral alrededor del cual seencuentran distribuidos los

    valores de la variableING. WILLIAM LEON V. 3MEDIDA DE POSICIÓN

  • 8/20/2019 Estadistica y Prob 05

    4/124

    Son indicadores usados

    para señalar queporcentaje de datosdentro de una distribuciónde frecuencias superanestas expresiones, cuyovalor representa el valordel dato que se encuentra

    en el centro de ladistribución de frecuencia.

    ING. WILLIAM LEON V. 4MEDIDA DE POSICIÓN

  • 8/20/2019 Estadistica y Prob 05

    5/124

    Estas medidas de posición de una

    distribución de frecuencias hande cumplir determinadascondiciones para que seanverdaderamente representativasde la variable a la que resumen.Toda síntesis de una distribuciónse considerara como operativa siintervienen en su determinacióntodos y cada uno de los valores

    de la distribución, siendo únicapara cada distribución defrecuencias y siendo siempre

    calculable y de fácil obtención

    ING. WILLIAM LEON V. 5MEDIDA DE POSICIÓN

  • 8/20/2019 Estadistica y Prob 05

    6/124

    Son valores que dividenal total de los datosdebidamenteordenados en k partes

    iguales.

    ING. WILLIAM LEON V. 6CUANTILES

  • 8/20/2019 Estadistica y Prob 05

    7/124

    Son medidas deposición que dividen altotal de los datosordenados, en cuatro

    partes iguales.De esta forma entre doscuartiles consecutivosse encuentra ubicadono más del 25% deltotal de los datos.

    ING. WILLIAM LEON V. 7DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    8/124

    Hay 3 cuartiles que dividen a unadistribución en 4 partes iguales:primero, segundo y tercer cuartil.

    ING. WILLIAM LEON V. 8DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    9/124

    El cálculo para los cuartiles sedetermina a través de la siguiente

    expresión:

    ( )

     A f 

     f kn

     LQi

    iacum

    ik 

    14

      −−

    +=

    ING. WILLIAM LEON V. 9DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    10/124

    Donde:

    ING. WILLIAM LEON V. 10DEFINICIÓN

    k  Orden del cuartil

    Límite inferior del intervalo que

    contiene al cuartil

    Frecuencia acumulada considerada al

    intervalo donde se encuentra

    Frecuencia del intervalo que contiene el

    cuartil

    n  Número de mediciones

     A Ic Amplitud del intervalo

    i f 

    ( )1−iacum f 

    i L

  • 8/20/2019 Estadistica y Prob 05

    11/124

    Aquel valor de una serie quesupera al 25% de los datos y essuperado por el 75% restante.

    Formula de Q1 para series deDatos Agrupados en Clase.

    ING. WILLIAM LEON V. 11DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    12/124

    Donde: : posición de Q1, la cual se

    localiza en la primera frecuenciaacumulada que la contenga, siendola clase de Q1, la correspondientea tal frecuencia acumulada.

    Li, faa, fi, Ic : idéntico a losconceptos vistos para Medianapero referidos a la medida de laposición correspondiente.

    ING. WILLIAM LEON V. 12DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    13/124

    Coincide, es idéntico osimilar al valor de laMediana (Q2 = Md).

    Es decir, supera y essuperado por el 50% de losvalores de una Serie.

    ING. WILLIAM LEON V. 13DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    14/124

    Es aquel valor, termino o datoque supera al 75% y essuperado por el 25% de losdatos restantes de la Serie.

    Formula de Q3 para series deDatos Agrupados en Clase.

    ING. WILLIAM LEON V. 14DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    15/124

    Donde: : posición de Q3, la cual se

    localiza en la primera frecuenciaacumulada que la contenga, siendo laclase de Q3, la correspondiente a talfrecuencia acumulada.

    Li, faa, fi, Ic : idéntico a los conceptos

    vistos para Mediana pero referidos ala medida de la posicióncorrespondiente.

    ING. WILLIAM LEON V. 15DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    16/124

    Un reporte de laboratorioindica el número depacientes que en los

    primeros 100 días del añorecibieron peticiones porparte de una clínica, dereportes clínicos para

    realizar estudios deglucosa.

    ING. WILLIAM LEON V. 16EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    17/124

    ING. WILLIAM LEON V. 17EJEMPLO

    Veremos que el primer cuartil se localiza

    en el intervalo de clase marcada en color 

    El intervalo de clase donde se ubica elsegundo cuartil esta marcado por

    El tercer cuartil esta marcado por

    El número de datos a considerar son 63

     pacientes.

  • 8/20/2019 Estadistica y Prob 05

    18/124

    ING. WILLIAM LEON V. 18EJEMPLO

    Intervalos

    1 día a 9 días 5 5 5

    10 día a 19 días 14.5 6 11

    20 día a 29 días 24.5 8 19

    30 día a 39 días 34.5 8 27

    40 día a 49 días 44.5 4 31

    50 día a 59 días 54.5 5 36

    60 día a 69 días 64.5 7 4370 día a 79 días 74.5 8 51

    80 día a 89 días 84.5 4 55

    90día a 100 días 94.5 8 63

    Promedio

    de días

    i x

     Número de

     pacientes

    i f 

    Frecuencia acumulada

    acumulada f 

  • 8/20/2019 Estadistica y Prob 05

    19/124

    Para la obtención del primercuartil tenemos k=1, obteniendo:

    ( )75.15

    4

    63)1(

    4==

    kn

    ING. WILLIAM LEON V. 19EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    20/124

    lo que representa que el primer

    cuartil se encuentre en la terceraclase, sus datos están dados como

    ( )   9;8;11;20 1   ====   −   A f  f  L iiacumi

    ING. WILLIAM LEON V. 20EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    21/124

    por lo que el primer cuartil esigual a

    díasQ   34.2598

    114

    )63(1

    201   =

    −⋅

    +=

    ING. WILLIAM LEON V. 21EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    22/124

    Interpretación:

    Lo que indica que 25 % delos pacientes fueron

    mandados a valoración deglucosa en 25.34 días y el75% de los pacientesatendidos lo hicieron

    después de 25.34 días.

    ING. WILLIAM LEON V. 22EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    23/124

    Nótese que la consideraciónpara elegir el primer cuartil

    se hizo considerando lafrecuencia acumulada y deesta manera se considerarápara localizarla para el resto.

    ING. WILLIAM LEON V. 23EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    24/124

    Para la obtención del segundocuartil consideraremos k=2 porlo que

    5.31

    4

    632

    4

    =kn

    ING. WILLIAM LEON V. 24EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    25/124

    Considerando que para estesegundo cuartil ,

    con ello el cuartil tendrá un valor de

    ( )   9;5;31;50 1   ==== −   A f  f  L iiacumi

    díasQ   9.5095

    314

    )63(2

    502   =−⋅

    +=

    ING. WILLIAM LEON V. 25EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    26/124

    Lo que indica que en 50.9 días sehabían atendido al 50 % de lospacientes a ser valorados de los nivelesde glucosa.

    Lo que indica que 50 % de los pacientesfueron mandados a valoración deglucosa en 50.9 días y el 50% restantede los pacientes atendidos lo hicieron

    después de 50.9 días.

    ING. WILLIAM LEON V. 26EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    27/124

    Nótese que efectivamente el segundocuartil corresponde a la mediana, yaque si sustituimos k=2 tendremos la

    misma formula que utilizamos para elcalculo de la mediana para datosagrupados

    ( ) ( )

     Me A f 

     f n

     L A f 

     f n

     LQi

    iacum

    i

    i

    iacum

    i   =

    +=

    +=

    −−   11

    224

    2

    ING. WILLIAM LEON V. 27EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    28/124

    Para el cálculo del tercer cuartil,k=3 , observamos que:

    con

    25.474

    633

    4 =×

    =kn

    ( )   9;8;43;70 1   ====   −   A f  f  L iiacumi

    ING. WILLIAM LEON V. 28EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    29/124

    tenemos

    díasQ   78.7498

    434

    )63(3

    703

      =

    −⋅

    +=

    ING. WILLIAM LEON V. 29EJEMPLO

    lo cual indica que 75% de pacientesque envió la clínica a realizarse

    estudios de glucosa lo realizo en74.78días y el resto en los otrosdías restantes.

  • 8/20/2019 Estadistica y Prob 05

    30/124

    Nótese que para el cálculo del cuartocuartil es de manera inmediata, en este

    se contempla la totalidad de lamuestra, por lo que no es necesariorealizar ningún cálculo, aunque si lorealizamos observamos que cubre el

    total de días.

    ING. WILLIAM LEON V. 30EJEMPLO

  • 8/20/2019 Estadistica y Prob 05

    31/124

    La forma de calcular los cuartilescuando los datos no están agrupados

    se da a través del siguiente concepto. Para un número de n observaciones en

    el que los datos no son representadosen clases, una vez ordenados los datos

    la posición de los cuartiles se puedenlocalizar de la siguiente forma:

    ING. WILLIAM LEON V. 31DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    32/124

    es importante considerar que si elcálculo no corresponde con la

    posición exacta entonces se usainterpolación lineal.

    ( )4y3,2,1,

    4

    1=

    +k 

    nk 

    ING. WILLIAM LEON V. 32DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    33/124

    En el caso en que la posición nocorresponda exactamente con laposición la interpolación se realizade la siguiente forma:

    Donde:

    ( )4,3,2,1,

    4=

    −+=   k 

     L Lk  LQ   isik 

    ING. WILLIAM LEON V. 33DEFINICIÓN

    ;Superior Limite;,inferior limite;Cuartil   ===   f ik    L Lk Q

  • 8/20/2019 Estadistica y Prob 05

    34/124

    Ejemplo. Consideremos lassiguientes tabla de temperaturasreportadas en un experimento:

    ING. WILLIAM LEON V. 34EJEMPLO:

    25 °C 28 °C 25 °C 26 °C 28 °C 28 °C

    35 °C 32 °C 31 °C 31 °C 32 °C 27 °C

    25 °C 29 °C 26 °C 28 °C 27 °C 28 °C

    30 °C 30 °C 31 °C 31 °C 30 °C 31 °C

  • 8/20/2019 Estadistica y Prob 05

    35/124

    Ordenando los datos tenemos:

    25, 25, 25, 26, 26, 27 27, 28, 28, 28, 28,

    28 29, 30, 30, 30, 31, 31 31, 31, 31, 32,

    32, 35

    ING. WILLIAM LEON V. 35EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    36/124

    La posición del primer cuartil es:

    ( ) 25.6425

    41241 ==+

    ING. WILLIAM LEON V. 36EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    37/124

    lo que significa que el primer cuartil seencuentra entre la posición 6 y7, como en este caso el número es elmismo entonces

    por lo que el primer cuartil es igual a .0=−  f i   L L

    ING. WILLIAM LEON V. 37EJEMPLO:

    C Q   °= 271

  • 8/20/2019 Estadistica y Prob 05

    38/124

    Ordenando los datos tenemos:

    25, 25, 25, 26, 26, 27 27, 28, 28, 28, 28,

    28 29, 30, 30, 30, 31, 31 31, 31, 31, 32,

    32, 35

    ING. WILLIAM LEON V. 38EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    39/124

    La posición para el segundo cuartiles

    ( )5.12

    4

    50

    4

    1242==

    +

    ING. WILLIAM LEON V. 39EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    40/124

    como en este caso la posición 12la ocupa la temperatura 28°C y latemperatura 29°C entonces, la

    interpolación nos conduce a

    ( )5.28

    4

    28292282   =

    −+=Q

    ING. WILLIAM LEON V. 40EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    41/124

    La posición del tercer cuartil sepuede calcular como

    ( )75.18

    4

    1243=

    +

    ING. WILLIAM LEON V. 41EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    42/124

    pero como la posición 18 y 19tienen la temperatura 30°Centonces, por la misma razón que

    el primer cuartil, el tercer cuartil esigual a 30°C.

    ING. WILLIAM LEON V. 42EJEMPLO:

  • 8/20/2019 Estadistica y Prob 05

    43/124

    Son valores que dividen al total delos datos ordenados, en diezpartes iguales; de modo que en

    cada una de estas partes seencuentre ubicado no más del 10%del total.

    ING. WILLIAM LEON V. 43DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    44/124

    El primer decil es aquel valor deuna serie que supera a 1/10 partede los datos y es superado por las

    9/10 partes restantes(respectivamente, hablando enporcentajes, supera al 10% y essuperado por el 90% restante),

    ING. WILLIAM LEON V. 44DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    45/124

    ING. WILLIAM LEON V. 45DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    46/124

    El quinto decil es aquel valor deuna serie que supera a 5/10 partede los datos y es superado por las

    5/10 partes restantes(respectivamente, hablando enporcentajes, supera al 50% y essuperado por el 50% restante),

    ING. WILLIAM LEON V. 46DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    47/124

    ING. WILLIAM LEON V. 47DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    48/124

    El noveno decil es aquel valor deuna serie que supera a 9/10 partede los datos y es superado por las

    1/10 partes restantes(respectivamente, hablando enporcentajes, supera al 90% y essuperado por el 10% restante),

    ING. WILLIAM LEON V. 48DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    49/124

    ING. WILLIAM LEON V. 49DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    50/124

    Como se observa, son formulasparecidas a la del calculo de laMediana, cambiando solamente la

    respectivas posiciones de lasmedidas.

    ING. WILLIAM LEON V. 50DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    51/124

    Son valores que dividen al total delos datos ordenados, en cienpartes iguales: de manera que encada una de estas partes seencuentre ubicado no más del 1%del total.

    ING. WILLIAM LEON V. 51DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    52/124

    De esta manera se puedeestablecer la siguiente relaciónentre cuartiles, deciles ypercentiles así como también con

    la mediana.

    ING. WILLIAM LEON V. 52DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    53/124

    El primer percentil supera al unopor ciento de los valores y essuperado por el noventa y nuevepor ciento restante.

    Formulas de P1, para series deDatos Agrupados en Clase.

    ING. WILLIAM LEON V. 53DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    54/124

    El percentil 50 supera al cincuentapor ciento de los valores y essuperado por el cincuenta porciento restante.

    Formulas de P50, para series deDatos Agrupados en Clase.

    ING. WILLIAM LEON V. 54DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    55/124

    El percentil 99 supera al noventa ynueve por ciento de los valores yes superado por el uno por ciento

    restante.

    Formulas de P99, para series deDatos Agrupados en Clase.

    ING. WILLIAM LEON V. 55DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    56/124

    Para determinar estas medidas seaplicara el principio de la mediana;así, el primer cuartil cereal valorpor debajo del cual se encuentra el

    25 por ciento de los datos; bajo eltecer cuartil se encuentra el 75 porciento; el 80 decil será el valor porencima del cual estará el 20 por

    ciento de los datos, etc.

    ING. WILLIAM LEON V. 56DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    57/124

    Como se observa, todas estasmedidas no son sino casosparticulares del percentil ya que el

    primer cuartil no es sino el 25°percentil, el tercer cuartil el 75°percentil, el cuarto decil el 40°percentil, etc.

    ING. WILLIAM LEON V. 57DEFINICIÓN

  • 8/20/2019 Estadistica y Prob 05

    58/124

    Ejemplo:

    Para la siguiente tabla defrecuencias quecorresponde a la

    distribución de 42 días deacuerdo a la temperaturaque se registró en cadadía.

    El 35% inferior de los días,¿qué temperaturapresentó como máximo?

    ING. WILLIAM LEON V. 58Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    59/124

    ING. WILLIAM LEON V. 59Ejemplo

    Temperatura( 

    C )Nº días

    10-15 8 8

    15-18   9 17

    18-25 12 29

    25-30 7 36

    30-34 6 42

    lugar.vo157,14

    100

    4235==

    ×

    iF 

  • 8/20/2019 Estadistica y Prob 05

    60/124

    Luego:

    ING. WILLIAM LEON V. 60Ejemplo

    21   F100

    4235F  

  • 8/20/2019 Estadistica y Prob 05

    61/124

    Interpretación: En el 35% inferior de los días se

    registró una temperatura de 17 °C

    como máximo?

    ING. WILLIAM LEON V. 61Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    62/124

    Ejemplo:En una serie de 32términos se desea

    localizar el 4° sextil, 8°decil y el 95° percentil.

    ING. WILLIAM LEON V. 62Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    63/124

    ING. WILLIAM LEON V. 63Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    64/124

    Esto significa que el 4° sextil seencuentra localizado en el terminonumero 21, es decir, el que ocupa la

    21° posición; el 8° decil se encuentralocalizado entre el termino numero25° y 26° ; y el 95° percentil entre laposición 30° y 31° .

    ING. WILLIAM LEON V. 64Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    65/124

    Ejemplo:Determinación delprimer cuartil, el cuarto

    sextil, el séptimo decil yel 30° percentil.

    ING. WILLIAM LEON V. 65Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    66/124

    Ejemplo:Determinación del primer cuartil, elcuarto sextil, el séptimo decil y el30° percentil.

    ING. WILLIAM LEON V. 66Ejemplo

    Salarios(I. de

    Clases)

    N° de empleados (f i) f a

    200 – 299 85 85

    300 – 399 90 175

    400 – 499 120 295500 – 599 70 365

    600 – 699 62 427

    700 – 800 36 463

  • 8/20/2019 Estadistica y Prob 05

    67/124

    Ejemplo:.

    ING. WILLIAM LEON V. 67Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    68/124

    Ejemplo:.

    ING. WILLIAM LEON V. 68Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    69/124

    Ejemplo:.

    ING. WILLIAM LEON V. 69Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    70/124

    Ejemplo:.

    ING. WILLIAM LEON V. 70Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    71/124

    Estos resultados nos indican que el25 por ciento de los empleadosganan salarios por debajo de $.

    334; que sobre $. 519,51 ganan el33,33 por ciento de los empleados;que bajo $ 541,57 gana el 57 porciento de los empleados y sobre $.

    359,88 gana el 70 por ciento de losempleados.

    .

    ING. WILLIAM LEON V. 71Ejemplo

  • 8/20/2019 Estadistica y Prob 05

    72/124

    Muchas veces necesitamos conocerel porcentaje de valores que estapor debajo o por encima de un valordado; lo que representa un

    problema contrario al anterior, estoes, dado un cierto valor en laabscisa determinar en la ordenadael tanto por ciento de valores

    inferiores y superiores al valor dado..

    ING. WILLIAM LEON V. 72Definición

  • 8/20/2019 Estadistica y Prob 05

    73/124

    Operación que se resuelve utilizandola siguiente formula general:

    Donde:

    P: lugar percentil que se busca.P: valor reconocido en la escala X.fa-1: frecuencia acumulada de la claseanterior a la clase en que esta incluida P.fi: frecuencia de la clase que contiene a p.

    Li: limite inferior de la clase que contienea P.Ic: intervalo de clase.N: frecuencia total..

    ING. WILLIAM LEON V. 73Definición

  • 8/20/2019 Estadistica y Prob 05

    74/124

    Ejemplo:Utilizando la distribuciónanterior, determinar queporcentaje de personas

    ganan salarios inferiores a$ 450,00

    ING. WILLIAM LEON V. 74Definición

  • 8/20/2019 Estadistica y Prob 05

    75/124

    ING. WILLIAM LEON V. 75

    El 50,75 por ciento de las personasganan salarios inferiores a $. 450.

    Definición

  • 8/20/2019 Estadistica y Prob 05

    76/124

    Ing. William León Velásquez

    [email protected]

  • 8/20/2019 Estadistica y Prob 05

    77/124

    El análisis exploratorio de datos, introducidoTukey (1962; 1970), se ha extendido comofilosofía de aplicación de la estadística,debido principalmente a la disponibilidad deordenadores y software estadístico conposibilidades de representación gráfica ytratamiento de conjuntos de datos variados

    ING. WILLIAM LEON V. 77

    ANALÍSIS

    EXPLORATORIO DE DATOS

    i X 

  • 8/20/2019 Estadistica y Prob 05

    78/124

    Las posibilidades didácticas del análisisexploratorio de datos se deben a la sencillez

    del instrumento matemático requerido, la

    importancia dada hoy día en estadística y

    matemáticas a los sistemas de representaciónmúltiple y resolución de problemas,

    ING. WILLIAM LEON V. 78

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    79/124

    Las técnicas mas utilizadas son:

    Tronco o tallos y hoja

    La caja y brazos

    ING. WILLIAM LEON V. 79

    i X 

    Ambas pretenden:

    Conocer la variable analizada paradeterminar si su distribución es

    simétrica o no. Poder descubrir valores extremos y

    analizarlos antes de poder pasar alanálisis multivariante.

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    80/124

    Los casos atípicos son observaciones concaracterísticas diferentes de las demás.

    Este tipo de casos no pueden sercaracterizados categóricamente como

    benéficos o problemáticos sino que debenser contemplados en el contexto delanálisis y debe evaluarse el tipo deinformación que pueden proporcionar.

    ING. WILLIAM LEON V. 80

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    81/124

    Su principal problema radica en que sonelementos que pueden no serrepresentativos de la población pudiendodistorsionar seriamente el comportamientode los contrastes estadísticos.

    Por otra parte, aunque diferentes a la mayorparte de la muestra, pueden ser indicativosde las características de un segmento válidode la población y, por consiguiente, unaseñal de la falta de representatividad de lamuestra.

    ING. WILLIAM LEON V. 81

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    82/124

    Los casos atípicos pueden clasificarse en 4categorías. La primera categoría contiene aquellos

    casos atípicos que surgen de un error de

    procedimiento, tales como la entrada dedatos o un error de codificación. Estoscasos atípicos deberían subsanarse en elfiltrado de los datos, y si no se puede,

    deberían eliminarse del análisis orecodificarse como datos ausentes.

    ING. WILLIAM LEON V. 82

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    83/124

    La segunda clase es la observación queocurre como consecuencia de unacontecimiento extraordinario. En este caso,el outlier no representa ningún segmento

    válido de la población y puede ser eliminadodel análisis.

    ING. WILLIAM LEON V. 83

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    84/124

    La tercera clase contiene las observacionescuyos valores caen dentro del rango de lasvariables observadas pero que son únicasen la combinación de los valores de dichas

    variables. Estas observaciones deberían serretenidas en el análisis pero estudiando quéinfluencia ejercen en los procesos deestimación de los modelos considerados.

    ING. WILLIAM LEON V. 84

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    85/124

    La cuarta y última clase comprende lasobservaciones extraordinarias para las queel investigador no tiene explicación. Enestos casos lo mejor que se puede hacer es

    replicar el análisis con y sin dichasobservaciones con el fin de analizar suinfluencia sobre los resultados. Si dichasobservaciones son influyentes el analistadebería reportarlo en sus conclusiones ydebería averiguar el por qué de dichasobservaciones.

    ING. WILLIAM LEON V. 85

    i X 

    ANALÍSIS

    EXPLORATORIO DE DATOS

  • 8/20/2019 Estadistica y Prob 05

    86/124

    Un diagrama de tallo-hoja (Tukey, 1977) esun histograma queconserva información

    numérica.

    ING. WILLIAM LEON V. 86TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    87/124

    De manera similar al histograma

    permite ver el lote como un todo yadvertir aspectos como: Cuán aproximadamente simétricosson los datos.

    Cuán dispersos están los valores. La aparición de valoresinesperadamente más recuentes. Si algunos valores están alejados del

    resto. Si hay concentraciones de valores. Si hay grupos separados..

    ING. WILLIAM LEON V. 87TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    88/124

    Al utilizar los dígitos de los valores de

    los mismos datos, en vez desimplemente encerrando áreas, ofreceventajas:

    Es más fácil de construir a mano.

    Facilita el ordenamiento de los datos.

    Permite, por lo tanto, hallar lamediana y otras medidas resumen

    basadas en el lote ordenado. Permite ver la distribución de losdatos dentro de cada intervalo comopatrones dentro de los datos.

    ING. WILLIAM LEON V. 88TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    89/124

    ING. WILLIAM LEON V. 89

    i X 

    EJEMPLO

    Se tiene la siguiente representación de los 59 datosde una tabla

    TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    90/124

    628 : 5

    629 :

    630 : 358631 : 033

    632 : 77

    633 : 001446669

    634 : 01335

    635 : 0000113668636 : 0013689

    637 : 88

    638 : 334668

    639 : 22223

    640 :641 : 2

    642 : 147

    643 :

    644 : 02

    ING. WILLIAM LEON V. 90

    •Facilita la

    identificación de unaobservación y lainformación que laacompaña.

    TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    91/124

    El primer dato de la tabla (63.78)aparece en la décima fila de la figuracomo 637:8.El punto decimal está en el lugar: a la

    izquierda de los dos puntos (:), esto seindica con “unidad = 0.01 oC”.Los 3 primeros dígitos de los puntos defusión forman el tallo , el cuarto forma lahoja .

    ING. WILLIAM LEON V. 91TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    92/124

    Los tallos están ordenados, encolumna, y en líneas separadas,aparecen todos los valores posibles detallos dentro del rango observado.

    En este ejemplo las hojas, en cada tallo,son el cuarto dígito de todos losnúmeros con ese tallo.

    ING. WILLIAM LEON V. 92TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    93/124

    En su apariencia global el diagrama seasemeja a un histograma con ancho deintervalo igual a 0.1 0C.

    ING. WILLIAM LEON V. 93TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    94/124

    A cada dato se le puede asignar unrango , contando desde cada extremo enel lote ordenado.

    Por ejemplo, en la sig. figura de 59

    datos, el dato 63.03 tiene:rango 2 contando desde 62.85 haciavalores crecientes y rango 58 contandodesde 64.42 hacia valores decrecientes.

    La profundidad es el menor de los dosvalores.

    ING. WILLIAM LEON V. 94TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    95/124

    PROF. # hojas TALLO HOJAS

    1 1 628 : 51

    0 629 :

    4 3 630 : 358

    7 3 631 : 033

    9 2 632 : 77

    18 9 633 : 001446669

    23 5 634 : 01335

    10 635 : 0000113668

    26 7 636 : 0013689

    19 2 637 : 88

    17 6 638 : 334668

    11 5 639 : 222236 0 640 :

    6 1 641 : 2

    5 3 642 : 147

    2 0 643 :

    2 2 644 : 02ING. WILLIAM LEON V. 95TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    96/124

    La primera columna (PROF.) deprofundidad, muestra en cada fila,excepto en la línea central quecontiene la mediana, la máxima

    profundidad correspondiente a losdatos de esa fila. Facilita hallarestadísticos de orden.

    La segunda columna (# hojas) da lacantidad de hojas en cada tallo.

    ING. WILLIAM LEON V. 96TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    97/124

    L = [10 x log10n ]Esta regla da esquemas efectivos sobreel rango

    20

  • 8/20/2019 Estadistica y Prob 05

    98/124

    Para el ejemplo, que tiene n = 59,resulta cantidad de líneas

    L = [10 x log10 59 ] = [10 x 1.77] = 17

    Este valor coincide con la cantidad de

    líneas del esquema considerado,podría no coincidir exactamente.

    ING. WILLIAM LEON V. 98TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    99/124

    Para determinar el intervalo devalores para cada línea dividimos R elrango del lote por L y redondeamoshacia arriba a la potencia de 10 más

    próxima.En el ejemplo el rango

    R = 64.42 - 62.85 = 1.57 y L=17,

    de manera que R / L = 0.09.Redondeando a la potencia de 10más próxima da 0.1 como ancho delos intervalos.

    ING. WILLIAM LEON V. 99TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    100/124

    Ejemplo:

    Consideremos los datos de la dureza de 30incrustaciones de aluminio presentadas en unestudio de control de calidad

    53.0 82.5 74.4 55.7 70.2 67.3 54.1 70.5

    84.3 69.5 77.8 87.5 55.3 73.0 52.4 51.1 78.5 55.7 69.1 72.3

    63.5 85.8 53.5 59.5

    71.4 95.4 64.3 53.4 51.1 82.7

    ING. WILLIAM LEON V.

    10

    0

    Datos:

    Valor Maximo 95.4

    Valor mínimo 51.1

    N 30

    TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    101/124

    Cálculo 

    L = [10 x log

    10

    30] = [14.77] =14

    R = 95.4 - 51.1 = 44.3 y

    R / L =44.3 /14 = 3.16.

    Redondeando hacia arriba a lapotencia de 10 más próxima,obtendríamos 10 como la longitud

    indicada para los intervalos.

    ING. WILLIAM LEON V.

    10

    1TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    102/124

    Esta longitud es utilizada en el esquema

    tallo-hoja básico dado por la figura a.Figura a

    El punto decimal está 1 lugar a la derecha delos dos puntos (:) 

    11 11 5 : 11233345669

    5 6 : 34799

    14 8 7 : 00123488

    6 5 8 : 23467

    1 1 9 : 5

    ING. WILLIAM LEON V.

    10

    2

    i X 

    TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    103/124

    Como el esquema de la figura -a tiene

    relativamente pocas líneas, utilizamos2 líneas por tallo, o equivalentemente5 dígitos en cada línea, obteniendo elesquema de la figura b.

    Es decir la primera línea representadel 0 al 4

    Y la segunda línea del 5 al 9

    ING. WILLIAM LEON V.

    10

    3TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    104/124

    Figura b

    El punto decimal está 1 lugar a la derecha

    de los dos puntos (:)7 7 5 : 1123334

    11 4 5 : 5669

    13 2 6 : 34

    3 6 : 799

    14 6 7 : 001234

    8 2 7 : 88

    6 3 8 : 234

    3 2 8 : 67

    1 0 9 :

    1 1 9 : 5

    ING. WILLIAM LEON V.

    10

    4

    i X 

    TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    105/124

    Se tiene los siguientes datos:

    36 25 37 24 39 20 36 45 31 31

    39 24 29 23 41 40 33 24 34 40

    que representan la edad de un colectivo deN = 20 personas y que vamos a representar

    mediante un diagrama de Tallos y Hojas.

    ING. WILLIAM LEON V.

    10

    5TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    106/124

    Cálculo 

    L = [10 x log 10

    20] = [13.01] =13,

    R = 45 - 23 = 22, y 

    R / L =22 /13 = 1.69.

    Redondeando hacia arriba a lapotencia de 10 más próxima,obtendríamos 10 como la longitudindicada para los intervalos .

    ING. WILLIAM LEON V.

    10

    6TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    107/124

    Comenzamos seleccionando los tallos

    que en nuestro caso son las cifras dedecenas, es decir 3, 2, 4, quereordenadas son 2, 3 y 4.A continuación efectuamos unrecuento y vamos «añadiendo» cadahoja a su tallo

    ING. WILLIAM LEON V.

    10

    7TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    108/124

    Por último reordenamos las hojas y

    hemos terminado el diagrama 

    ING. WILLIAM LEON V.

    10

    8TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    109/124

    Aplicamos 5 dígitos por línea

    Tallos Hojas

    2 | 03444

    2 | 59

    3 | 11343 | 66799

    4 | 001

    4 | 5

    ING. WILLIAM LEON V.

    10

    9TALLOS Y HOJAS

  • 8/20/2019 Estadistica y Prob 05

    110/124

    Es una presentación visual quedescribe al mismo tiempo variascaracterísticas importantes de unconjunto de datos,

    ING. WILLIAM LEON V.

    11

    0CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    111/124

    Las características que representan

    son:el centro, la dispersión, la desviaciónde la simetría y

    la identificación de observacionesque se alejan de manera poco usualdel resto de los datos, este tipo deobservaciones se conocen como

    “valores atípicos”.

    ING. WILLIAM LEON V.

    11

    1CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    112/124

    ING. WILLIAM LEON V.

    11

    2CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    113/124

    El diagrama de caja presenta los tres

    cuartiles, y los valores mínimo ymáximo de los datos sobre unrectángulo, alineado horizontal overticalmente.

    El rectángulo delimita el rangointercuartílico con la arista izquierda(o inferior) ubicada en el primer cuartily la arista derecha (o superior) en eltercer cuartil.

    ING. WILLIAM LEON V.

    11

    3CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    114/124

    Dentro del rectángulo se dibuja una

    línea en la posición que corresponde ala mediana.

    Cuando la distribución es simétrica lamediana divide a la caja en dos partesiguales.

    ING. WILLIAM LEON V.

    11

    4CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    115/124

    Fuera del rectángulo se dibujan dos

    segmentos, llamados `bigotes' obrazos que llegan hasta los datosmás lejanos que estén a unadistancia menor o igual a 1: 5 x (R:I: )del rectángulo,

    donde R:I:  representa el rangointercuartil. Cualquier punto que no

    esté incluido en este rango serepresenta individualmente y seconsidera un punto atípico (outlier).

    ING. WILLIAM LEON V.

    11

    5CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    116/124

    ING. WILLIAM LEON V.

    11

    6CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    117/124

    Estos gráficos se utilizan para

    comparar la distribución de losvalores entre diferentes grupos.

    Si en una caja la línea querepresenta al cuartil 1 está porencima de la línea que representa ala mediana en la otra caja, entoncesse concluye que las medias de las

    poblaciones son diferentes.

    ING. WILLIAM LEON V.

    11

    7CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    118/124

    ING. WILLIAM LEON V.

    11

    8CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    119/124

    a) La anchura de la caja refleja la

    amplitud intercuartil (abreviado comoIQR o como RI), en ella estárepresentado el 50% de la muestra.

    b) El borde superior de la caja es el

    percentil 75 (Q3).

    c) El borde inferior es el percentil 25(Q1).

    ING. WILLIAM LEON V.

    11

    9CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    120/124

    d) La línea central de la caja es la

    mediana. Cuando el valor de lamediana coincide con el puntomedio de la caja (IQR/2 + Q1), lavariable representada es simétrica.

    Diremos que es asimétrica positivao a la derecha si está próxima alborde izquierdo de la caja y,

    asimétrica negativa o a la izquierdasi está próxima al borde derecho 

    ING. WILLIAM LEON V.

    12

    0CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    121/124

    e) Los valores que no son

    considerados extremos son aquélloscomprendidos entre el límite inferiory el límite superior.

    Límite inferior = Q1 – 1,5*IQR 

    Límite superior = Q3 + 1,5IQR 

    Los valores de las patillascorresponden a la primera y última

    observación dentro de dichoslímites.

    ING. WILLIAM LEON V.

    12

    1CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    122/124

    f) Se señalan con signos (*,O) los

    casos muy alejados o extremos.g) Con una O se marcan los casossituados entre 1,5 y 3 veces laamplitud intercuartil desde los dos

    extremos de la caja.

    ING. WILLIAM LEON V.

    12

    2CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    123/124

    En un diagrama de cajas seleccionamos

    una de las siguientes opciones: -Niveles de los factores juntos: Para cada

    variable dependiente, se muestran juntoslos diagramas de caja de cada grupo

    definido por una variable de factor.-Podremos así comparar fácilmente cómolos valores de la variable dependientevarían a través de los grupos. Si no seselecciona ninguna variable de factor, sólose muestra un diagrama de caja para lamuestra total.

    ING. WILLIAM LEON V.

    12

    3CAJAS Y BRAZOS

  • 8/20/2019 Estadistica y Prob 05

    124/124

    - Dependientes juntas: Para cada grupo

    (definido por una variable de factor)muestra juntos los diagramas de caja decada variable dependiente.

    Podremos así comparar fácilmente los

    valores de las variables AnálisisExploratorio dependientes para un grupoparticular. Esta opción es especialmenteútil cuando las diferentes variablesrepresentan una característica única

    medida en diferentes momentos.