clase estadistica descriptiva multivariada

Upload: fitos

Post on 06-Jul-2018

231 views

Category:

Documents


2 download

TRANSCRIPT

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    1/12

    23/07/2007

    PROBABILIDAD

    HUMBERTO VILLALOBOS TORRESUNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍADEPARTAMENTO DE MATEMÁTICAS

    Y ESTADÍSTICA

     

    UNIVERSIDAD TÉCNICA FEDERICO SANTA MARÍA 

    23/07/2007

    Estadística Multivariada

    • Existen Muchas Mediciones asociadas auna población.

     –  Carrera. –  Satisfacción con la

    Universidad. –  Puntaje de Ingreso. –  Número de hermanos. –  Etc.

    De laPoblación de

    Alumnos

    USM

    23/07/2007

    Estadística Multivariada

    • Se cuenta con una matriz de Datos

    23/07/2007

    Estadística Multivariada

    • Observar el comportamiento globalde los datos. – Establecer relaciones

     – Establecer grupos

     – Determinar patrones.

    • Se Requieren herramientas

    Computacionales especializadas

    23/07/2007

    Análisis ExploratorioMultivariado

    • Matriz de Asociaciones

    23/07/2007

    Análisis ExploratorioMultivariado

    • Matriz de Correlaciones. – Muestra la asociación lineal entre

    pares de variables.

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    2/12

    23/07/2007

    Organización de Datos

    • La organización habitual es a travésde pares ordenados de datos.

    23/07/2007

    Organización de Datos• Análisis a través de la tabla

    23/07/2007

    Organización de Datos• Expresión en términos de Frecuencias

    Relativas

    23/07/2007

    Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a

    profesionales que se desempeñan en cierta región,en la cual se miden las siguientes características:Cargo que ocupa, Sueldo que percibe y valor delautomóvil que posee, en miles de pesos.

    ,

    23/07/2007

    Organización de Datos

    • APLICACIÓN 1: Se realiza una encuesta aprofesionales que se desempeñan …

    23/07/2007

    Organización de Datos

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    3/12

    23/07/2007

    Organización de Datos

    • Distribuciones Marginales.

    23/07/2007

    Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a

    profesionales que se desempeñan …

    23/07/2007

    Organización de Datos• APLICACIÓN 1: Se realiza una

    encuesta a profesionales quese desempeñan …

    23/07/2007

    Organización de Datos• APLICACIÓN 2: Antes de construir una presa sobre

    el Río Missouri, una empresa efectuó una serie depruebas para medir un flujo de agua (en miles degalones por minuto [Mg/m]) en tres de sus grandesramas: Sioux City, Yankton y Omaha. Losresultados de las pruebas fueron organizados en lasiguiente tabla:

    ,

    23/07/2007

    Organización de Datos

    • APLICACIÓN 2: Antes de construir una presa sobre elRío Missouri, … Determine las distribucionesmarginales …

    Histograma

    0

    50

    100

    150

    Flujo de rios [Mg/m]

           F     r     e     c     u     e     n     c       i     a

    ,

    23/07/2007

    Organización de Datos• APLICACIÓN 3: Un Sociólogo dirigió una

    investigación para determinar la incidencia de un tipodeterminado de crimen variaba entre las cuatroregión de mayor índice delictual. Los crímenes deinterés para el sociólogo son: asalto, robo hurto yhomicidio. La siguiente tabla presenta los resultadosen una muestra de 746, 918, 1527 y 854 crímenes parala región IV, V, Central, VIII, respectivamentedurante el último año.,

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    4/12

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    5/12

    23/07/2007

    Organización de Datos• APLICACIÓN 2: Antes de construir una presa sobre el

    Río Missouri, … Compare el flujo de las ramas delos ríos …

    ,

    23/07/2007

    Organización de Datos• APLICACIÓN 3: Un Sociólogo dirigió una

    investigación para determinar la incidencia …Determine las distribución condicional del tipo decrimen en la quinta región … central y compare

    Asalto

    Robo

    Hurto

    Homicidio

    ,

    Asalto

    Robo

    Hurto

    Homicidio

    23/07/2007

    Organización de Datos• APLICACIÓN 1: Se realiza una encuesta a

    profesionales que se desempeñan …

    23/07/2007

    Organización de DatosGráfica deDispersión

    Cargo

       P  r  o  m  e   d   i  o   C  o  n   d   i  c   i  o  n  a   l  a   l   C  a  r  g  o

    0

    1e6

    2e6

    3e6

    4e6

    5e6

    6e6

    Otros Ventas Administ rat ivo Ejecutivo Sub-Gerente Gerente

    • Las Distancias en el Eje de los

    Cargos son arbitrarias, Sólo dedebe tener Presente el orden dadoel tipo de escala.

    23/07/2007

    Organización de Datos

    • Organización de Datos: – Distribuciones Marginales

    • Se obtienen Indicadores por variable, segúnsea el tipo de escala de la variable.

     – Distribuciones Condicionales• Se obtienen Indicadores por variable, según

    sea el tipo de escala de la variable, envariables de interés.

    • Mediante el uso adecuado de indicadores sepueden asociar variables.

    23/07/2007

    Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una

    administradora de fondos de pensiones acerca dela opción que toma el afiliado, con respecto altipo de fondo donde quiere mantener un mayorporcentaje de sus ahorros previsiones, y surespectivo nivel de ingresos (en miles de pesos)

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    6/12

    23/07/2007

    Organización de Datos yEstratificación• APLICACIÓN 4: En este caso cada tipo de fondo

    representa un estrato o grupo, de donde a travésde las distribuciones condicionales y marginales

    se obtienen los indicadores necesarios:

    23/07/2007

    Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una

    administradora de ….

    Utilizando la Marginal de Ingreso

    23/07/2007

    Organización de Datos yEstratificación• APLICACIÓN 4: Un estudio de una

    administradora de ….

    Utilizando la Marginal de Ingreso

    23/07/2007

    Asociación de Variables•Existe una Matriz de Datos

    23/07/2007

    Asociación de Variables

    • Tipo de Escala de la Medición

     – Cuantitativa

    Discreta

    Continua

    Intervalar

    ó Razón

     – Cualitativa

    Nominal

    Ordinal

    23/07/2007

    Asociación de Variables

    • Combinación entre Tipos de Escalas

     –  Nominal - Discreta• Comuna v/s Número de Atrasos

     –  Nominal - Continua• Comuna v/s % de Crédito

     –  Nominal - Ordinal• Comuna v/s Establecimiento educacional

     –  Nominal - Nominal• Comuna v/s Carrera

     –  Continua - Continua• Tiempo traslado v/s Tiempo dedicado al estudi0

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    7/12

    23/07/2007

    Asociación de Variables

    • Análisis Exploratorio de pares devariables.

     – Gráficos Adecuados

    • Análisis a través de Indicadores deasociación. – Asociación Monótona de Spearman

     – Asociación Lineal de Pearson

    23/07/2007

    Indicadores de Asociación I

    • Estadística de Asociación de Spearman – Es fundamental que los datos se

    encuentren en al menos escala ordinal

     – La aplicación más utilizada es datos noagrupados, sin embargo, bajo ciertasrestricciones se puede extender a datosagrupados

     – Se basa en la relación entre los rangos dela variables

    23/07/2007

    Estadística de Spearman

    • Tiene una estrecha relación con elcoeficiente de asociación de Pearson,que se verá más adelante.

    2

    2

    1

    61

    ( 1)

    n

     s i

    i

    r d n n

    =

    = −−   ∑

    2

    ( ) x y R R−•  R x = Rango de la variable x.

    •  R y = Rango de la variable y.

    23/07/2007

    Estadística de Spearman• Rangear datos

    Ordinales Continuos

    61 12

    8(64 1) sr   = −

    −6

    1 48(64 1)

     sr   = −−

    0,857 sr   = 0,952 sr   =

    23/07/2007

    Estadística de Spearman

    • APLICACIÓN 1: Una Aproximación con datosagrupados en Tablas, para la aplicación de larealización de una encuesta a profesionales …

    23/07/2007

    Estadística de SpearmanGráfica de Dispersión

    Cargo

       P  r  o  m  e   d   i  o   C  o  n   d   i  c   i  o  n  a   l  a   l   C  a  r  g  o

    0

    1e6

    2e6

    3e6

    4e6

    5e6

    6e6

    Otros Ventas AdministrativoEjecutivoSub-GerenteGerente

    ¡ Cuidado !

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    8/12

    23/07/2007

    0,60 sr   =

    61 14

    6(36 1) sr   = − −

    Estadística de Spearman

    • Una Aproximación con datosagrupados en Tablas

    23/07/2007

    Estadística de Spearman• No muestra relaciones funcionales• Indica una asociación monótona

    entre las variables.

     – Siempre creciente – Siempre decreciente

    • Se encuentra acotado en el intervalo[-1 ; 1] – Monótona creciente 1 – Monótona decreciente -1

    • Cuidado con los empates de rangos

    23/07/2007

    Estadística de Spearman• APLICACIÓN 2: Antes de construir una presa

    sobre el Río Missouri, una empresa efectuó :

    ,

    • Es posible determinar mediante el uso delcoeficiente de Spearman, las relacionesmonótonas entre las ramas de río Missouri

    23/07/2007

    Estadística de Spearman• APLICACIÓN 2: Antes de construir una presa

    sobre el Río Missouri, una empresa efectuó :

    ,

    6 50,5( ; ) 1 0,40

    8 63S r Y O

      ×= − =

    ×

    6 12,5( ; ) 1 0,85

    8 63

    S r S O  ×

    = − =×

    6 24( ; ) 1 0,71

    8 63S r S Y 

      ×= − =

    ×

    23/07/2007

    Indicadores de Asociación II

    • Estadística de Asociación de Pearson – Muestra la relación lineal que existe entre

    dos variables

     – Es fundamental que los datos seancuantitativos continuos.

     – Este coeficiente al igual que Spearman seencentra acotado en el intervalo [-1; 1]

    • Lineal creciente 1

    • Lineal decreciente -1

    23/07/2007

    Estadística de Pearson

    • Es habitual que se utilice la gráfica dedispersión para visualizar el tipo derelación

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    9/12

    23/07/2007

    Estadística de Pearson• Si la relación no es lineal, entonces no son

    detectadas por este coeficiente.GRÁFICA DE DISPERSIÓN

    0

    20

    40

    6080

    100

    5 10 15 20 25X

    Y

    GRÁFICA DE DISPERSIÓN

    0

    10000

    20000

    30000

    40000

    12 17 22 27 32X

    Y

    GRÁFICA DEDISPERSIÓN

    0

    20

    40

    60

    80

    5 10 15 20 25X

    Y

    GRÁFICA DE DISPERSIÓN

    -200

    0

    200

    400

    600

    22 27 32 37X

    Y

    23/07/2007

     n

    i i

    i p

    n n

    i i

    i i

     y y x x

     y y x x

    =

    = =

    =

    ∑ ∑

      1

     2 22 2

      1 1

    ( - ) ( - )

    ( - ) ( - )

    Estadística de Pearson

    • Asociación Lineal de Pearson

     2 2 2 2

     n

    i i

    i p

    n n

    i i

    i i

     y x n y x

     y n y x n x

    =

    = =

    =∑

    ∑ ∑

      1

    2 2

      1 1

      -

    - -

    23/07/2007

    Estadística de Pearson

    • Asociación Lineal de Pearson

    ( , )  p

     x y

    cov x yr 

     s s=

    Desviaciones estándarde cada variable

    Mide la relaciónlineal ente un par

    de variables

     

    1

    n

    i i

    i

     y y x x

    covn

    ==−

    ∑  1

    ( - ) ( - )

    23/07/2007

    Estadística de Pearson• APLICACIÓN 5: Considere la siguiente situación …

    Tiempo Transporte

    0

    10

    20

    30

    40

    50

    60

    70

    7 9 11 13 15 17 19 21 23

    Tiempos de Transporte

       %    d

      e   C  a  p  a  c   i   d  a   d  n  o

       U   t   i   l   i  z  a   d  a

    23/07/2007

    Estadística de Pearson

    • APLICACIÓN 5: Considere la siguiente situación …

    2T 400,491S    =

    0,7471 pr   = −

    T 15,609 x   = 13,037C  x   =

    2 17,634C S    =

    T 20,012S    = 4,199C S    =

    T( ; T) 62,782 C Cov C S  = − =

    23/07/2007

    Estadística de Pearson

    • APLICACIÓN 6: Gastos Publicidad v/s Cantidad

    10

    14

    18

    22

    26

    7 9 11 13 15 17 19 21

     P [M/US$]

          Q

        [    M    /    U    S    $    ]

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    10/12

    23/07/2007

    Estadística de Pearson• APLICACIÓN 6: Gastos Publicidad v/s Cantidad

    0,9684 pr   =

    2 12,267QS    =

    12,467 P  x   = 17,867Q x   =

    2 9,838 P S    =

    3,502QS    =3,137 P S    =

    ( ; ) 10,638  PQCov P Q S  = =

    23/07/2007

     1

    P

    2

    1

    22

    1

    2

    1

    )-() - (

    )-() - (

    ∑∑

    ∑ ∑

    =••

    =••

    = =••

    =q

     j

     j j

    i

    ii

    i

    q

     j

     jiij

     xm f   ym f  

     x x ym f  

    Estadística de Pearson

    • Asociación Lineal de Pearson

    2

    1

    2

    1

    1

     - - 

    -

     2222

    1

     

    P

    ∑∑

    ∑∑

    =

    ••

    =

    ••

    =

    ••

    ==

    q

     j

     j j

    i

    ii

    i

     jiij

    q

     j

     xm f   ym f  

     x ymm f  

    23/07/2007

    Estadística de Pearson• APLICACIÓN 7: Se aplicó una cantidad

    estrógeno (C  en mg.) versus su edad ( E  enaños)

    2 39,393C S    = 38,333 E  =25,417C =2 167,225 E S    =

    23/07/2007

    Estadística de Pearson• APLICACIÓN 7: Se aplicó una cantidad

    estrógeno (C en mg.) versus su edad ( E en años)

    15 20 7 15 30 1 ... 35 60 625,417 38,333

    60

    39,393 167,225 pr 

    × × + × × + + × × − ×=

    ×

    23/07/2007

    La idea de Pronosticar

    • Al establecer un relación funcional entrevariables, se puede utilizar una para elpronóstico de la otra.

    23/07/2007

    Estimación de Parámetros

    • Para estimar los parámetros de la función depronóstico, se busca minimizar los errorescuadráticos.

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    11/12

    23/07/2007

    Estimación de Parámetros

    • Minimización de errores cuadráticos

    Modelo funcional entre

    las variables

    23/07/2007

    Estimación de Parámetros

    • Minimización de errores cuadráticos

    Clara relacióncon el coeficiente

    de Pearson

    23/07/2007

    Pronósticos en las variables

    • Minimización de errores cuadráticos

    23/07/2007

    Pronósticos en la Cantidad• APLICACIÓN 6: Gastos Publicidad v/s Cantidad

    10

    14

    18

    22

    26

    7 9 11 13 15 17 19 21

     P [M/US$]

          Q

        [    M    /    U    S    $    ]

    0,9684 pr    =

    23/07/2007

    Pronósticos en el estrógeno

    • APLICACIÓN 7: Se aplicó una cantidad estrógeno(C en mg.) versus su edad ( E en años)

    2660,0C S    =

    0,205 pr   =

    38,333 E  =

    25,417C =

    2 167,225 E S    =

    660,0ˆ 25,417 0, 205 ( 38,333)

    167,225i i y x= + × −

    23/07/2007

    Enfoque Matricial

    • Se cuenta con una matriz de Datos

  • 8/18/2019 Clase Estadistica Descriptiva Multivariada

    12/12

    23/07/2007

    Enfoque Matricial

    • Es posible determinar un vector de media –  Cuidado con la característica de la unidad de

    medición de la variable

    • Es posible determinar una matriz devarianza y covarianza entre la variables –  La covarianza es un indicador de el tipo de

    asociación (positiva ó negativa) entre pares devariables

     –  Puede tomar cualquier valor en los reales

     –  Es un factor de importancia para Pearson ySpearman

    23/07/2007

    Enfoque Matricial

    1

    1

    1=

    1 p×

     

    1

    1X 1t 

    nµ  =

    1

    2

    1

    =

     p  p

    µ 

    µ 

    µ ×

     

    1X 1t  X 

    n=

    1

    2

    1

    =

     p  p

     x

     x

     x×

     

    23/07/2007

    Enfoque Matricial

    • Matriz de Varianza y Covarianza ( 

    1 11

    (X 1 X ) (X 1 X )1

    t t t t t  n n

    n  × ×∑ = − −

    −21 21 1

    212 2 2

    21 2

     p

     p

     p p p  p p

     s s s

     s s s

     s s s×

    ∑ =

    • Es una matrizSimétrica

    S 12 = S 21

    • Es una matrizsemidefinidapositiva

    23/07/2007

    Enfoque Matricial

    • Aplicación Matricial

    23/07/2007

    Herramientas de Excel

    23/07/2007

    Herramientas de Excel

    ResultadoMatriz de

    covarianzas