material multivariado

Upload: giovanny-challco-casa

Post on 06-Mar-2016

21 views

Category:

Documents


2 download

DESCRIPTION

material de multiusos

TRANSCRIPT

  • 7/21/2019 Material Multivariado

    1/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 1

    UNIVERSID D NDIN DEL CUSCO

    Escuela de Posgrado

    MAESTRIA EN ESTADISTICA E

    INVESTIGACION

    CURSO: ANALISIS MULTIVARIADO

    DR CLETO DE LA TORRE DUEAS

    [email protected]

  • 7/21/2019 Material Multivariado

    2/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 2

    MAESTRIA EN ESTADISTICA E INVESTIGACION

    CURSO: ANALISIS MULTIVARIADO

    DR. CLETO DE LA TORRE DUEAS

  • 7/21/2019 Material Multivariado

    3/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 3

    CAPITULO I

    EL METODO DE ANLISIS POR COMPONENTES PRINCIPALES

    1.1INTRODUCCION.El propsito del mtodo de Anlisis por Componentes Principales es:

    i).- Generar nuevas variables no correlacionadas y con variables decrecientes que

    puedan expresar la informacin contenida en el conjunto, original de datos.

    ii).- Reducir la dimensionalidad del problema original que se est estudiando. Como

    paso previo para futuros anlisis.

    iii).- Eliminar, cuando sea posible, algunas de las variables originales, si ellas aportan

    poca informacin.Las nuevas variables generadas se denominan componentes principales y poseen

    algunas caractersticas estadsticas deseables tales como: independencia (cuando se

    asume multinormalidad) y en todos los casos no-correlacin; esto significa que s las

    variables originales no estn correlacionadas, el anlisis por componentes principales no

    ofrece ventaja alguna.

    Cada componente principal sintetiza la mxima variabilidad residual contenida en los

    datos.

    1.2 POBLACION DE COMPONENTES PRINCIPALES

    Algebraicamente, Componentes principales son combinaciones lineales particulares de

    las P variables aleatorias X1, X2,...Xp. Geomtricamente, estas combinaciones lineales

    representan la seleccin de un nuevo sistema de coordenadas obtenido por la rotacin

    del sistema original con X1, X2,...Xp. Como los ejes de coordenadas. Los nuevos ejes

    representan las direcciones con mxima variabilidad y proporciona una descripcin

    simple y ms parsimoniosa de la estructura de la covarianza.

    Como veremos los componentes principales dependen nicamente de la matriz

    covarianza (o la matriz de correlacin ) de X1, X2,...Xp. Su desarrollo no requiere de

    la suposicin de la normal Multivariada. Por otro lado componentes principales

    derivados para poblaciones Normales Multivariadas tienen tiles interpretaciones en

    trminos de las elipsoides de densidad constante Adems, Inferencias pueden ser hechas

    de las componentes muestrales como la poblacin es normal multivariada.

  • 7/21/2019 Material Multivariado

    4/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 4

    :tenemos1ee'nrestriccilausandoyeporndomultiplicaypositivapartelaTomando iii

    1.2.1 OBTENCION DE LAS COMPONENTES PRINCIPALES EN LA

    POBLACION

    Las componentes principales son obtenidas de la forma siguiente:

    De la ecuacin de autovalores:

    :ecuacinla

    tenemosautovalortalpara,es,matrizladeautovalormximoel(8),enusardedebemos 1

    (15)1e'e,0 1111)(

    eIpxp

    0)()( pxpipxp I

    iiiipxpi

    iipxpi

    eeee

    eIe

    i

    ''

    0'

    )(

    )(

    (14)'

    iii ee

    1,e'ey(9)ecuacinlasatisfaceevectorelquesignifica(14)ecuacinlaDonde iii

    varianzatalmaximizarparaquemanera,talde,esX'eYdevarianzalaentonces, iii

    )16(

    e'eX)eV()Var(Y

    1e'e

    :satisfacequeX'eY

    :deciresvarianza,mximaconlinealncombinaciladefineseevectorelcon

    11111

    11

    11

    1

    supongamoss,principalescomponentelasdeobtencinlaconndoGeneraliza.Y

    aortogonalescualelprincipalcomponentesegundadenombreelrecibe,YDonde

    1

    2

  • 7/21/2019 Material Multivariado

    5/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 5

    definidas las i primeras, de la siguiente manera.

    Cov (Yj, Yi) = 0 con ij

    1.2.2 DEFINICION

    Sea el vector aleatorio X=(X1, X2,...Xp) con matriz de covarianza con valores

    caractersticos 12...p0

    Es posible definir una matriz L como el arreglo de las (P x P) constantes L(jk)

    ii ee

    1

    1e'esatisfaceque' 2222

    XeY

    2222 ')( eeYV

    0''' 12111212 eeeeee

    0'),( 1212 eeyyCov

    111

    1

    ee

    :cumpleseparteotraporPrincipal,ComponentePrimerdenombreelrecibeYDonde

    :deciresresidual,varianzamximadelinealncombinaciladefineSe

    eautovectorrespectivosucon,

    decirese,decrecientformaenautovalorsiguienteeltomandoformamismalaDe

    212

    entoncesee 222

    :teconsiguienPor

    1e'econ ii

    Xey ii

    (17)e'e)( iii

    iyVar

    )()2()1(

    )2()22()21(

    )1()12()11(

    pppp

    p

    p

    lll

    lll

    lll

    L

  • 7/21/2019 Material Multivariado

    6/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 6

    Y que satisface la condicin de ortogonalidad.

    LL = LL = L-1L = I, Esto es:

    La matriz ortogonal L, puede expresarse la transformacin lineal de componentes

    principales en trminos de esta matriz:

    Y(nxp)= X(nxp)L(pxp)

    considrese las combinaciones lineales.

    Entonces,

    Las componentes principales son aquellas combinaciones lineales no correlacionadas

    Y1, Y2,...Ypcuyas varianzas en la ecuacin anterior son tan grandes como sea posible.

    La primera componente principal es la combinacin lineal con la mxima varianza.

    Es decir esta maximiza Var(Yi) = ii ll

    ' es claro que Var(Yi)= ii ll

    ' puede ser

    incrementada por la multiplicacin por li por cualquier constante. Para eliminar esta

    indeterminacin, es conveniente restringir nuestra atencin a vectores coeficientes de

    longitud uno.

    1.2.3 DEFINICIN

    Primera Componente Principal = Combinacin Lineal Xl1

    que maximiza:

    Segunda Componente Principal = Combinacin Lineal Xl2

    que maximiza:

    )18(

    '

    '

    '

    2211

    222211222

    122111111

    ppppppp

    pp

    pp

    XlXlXlXlY

    XlXlXlXlY

    XlXlXlXlY

    p,1,2,i')(

    iii llYVar

    p,1,2,ki,'),(

    kik llYYiCov

    1l'lasujetoX)'lVar( 111

    p,1,2,ik,

    1

    0)()(

    ik

    ikjiljkl

  • 7/21/2019 Material Multivariado

    7/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 7

    p

    k

    21principalcomponentesima-klaa

    En la i-sima etapa tenemosi-sima componente principal = combinacin lineal l1X que maximiza

    1.2.4 POSTULADO 1

    Sea la matriz covarianza asociada con el vector aleatorio X=(X1, X2,...Xp). sea

    12... p0 la i-sima componente principal est dada por:

    1.2.5 POSTULADO 2Sea la matriz covarianza asociada con el vector aleatorio X=(X1, X2,...Xp). Sea con

    sus pares de valores y vectores caractersticos (1, 1), (2, 2),..., (p, p)

    donde 12... p0

    Sean las componentes principales Y1= 1X, Y2=2X,... Yp= pX

    Entonces:

    Comentario del Postulado 2

    Este postulado 2 nos indica que.

    Varianza poblacional Total = 11+ 22+...+pp = 1+2+...+ p

    Y consecuentemente, la proporcin de la varianza total debido (explicada por) la

    k-sima componente principal es proporcin de la varianza poblacional total debida

    (20))()(1 1212211

    p

    i

    p

    i ipipp

    YVarXVar

    lay1l'lasujetoX)'lVar( 222

    0X)'lX,'lCov( 21

    lay1l'lasujetoX)'lVar( iii

    ikpara0X)lX,'lCov( ki

    :donde)e,(,),e,(),e,(ticoscaractersy vectoresvaloresdeparessuscon pp2211

    ppiiiii XeXeXeXeY

    2211'

  • 7/21/2019 Material Multivariado

    8/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 8

    (21)p,1,2,ki,, kk

    iki

    ki

    eXY

    ,x

    k= 1, 2,...., p

    Por ejemplo el 80 90% de la variacin poblacional total, para P grande puede ser

    atribuible a una, dos tres componentes, entonces estas componentes pueden

    reemplazar las P variables originales sin mucha prdida de informacin.

    Cada componente del vector coeficiente 1=(e11,........, ek1,... ep1), tambin merece

    atencin. La magnitud de kimide la importancia de la k-sima variable a la i-sima

    componente principal en particular, ki es proporcional al coeficiente de correlacin

    entre Yie Xk.

    1.2.6 POSTULADO 3

    Si: Y1=1X Y2=2X, ... Yp = pX son las componentes principales

    obtenidas de la matriz covarianza entonces:

    Son los coeficientes de correlacin entre las componentes Yiy las variables Xk.

    Donde: (1, 1), (2, 2),... , (p, p) son los autovalores autovectores de los pares

    para .

    1.3 ANALISIS DE LA VARIACION MUESTRAL POR COMPONENTES

    PRINCIPALES

    Supongamos que los datos X1, X2,..., Xnrepresentan independientes extracciones de

    alguna poblacin P-dimensional con vector promedio y matriz covarianza . Estos

    datos producen S y R

    1.3.1 ESTIMACION DE LOS POSTULADOS 1,2 y 3

    Construir combinaciones lineales no correlacionadas de las caractersticas medidas que

    explican una gran proporcin de la variacin de la muestra. Las combinaciones no

    correlacionadas con las varianzas ms grandes sern denominadas las componentes

    muestrales principales.

  • 7/21/2019 Material Multivariado

    9/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 9

    p

    i

    piiis1

    2EstimadaTotalMuestralVarianza

    (22)p,2,1,ki,

    ),(

    kk

    iki

    xkiys

    er

    Si: S(pxp) es la matriz covarianza muestral con sus pares de valores y vectores

    estimados correspondientes.

    ),(,),,(),,( 2211 pp eee

    la i-sima componente principal muestral estimada est

    dada por:

    Tambin, la varianza muestral estimada kkY )( k=1,2,...,p

    Adicionalmente:

    k-simos coeficientes de

    correlacin muestral

    Denotaremos las componentes principales por Y1, Y2, ... Yp sin considerar si ellasfueron obtenidas de S o R. Las componentes construidas de S y R no son las mismas,en general indicndose la matriz que est siendo usada y la notacin simple esconveniente.

    p,1,2,iXeXeXeX'ey ppi22i11iii

    pp x,x,xvariableslasennobservacicualquierXy0donde 2121

    ki0)Y,Y(estimadaMuestralCovarianza ki

  • 7/21/2019 Material Multivariado

    10/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 10

    CAPITULO II :

    METODO DEL ANALISIS FACTORIAL

    2.1 INTRODUCCIN

    El Anlisis Factorial es una tcnica Multivariante que nos permite identificar

    variables subyacentes con un numero relativamente pequeo de factores que expliquen

    la mayora de la varianza observada en un numero mayor de variables manifestantes ,

    los que pueden ser utilizados para representar la informacin contenida en la estructura

    de la matriz de correlaciones entre un conjunto de variables observadas

    El objetivo del Anlisis Factorial es encontrar variables subyacentes no observables ni

    medibles directamente pero que se pueden identificar en funcion de las variables

    observables, tal es el caso en el rea de Psicologa de la variable subyacente coeficiente

    de inteligencia medida por los investigadores a partir de un conjunto de variables .

    El mtodo de Anlisis Factorial nos permitir realizar un estudio detallado de la matriz

    de correlaciones para su posterior anlisis e interpretacin y por medio de este estudio

    construir las variables subyacentes

    2.2 EL MODELO FACTORIAL ORTOGONAL

    Sea el vector aleatorio observable X, de orden px1, de p componentes, tiene

    media y matriz de covarianza . El modelo factorial postula que X es linealmente

    dependiente de algunas variables aleatorias no observables F1, F2, ... , Fm llamadas

    factores comunes y p fuentes de variaciones adicionales 1, 2, ... , p, llamados

    errores o factores especficos relacionados a cada variable en estudio.

    El modelo de Anlisis Factorial es:

    X - = LF + (2.1)

    Xpx1= px1+ LpxmFmx1+ px1

    Lo que tambin se puede expresar como:

    1121211111 mmFlFlFlX

    2222212122

    mmFlFlFlX . . (2.2)

  • 7/21/2019 Material Multivariado

    11/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 11

    imimiiii FlFlFlX 2211

    .

    pmpmpppp FlFlFlX 2211

    De donde se puede identificar las siguientes matrices:i)

    pp

    i

    1

    1

    pi ...1

    i : media de la i-esima variableii)

    mppmp

    ij

    m

    ll

    l

    ll

    L

    ..

    ....

    ...

    ..

    1

    111

    pi ...1 , mj ...1

    La matriz L es la matriz de los factores de carga o coeficientes de aprovechamiento

    Donde el coeficiente lijes llamado la cargao peso de la i-sima variable sobre elj-simo factor.

    iii)

    mj ...1

    jF : es el j-esimo factor comun.

    iv)

    pp

    i

    1

    1

    pi ...1

    i : i-esimo factor especifico el cual esta relacionado con la i-esima variable

    mm

    j

    F

    F

    F

    F

    1

    1

  • 7/21/2019 Material Multivariado

    12/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 12

    Las p desviaciones X1- 1, X2- 2, ... , Xp- p, estn expresadas en trminos de

    p + m variables aleatorias : F1, F2, ... , Fm, 1, 2, ... , p las cuales son no observables.

    Con las siguientes suposiciones:

    1) Los p factores comunes son no correlacionadas con varianza 1 y esperanza 0

    E(F) = 0mx1

    ................( 2.3)

    Cov(F) = Imxm

    2) Los factores especificos son independientes con media 0 y varianza pp E() = Opx1

    ...................( 2.4)

    Cov()=

    pp

    pp

    iipxp

    ..00

    .....

    ....

    0..0

    0..0

    22

    11

    ii : varianza especifica de la i-esima variable

    3) Cada factor no comun es independiente con cada factor comun

    Cov(,F) = E(F) = 0pxm .....................( 2.5)

    Estas suposiciones y la expresin (1) constituyen el modo factorial ortogonal.

    El modelo Factorial es oblicuo cuando los factores F se pueden correlacionar de manera

    que Cov(F) es no diagonal . Este modelo presenta algunas dificultades en la estimacin

    adicional.

    2.2.1 RESULTADOS DEL MODELO FACTORIAL

    2.2.1.1 RESULTADO 1El modelo factorial ortogonal implica una covarianza para X tal que:

  • 7/21/2019 Material Multivariado

    13/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 13

    = LL + .................( 2.6)

    2.2.1.2 RESULTADO 2

    La covarianza entre la matriz de datos y la matriz de factores es la matriz de cargas

    factoriales.

    Cov(X,F) = L .(2.7)

    2.2.2 ESTRUCTURA DE LA COVARIANZA PARA EL MODELO

    FACTORIAL ORTOGONAL

    De los resultados anteriores se puede concluir que la estructura de la covarianza para el

    modelo Factorial Ortogonal esta dado por:

    1. Cov(X) = LL +

    De donde:

    Var(Xi) = l2il+ ... + l

    2im+ ii

    .(2.8)

    Cov(Xi,Xk) = lillkl+ ... + limlkm

    2. Cov(X,F) = L

    De donde:

    Cov(Xi,Fj) = lij .....................( 2.9)

    El modelo siguiente es lineal en los factores comunes

    X - = LF + ................... ( 2.10)

    Pero si las p respuestas X estn, relacionadas a los factores fundamentales de manera

    no lineal , el modelo factorial estara dado por :

    X1- 1=l11F1F3+ 1

    ...(2.11)

    X2- 2=l21F2F3+ 2

    .

  • 7/21/2019 Material Multivariado

    14/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 14

    entonces la estructura covarianza LL + dada por ( 19) puede ser la no adecuada. La

    suposicin muy importante de linealidad es inherente en la formulacin del modo

    factorial.

    2.2.3 COMUNALIDAD

    Se denomina comunalidad 2ih a la proporcin de la varianza de la i-sima variable,

    atribuible a los m factores comunes.

    La parte de la varianza debida al factor especfico a menudo se llama varianza

    especfica. Var(Xi) = Comunalidad + Varianza especfica

    ii= hi2

    + ii

    ii= lil2+ li2

    2+ ... + lim2+ ii =

    m

    j 1

    lij2+ ii

    donde : hi2= lil

    2+ li22+ ... + lim

    2=

    m

    j 1

    lij2

    es la comunalidad de la i-esima variable

    La comunalidad hi2es la suma de los pesos factoriales al cuadrados de la de la i-sima

    variable sobre los factores comunes.

    La comunalidad oscila entre 0 y 1 , 0 indica que los factores no explican nada de la

    variable y 1 que explica el 100% de la variable , la variabilidad total es igual a :

    ii= hi2+ ii

    donde:

    hi2:comunalidad

    ii: variabilidad de acuerdo al factor especifico.

    La tcnica del Anlisis Factorial toma los valores de la correlacin mltiple al

    cuadrado como los valores iniciales de la comunalidad .

    2.2.4 LA NO UNICIDAD DE LAS CARGAS FACTORIALES

    Para estudiar la no unicidad de las cargas factoriales , se toma una matriz ortogonal G

    tal que

    GG = GG = I

    La expresin (1) se puede escribir:

    X - = LF +

  • 7/21/2019 Material Multivariado

    15/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 15

    = LG GF +

    X - = L*F*+ ..(( 2.12)

    donde L*= LG

    y F

    *

    = GFcomo

    E[F*] = TE[F] = 0

    y Cov[F*] = GCov[F]G

    = GG

    Cov[F*] = Imxn ..(( 2.13)

    entonces es imposible, sobre la base de las observaciones en X distinguir las cargas L de

    las cargas L* . Esto es, los factores F y F* = TF tienen las mismas propiedades

    estadsticas y an cuando las cargas L* son, en general, diferentes de las cargas L,

    ambas generan la misma matriz de covarianzas . Esto es:

    = LL +

    = LGGL +

    = (L*)(L*) + ...(( 2.14)

    Esta ambigedad en la definicin de las cargas factoriales nos proporciona lo razonable

    de la rotacin factorial, puesto que las matrices ortogonales corresponden a las

    rotaciones del sistema de coordenadas para X.

    2.2.1. OBTENCIN DE LAS CARGAS FACTORIALES

    Los factores de carga L se determinan nicamente a partir de una matriz

    ortogonal G. As, las cargas:

    L*= LG y L

    nos dan la misma representacin. As mismo las comunalidades, dadas por loselementos diagonales de LL = (L

    *)( L*) no estn afectadas por la eleccin de G.

    2.3 PRUEBAS ESPECIFICAS PARA EL ANLISIS FACTORIAL

    El primer paso en el Anlisis Factorial sera calcular la matriz de correlaciones entre

    todas las variables que se toman en el anlisis .

    Una vez que se dispone de esta matriz concierne examinarla para comprobar si suscaractersticas son adecuadas para realizar un Anlisis Factorial , uno de los

  • 7/21/2019 Material Multivariado

    16/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 16

    requisistos que debe cumplirse para que el Anlisis Factorial tenga sentido es que las

    variables esten altamnete correlacionadas.

    Pueden utilizarse diferentes metodos para comprobar el grado de asociacin entrelas

    variables .

    2.3.1 EXAMEN DE LA MATRIZ DE CORRELACIN

    El objetivo de analizar la matriz de correlacin es estudiar la caracterstica de los

    factores los cuales vienen condicionadas por dicha matriz. Si hay muchas correlaciones

    altas entre las variables es indicativo de informacin redundante y pocos factores

    explicaran gran parte de la variabilidad total, por el contrario correlaciones pequeas

    entre las variables son indicativos de poca informacin redundante por lo tanto

    necesitaremos muchos factores para explicar una parte sustancial de la variabilidad.

    La correlacin mltiple deber ser alto para realizar un Anlisis Factorial

    2.3.2 ANLISIS DE LA DETERMINANTE DE LA MATRIZ DE

    CORRELACIN

    La determinante de la matriz de correlacin es un ndice de varianza

    generalizada de dicha matriz . Un determinante muy bajo indicara altas

    intercorrelaciones entre las variables pero no debe ser cero (matriz no singular ), pues

    esto indicara que alguna de las variables son linealmente dependientes y no se podra

    realizar ciertos clculos necesarios en elAnlisis Factorial.

    2.3.3 PRUEBA DE ESFERICIDAD DE BARTLETT

    Se utiliza para verificar si la matriz de correlaciones se ajusta a la matrizidentidad (I),

    Es decir ausencia de correlaciones significativas entre las variables , esto significa que

    la nube de puntos se ajustara a una esfera n-dimensional perfecta , expresando as la

    hiptesis nula por:

    0H :R=I ...............(29)

    Es decir que la determinante de la matriz de correlaciones es igual a 1

    1:0 RH

  • 7/21/2019 Material Multivariado

    17/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 17

    Para la prueba correspondiente de dicha hiptesis se toma el siguiente estadstico de

    Bartlett la cual se distribuye con una chi-cuadrado con 12

    1pp

    ...................(2.15)

    Donde:

    n : es el tamao muestral

    p : es el numero de variables

    Si se acepta la hiptesis nula con una confianza del 95% ( p-value >0.05)

    Significa que las variables no estan intercorrelacionadas por tanto no tiene mucho

    sentido llevar a cabo un anlisis factorial .

    En cambio si se rechaza la hiptesis nula ( p-value 0.05) evidencia que no se trata de

    una matriz identidad

    2.3.4 NDICE DE KAISER- MEYER-OLKIN (KMO)

    El ndice KMO nos compara los coeficientes de correlacin de pearson con los

    coeficientes de correlacin parcial entre variables .

    La formula correspondiente es:

    ji ji

    ijij

    ji

    ij

    ar

    r

    KMO22

    2

    ..................(2.16)

    Donde :

    ijr : es la correlacion simple.

    ija : es la correlacion parcial.

    Si los coeficientes de correlacion parcial son muy pequeos , esto nos indica que la

    relacion entre cada par de las mismas se debe o puede ser explicado por el resto y por

    tanto llevara a cabo un anlisis factorial de los datos no deja de ser una buena solucion.

    En este supuesto , si la suma de los coeficientes de correlacion parcial al cuadrado es

    muy pequea KMO sera un indice muy proximo a la unidad y por tanto el Anlisis

    Rpn ln*526112

  • 7/21/2019 Material Multivariado

    18/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 18

    Factorial es un procedimiento adecuado ,en cambio valores pequeos en este indice

    nos dan a entender todo lo contrario

    KMO 0.5 , malos o inaplicables al anlisis factorial

    0.5

  • 7/21/2019 Material Multivariado

    19/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 19

    Consideremos dos mtodos de estimacin de los parmetros: El mtodo de la

    componente principal y el mtodo de mxima verosimilitud. La solucin de uno u otro

    mtodo, puede ser rotado a fin de simplificar la interpretacin de los factores.

    2.4.1 MTODO DE LA COMPONENTE PRINCIPAL

    La descomposicin espectral nos proporciona una factorizacin de la matriz de

    covarianzas . Sea , la cual tiene los pares de valor propiovector propio (i, ei), con

    12 ... p0 . Entonces:

    = 1e1e1 + 2e2e2 + ... +pepep

    =

    '

    .

    .

    .

    '

    ,...,,

    11

    2211

    pp

    pp

    e

    e

    eee

    ..............(2.18)

    Esto adapta la estructura de la covarianza prescrita para el modelo de anlisis factorial,

    teniendo tantos factores como variables (m=p) y varianzas especficas ii=0, para todo i.

    En la matriz de carga, la j-sima columna est dada por jj e . Esto es, podemos

    escribir:

    pxp= LpxpLpxp+ Opxp= LL .....................(2.19)

    A parte del factor j , los factores de carga del j-simo factor son los coeficientes para

    la j-sima componente principal poblacional.

    Si bien la expresin (34) es exacta no es de utilidad particularmente. Empleamos tanto

    factores comunes como variables hay o no se permite cualquier variacin en los factores

    especficos dados en (14) preferimos modelos que expliquen la estructura de la

    covarianza en trminos de justamente algunos factores comunes. Una aproximacin

    cuando los ltimos p-m autovalores (o valores propios) son pequeos, es omitir la

    contribucin de:

    m+1em+1em+1+ ... + pepep

  • 7/21/2019 Material Multivariado

    20/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 20

    a en la expresin (33), obtenindose:

    mxppxm

    mm

    mm

    LL

    e

    e

    ee '

    '

    .

    .

    .

    '

    ,...,

    11

    11

    ................. (2.20)

    Esta representacin aproximada, asume que los factores especficos en (4) son de

    importancia secundaria y que tambin se pueden ignorar en la factorizacin de . Si los

    factores especficos se incluyen en el modelo, sus varianzas se pueden asumir, ser los

    elementos de la diagonal de - LL, donde LL est definido en (12). Considerando los

    factores especficos, la aproximacin ser:= LL +

    pp

    mm

    i

    mmi

    e

    e

    ee

    .00

    ....

    ....

    0.0

    '

    .

    .

    .

    '

    ,...,

    11

    1

    1 .................(2.21)

    donde

    m

    j

    iiii ijl

    1

    2 , i = 1, ..., p

    Si deseamos aplicar esta aproximacin a un conjunto de datos x 1, x2, ... , xn, se

    acostumbra primero hallar las derivaciones de las observaciones con respecto a su

    media muestral X, tal que:

    PPj

    j

    j

    PPj

    j

    j

    j

    XX

    XX

    XX

    X

    XX

    X

    X

    X

    XX

    .

    .

    .

    .

    .

    .

    .

    .

    .

    22

    11

    2

    1

    2

    1

    , j = 1, ....,n (2.22)

    tenga la misma matriz de covarianzas muestral S, como las observaciones originales.

    En casos donde, las unidades de las variables no sean conmensurables, por lo comn es

    preferible trabajar con las variables estandarizadas.

  • 7/21/2019 Material Multivariado

    21/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 21

    pp

    ppj

    ij

    j

    S

    XX

    S

    XX

    z

    .

    .

    .

    11

    1

    , j = 1,2, ... , n

    Cuya matriz de covarianza muestral es la matriz de correlacin muestral R, de las

    observaciones X1, X2, ...., Xn. La estandarizacin evita los problemas de que al tener un

    problema con varianza grande, indebidamente influya en la determinacin de los

    factores de carga.

    La expresin en (36), aplicada a la matriz de covarianzas muestral S a la matriz de

    correlacin muestral R, se conoce como la solucin de la componente principal.

    2.4.1.1 SOLUCIN DE LA COMPONENTE PRINCIPAL DEL MODELO

    FACTORIAL

    La componente principal del Anlisis Factorial de la matriz de covarianza muestral S,

    est especificada en trminos de los pares autovalor-autovector ),(),.....,,( 11 pp ee

    donde p .... 21 . Sea m

  • 7/21/2019 Material Multivariado

    22/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 22

    La componente principal del anlisis Factorial de la Matriz de correlacin muestral se

    obtiene comenzando con R en lugar de S.

    Para la solucin de la componente principal, los factores de carga estimados para un

    factor dado no varan cuando se incrementa el nmero de factores. Por ejemplo:

    11 ~ eL , si m=1.

    2211 ,

    ~eeL , si m=2,

    donde:

    ),(),( 2211 eye son los dos primeros pares autovalor-autovector para S (o para R).

    De la definicin de ii~ , los elementos de la diagonal de S son iguales a los elementos de

    la diagonal de ~'~~ LL . Sin embargo, los elementos fuera de la diagonal de S no estn

    generalmente reproducidos por ~'~~ LL . Entonces Cmo seleccionamos el nmero de

    factores m?.

    Si el nmero de factores comunes no esta determinado por consideraciones a priori,

    tales como por la teora o por trabajos de otros investigadores, la eleccin de m se puede

    basar en los autovalores estimados de manera anloga como con las componentes

    principales.

    Consideremos la matriz residual:

    ]~'~~

    [ LLS (2.26)

    resultante de la aproximacin de S mediante la solucin de la componente principal. Los

    elementos de la diagonal son ceros si los otros elementos son pequeos tambin.

    Podemos considerar subjetivamente apropiado el modelo de m factores. Analticamente

    tenemos que:

    Suma de cuadrados admitidas de 22 1 .....]~'~~

    [ pmLLS (2.27)

    Por consiguiente, un valor pequeo para la suma de cuadrados de los auto-valores

    omitidos implica un valor pequeo para la suma de cuadrados de los errores de

    aproximacin.

    Lo ideal es que, las contribuciones de algunos de los primeros factores o las varianzas

    muestrales de las variables pudiera ser grande. La contribucin a la varianza muestral s ii

  • 7/21/2019 Material Multivariado

    23/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 23

    a partir del primer factor comn es 21~

    il . La contribucin a la varianza muestral total, s11

    + s22+ .... + spp = tr(S), del primer factor comn, es entonces:

    12211

    2

    1

    2

    21

    2

    11'

    ~....

    ~~ eelll p

    puesto que el auto-vector 1e tiene longitud unitaria.

    proporcin de la varianza muestral , para S

    =

    .............(44)

    total debida al j-simo factorp

    j, para un anlisis factorial de R

    El criterio (44) se usa frecuentemente como un artculo heurstico para determinar el

    nmero apropiado de factores comunes. El nmero de factores comunes reservados en

    el modelo se incrementa hasta que una proporcin apropiada de la varianza muestral

    haya sido explicada.

    Existen otros criterios los cuales se encuentran en los paquetes estadsticos.

    2.5 ROTACION DE FACTORES

    La finalidad de las Rotaciones Factoriales no es otra cosa sino de ayudarnos a

    interpretar en el supuesto que no quede claro en la matriz de pesos factoriales no rotadas

    Existen varios procedimientos para las rotaciones factoriales como VARIMAX ,

    EQUAMAX y QUARTIMAX que son procedimientos ortogonales es decir que losfactores se mantienen incorrelacionados y los ejes forman angulos rectos .El PROMAX

    y EL DIRECT OBLIMIN pertenecen al grupo de los denominados oblicuos o no

    ortogonales , sealan a su vez que la rotacin no afecta a la comunalidad y el porcentaje

    de varianza explicada por el modelo, aunque si puede cambiar de cada factor.

    Lo mas recomendable es la rotacin ortogonal , aunque en el caso que exista razones

    para pensar que los factores estn correlacionados ,entonces utilizaremos la rotacin

    oblicua .

    pp

    j

    ss .....

    11

  • 7/21/2019 Material Multivariado

    24/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 24

    En la rotacin oblicua las ponderaciones factoriales no coinciden con las correlaciones

    entre el factor y la variable , puesto que los factores estn correlacionados entre si ,por

    eso se hace la rotacin oblicua la matriz factorial no rotada se convierte en dos matrices

    diferentes : la matriz de ponderaciones (la que se utiliza en la interpretacin ) y la matriz

    de correlaciones entre factores y variables .

    A continuacin definiremos cada uno de estos mtodos :

    2.5.1 MTODOS DE ESTIMACIN

    2.5.1.1 VARIMAX

    Es el procedimiento ortogonal mas utilizado ,el mismo que trata de minimizar elnumero de variables que hay con pesos o saturaciones elevadas en cada factor

    2.5.1.2 QUARTIMAX

    Este procedimiento Ortogonal trata de minimizar el numero de factores necesarios para

    explicar un conjunto de variables .

    2.5.1.3 EQUAMAX

    Es un procedimiento Ortogonal el cual es una combinacin de los dos anteriores, es

    decir trata de simplificar factores y variables.

    2.5.1.4 PROMAX

    Es una rotacin oblicua que se utiliza cuando las ponderaciones factoriales no coinciden

    con la correlacion entre el factor y la variable .

    2.5.1.5 DIRECT OBLIMIN

    Es un procedimiento oblicuo similar al anterior , si utilizamos este mtodo al final

    tendremos una matriz de correlacin entre los factores pero no ser identidad

  • 7/21/2019 Material Multivariado

    25/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 25

    CAPITULO III

    ANALISIS DE CORRESPONDENCIAS

    3.1 INTRODUCCIN

    El anlisis de correspondencia, es un mtodo multivariado que reduce la

    dimensin (Tamao de la tabla de contingencia), para el estudio de las relaciones de

    interdependencia entre variables categricas. Convierte las categoras de la tabla de

    frecuencias (filas y columnas) en un menor nmero de dimensiones, indicando que

    porcentaje del valor Chi-cuadrado de la asociacin puede ser explicado por las nuevas

    dimensiones. Por ello guarda cierta analoga con la prueba Chi-cuadrado y con elcoeficiente de concordancia de Kendall, Visauta (1998).

    Pero el anlisis de correspondencias, adems de analizar la relacin existente

    entre variables, permite analizar como est estructurada esta asociacin, describiendo

    proximidades que permite identificar categoras causas de asociacin.

    Con la prueba de Chi-cuadrado de independencia, se puede observar si dosvariables son independientes o no y se puede determinar el grado de dependencia de las

    mismas. Pero, dichas medidas no permite encontrar en que consisten las similitudes

    entre las categoras de cualquiera de las dos variables o la dependencia entre ellas.

    El anlisis de Correspondencias nos aportar informacin que de ningn modo

    nos proporcionaba la Chi-cuadrado y los coeficientes de correlacin (Otros ratios) (en

    trminos de existencia o no de relacin entre las variables, su intensidad y nivel de

    significacin). El Anlisis de correspondencia calcular; perfiles, inercias,

    contribuciones, etc., de las diversas filas y/o columnas de la tabla y adems nos

    permitir analizar esta posible relacin entre las variables de un modo grfico en un

    espacio bidimensional de modo que, previo clculo por filas y columnas de las

    puntuaciones de la tabla, las diversas categoras de las variables estarn representadas

    en el grafico ms prximas o alejadas en las diversas dimensiones en funcin de su

    grado de similitud o diferencias. De manera que:

  • 7/21/2019 Material Multivariado

    26/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 26

    Prximas al origen del espacio bidimensional o pluridimensional estarn las

    categoras de las variables que menos discriminan cada una de las dimensiones de la

    solucin y en las categoras mas alejadas del origen es mayor la discriminacin.

    Mayor o menor proximidad entre las categoras en el plano equivale a un mayor o

    menor grado de relacin o interdependencia entre las mismas.

    El anlisis de correspondencia, es como realizar dos veces Anlisis de

    Componentes Principales (ACP). En el primero, los perfiles filas desempean el papel

    de unidades bajo estudio, en el segundo, son los perfiles columnas las que desempean

    el papel de unidades bajo estudio. En resumen el AC es un doble ACP cuyas unidades

    son representadas simultneamente, el anlisis de correspondencias se divide en dos

    campos anlisis de correspondencias simple y mltiple.

    Simple: Es el modelo general, se aplica al tratamiento de tablas de contingencia

    obtenidas del cruce de dos variables nominales.

    Mltiple: Es una generalizacin del caso anterior al caso de dos o ms variables

    nominales. Se aplica a tablas de la forma individuos por variables nominales en

    codificacin disyuntiva completa.

    3.2 OBJETIVOS DEL ANLISIS FACTORIAL DE CORRESPONDENCIA

    Permitir estudiar la asociacin mutua entre las categoras de dos o ms variables

    cualitativas o cuantitativas categorizadas.

    Reducir la dimensin del caso estudiado, de manera que permita un estudio ms

    simple del problema investigado.

    Visualizar, mediante proyecciones sobre planos, llamados factoriales, las

    proximidades entre perfiles lneas, entre perfiles columnas y entre perfiles filas y

    columnas.

    Permite extraer nuevas variables o factores que resuman de manera organizada la

    informacin significativa contenida en las tablas y permite crear grficos que

    muestren la identificacin de los objetos en filas y/o en columnas.

  • 7/21/2019 Material Multivariado

    27/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 27

    En el presenta trabajo abordaremos solamente el anlisis de correspondencias

    simple, con su respectiva aplicacin en desnutricin infantil, en nios menores de 5

    aos.

    3.3 TABLA DE CONTINGENCIA

    Una tabla de contingencia resume la observacin simultanea de dos

    caractersticas Xe Y.

    Donde la variable cualitativa X est dividida en n categoras mutuamente

    excluyentes y la variable Ydividida en p categoras.

    Tabla N 3.1

    Tabla de contingencia

    Caractersticas

    Variable Y

    1 j p Total

    Variable X

    1 11k jk1 pk1 .1k

    i 1ik ijk ipk .ik

    n 1nk njk npk .nk

    Total1.k jk. pk. ..k

    Donde:

    ijk : Frecuencia absoluta Y, representa la cantidad de individuos observados quepresentan simultneamente la categora i de la variable Xy la categora j de la

    variable Y.

    .i

    k : Es la frecuencia marginal de X, y est dado por:

    p

    j

    iji kk1

    .

    jk. : Es la frecuencia marginal de Y, definida por la expresin:

  • 7/21/2019 Material Multivariado

    28/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 28

    n

    i

    ijj kk1

    .

    ..k : Es el tamao de la muestra:

    Con el propsito de realizar un anlisis descriptivo, frecuentemente se considera la

    tabla de frecuencias relativas, para tal propsito previamente se define.

    Tabla N 3.2

    Tabla de frecuencias relativas

    Caractersticas

    Variable Y

    1 j p Total

    Variable X

    111f jf1 pf1 .1f

    i 1if ijf ipf .if

    n 1nf njf npf .nf

    Total1.f jf. pf. ..f

    La frecuencia relativa conjunta ijf se define mediante la relacin:

    ..k

    kf

    ij

    ij

    El valor de cada celda corresponde a la proporcin de individuos observados en la

    poblacin que presentan simultneamente la categora i de la variable Xy la categoraj de la variable Y.

    Frecuencias Marginales

    p

    j

    ij

    p

    j

    ijii f

    k

    k

    k

    kf

    11 ....

    .

    . ppi ,...,2,1

    ..

    1 1.. ..

    n nijJ

    j ij

    i i

    kkf f

    k k nnj ,...,2,1

    p

    j

    j

    n

    i

    n

    i

    i

    p

    j

    ij kkkk1

    .

    1 1

    .

    1

    ..

  • 7/21/2019 Material Multivariado

    29/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 29

    La suma total o la suma de las mrgenes es evidentemente igual a uno, puesto

    que la tabla de frecuencias relativas se obtiene dividiendo la tabla de

    contingencia por ..k .

    11

    1 ..

    ..

    1..

    ..1 1 ..

    ..

    n

    i

    p

    j

    ij

    n

    i

    p

    j

    ij

    kkk

    kkkf

    3.4 ANLISIS ESTADSTICO DE UNA TABLA DE CONTINGENCIA

    El anlisis estadstico ms conocido para tablas de contingencia es la prueba de

    Chi cuadrado, la misma que tienen principalmente tres aplicaciones, prueba de

    independencia, prueba de homogeneidad y bondad de ajuste; en el presente trabajo

    abordaremos la prueba de independencia.

    3.5 ANLISIS FACTORIAL DE CORRESPONDENCIAS SIMPLE (ACS)

    El Anlisis de correspondencias simple es una tcnica para representar las

    categoras de las dos variables en un espacio de pequea dimensin que permita

    interpretar las similitudes entre categoras de una variable respecto a las categoras de la

    otra, las relaciones entre las categoras de ambas variables.

    Igual que el anlisis de componentes principales, el ACS trata de explicar la

    dispersin de la matriz de varianzas - covarianzas (aunque en este caso se denomina

    matriz de inercia) a travs de un nmero menor de variables (factores), pero este anlisis

    debe realizarse tanto para las filas como para las columnas. Por tanto es un caso

    particular del anlisis de componentes principales y se tienen que llevar acabo dos

    anlisis de componentes principales, uno para el espacio que definen las filas y otro para

    el espacio que definen las columnas.

    En muchos estudios es frecuente que el investigador precise utilizar

    simultneamente variables medidas tanto en escalas no mtricas como mtricas. En tal

    caso, resulta interesante transformar las variables mtricas en otras que no sean de este

    modo, todas las variables estarn medidas en la misma escala (no mtrica) y ser

    posible operar con ellas conjuntamente aplicando ACS o Anlisis de Correspondencia

    Mltiple (ACM).

  • 7/21/2019 Material Multivariado

    30/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 30

    3.5.1 Tabla de perfiles filas y columnas

    Reflejan las proporciones que el nmero de individuos de cada celda

    representan sobre el total de la fila y sobre el total de la columna respectivamente. El

    grado de similitud entre estos perfiles tanto por filas como por columnas quedar

    reflejado en cada grfico en trminos de proximidad o lejana entre las categoras de las

    variables.

    La tabla inicial no se analiza directamente, si no mediante tabla perfiles fila y

    columna:

    a) Perfil Fila

    En el estudio de las filas, la tabla de datos se transforma dividiendo cada trmino ijf de

    la fila ipor la marginal .if de esta fila i . La nueva fila se denomina perfil-fila.

    Tabla N 3.3

    Perfiles fila

    pn /

    Variable Y

    1 j p Total

    Variable X

    1 .111 /ff .11 /ffj .11 /ffp 1

    i .1

    / ii ff ./ iij ff ./ iip ff 1

    n .1/ nn ff ./ nnj ff ./ nnp ff 1

    Donde:

    .i

    ij

    f

    fRepresenta el porcentaje de elementos de la poblacin que cumplen la categora j

    sabiendo que poseen la condicin i de la primera variable.

    Se denomina perfil fila i a la distribucin de frecuencias de las categoras del

    factor Xcondicionadas a las categoras del factor Y, esto est dado por:

    nif

    f

    ff

    ffH

    i

    ip

    i

    i

    i

    ii ,...3,2,1,,...,,

    ..

    2

    .

    1

  • 7/21/2019 Material Multivariado

    31/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 31

    b) Perfil Columna

    En el estudio de las columnas, la tabla de datos se transforma dividiendo cada

    trmino ijf de la columna j por la marginal jf. de esta columna j . La nueva columna

    se denomina perfil-columna.

    Tabla N 3.4

    Perfiles columna

    pn /

    Variable Y

    1 j p

    Variable X

    11.11 /ff 1.1 /ffj 1.1 /ffp

    i 1 .

    /i jf f ./ij jf f ./ip jf f

    n 1 .

    /n pf f ./nj pf f ./np pf f

    Total 1 1 1

    Donde:

    j

    ij

    f

    f

    .

    Representa el porcentaje de elementos de la poblacin que cumplen la categora i

    sabiendo que poseen la condicin j de la primera variable.

    Se denomina perfil de la columna j a la distribucin de frecuencias de las

    categoras del factor Ycondicionadas a las categoras del factor X.

    pj

    f

    f

    f

    f

    f

    fF

    j

    nj

    j

    j

    j

    j

    j ,...,3,2,1,...,,..

    2

    .

    1

    Los perfiles columnas pueden compararse con la distribucin de las frecuencias

    del factor X.

    El resultado de la asociacin se da en doble sentido y representa lo mismo, si los

    perfiles fila o columna de categoras distintas tienen igual comportamiento las variables

    son independientes, en caso contrario estn asociados. Este proceso es un anlisis de

    componentes principales por filas y columnas.

  • 7/21/2019 Material Multivariado

    32/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 32

    3.5.2 Distancia entre los elementos fila y columna

    En cualquier espacio multidimencional puede definirse una distancia entre dos

    puntos (categoras), para analizar la semejanza entre ellos.

    Para ello es necesario introducir el tipo de distancia a usarse.

    a) Distancia Euclidiana

    La expresin general de esta distancia en el marco de las tablas de contingencia,

    entre dos elementos fila de una tabla de contingencias es.

    ',1

    2

    '', iikkd

    p

    j

    jiijii

    La distancia entre dos elementos columna de una tabla de contingencia es la

    siguiente.

    ',1

    2

    '', jjkkd

    n

    i

    ijijjj

    Propiedades de Distancia Euclidea

    Cuando comparamos dos elementos fila o columna de una tabla establecemos una

    relacin de similitud o desimilitud de diferencias entre dos categoras de X, si

    esta distancia es cerca de cero entonces las categoras son similares, caso contrario

    son diferentes.

    ',,0)',( iid ii ',,0)',( jjd jj

    Si los elementos comparados por fila son idnticos, para todo par de elementos de la

    tabla, entonces

    '0', iiiid , Similarmente para el caso de columnas '0', jjjjd

    ',,,'', iiiidiid y ',,,'', jjjjdjjd

    Si consideramos tres elementos de una tabla de frecuencias, se verifica que:

    mjjmjdmjdjjd

    kiikidkidiid

    ,',,,',',

    ,',,,',',

  • 7/21/2019 Material Multivariado

    33/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 33

    b) Distancia Chi cuadrado

    Establecer la semejanza entre dos perfiles fila, vendra determinado por

    establecer la distancia eucldea entre los dos perfiles, sin embargo si procedemos as la

    diferencia solo reflejara la diferencia entre las frecuencias marginales.i

    f oj

    f.

    manifestando el efecto talla, lo que va a caracterizar al anlisis de correspondencias

    simple es la ponderacin que supone los denominadores de las expresiones de los

    perfiles.

    Si introducimos las ponderacionesjf.

    1 o

    .

    1

    if en caso de filas o columnas

    estamos equilibrando los perfiles y dando la misma importancia a cada uno de ellos,

    aumenta los trminos a priori ms dbiles, referente a las categoras raras, juega un

    papel analgico al de la divisin de la desviacin tpica en el caso de las variables

    numricas. En definitiva, supone tomar como referencia el perfil medio.

    El carcter cualitativo de las variables obliga a usar una distancia distinta a la euclidea,

    en nuestro caso para medir la distancia entre dos filas o entre las dos columnas se

    recurre a la denominada distancia 2 . En realidad es una distancia eucldea ponderada

    por la inversa del peso de la simaj columna en caso de que estemos midiendo la

    distancia entre dos filas o ponderada por la inversa del peso de la simai fila, en casode que estemos midiendo la distancia entre dos columnas. La expresin de distancia

    entre dos filas i e i es igual a:

    2

    .1 .

    2 .1

    ),(

    i

    ji

    i

    ijp

    j j f

    f

    f

    f

    fiid

    Similarmente, la distancia entre dos columnas jyj se obtiene aplicando la

    siguiente expresin es:

    2

    ..1 .

    2 .1

    ),(

    j

    ji

    j

    ijn

    i i f

    f

    f

    f

    fjjd

    De acuerdo con esta distancia, las categoras de los perfiles fila estn

    representadas por una configuracin de j puntos en un espacio euclideo pR , de

    coordenadas.

    ....

    ,...,:

    ip

    ip

    ij

    ij

    i

    ff

    f

    ff

    fp

  • 7/21/2019 Material Multivariado

    34/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 34

    Las categoras de los perfiles columna est representada por una configuracin i

    de puntos en un espacio euclideo de nR , de coordenadas.

    jn

    nj

    ji

    ij

    j

    ff

    f

    ff

    fp

    ....

    ,...,:

    3.5.3 Nube de puntos

    Cada perfil-fila es un conjunto de p valores numricos y puede ser representado

    por un punto en el espacio pR en el que cada uno de las p dimensiones est asociado a

    una categora de la segunda variable.

    La distancia 2 que define la semejanza entre perfiles-fila posee las

    propiedades de una distancia eucldea y confiere a pR la estructura de espacio eucldeo.

    Esta distancia conduce a asignar a la simaj dimensin del pR el peso jf. .

    La suma de las coordenadas de cada perfil-fila vale 1; resultando que la nube de

    puntos fila ( IN ) pertenece a un hiperplano denotado por IH . En caso de3R

    tendramos la siguiente figura:

    Grafico N 3.1Representacin de la nube en el espacio tridimensional

    En la figura:

    El punto i tiene por coordenada sobre el eje j ,.i

    ij

    f

    f

    Su peso es .if

  • 7/21/2019 Material Multivariado

    35/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 35

    La distancia entre dos perfiles es la distancia 2

    El baricentro ( G ) de la nube IN tiene por coordenadas sobre el eje j la

    frecuencia marginal jf. .

    La nube IN pertenece a un hiperplano IH

    En el anlisis de correspondencias los pesos de cada punto de la nube vienen

    impuestos, el punto i tiene un peso igual a la frecuencia marginal .if , este peso es

    proporcional al efectivo de la clase de individuos que representa.

    El baricentro de los puntos IN dotados de estos pesos se denota por IG . Su

    simaj coordenada es la media ponderada de las simasj coordenadas de los

    puntos IN .

    jn

    i

    i

    n

    i

    i

    i

    ij

    I f

    f

    ff

    f

    G .

    1

    .

    1

    .

    .

    )(

    IG es el centro de gravedad y se interpreta como el perfil medio.

    As al estudiar en qu medida y de qu manera una clase de individuos i difiere

    del conjunto de poblacin, conduce a estudiar la desviacin entre el perfil de esta clase y

    el perfil medio.

    Similarmente la nube de perfiles columna es:

    .

    1

    .

    1

    .

    .

    )(

    ip

    j

    j

    p

    j

    j

    j

    ij

    J f

    f

    ff

    f

    G

    La distancia de cada columna y de cada fila al centro de gravedad se expresa

    como sigue:

    2

    1

    .

    ..

    2

    .

    .1 .

    2 1,

    p

    j

    j

    ji

    ij

    j

    i

    ijp

    j j

    I fff

    ff

    f

    f

    fGid Para filas (1)

    2

    1

    ..

    ..

    2

    .

    .1 .

    2 1,

    n

    i

    i

    ij

    ij

    i

    j

    ijn

    i i

    J fff

    ff

    f

    f

    fGjd Para columnas (2)

  • 7/21/2019 Material Multivariado

    36/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 36

    3.6 EL AJUSTE DE LAS NUBES

    Desde el punto de vista del anlisis de datos, interesa reducir la nube de puntos

    de manera que se obtenga una representacin a la vez accesible a nuestra visin y fiel,

    en el sentido de que la representacin de la nube mantenga la mayor informacin que

    ella contiene.

    La representacin ser accesible si se proyecta la nube sobre un subespacio de

    pequea dimensin y ser completa si la dispersin de la nube proyectada es casi igual a

    la de la nube propiamente dicha.

    En general se trata de buscar un subespacio de dimensin q en pqRp , la

    misma que nos permite encontrar un sistema de vectores quu ,...,1 y 'q es el tamao

    del sub espacio generado en el espacio nqRn

    ', , encontrando el sistema de vectores

    '1 ,..., qvv ortonormado para la mtricapn RR , que tiene el subespacio de manera que

    sea mxima la inercia de las nubes sobre los subespacios.

    3.6.1 AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES-FILA

    IN . ANLISIS EN PR .

    En pR , el ajuste trata de obtener un conjunto de imgenes planas aproximadas

    de la nube IN , donde iI ,...,3,2,1 , dotados de pesos ii ffp .1. ,..., . Al igual

    que en anlisis de componentes principales, el anlisis de correspondencias simples

    consiste en buscar un conjunto de ejes ortogonales sobre los que ser proyectada la nube

    (Grfico N 3.1).

    Las imgenes planas de IN deben ser tales que las distancias entre los puntos

    de la imagen se asemejen lo ms posible a las distancias entre los puntos de IN . Este

    objetivo es completamente anlogo al del ajuste de la nube de individuos en anlisis decomponentes principales, en la prctica implica que la nube analizada sea centrada, es

    decir, que su baricentro sea elegido como origen de los ejes.

    En la nube centrada de la clase definida por la categora i est representada por

    un punto cuya coordenada sobre el simoj eje es.

    .

    ij

    j

    i

    ff

    f (diferencia entre la

    coordenada del perfil fila y IG Baricentro de IN ).

    La posicin de este punto expresa la diferencia entre la distribucin de la clase i y de la poblacin total sobre el conjunto de las categoras de la segunda variable.

  • 7/21/2019 Material Multivariado

    37/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 37

    Determinar las direcciones de la inercia mxima de la nube centrada es obtener

    las clases, que ms se desvan del perfil del conjunto de la poblacin, esto es:

    iinerciaINInercian

    i 1...

    p

    j ij

    ijijn

    i ff

    fffINInercia

    1 ..

    2

    ..

    1 ....

    Similarmente el ajuste y representacin de la nube de perfiles-columna en la

    nube centrada, de la clase definida por la categora j est representada por un punto

    cuya coordenada sobre el simoi eje es.

    .

    ij

    i

    ff

    f j

    (diferencia entre la coordenada del

    perfil fila y JG Baricentro de JN ).

    La posicin de este punto expresa la diferencia entre la distribucin de la

    categora j y la de la poblacin total sobre el conjunto de las categoras de la segunda

    variable.

    Determinar las direcciones de la inercia mxima de la nube es generar las clases,

    que ms se desvan del perfil del conjunto de la poblacin, esto es:

    jinerciaJNInerciap

    j

    1

    ...

    2

    . .

    1 1 . .

    ....

    pnij i j

    i j i j

    f f fInercia N J

    f f

    La inercia es una medida de dispersin total de la nube de puntos respecto a su

    centro de gravedad.

    Cada perfil est dotado de un peso igual a su frecuencia marginal .if . Este peso

    interviene en primer lugar en el clculo del centro de gravedad de la nube y tambin

    interviene en la inercia y, por tanto, en el criterio de ajustes de los ejes.

    Si consideramos la informacin proporcionada en una tabla de contingencia;

    cada perfil tiene unas caractersticas dadas por la fila que le corresponde.

    Los p valores de los perfiles fila configuran un vector ipi xxx ,...,1 que se

    representa como un punto en el espacio pR y los n perfiles fila forman una nube de n

    puntos enp

    R .

  • 7/21/2019 Material Multivariado

    38/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 38

    Un conjunto de perfiles fila puede caracterizarse por su gravedad e inercia. La

    inercia de una nube de puntos es una medida resumida de dispersin, se define como la

    suma para todo los puntos del producto de sus masas por los cuadrados de sus distancias

    al centro de gravedad, y esta dado por:

    n

    i

    fi GidfInercia1

    2 ,

    La inercia es el punto que seala la posicin central de la nube, caracterizando al

    perfil medio respecto a los perfiles fila.

    Uno de los objetivos del anlisis de correspondencias es reducir la nube de

    puntos, es decir, encontrar un sistema de vectores en pR , de manera que el ajuste trate

    de obtener un conjunto de imgenes planas aproximadas de la nube IN .

    Al igual que en anlisis de componentes principales, el anlisis de

    correspondencia simple consiste en buscar un conjunto de ejes ortogonales sobre los

    que ser proyectada la nube, geomtricamente se tiene:

    Grfico N 3.2

    Representacin de la inercia en los ejes ortogonales

    Representacin de IN .

    La representacin de las categoras de la primera variable (perfil fila) en

    dimensin reducida, determinadas por las ip coordenadas con referencia a las

    Inercia baja

    Eje factorial

    Eje factorial

    Inercia alta

  • 7/21/2019 Material Multivariado

    39/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 39

    categoras de la segunda variable (perfil columna), se puede interpretar como un

    problema de representacin de datos mediante anlisis de componentes principales.

    Sea:

    .. ij

    ij

    ff

    fX (3)

    Una matriz de orden pn cuyas filas son las coordenadas ip , las medias de las

    variables - calculadas sobre la matriz de datos X, ponderadas por las frecuencias

    relativas ..1 ,..., nff , se tienen el vector de medias

    nffffM .3.2.1. ...,,,,

    . . ..

    . .21 1. . . . .

    .

    n nj j jij ij j

    i j

    i ij i j j jj

    f f ff f fM f f

    f f f f f f

    jfM . (4)

    La covarianza entre las categoras j y 'j , ponderado por las frecuencias relativas es:

    '

    ' . . . '1 . . . ' .

    .n

    ij ij

    j j i j ji j i j i

    f fC f f f

    f f f f

    ' . . '

    1. . ' .

    nij ij

    j j j j

    ij j i

    f fC f f

    f f f

    (5)

    En trminos matriciales la covarianza es:

    '' MMXDXC np (6)

    Donde:

    ..1 ,..., nn ffdiagonalD

    Se verifica entonces:

    1.

    Mes el autovector de pC para el autovalor 0 , esto es:

    En efecto: basta probar que

    1 ' . ' .,..., 0 ' 1,...,j i nj nC f C f j n entonces:

  • 7/21/2019 Material Multivariado

    40/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 40

    Reemplazando las ecuaciones (6) y el valor M se tiene:

    .1 .2 .3 .' ' , , ,...,p n nC M X D X MM f f f f

    00.. MMCp

    2. Los autovectores de pC son tambin vectores propi os de XDX n' .

    Si Ves vector propio de pC distinto de M de valor propio , entonces V es

    ortogonal a 'M , es decir: 0'. VM

    VVCp . (7)

    Sustituyendo la ecuacin (5) en (7) se tiene:

    VVMMXDX n ''

    Operando llegamos a

    VVMMVXDX n '.'

    Como:

    VVXDXVMn

    .'0'.

    3. Mes autovector de

    n

    i ijj

    ijij

    nfff

    ffXDX

    1 .'..

    '' para el autovalor 1

    Donde

    MMXDX n ..'

    Sustituyendo,

    tenemos:

    j

    p

    j

    n

    i ijj

    ijijf

    fff

    ff.

    1 1 .'..

    '.

    '.

    '.

    '.

    1 1.'.

    '

    j

    j

    jp

    j

    n

    iij

    ijijf

    f

    f

    ff

    ff

    Luego como:

    ' .1 .2 .3 .1 . . ' .

    . , , ,...,n

    ij ij

    k

    i j j i

    f fM f f f f

    f f f

  • 7/21/2019 Material Multivariado

    41/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 41

    1.'.

    Mfj

    Como consecuencia de estas propiedades, bastara diagonalizar XDX n' y

    considerar solo los vectores propios de valor propio distinto de uno. Como el valor

    propio uno corresponde al valor propio cero de pC , los dems valores propios de

    XDX n' son menores que 1.

    Diagonalizando XDX n' cuyo trmino general es:

    n

    i jji

    ijij

    jj

    fff

    fft

    1 '...

    '

    '

    .

    .

    Obtenemos los valores propios, de pdiagonalD ,...,,1 2 , donde cada

    valor propio (inercia) tiene asociado un vector propio u , como consecuencia

    obtendremos la matriz de vectores propios U, de manera que a 2u se le llama primer

    eje factorial o primer eje principal de inercia 2 .

    3.6.2 TASAS DE INERCIA

    Las tasas de inercia permite evaluar la calidad global del ajuste y esta asociada al

    eje factorial ( ) indica la parte de la inercia total de la nube proyectada sobre este eje.

    En forma general ser:

    El porcentaje de la inercia explicada por el segundo y tercer eje factorial ser:

    2

    2

    ...

    ...p

    P

    El nmero de ejes factoriales de la IN no puede superar a la menor de las dos

    cantidades 1 , 1n p .

    1,1min pnq

  • 7/21/2019 Material Multivariado

    42/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 42

    El subespacio obtenido por los q - ejes factoriales se denomina soporte de IN

    3.6.3 COORDENADAS FACTORIALES DE LOS PUNTOS PERFILES - FILA

    Las coordenadas de los perfiles-fila vendrn dadas a partir del producto de lamatriz de los perfiles transformados por la matriz de los vectores propios, es decir:

    UXF . Donde el trmino general es:

    p

    j

    j

    ji

    ij

    i uff

    fF

    1 ..

    . (8)

    n

    i

    i

    ij

    ijj v

    fffF

    1 ..

    . (9)

    3.6.4 AJUSTE Y REPRESENTACIN DE LA NUBE DE PERFILES -

    COLUMNA JN ANLISIS EN nR .

    Debido al papel simtrico que juegan las filas y las columnas en el anlisis de

    correspondencias, el ajuste ennR se plantea en los mismos trminos y posee las mismas

    propiedades que el ajuste enpR `. Es decir:

    Las imgenes planas de JN deben ser tales que las distancias entre los perfiles

    proyectados se asemejen lo ms posible a las distancias entre los perfiles enpR . De

    ah se deriva la necesidad de analizar la nube JN con relacin a su baricentro JG .

    La inercia total de JN con respecto a JG proviene de las diferencias entre losperfiles de las diferentes clases y el perfil conjunto de la poblacin.

    Las coordenadas de los puntos j esjf

    fij

    .

    El peso de los puntos j es jf.

    El centro de gravedad G tiene de coordenadas jfg .

    La matriz de perfiles columna transformadas y centradas es:

  • 7/21/2019 Material Multivariado

    43/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 43

    ji

    ij

    ff

    fX

    ..

    ~ (10)

    La proyeccin de un punto j sobre el eje cuyo vector director de v es:

    i

    n

    i ji

    ij

    i vff

    fG

    .

    1 ..

    (11)

    Similarmente para proyeccin de perfil fila se tiene, cuyo vector director de u es:

    j

    p

    j ij

    ij

    j uff

    fG

    .

    1 ..

    (12)

    Matricialmente las coordenadas de los puntos perfiles columna ser:

    VXG .~

    Recordemos que tambin se puede obtener las coordenadas de los puntos

    perfiles columna a travs de las relaciones de transicin; trabajadas en el anlisis de

    componentes principales. Es decir:

    jiji uXv

    ..1

    (13)

    (14)

    Es decir que:

    j

    j

    i uf

    GjCoord

    .),(

    .

    Demostracin:

    Sustituyendo en la ecuacin (14) el valor de1 . .

    'n

    ij

    iji i j

    fX

    f f se tiene:

    1 . .

    1. .

    .

    nij

    j i

    i i j

    fu v

    f f

    Multiplicando en el numerador y denominador por jf.

    .

    1 . . .

    1 . ..

    njij

    j i

    i i j j

    ffu vf f f

    iijj vXu

    '..1

  • 7/21/2019 Material Multivariado

    44/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 44

    .

    1 ..

    1. .

    njij

    i

    i ji

    ffv

    ff

    ji

    n

    i ji

    ijfv

    ff

    f.

    1 ..

    ...1

    Sustituyendo por la ecuacin (11) se tiene:

    jij fGu ...1

    DespejandoiG llegamos a la expresin: j

    j

    i uf

    G

    .

    .

    Sin embargo, lo que nos interesa con fines de una interpretacin ms importante

    de las nubes es representar las dos nubes en un mismo plano.

    3.6.5 REPRESENTACIN DE LAS NUBES EN UN MISMO PLANO

    Las relaciones existentes entre los dos subespacios permiten representar

    simultneamente las dos nubes en un mismo plano.

    As partiendo de:

    i

    n

    i ji

    ij

    i vff

    fG

    .

    1 ..

    y.

    ..1

    iii fFv

    Sustituyendo se tiene:

    .

    1 ..

    ..1

    . ii

    n

    i ji

    ij

    j fFff

    fG

    n

    i

    ii

    ji

    ijFf

    ff

    f

    1

    .

    ..

    ...1

    n

    i

    i

    j

    ij

    j Ff

    fG

    1 .

    ..1

    (15)

    Similarmente, sustituyendo la ecuacinjjj

    fFu.

    ..1

    en la ecuacin (12) se

    tiene:

    jj

    p

    j ij

    ij

    i fF

    ff

    fG

    .

    1 ..

    ..1

    .

  • 7/21/2019 Material Multivariado

    45/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 45

    jj

    p

    jij

    ijFf

    ff

    f

    ...

    1.

    1..

    p

    j

    j

    i

    ij

    i F

    f

    fG

    1 .

    ..1

    (16)

    Esto significa que la proyeccin de los puntos i sobre el espacio formado por los

    factores es igual a la proyeccin de los puntos j ponderados por un coeficiente.

    ij

    i

    f

    fque

    es el peso que tiene cada fila y por un coeficiente que es la raz del autovalor. Para el

    caso de las proyecciones de los puntos j , las relaciones permiten representar

    simultneamente sobre el mismo plano los puntos fila y columna, permitiendo la

    interpretacin de las relaciones entre lneas y columnas.

    3.6.6 DEFINICIN DE LOS EJES E INTERPRETACIN DE LA INERCIA

    En anlisis de componentes principales, para asignar un nombre a los factores,

    se debe tomar en cuenta las correlaciones entre las variables (contribuciones). En el

    anlisis de correspondencias simples, una vez obtenidas las coordenadas del perfil fila y

    perfil columna, representados los puntos en el mismo plano se debe conocer quecategoras son las que ms han contribuido en la construccin de los ejes, es decir el

    peso que tiene cada categora en la definicin de cada eje.

    Por otro lado, la inercia de una nube de puntos se descompone sobre toda base

    ortogonal, es la suma de sus inercias sobre cada uno de los ejes de esa base.

    El ajuste de las nubes IN y JN descompone su inercia segn lasdirecciones principales, debido a la ortogonalidad de los ejes, la suma de las inercias de

    una nube sobre cada uno de los ejes es igual a la inercia total de la nube.

    Contrariamente al caso del anlisis de componentes principales, en el que la

    inercia de las nubes es igual al nmero de las variables, en el anlisis de

    correspondencias simples esta inercia expresa la estructura de la tabla.

  • 7/21/2019 Material Multivariado

    46/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 46

    La inercia de cada una de las dos nubes de perfiles fila y perfiles columna es

    igual al estadstico 2 . El anlisis de correspondencias simples es por tanto, una

    descomposicin de este estadstico y cada factor representa una parte de la relacin

    entre las variables.

    3.6.7 CONTRIBUCIN ABSOLUTA Y RELATIVA DE LOS PERFILES FILA

    a) Contribuciones absolutas por filas.- Expresan la proporcin de la varianza

    explicada por un eje debida a un perfil ji, . Es decir, permiten saber que variables

    son las responsables de la contribucin de un factor, determina cuanto aporta el

    punto ji, en la inercia (variabilidad) de la proyeccin de un factor.Las contribuciones absolutas representan porcentualmente la importancia que tiene

    cada categora en la definicin de cada eje, que est definido por cada categora de la

    variable y permite interpretar los ejes. La contribucin absoluta se define:

    iFficoordfiCta ii

    2

    .

    2

    . .,),(

    Puesto que:

    n

    i

    i icoordf1

    2. ),(.

    Dado que la contribucin absoluta de una fila o columna es un porcentaje de la

    inercia que explica un factor, la suma de las contribuciones absolutas para todas las filas

    o todas las columnas en un determinado factor debe ser 1 o expresar el 100% de la

    inercia del eje. No solo depende de la distancia a la que se encuentra el punto, sino

    tambin de su peso o ponderacin.

    b) Contribucin relativa por filas.- Expresan la contribucin de un factor en la

    explicacin de la dispersin de un elemento, esta medida nos proporciona la calidad

    de la representacin de la categora.

    Las contribuciones relativas muestran cuales son las caractersticas exclusivas de ese

    factor, cuantifica la parte del punto ji, en la inercia explicada por el eje factorial.

    GidiF

    Gid

    icoordiCtr

    ,,

    ,,

    2

    2

    2

    2

    Como

  • 7/21/2019 Material Multivariado

    47/128

  • 7/21/2019 Material Multivariado

    48/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 48

    Las filas o las columnas tendrn mayor contribucin relativa en un factor a

    medida que ese factor sea responsable de la distancia que separa a la misma del origen

    de coordenadas.

    Mientras las contribuciones absolutas permitan saber que variables son las

    responsables de la contribucin del eje, las contribuciones relativas consideran cuales

    son las caractersticas exclusivas de ese factor.

  • 7/21/2019 Material Multivariado

    49/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 49

    CAPITULO IV:

    ANALISIS DISCRIMINANTE

    El Anlisis Discriminante es una tcnica estadstica cuya finalidad es analizar si existen

    diferencias significativas entre grupos de objetos respecto a un conjunto de variables

    medidas sobre los mismos. En el caso de que existan, explicar en qu sentido se dan y

    proporcionar procedimientos de clasificacin sistemtica de nuevas observaciones de

    origen desconocido en uno de los grupos analizados.

    La finalidad del anlisis discriminante es clasificar individuos u objetos en grupos

    mutuamente excluyentes, previamente establecidos, llevando en cuenta los valores

    observados de un conjunto de variables independientes..

    Por otra parte, esta tcnica tambin sirve para:

    Analizar si existen diferencias entre los grupos en cuanto a su comportamiento

    con respecto a las variables consideradas y averiguar en qu sentido se dan

    dichas diferencias

    Elaborar procedimientos de clasificacin sistemtica de individuos de origen

    desconocido, en uno de los grupos analizados.

    El anlisis discrimnate se utiliza para clasificar individuos en grupos o

    poblaciones alternativos a partir de valores de un conjunto de variables sobre los

    individuos a los que se pretende clasificar.

    Para estos sirve el anlisis discriminante. Dada una poblacin que tenemos

    dividida en grupos, el anlisis discriminante encuentra una funcin que permite,

    con un determinado grado de acierto, explicar esa divisin en grupos (visin

    explicativa). Una vez obtenida, puede utilizarse para clasificar a nuevos

    individuos en alguno de los grupos (visin predicativa)

    4.1 ANALISIS DISCRIMINANTE

    El anlisis discriminante (DA) es una tcnica orientada a encontrar aquellos

    factores (o combinaciones lineales de las variables de partida) que mejor separan o

    discriminan entre varios grupos homogneos. El anlisis discriminante no supone

  • 7/21/2019 Material Multivariado

    50/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 50

    ningn modelo a priori, tratando de encontrar las proyecciones ms idneas a efectos

    de la separacin entre losg grupos existentes en la poblacin.

    4.1.1 PLANTEAMIENTO DEL PROBLEMA

    El problema que vamos resolver en el presente trabajo de investigacin es el

    siguiente:

    Sabiendo que un objeto, individuo o persona Xprocede de uno de los grupos iG

    de una poblacin P debemos de clasificarlo a uno de estos grupos, en base a las p

    medidas asociadas (variables) a cada individuo. Debemos de construir una regla de

    clasificacin ptima en algn sentido, por ejemplo que minimice los costos de mala

    clasificacin.

    La solucin al problema planteado es la siguiente:

    Si los ggrupos concurrentes gGG ,,1 de la poblacin P, podemos pensar de

    una observacin X como un punto en el espacio de dimensin p , pR .

    Tal espacio muestral se divide en gregiones disjuntas

    pg RRgRRRR 211 ,, . Si la observacin Xcae en la regin kR ,

    el individuo es clasificado como procedente de kG .

    Cuando tratamos de construir una regla para clasificar individuos, se debe

    distinguir las cuatro posibles situaciones.

    1. La distribucin de Xes completamente conocida.

    2. Se conoce la distribucin de Xpero no se conocen los parmetros.

    3. La distribucin de Xes parcialmente conocida.

    4. La distribucin de Xes completamente desconocida.

  • 7/21/2019 Material Multivariado

    51/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 51

    4.1.2 PROCEDIMIENTOS DE CLASIFICACIN

    Existen varios mtodos de clasificacin dependiendo del nmero de grupos a

    clasificar (dos o ms grupos),de las hiptesis hechas acerca del comportamiento de las

    variables en cada grupo (normalidad conjunta, homocedasticidad) as como del criterioutilizado para llevar a cabo dicha clasificacin.

    La clasificacin puede desarrollarse bajo diferentes perspectivas, que en algunos

    casos dan lugar a la misma regla de decisin, la clasificacin se resuelve construyendo

    ciertas funciones de variables ),( 1 nXXgf llamadas funciones discriminantes, la

    decisin se toma a partir de ellas.

    4.2 REGLAS GENERALES DE CLASIFICACIONEl propsito bsico de un anlisis discriminante (AD) puede describirse como

    sigue: Suponga que nosotros tenemos las muestras de k poblaciones de tamao gn

    kg ,,1 , con p medidas en cada uno. Usando los datos queremos determinar de

    cual de las Kpoblaciones es ms probable seleccionar la unidad (N+1) asumiremos

    que la forma de las funciones de densidad es el mismo para todas las poblaciones de k:

    por ejemplo, que ellos son todas normal multivariantes. Denotemos con f a la funcin

    de densidad comn. Entonces la regla de mxima probabilidad es:

    Asigne la unidad ua la poblacin gsi la probabilidad del vector observacin,

    ,X . Es mayor para el grupo gque para cualquier otro grupo. Esta regla puede

    declararse como sigue:

    ggparagXfgXf )()( (4.1)

    La regla puede darse en trminos de algunas condiciones llamadasprobabilidades Resulta que )( gXP es, en el lmite, proporcional a )( gXf ,por

    consiguiente, una segunda regla de mxima probabilidad puede darse por lo que se

    refiere a estas probabilidades tpicas:

    ggparagXPgXP )()( (4.2)

    Otra regla se toma considerando la probabilidad de la unidaduque pertenece al

    grupo g esto dado que la unidad tiene un vector observacin particular, X . Esta

    probabilidad, denotado por )/( XgP ,se llama la probabilidad posterior de el nmero

  • 7/21/2019 Material Multivariado

    52/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 52

    de miembros en la poblacing, "posterior" en el sentido que sta es una probabilidad

    condicional de mala clasificacin enX . Con esta visin asumimos, que la unidad a ser

    clasificada pertenece de hecho a una de las kpoblaciones.

    4.2.1 REGLA DE DISCRIMINACION DE MAXIMA PROBABILIDAD

    Denotamos las densidades de cada poblacin j por )(xfi . La regla de

    discriminacin de probabilidad mxima (regla de ML) es dada por la asignacin de x a

    j maximizando la probabilidad. )(max)()( xfxfxL iijj

    Si varios iif tienen el mismo mximo entonces cualquiera de ellos puede ser

    seleccionado. Matemticamente la coleccin jR dado por la regla de discriminacin de

    probabilidad mxima se define como sigue:

    jiJixLxLxR ijj ,,1),()(: (4.3)

    Clasificando las observaciones dentro de cierto grupo nosotros podemos

    encontrar un error de mala clasificacin:

    Para J=2 grupos la probabilidad de poner x dentro del grupo 2 aunque este sea de

    la poblacin 1 puede calcularse como:

    2

    )()( 11212R

    dxxfRXPP (4.4)

    Similarmente la probabilidad condicional de clasificar un objeto como

    perteneciente a la poblacin 1aunque esta realmente venga de la poblacin 2es:

    1

    )()( 22121R

    dxxfRXPP (4.5)

    Las observaciones con un error de mala clasificacin crean un costo )/( jiC

    cuando una observacin j es asignada a iR .

    La matriz de costos esta dado por:

    Asignado \ verdadero G1 G2

    G1 0 C(1/2)

    G2 C(2/1) 0

  • 7/21/2019 Material Multivariado

    53/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 53

    Cuadro 1: Costos de Clasificacin

    Permitamos que j sea la probabilidad anterior de la poblacin j , donde la

    media de una probabilidad anterior sea seleccionar un individuo al azar de j (esto

    es antes de parecer el valor x) Las probabilidades anteriores pueden considerarse si es

    claro que una observacin provenga probablemente de una poblacin j .

    El costo esperado por error de mala clasificacin (ECM) esta dada por:

    221112)21()12( PCPCECM (4.6)

    Nosotros estamos interesados en las reglas de clasificacin que guardan los

    ECM que minimizan encima de una clase de reglas. Las reglas de discriminacin que

    minimizan el ECM (2.11) para dos poblaciones esta dada por:

    TEOREMA 1.-Para dos poblaciones dadas, la regla que minimiza el ECM se da por

    1

    2

    2

    1

    1)12(

    )21(

    )(

    )(:

    C

    C

    xf

    xfxR

    1

    2

    2

    12

    )12()21(

    )()(:

    CC

    xfxfxR (4.7)

    La regla de discriminacin ML es as un caso especial de la regla de ECM para el error

    de mala igual y los costos y las probabilidades anteriores iguales. Para su simplicidad

    del caso de costo de la unidad C(1/2) = C(2/1) = 1, y las probabilidades anteriores

    iguales, 12 .

    CASO 1: Supongamos que 1 representa la poblacin de 1 que crean el costo C (2/1)

    si ellos son clasificados como los elementos de la poblacin 2 . Anlogamente, se

    define C (1/2) como el costo de clasificar mal a un elemento de la poblacin 1 como

    perteneciente a la poblacin 2

    Denotemos la ganancia para la correcta clasificacin de elementos

    La ganancia total es entonces:

  • 7/21/2019 Material Multivariado

    54/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 54

    dxxfRxIdxxfRxICdxxfRxICRG )()()()(1)21()()()12()( 2222221212

    dxxfCxfCRxIC )()21()()12()()12(21122

    (4.8)

    Desde el primer trmino en esta ecuacin es constante, el mximo se obtiene

    obviamente para:

    0)()21()()12(: 22112 xfCxfCxR (4.9)

    Esto es equivalente a

    2

    1

    1

    2

    2

    )21(

    )12(

    )(

    )(:

    C

    C

    xf

    xfxR (4.10)

    Qu corresponde al 2R fijo en el Teorema 12.1 para una ganancia de = 0:

    CASO 2: Supongamos que 1,0x

    2/1)1()0(:1 XPXP

    )1(14/1)0(:2 XPXP (4.11)

    El espacio muestral es {0,1}

    La regla de discriminacin ML asigna:

    2

    1

    1

    0

    x

    y

    x

    Definiendo los grupos tenemos

    1,0

    1,0

    21

    21

    RR

    Y

    RR

    1,00 211 RRyR

    CASO 3: Consideremos dos poblaciones normales

    ),(:

    ),(:

    2

    222

    2

    111

    N

    N

    Luego

  • 7/21/2019 Material Multivariado

    55/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 55

    2

    2/12

    2

    1exp)2()(

    i

    iii

    xxL

    (4.12)

    De x se asigna a:

    )( 11 Rx

    Si:

    )()( 21 xLxL

    Es equivalente a

    xx

    12

    1exp

    2

    2

    2

    2

    1

    1

    1

    2

    1

    2

    2

    2

    2

    2

    2

    1

    1

    2

    2

    2

    2

    2

    1

    1

    2

    2

    2

    1

    2 log2211

    xx (4.13)

    Al simplificar la situacin en el caso de varianzas iguales21 la regla de

    discriminacin (12.5) esta dada (para21 )

    ,1x Si )(2/1: 211 xxRx (4.14)

    ,2x Si )(2/1: 212 xxRx (4.15)

    El teorema 1 nos muestra que las reglas de discriminacin ML para las

    observaciones multinormales estn ntimamente conectadas con la distancia de

    Mahalanobis. Las reglas de discriminacin estn basadas en las combinaciones

    lineales y pertenecen a la familia de los mtodos de Anlisis de Discriminacin

    Lineal (LDA).

    TEOREMA 2Supongamos que:

    ),( ipi N

    (a) La regla de ML asigna x a j j dnde Jj ,....1 es el valor que minimiza la

    distancia al cuadrado de Mahalanobis entre x i i :

    Jixxx iT

    ii ,,1)()(),(12 (4.16)

    (b) En el caso deJ=2

    0)(1 xRx T (4.17)

    Donde

  • 7/21/2019 Material Multivariado

    56/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 56

    )(2

    1)( 2121

    1 y (4.18)

    4.2.2 CLASIFICACION CON DIFERENTES MATRICES DE COVARIANZA

    El ECM mnimo depende de la proporcin de las densidades)(

    )(

    2

    1

    xf

    xf

    equivalentemente en la diferencia:

    )(ln)(ln 21 xfxf (4.19)

    Cuando la covarianza para ambos funciones de densidad difiere, la regla de

    asignacin se vuelve ms complicada:

    1

    21

    22

    1

    11

    1

    2

    1

    11)12(

    )21(ln)()(

    2

    1:

    C

    CkxxxxR TTT (4.20)

    1

    21

    22

    1

    11

    1

    2

    1

    12)12(

    )21(ln)()(

    2

    1:

    C

    CkxxxxR

    TTT (4.21)

    Donde:

    2

    1

    221

    1

    11

    2

    1

    (2

    1

    ln2

    1

    TT

    k (4.22)

    Las regiones de clasificacin estn definidas por funciones cuadrticas. Por

    consiguiente ellos pertenecen a la familia de los Mtodos del Anlisis de

    Discriminacin Cuadrtico (QDA). Esta regla de clasificacin cuadrtica coincide

    con las reglas usadas cuando21

    , cuando desaparece el trmino

    xxT )(2

    1 12

    1

    1

    (4.23)

    4.3 CRITERIOS DE CLASIFICACION PARA DOS GRUPOS.

    La misin del anlisis discriminante es obtener un criterio de clasificacin que reduzca

    el error. Es decir, encontrar una funcin discriminante que separe lo mejor posible las

    dos poblaciones

    Anlisis Discriminante en dos grupos

    'p21 x,.....x,xX , cada grupo tendr ( i , i ) ; i = 1, 2

  • 7/21/2019 Material Multivariado

    57/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 57

    Supongamos que tenemos 2 poblaciones

    1G , con proporcin p(G1)= 1

    2G , con proporcin P(G2)= 12 1

    X es un nuevo vector de datosSi 1Rx 1Gx , el individuo es clasificado como procedente

    del grupo 1G

    Si 2Rx 2Gx , clasificado en 2G

    Las regiones cumplen:

    P21 RRR

    21 RR

    )x(fg funcin de densidad de probabilidad de x si proviene del grupo gG

    gR : Regin de clasificacin de gG

    R : Regla de clasificacin particular.

    R;j/iP : Probabilidad de clasificar una observacin en la poblacin i,

    siendo que procede de j segn la Regla R.

    R;j/iP : Probabilidad de mala clasificacin.

    RiiP ;/ :Probabilidad de clasificacin correcta

    g :Probabilidad a priori, de que la observacin x procede del grupo gG .

    Para g = 2

    P(clasificacin correcta en G1)=P(XR1/ G1)P(G1)=P(1/1) 1

    P(clasificacin correcta en G2)=P(XR2/ G2)P(G2)=P(2/2) 2

    P(clasificacin incorrecta en G1)=P(XR1/ G2)P(G2)=P(1/2) 2

    P(clasificacin incorrecta en G2)=P(XR2/ G1)P(G1)=P(2/1) 1

    P(2/1)= P(XR2/ G1)= dxxfR

    )(

    2

    1

    P(1/2)= P(XR1/ G2)= dxxfR

    )(

    1

    2

    de donde :

    P(Total de mala clasificacin) =

    2

    1i

    i )GgrupoalxmenteequivocadaAsignar(P

    P(Total de mala clasificacin) = 12 1/2P2/1P

  • 7/21/2019 Material Multivariado

    58/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 58

    4.3.1 CRITERIO QUE MINIMIZA PROBABILIDAD DE MALA

    CLASIFICACION

    P(Total de mala clasificacin) =

    2

    1i

    i )GgrupoalxmenteequivocadaAsignar(P

    12 1/22/1in)clasificacmaladeP(Total PP (4.24)

    TPM = 12 1/2P2/1P

    TPM = 12

    )()( 2211RR

    dxxfdxxf (4.25)

    Se trata de hallar R1 y R2 que hace mnima a TPM

    TEOREMA 3

    Sea 1 y 2probabilidades a priori de que un individuo provenga de G 1 Y G2 condensidades f1(x) y f2(x) entonces las regiones de clasificacin R1y R2 satisfacen las

    condiciones:

    R1:1

    2

    2

    1

    )(

    )(

    xf

    xf

    R2:1

    2

    2

    1

    )(

    )(

    xf

    xfregiones que minimizan la probabilidad total de mala Clasificacin

    (TPM)

    La regla de clasificacin es

    )(2 xf)(1 xf

    1R2R

    1G

    2G

    )2/1(p

    )1/2(p

  • 7/21/2019 Material Multivariado

    59/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 59

    Regla1

    Xes clasificado en G1 cuando1

    2

    2

    1

    )(

    )(

    xf

    xf

    (2.35)

    En caso contrario en G2

    4.3.1.1DISTRIBUCIONES ESPECIALES

    A) Poblaciones normales homocedsticos.

    La regla de clasificacin optima basada en la regla 1 tenemos las funciones de

    densidad.

    Poblacin 1: ),u(N~x 11 Poblacin 2: ),u(N~x 22

    Previamente H01: 21 No rechazar

    H02: 21 Rechazar

    Donde matriz de covarianza poblacional y iu vector de medias i = 1, 2

    As

    )x(f

    )x(f

    2

    1

    21'

    21

    1'

    1

    2

    1

    2

    1exp uxuxuxux (4.26)

    Desarrollando

    2

    1'

    22

    11'

    2

    1

    1

    1'

    11

    11'

    1

    1

    2

    1'

    2

    1

    2

    1'

    2

    1

    2

    1'

    2

    1

    2

    1'

    2

    1 xxxxxxxx

    Como

    1

    11'

    1 ' xx

    1

    1'

    22

    1'

    1

    De donde se tiene

    )()'(2

    1)(' 21

    1

    2121

    1 x

    remplazando se tiene:

    )x(f

    )x(f

    2

    1

    211'

    21

    1'

    212

    1exp uuuuxuu (4.27)

    Tomando logaritmos y usando la regla (1) tendremos la siguiente regla de

    clasificacin.

    Asignar x a la poblacin 1G si

  • 7/21/2019 Material Multivariado

    60/128

    Dr. Cleto De La Torre - Anlisis multivariado Pgina 60

    D(x) =

    1

    2

    21log

    2

    1'

    uux (4.28)

    y en caso contrario a 2G

    donde =

    211 uu

    Observacin

    La ecuacin

    1

    2log)x(D define un hiperplano que se para los dos grupo