descripción conjunta de dos variables

26
Ignacio Cascos Depto. Estadística, Universidad Carlos III 1 Descripción conjunta de dos variables Tema 2

Upload: tierra

Post on 11-Jan-2016

35 views

Category:

Documents


0 download

DESCRIPTION

Descripción conjunta de dos variables. Tema 2. Descripción breve del tema. Introducción Distribuciones de frecuencias Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables Representaciones gráficas Diagrama de dispersión - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 1

Descripción conjunta de dos variables

Tema 2

Page 2: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 2

Descripción breve del tema1. Introducción2. Distribuciones de frecuencias

Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables

3. Representaciones gráficas Diagrama de dispersión Otras representaciones

4. Medidas de dependencia lineal Covarianza Correlación

Page 3: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 3

Objetivos Reconocer la importancia del estudio

conjunto de varias variables. Calcular distribuciones marginales y

condicionadas a partir de la conjunta. Comprender el concepto de independencia

entre variables. Conocer medidas de dependencia lineal e

interpretar su signo.

Page 4: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 4

Descripción breve del tema1. Introducción2. Distribuciones de frecuencias

Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables

3. Representaciones gráficas Diagrama de dispersión Otras representaciones

4. Medidas de dependencia lineal Covarianza Correlación

Page 5: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 5

Introducción El estudio conjunto de dos variables, nos

permite analizar las relaciones entre ellas. La ausencia total de relación lleva el nombre

de independencia. Puede predecirse una variable a partir de otra. Las representaciones gráficas son de gran

ayuda.

Page 6: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 6

Descripción breve del tema1. Introducción2. Distribuciones de frecuencias

Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables

3. Representaciones gráficas Diagrama de dispersión Otras representaciones

4. Medidas de dependencia lineal Covarianza Correlación

Page 7: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 7

Distribuciones de frecuenciasPodemos tener cualquier combinación de variables cuantitativas / cualitativas.

Partimos de dos variables X e Y tales que X toma k valores distintos, x1,…, xk

( si cuantitativa x1< … < xk ) Y toma r valores distintos, y1,…, yr

( si cuantitativa y1< … < yr ) Frecuencia absoluta conjunta del par ( xi , yj )

número de veces que el dato ( xi , yj ) aparece en la muestra, nij Frecuencia relativa conjunta del par ( xi , yj )

cociente de frecuencia absoluta entre tamaño, fij= nij /n

Page 8: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 8

Distribución conjunta de frecuenciasPodemos construir una tabla (de contingencia o de doble entrada)

para la distribución conjunta de frecuencias de X e Y (con frec.

relativas o absolutas).

X\Y y1 y2 … yr

x1 n11 n12 … n1r

x2 n21 n22 … n2r

… … … … …

xk nk1 nk2 … nkr

Page 9: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 9

Distribución conjunta de frecuenciasPAU 2005, Madrid

UNI. \RES. Aprobados Suspensos

Alcalá de Henares

2780 617

Autónoma de Madrid

7203 1664

Carlos III 2734 636

Complutense de Madrid

9686 2608

Rey Juan Carlos

2189 796

UNI. \RES. Aprobados Suspensos

Alcalá de Henares

0’09 0’02

Autónoma de Madrid

0’233 0’054

Carlos III 0’088 0’021

Complutense de Madrid

0’313 0’084

Rey Juan Carlos

0’071 0’026

Page 10: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 10

Distribuciones marginalesSe obtienen al estudiar cada variable por separado.Nos interesa sólo el comportamiento de X (o de Y). Frecuencias absolutas marginales

ni· número de veces que la variable X toma el valor xi en la

muestra. Es la suma de nij con j de 1 a r.

n·j número de veces que la variable Y toma el valor yj en la

muestra. Es la suma de nij con i de 1 a k. Frecuencias relativas marginales

cociente de frecuencia absoluta entre tamaño, f(xi)=fi·= ni·/n

cociente de frecuencia absoluta entre tamaño, f(yj)=f·j= n·j/n

Page 11: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 11

Distribuciones marginalesPAU 2005

UNI. \RES. Aprobados Suspensos Total

Alcalá de Henares 2780 617 3397

Autónoma de Madrid

7203 1664 8867

Carlos III 2734 636 3370

Complutense de Madrid

9686 2608 12294

Rey Juan Carlos 2189 796 2985

Total 24592 6321 30913

UNI.ni· fi·

ual 3397 0’11

uam 8867 0’287

uc3m 3370 0’109

ucm 12294 0’398

urjc 2985 0’096RES.

n·j f·j

Aprobado 24592 0’796

Suspensos 6321 0’204

Page 12: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 12

Distribuciones condicionadasNos interesan sólo los individuos que toman el valor xi en la variable X.

La variable Y definida en ese conjunto se denomina variable

condicionada y se representa Y|X=xi

Frecuencias relativas condicionadas

la frecuencia relativa de yj condicionada a X=xi representa la proporción de individuos que presentan Y=yj de entre los que tienen X=xi ; f(yj|xi)= nij/ni·= f( xi , yj)/f(xi)

la frecuencia relativa de xi condicionada a Y=yj representa la proporción de individuos que presentan X=xi de entre los que tienen Y=yj ; f(xi|yj)= nij/n·j= f( xi , yj)/f(yj)

Page 13: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 13

Distribuciones condicionadasRESULTADO

| UNIV=ualn1j f(yj|x1)

Aprobados 2780 0’818

Suspensos 617 0’182

RESULTADO

| UNIV=ucmn4j f(yj|x4)

Aprobados 9686 0’788

Suspensos 2608 0’212

RESULTADO

| UNIV=urjcn5j f(yj|x5)

Aprobados 2189 0’733

Suspensos 796 0’267

RESULTADO

| UNIV=uamn2j f(yj|x2)

Aprobados 7203 0’812

Suspensos 1664 0’188

Page 14: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 14

Distribuciones condicionadasEn la tabla superior se estudia la

variable Resultado condicionada a

que la variable Universidad tome

el valor Carlos III.

En la tabla inferior se estudia la

variable marginal Resultado.

RESULTADO

| UNIV=uc3mn3j f(yj|x3)

Aprobados 2734 0’811

Suspensos 636 0’189

RESULTADOn·j f·j

Aprobados 24592 0’796

Suspensos 6321 0’204

Page 15: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 15

Independencia entre variablesDos variables son independientes si no existe ninguna relación

entre ellas.

A partir del valor que toma una variable no obtenemos ninguna

información sobre el valor que tomará la otra.

La distribución de frecuencias relativas condicionadas de Y|X=xi

es la misma, independientemente del valor que tome i

f(yj|xi)=f(yj) para todo i,j

X e Y independientes si f(xi , yj)=f(yj|xi)f(xi)=f(xi)f(yj) para todo i,j

Page 16: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 16

Independencia entre variablesEjemplo: Realizamos una encuesta a 280 personas para

estudiar si el hábito de fumar está relacionado con el

sexo del individuo (si es más frecuente en hombres o en

mujeres).

H\F 0 1 ni·

0 72 48 120

1 96 64 160

n·j168 112 280

H\F 0 1 fi·

0 9/35 6/35 3/7

1 12/35 8/35 4/7

f·j3/5 2/5 1

Page 17: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 17

Descripción breve del tema1. Introducción2. Distribuciones de frecuencias

Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables

3. Representaciones gráficas Diagrama de dispersión Otras representaciones

4. Medidas de dependencia lineal Covarianza Correlación

Page 18: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 18

Diagrama de dispersiónPlot of 100m vs long jump

long jump

100m

6,6 6,9 7,2 7,5 7,8 8,110,4

10,6

10,8

11

11,2

11,4

11,6

Plot of long jump vs shot put

13 14 15 16 17

shot put

6,6

6,9

7,2

7,5

7,8

8,1

long

jum

p

Plot of shot put vs 100m

100m

shot

put

10,4 10,6 10,8 11 11,2 11,4 11,613

14

15

16

17

En una nube de puntos o diagrama de dispersión, cada dato (xi,yj) de la muestra, se representa por un único punto de abscisa xi y ordenada yj

Page 19: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 19

Diagrama de dispersiónEn una nube de puntos podemos ver distintos tipos de dependencias entre las variables.

También podemosobservar visualmentela presencia de mezcla de poblaciones

Plot of peso vs altura

160 165 170 175 180 185 190

altura

47

57

67

77

87

97

peso

4.5 5.0 5.5 6.0 6.5 7.0

2.0

2.5

3.0

3.5

4.0

Plot for iris setosa and versicolor

sepal length

sepa

l wid

th

4.5 5.0 5.5 6.0 6.5 7.0

2.0

2.5

3.0

3.5

4.0

Plot for iris setosa and versicolor

sepal length

sepa

l wid

th

Page 20: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 20

Diagramas de barras agrupados

Para variables cualitativas

o cuantitativas discretas

con pocos valores, la

representación más

habitual son los diagramas

de barras agrupados

0 2 4 6 8 10(X 1000)

frequency

Barchart

ual

uam

uc3m

ucm

urjc

aprobadossuspensos

percentage

Barchart

aprobadossuspensos

0 10 20 30 40

ual

uam

uc3m

ucm

urjc

Page 21: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 21

Descripción breve del tema1. Introducción2. Distribuciones de frecuencias

Distribución conjunta Distribuciones marginales Distribuciones condicionadas Independencia entre variables

3. Representaciones gráficas Diagrama de dispersión Otras representaciones

4. Medidas de dependencia lineal Covarianza Correlación

Page 22: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 22

Medidas de dependencia lineal Covarianza: mide la asociación lineal entre dos

variables

Si X e Y son independientes, entonces sXY = 0, pero

el recíproco no es cierto.

La covarianza viene dada en las unidad producto de las

de X e Y y su signo resulta muy interesante.

r

jjiij

k

iXY

r

jjiij

k

iXY yxyxfsyyxxfs

1111

;

Page 23: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 23

Signo de la covarianza

-2 -1 0 1 2-2,2

-1,2

-0,2

0,8

1,8

2,8

-1,4 -0,4 0,6 1,6 2,6-2,2

-1,2

-0,2

0,8

1,8

2,8

-2,5 -1,5 -0,5 0,5 1,5 2,5-2,2

-1,2

-0,2

0,8

1,8

2,8

-2,2 -1,2 -0,2 0,8 1,8 2,8-0,4

0,6

1,6

2,6

3,6

4,6

5,6

Page 24: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 24

Covarianza

Plot of long jump vs shot put

13 14 15 16 17

shot put

6,6

6,9

7,2

7,5

7,8

8,1

long

jum

p

x:14,5702 y:7,26124

Resultados en los 100m lisos, salto de longitud y lanzamiento de peso de los 29 atletas que puntuaron en las tres pruebas en la decatlón de las Olimpiadas de Atenas 2004.

Plot of shot put vs 100m

100m

shot

put

10,4 10,6 10,8 11 11,2 11,4 11,613

14

15

16

17

x:10,9286 y:14,574

Plot of 100m vs long jump

long jump

100m

6,6 6,9 7,2 7,5 7,8 8,110,4

10,6

10,8

11

11,2

11,4

11,6

x:7,26816 y:10,9224

sXY=0’059

sXY=-0’054

sXY=-0’09

Page 25: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 25

Correlación Correlación: mide la asociación lineal entre dos

variables y es adimensional.

Tiene el mismo signo que la covarianza.

YX

XYXY ss

sr

11 XYr

Si rXY = 0 X e Y se dicen incorreladas. Si rXY = 1 ó rXY = -1, la relación lineal entre X e Y es perfecta.

Page 26: Descripción conjunta de dos variables

Ignacio Cascos Depto. Estadística, Universidad Carlos III 26

Correlación

Plot of long jump vs shot put

13 14 15 16 17

shot put

6,6

6,9

7,2

7,5

7,8

8,1

long

jum

p

x:14,5702 y:7,26124

Plot of shot put vs 100m

100m

shot

put

10,4 10,6 10,8 11 11,2 11,4 11,613

14

15

16

17

x:10,9286 y:14,574

Plot of 100m vs long jump

long jump

100m

6,6 6,9 7,2 7,5 7,8 8,110,4

10,6

10,8

11

11,2

11,4

11,6

x:7,26816 y:10,9224

rXY=0’196

rXY=-0’686

rXY=-0’429

Resultados en los 100m lisos, salto de longitud y lanzamiento de peso de los 29 atletas que puntuaron en las tres pruebas en la decatlón de las Olimpiadas de Atenas 2004.