informe estadistica regresion y correlacion

30
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMÉRICA) FIMMGC-EAP INGENIERIA GEOGRAFICA ESTADISTICA: PRACTICA N° 4 PROFESORA : Martha Nuñez joseli Integrantes de grupo:

Upload: mayrajeral

Post on 18-Feb-2017

385 views

Category:

Education


3 download

TRANSCRIPT

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

(Universidad del Perú, DECANA DE AMÉRICA)

FIMMGC-EAP INGENIERIA GEOGRAFICA

ESTADISTICA: PRACTICA N° 4

PROFESORA :

Martha Nuñez joseli

Integrantes de grupo:

ALVAREZ RIOS, Leneher IrvinHUAMAN CHAUCA, Mayra J.

2015

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

1. Los puntajes en la prueba parcial y final del curso de estadística de una muestra de siete estudiantes fueron los siguientes.

P. parcial(X) 13 15 10 08 16 10 05P. final(Y) 15 14 13 10 17 12 08

a) Obtener la ecuación de regresión de Y sobre X y de X sobre Y.b) Estimar la calificación de un estudiante en la prueba final si en la prueba parcial

obtuvo 11.c) Estimar la calificación de un estudiante en la prueba parcial si en la prueba final

obtuvo 09.d) Calcular e interpretar los coeficientes de correlación.e) Calcular el error de estimación.

Solución: Graficamos y analizamos los datos

4 6 8 10 12 14 16 180

2

4

6

8

10

12

14

16

18

prueba final (Y)

Linear (prueba final (Y))

PRUEBA PARCIAL (X)

PRUE

BA F

INAL

(Y)

YC= a + bX

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Método de mínimos cuadrados (m.m.c) se halla a y b teniendo en cuenta las ecuaciones normales de la recta que son:

∑i=1

N

Yi=Na+∑i=1

N

Xi

∑i=1

N

Yi=a∑i=1

N

Xi+b∑i=1

N

Xi ²

Datos:

∑I=1

N

Xi=77

∑I=1

N

Yi=89

∑I=1

N

XiYi=1047

∑I=1

N

Yi2=1187

∑I=1

N

Xi2=939

Reemplazamos en las ecuaciones normales de las rectas:

89 =7a + 77b

1047=77a + 939b

Entonces los valores de a y b son:

a=4.58, b=0.73

a) Obtener la ecuación de regresión de Y sobre X y de X sobre Y.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Ecuación de Y sobre X seria:

Y = 4.58 + 0.737X

Ecuación de X sobre Y seria por teoría:

Y = 1.59 + 1.01X

b) Estimar la calificación de un estudiante en la prueba final si en la prueba parcial obtuvo 11.

X = 11, entonces reemplazamos en la ecuación: Y = 4.58 + 0.737X Seria: Y = 4.58 + 0.737(11) Y = 12.61

c) Estimar la calificación de un estudiante en la prueba parcial si en la prueba final obtuvo 09.

Y = 9, entonces reemplazamos en la ecuación: Y = 4.58 + 0.737XSeria: 9 = 4.58 + 0.73X X = 6.05

d) Calcular e interpretar los coeficientes de correlación. Hallemos el índice de correlación.

r = √ a∑i=1

N

Yi+b∑i=1

N

YiXi−Nӯ ²

∑i=1

N

Yi ²−Nӯ ²

r = √ 4.58 (89 )+o .737 (1047 )−7(161.65 .)1187−7 (161.65)

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

r = 0.85

Interpretación: el grado de disociación con respecto d la recta de regresión es 0.85 lo cual está garantizando que la recta de regresión es el modelo adecuado para ese conjunto de datos.

e) Calcular el error de estimación.Sabemos que el error de estimación es igual a:

¿√Sys2=√∑i=1

N

(Yi−Yc)2

N

Entonces reemplazamos:

√Sys2=√ 5.2277

¿0.74

2. Los datos que siguen muestran la mejora (ganancia en velocidad de lectura; en palabras por minuto) de seis estudiantes que participaron en un programa de velocidad en la lectura y el número de semanas que han participado en el programa.a) determinar la recta de mínimos cuadrados a partir de la cual podemos

pronosticar la ganancia en velocidad de lectura de una persona que ha tomado parte del programa un numero de semanas dado.

b) Estimar el incremento en la velocidad de lectura que espera lograr una persona que toma parte en el programa durante 5 semanas.

c) Calcular e interpretar el coeficiente de determinación.

Solución:

1ero ordenamos en una taba de distribución

xi yi xiyi xi2 yi

2

4 91 364 16 8281

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

2 50 100 4 25008 210 1680 64 441006 164 984 36 268969 241 2169 81 580813 79 237 9 6241

32 835 5534 210 146099

2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.

1 2 3 4 5 6 7 8 9 100

50

100

150

200

250

300Grafica de dispersion de los puntos X,Y

Valores Y

3ero hallamos los parámetros a , b por el método de mínimos cuadrados

∑i=1

N

Yi=Na+b∑i=1

N

Xi

∑i=1

N

Yi . Xi=a∑i=1

N

Xi+b∑i=1

N

Xi ²

Luego nos va quedar así: 835 = 6a + 32b

5534 = 32a +210b

Resolvemos y nos da los valores de a, b

Yc=a+bX

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

a= -7.36

b=27.47

Remplazando en Y=a+bx

y = -7.36 + 27.47x

Estimando el incremento en la velocidad de lectura que espera lograr una persona que toma parte en el programa durante 5 semanas seria reemplazando en la ecuación anterior:

Y = -7.36 + 27.47(5)

Y = 129.99

Para calcular e interpretar el coeficiente de determinación, sabemos que:

Coeficiente de determinación = r2

Entonces hallamos r:

r = √ a∑i=1

N

Yi+b∑i=1

N

YiXi−Nӯ ²

∑i=1

N

Yi ²−Nӯ ²

r = √ (−7.36 ) 835+27.47 (5534 )−6(19367.3)146099−6(19367.3)

r = 0.996

Entonces: r2 = 0.992

Interpretación: el 99.2 % de la variabilidad se ha explicado o eliminado gracias a la regla de regresión.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

3. Si (X1,Y1),(X2,Y2),…(Xn,Yn) cumplen la relación Y=bX, estimar el valor de b usando el método de mínimos cuadrados.

Solución:

∑i=1

N

Yi=Na+∑i=1

N

Xi

∑i=1

N

Yi=a∑i=1

N

Xi+b∑i=1

N

Xi ²

En la ecuación que nos dan seria:

∑i=1

N

Yi=∑i=1

N

Xi

∑i=1

N

Yi=b∑i=1

N

Xi ²

4. Se han estudiado las calificaciones de 60 estudiantes en la asignaturas de matemática y estadística, obteniéndose los siguientes resultados:

X: puntaje en matemáticaY: puntaje en estadística

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

X =13 Y = 12.5 Sx = 2 Sy = 1.2 r = 0.9

a) Estimar el puntaje de un estudiante en Estadística si en matemática obtuvo 14b) Para un estudiante que en Estadística obtuvo 10, que puntaje se estima

obtendría en matemática.

Solución:

A la vez X e Y son medias aritméticas de las calificaciones de los 60 estudiantes.

Se sabe que:

r = S xySxSy

0.9 = S xy

2×1.2 SXY = 2.16

También se sabe que la pendiente de la recta es b:

b = S XYSx2

2.16

4 = 0.54

Y = a + bX

12.5 = a + 0.54×13

a = 5.48

La ecuación de regresión es: Yc = 5.48 + 0.54X

a) Si el puntaje en matemáticas fue 14 , entonces X¿14 ,reemplazamos en la ecuación hallada:

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Yc = 5.48 + 0.54X

YC= 5.48 + 0.54(14)

YC= 13.04, el puntaje de estadística estimado seria 13.04.

b) Si el puntaje en estadística fue 10, entonces yc=10, reemplazamos en la ecuación hallada:

Yc = 5.48 + 0.54X

10= 5.48 + 0.54X

X= 8.37, el puntaje de matemáticas estimado seria 8.37.

5. Si Y=2 + 0.8X, Y =10, S2X=49, S2

Y=64, obtener la ecuación de regresión lineal de X sobre Y.

Solución:

Y - Y = b(X - X ) Y – 10 = 0.8(X - X )

Y = (10 - 0.8X ) + 0.8X ≅ Y=2 + 0.8X

Entonces.

10 - 0.8X= 2

X=10

Además se sabe que:

b = S XYSx2

0.8 = S XY49

SXY= 39.2

r = S xySxSy

39.263 = 0.62

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

r2= 0.387

b.d=r2

b.d= 0.387

(0.8)d = 0.387

d= 0.483

Entonces la ecuación de regresión lineal de X sobre Y:

Y - Y = 1d (X - X )

Tendríamos:

Y -10 = 2.06 (X – 10)

Y = -10.06 + 2.06X

6. Para las variables X e Y tenemos que r=0.6, SX=1.5, SY=2,X=10, Y =20.a) Obtener las ecuaciones de regresión lineal de Y sobre X y de X sobre Y.b) Calcular el error de estimación de Y respecto a X.

Solución:

r = S xySxSy b =

S XYSx2

0.6 = S xy

1.5(2) b = 0.9

(1.5)(1.5)

0.9=S xy b = 0.4

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Entonces:

La ecuación de regresión lineal de Y sobre X.

Y - Y = b(X - X )

La ecuación de regresión lineal de X sobre Y.

Y - Y = 1d (X - X )

Además que: b.d = r2 d = 0.90

Reemplazamos:

La ecuación de regresión lineal de Y sobre X.

Y - 20 = 0.4(X -10) Y= 16 + 0.4X

La ecuación de regresión lineal de X sobre Y.

Y - 20 = 1

0.9 (X -10)

Y =8.9 + 1.11X

Calculamos el error de estimación de Y sobre X. Se sabe: r= 0.6

0.6=√ Syc2

4

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

0.36(4)=Syc2

1.44 = Syc2

Tenemos que:

Sy2¿ Syc2+Sys2

4=1.44+Sys2

Sys2=2.56

Entonces el error de estimación seria

√Sys2= 1.6

7. si Sy = 0.2Sx y se sabe que r = 0.8.

Hallar el coeficiente de regresión de la recta: y = a + bx

Solución:

El coeficiente de regresión de la recta es nada más que la pendiente. “b” y también es el coeficiente de regresión lineal.

Sabiendo que:

b = SxySx ² r =

SxySxSy

Resolvemos: 0.8 = Sxy

0.2SxSx

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

0.16 = SxySx ²

Entonces el coeficiente de regresión es

b = 0.16

8. Las pruebas sobre el consumo de combustible de un vehiculo que viaja a diferentes velocidades produjeron los siguientes datos codificados

X Velocidad (v)

20 30 40 50 60 70

Y Consumo (C)

18.3 18.8 19.1 19.3 19.5 19.7

a) Ajustar a dichos datos una ecuacion de regresión de la forma C = A + B/Vb) Estimar C para una velocidad de 45

Solución:

1ero ordenamos en una taba de distribución

x Y XY X2 Y2

v c20 18.3 366 400 334.8930 18.8 564 900 353.4440 19.1 764 1600 364.8150 19.3 965 2500 372.4960 19.5 1170 2600 380.2570 19.7 1379 4900 388.09

270 114.7 5208 13900 2193.97

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.

10 20 30 40 50 60 70 8017.5

18

18.5

19

19.5

20

Grafica de dispersion de los puntos X,Y

3ero hallamos los parámetros a , b por el método de mínimos cuadrados

Y=a+b /X

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

∑i=1

N

Yi=Na+b∑i=1

N

Xi

∑i=1

N

Yi . Xi=a∑i=1

N

Xi+b∑i=1

N

Xi ²

Luego nos va quedar así: 114.7= 6a + 270b

5208 = 270a +13900b

Resolvemos y nos da los valores de a, b

a= 17.92

b=0.026

Remplazando en Y=a+ b/x ≅ C = A + B/V

C= 17.92 + 0.026/V

Estimando C para una velocidad de 45 seria:

C= 17.92 + 0.026/45

C= 17.9205

9. el número de bacterias por unidad de volumen en un cultivo tras X horas viene dado en la siguiente tabla:

X Numero de horas

0 1 2 3 4 5 6

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Y Numero de

bacterias

32 47 65 92 132 190 275

c) ajustar una curva de mínimos cuadrado de la forma Y = a.bx a los datos.d) estimar el valor de Y cuando X = 7

Solución:

1ero ordenamos en una taba de distribución

X Y Logy (logy)x X2 Logy2

0 32 1.5051 0 0 2.2651 47 1.672 1.672 1 2.7952 65 1.8129 3.6258 4 3.2833 92 1.9637 5.8911 9 3.8534 132 2.1205 8.482 16 4.4945 190 2.2787 11.3935 25 5.18926 275 2.4393 14.6358 36 5.94821 833 13.792 45.7002 91 27.827

2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

0 1 2 3 4 5 6 70

50

100

150

200

250

300

Grafica de dispersion de los puntos X,Y

3ro determinamos los parámetros a y b por el método de mínimos cuadrados.

Ecuación normal de la función exponencial

∑i=1

N

( logyi )=Nloga+logb∑i

N

x i

∑i=1

N

( logyi ) (xi )=loga∑i=1

N

x i+logb∑i=1

N

¿¿¿¿

Remplazamos la información obtenida en la distribución de la tabla.

13.792=7loga+21logb

34.50=21loga+91logb

Operando las ecuaciones los valores:

Loga= 1.506 a=32.06

logb =0.15 b=1.41

Sustituyendo los parámetros a y b en la función:

Y=abx

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

y = (32.06)1.41x

Estimando el valor de Y cuando X = 7 seria:

y = (32.06)1.41x

y = (32.06)1.41(7)

y = 355.21

10. Los siguientes datos se refieren a la dosis de rayos cósmicos medidos a varias altitudes

Altura (en pies)X 50 450 780 1200 4400 4800 5300Dosis Y 28 30 32 36 51 58 69

a. Ajustar esos datos a una curva de la forma Y=a . eex

b. El resultado obtenido en “a” para estimar la dosis media a una altitud de 3000pies.

Solución:

∑i=1

N

LogYi=N . log A+LogB∑i=1

N

Xi

∑i=1

N

(LogYi ) . (Xi )=¿ LogA .∑i=1

N

Xi+LogB∑i=1

N

Xi2¿

Reemplazando: 11,295579 = LogA . 7+ LogB.16980

29502,30578 = Log A .16980 + LogB . 72743400

LogA= 1.452031566 LogB= 6.662885957 x 10-5

A= 28.31597798 B= 1.00015343

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

B= ec c= ln(1.00015343) =1.5341861 x 10-4

a) Ecuación: Y=28,31597798 . e (1,5341861 .10−4 ) . X

b) X= 3000 pies Y=28,31597798 . e (1,5341861 .10−4 ) .3000

Y= 44.8660807

11. La presión P(kg/cm2) de un gas correspondiente a diferentes volúmenes V(cm3) se registró de la siguiente manera:

VolumenPresiónLa ley de los gases ideales da la ecuación PVa = C, donde a y C son constantes.

a) Encuentre las estimaciones de mínimos cuadrados de a y C de los datos proporcionados.

b) Estime P cuando V= 80 centímetros cúbicos.

Volumen (V) 50 60 70 90 100Presión (P) 64.7 51.3 40.5 25.9 7.8

La ley de los gases ideales da la ecuación P.Va = C, donde a y C son constantes a) Encuentre las estimaciones de mínimos cuadrados de a y C de los datos

proporcionados.b) Estime P cuando V=80 centímetros cúbicos.

Solución:

Llamamos V = X y P = YTABLA PARA METODO DE MINIMOS CUADRADOS

Xi Yi log Xi log Yi log Xi log Yi (log Xi)2

50 64.7 1.699 1.811 3.077 2.88760 51.3 1.778 1.709 3.039 3.16170 40.5 1.845 1.607 2.965 3.40490 25.9 1.954 1.413 2.761 3.818

100 7.8 2.00 0.892 1.784 4.000370 190,1 9.276 7.432 13.626 17.270

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Determinamos a y b. por m.m.c.

∑i=1

N

logYi=Nloga+b∑i=1

N

logXi

∑i=1

N

logYi logXi=loga∑i=1

N

logXi+b∑i=1

N

(logXi)2

Sustituyendo:7.432 = 5loga + b9.276

13.626 = 9.276loga + b17.270

Resolviendo el sistema, tenemos:

b = -2.644loga = 6.392 ⇒ a = 2466039

Ecuación: Y = 2466039 X-2.644

b) Y =2466039 (80)-2.644 ⇒ Y = 22.92 Kg/cm3

12. En la tabla siguiente, Y es la presión barométrico medida a la altura X sobre el nivel mar.

Y (pulgadas) 29.9 29.4 29.0 28.4 27.7

X (minutos) .0 500 1000 1500 2000

a) Usar el método de mínimos cuadrados para ajustar una curva exponencial de la forma:

Y = a.e-bx

b) Estimar Y para una altura de 2500 pies.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Solución:

a)

Xi Yi Xi2 Log(Yi) Log(Yi) . Xi0 29,9 0 1,475671188 0

500 29,4 250000 1,46834733 734,1736651000 29 1000000 1,462397998 1462,3981500 28,4 2250000 1,45331834 2179,977512000 27,7 4000000 1,442479769 2884,95954

∑=5000 ∑=144,4 ∑=7500000

∑=7,302214626

∑=7261,50871

∑logy = nloga + ∑x log b

∑xlogy=∑log X + ∑ X2logb

sustituyendo:

7.3019=5loga + 5000logb

a=30.7265; b=0.999937525

Y=a .bx

b = e-Bx B =( 6.2476 ).10-5

Ecuación :

Y=30.7265e –(6.2476).X.10-5

c) Para 2500 pies ; Y= 26.2833 pulgadas

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

13. Los datos siguientes pertenecen a la cantidad de una sustancias que permanece en un sistema químico en reacción después de X minutos:a) Ajustar una curva de Gompertz de la forma:

Y = eeax+b

b) Estimar Y para X = 8

Solución:

Yi Xi log Yi log (Yi).Xi (Xi)2

96 1 1.982 1.982 175 5 1.875 9.375 2563 10 1.799 17.99 10030 25 1.477 36.929 6259 50 0.954 47.700 25002 100 0.301 30.100 10000X 191 8.388 144.076 13251

Determinamos a y b. por m.m.c.

∑i=1

N

logYi=Nloga+logb∑i=1

N

Xi

∑i=1

N

logYi Xi=loga∑i=1

N

Xi+logb∑i=1

N

(Xi)2

Sustituyendo:8.388 = 6loga + logb 191

144.076 = 191loga + logb 13251

Resolviendo el sistema, tenemos:

Logb = -0.0171b = 0.9614a = 1.9424

Ecuación: Y = ee1.9424X +0.9614

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

Para X=8b) Y = 68.253 gr

⇒ En 8 minutos existirá 68.253 gr de sustancia.

14.- El número de pulgadas que una estructura recién construida se ah hundido en el terreno está dado por:

Y=3−3eaX

Donde X es su edad en meses.

X 2 4 6 12 18 24Y 1.07 1.88 2.26 2.78 2.97 2.99

Use el método de mínimos cuadrados para estimar a.

Solución:

Y: Nº pulgadas

X: edad en Nº meses

Yi Xi log Yi log (Yi).Xi (Xi)2

1.07 2 1.029 0.058 41.88 4 0.274 1.096 82.26 6 0.354 2.124 362.78 12 0.444 5.328 1442.97 18 0.473 8.514 3242.99 24 0.476 11.424 576

X 66 2.05 28.544 1092

Determinamos a y b. por m.m.c.

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)

∑i=1

N

logYi=Nloga+logb∑i=1

N

Xi

∑i=1

N

logYi Xi=loga∑i=1

N

Xi+logb∑i=1

N

(Xi)2

Sustituyendo:2.05 = 6loga + logb 66

28.544 = 66loga + logb 1092

Resolviendo el sistema, tenemos:

Logb = 0.0164b = 1.0385a = 1.4498