informe estadistica regresion y correlacion
TRANSCRIPT
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS
(Universidad del Perú, DECANA DE AMÉRICA)
FIMMGC-EAP INGENIERIA GEOGRAFICA
ESTADISTICA: PRACTICA N° 4
PROFESORA :
Martha Nuñez joseli
Integrantes de grupo:
ALVAREZ RIOS, Leneher IrvinHUAMAN CHAUCA, Mayra J.
2015
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
1. Los puntajes en la prueba parcial y final del curso de estadística de una muestra de siete estudiantes fueron los siguientes.
P. parcial(X) 13 15 10 08 16 10 05P. final(Y) 15 14 13 10 17 12 08
a) Obtener la ecuación de regresión de Y sobre X y de X sobre Y.b) Estimar la calificación de un estudiante en la prueba final si en la prueba parcial
obtuvo 11.c) Estimar la calificación de un estudiante en la prueba parcial si en la prueba final
obtuvo 09.d) Calcular e interpretar los coeficientes de correlación.e) Calcular el error de estimación.
Solución: Graficamos y analizamos los datos
4 6 8 10 12 14 16 180
2
4
6
8
10
12
14
16
18
prueba final (Y)
Linear (prueba final (Y))
PRUEBA PARCIAL (X)
PRUE
BA F
INAL
(Y)
YC= a + bX
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Método de mínimos cuadrados (m.m.c) se halla a y b teniendo en cuenta las ecuaciones normales de la recta que son:
∑i=1
N
Yi=Na+∑i=1
N
Xi
∑i=1
N
Yi=a∑i=1
N
Xi+b∑i=1
N
Xi ²
Datos:
∑I=1
N
Xi=77
∑I=1
N
Yi=89
∑I=1
N
XiYi=1047
∑I=1
N
Yi2=1187
∑I=1
N
Xi2=939
Reemplazamos en las ecuaciones normales de las rectas:
89 =7a + 77b
1047=77a + 939b
Entonces los valores de a y b son:
a=4.58, b=0.73
a) Obtener la ecuación de regresión de Y sobre X y de X sobre Y.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Ecuación de Y sobre X seria:
Y = 4.58 + 0.737X
Ecuación de X sobre Y seria por teoría:
Y = 1.59 + 1.01X
b) Estimar la calificación de un estudiante en la prueba final si en la prueba parcial obtuvo 11.
X = 11, entonces reemplazamos en la ecuación: Y = 4.58 + 0.737X Seria: Y = 4.58 + 0.737(11) Y = 12.61
c) Estimar la calificación de un estudiante en la prueba parcial si en la prueba final obtuvo 09.
Y = 9, entonces reemplazamos en la ecuación: Y = 4.58 + 0.737XSeria: 9 = 4.58 + 0.73X X = 6.05
d) Calcular e interpretar los coeficientes de correlación. Hallemos el índice de correlación.
r = √ a∑i=1
N
Yi+b∑i=1
N
YiXi−Nӯ ²
∑i=1
N
Yi ²−Nӯ ²
r = √ 4.58 (89 )+o .737 (1047 )−7(161.65 .)1187−7 (161.65)
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
r = 0.85
Interpretación: el grado de disociación con respecto d la recta de regresión es 0.85 lo cual está garantizando que la recta de regresión es el modelo adecuado para ese conjunto de datos.
e) Calcular el error de estimación.Sabemos que el error de estimación es igual a:
¿√Sys2=√∑i=1
N
(Yi−Yc)2
N
Entonces reemplazamos:
√Sys2=√ 5.2277
¿0.74
2. Los datos que siguen muestran la mejora (ganancia en velocidad de lectura; en palabras por minuto) de seis estudiantes que participaron en un programa de velocidad en la lectura y el número de semanas que han participado en el programa.a) determinar la recta de mínimos cuadrados a partir de la cual podemos
pronosticar la ganancia en velocidad de lectura de una persona que ha tomado parte del programa un numero de semanas dado.
b) Estimar el incremento en la velocidad de lectura que espera lograr una persona que toma parte en el programa durante 5 semanas.
c) Calcular e interpretar el coeficiente de determinación.
Solución:
1ero ordenamos en una taba de distribución
xi yi xiyi xi2 yi
2
4 91 364 16 8281
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
2 50 100 4 25008 210 1680 64 441006 164 984 36 268969 241 2169 81 580813 79 237 9 6241
32 835 5534 210 146099
2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.
1 2 3 4 5 6 7 8 9 100
50
100
150
200
250
300Grafica de dispersion de los puntos X,Y
Valores Y
3ero hallamos los parámetros a , b por el método de mínimos cuadrados
∑i=1
N
Yi=Na+b∑i=1
N
Xi
∑i=1
N
Yi . Xi=a∑i=1
N
Xi+b∑i=1
N
Xi ²
Luego nos va quedar así: 835 = 6a + 32b
5534 = 32a +210b
Resolvemos y nos da los valores de a, b
Yc=a+bX
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
a= -7.36
b=27.47
Remplazando en Y=a+bx
y = -7.36 + 27.47x
Estimando el incremento en la velocidad de lectura que espera lograr una persona que toma parte en el programa durante 5 semanas seria reemplazando en la ecuación anterior:
Y = -7.36 + 27.47(5)
Y = 129.99
Para calcular e interpretar el coeficiente de determinación, sabemos que:
Coeficiente de determinación = r2
Entonces hallamos r:
r = √ a∑i=1
N
Yi+b∑i=1
N
YiXi−Nӯ ²
∑i=1
N
Yi ²−Nӯ ²
r = √ (−7.36 ) 835+27.47 (5534 )−6(19367.3)146099−6(19367.3)
r = 0.996
Entonces: r2 = 0.992
Interpretación: el 99.2 % de la variabilidad se ha explicado o eliminado gracias a la regla de regresión.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
3. Si (X1,Y1),(X2,Y2),…(Xn,Yn) cumplen la relación Y=bX, estimar el valor de b usando el método de mínimos cuadrados.
Solución:
∑i=1
N
Yi=Na+∑i=1
N
Xi
∑i=1
N
Yi=a∑i=1
N
Xi+b∑i=1
N
Xi ²
En la ecuación que nos dan seria:
∑i=1
N
Yi=∑i=1
N
Xi
∑i=1
N
Yi=b∑i=1
N
Xi ²
4. Se han estudiado las calificaciones de 60 estudiantes en la asignaturas de matemática y estadística, obteniéndose los siguientes resultados:
X: puntaje en matemáticaY: puntaje en estadística
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
X =13 Y = 12.5 Sx = 2 Sy = 1.2 r = 0.9
a) Estimar el puntaje de un estudiante en Estadística si en matemática obtuvo 14b) Para un estudiante que en Estadística obtuvo 10, que puntaje se estima
obtendría en matemática.
Solución:
A la vez X e Y son medias aritméticas de las calificaciones de los 60 estudiantes.
Se sabe que:
r = S xySxSy
0.9 = S xy
2×1.2 SXY = 2.16
También se sabe que la pendiente de la recta es b:
b = S XYSx2
2.16
4 = 0.54
Y = a + bX
12.5 = a + 0.54×13
a = 5.48
La ecuación de regresión es: Yc = 5.48 + 0.54X
a) Si el puntaje en matemáticas fue 14 , entonces X¿14 ,reemplazamos en la ecuación hallada:
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Yc = 5.48 + 0.54X
YC= 5.48 + 0.54(14)
YC= 13.04, el puntaje de estadística estimado seria 13.04.
b) Si el puntaje en estadística fue 10, entonces yc=10, reemplazamos en la ecuación hallada:
Yc = 5.48 + 0.54X
10= 5.48 + 0.54X
X= 8.37, el puntaje de matemáticas estimado seria 8.37.
5. Si Y=2 + 0.8X, Y =10, S2X=49, S2
Y=64, obtener la ecuación de regresión lineal de X sobre Y.
Solución:
Y - Y = b(X - X ) Y – 10 = 0.8(X - X )
Y = (10 - 0.8X ) + 0.8X ≅ Y=2 + 0.8X
Entonces.
10 - 0.8X= 2
X=10
Además se sabe que:
b = S XYSx2
0.8 = S XY49
SXY= 39.2
r = S xySxSy
39.263 = 0.62
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
r2= 0.387
b.d=r2
b.d= 0.387
(0.8)d = 0.387
d= 0.483
Entonces la ecuación de regresión lineal de X sobre Y:
Y - Y = 1d (X - X )
Tendríamos:
Y -10 = 2.06 (X – 10)
Y = -10.06 + 2.06X
6. Para las variables X e Y tenemos que r=0.6, SX=1.5, SY=2,X=10, Y =20.a) Obtener las ecuaciones de regresión lineal de Y sobre X y de X sobre Y.b) Calcular el error de estimación de Y respecto a X.
Solución:
r = S xySxSy b =
S XYSx2
0.6 = S xy
1.5(2) b = 0.9
(1.5)(1.5)
0.9=S xy b = 0.4
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Entonces:
La ecuación de regresión lineal de Y sobre X.
Y - Y = b(X - X )
La ecuación de regresión lineal de X sobre Y.
Y - Y = 1d (X - X )
Además que: b.d = r2 d = 0.90
Reemplazamos:
La ecuación de regresión lineal de Y sobre X.
Y - 20 = 0.4(X -10) Y= 16 + 0.4X
La ecuación de regresión lineal de X sobre Y.
Y - 20 = 1
0.9 (X -10)
Y =8.9 + 1.11X
Calculamos el error de estimación de Y sobre X. Se sabe: r= 0.6
0.6=√ Syc2
4
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
0.36(4)=Syc2
1.44 = Syc2
Tenemos que:
Sy2¿ Syc2+Sys2
4=1.44+Sys2
Sys2=2.56
Entonces el error de estimación seria
√Sys2= 1.6
7. si Sy = 0.2Sx y se sabe que r = 0.8.
Hallar el coeficiente de regresión de la recta: y = a + bx
Solución:
El coeficiente de regresión de la recta es nada más que la pendiente. “b” y también es el coeficiente de regresión lineal.
Sabiendo que:
b = SxySx ² r =
SxySxSy
Resolvemos: 0.8 = Sxy
0.2SxSx
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
0.16 = SxySx ²
Entonces el coeficiente de regresión es
b = 0.16
8. Las pruebas sobre el consumo de combustible de un vehiculo que viaja a diferentes velocidades produjeron los siguientes datos codificados
X Velocidad (v)
20 30 40 50 60 70
Y Consumo (C)
18.3 18.8 19.1 19.3 19.5 19.7
a) Ajustar a dichos datos una ecuacion de regresión de la forma C = A + B/Vb) Estimar C para una velocidad de 45
Solución:
1ero ordenamos en una taba de distribución
x Y XY X2 Y2
v c20 18.3 366 400 334.8930 18.8 564 900 353.4440 19.1 764 1600 364.8150 19.3 965 2500 372.4960 19.5 1170 2600 380.2570 19.7 1379 4900 388.09
270 114.7 5208 13900 2193.97
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.
10 20 30 40 50 60 70 8017.5
18
18.5
19
19.5
20
Grafica de dispersion de los puntos X,Y
3ero hallamos los parámetros a , b por el método de mínimos cuadrados
Y=a+b /X
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
∑i=1
N
Yi=Na+b∑i=1
N
Xi
∑i=1
N
Yi . Xi=a∑i=1
N
Xi+b∑i=1
N
Xi ²
Luego nos va quedar así: 114.7= 6a + 270b
5208 = 270a +13900b
Resolvemos y nos da los valores de a, b
a= 17.92
b=0.026
Remplazando en Y=a+ b/x ≅ C = A + B/V
C= 17.92 + 0.026/V
Estimando C para una velocidad de 45 seria:
C= 17.92 + 0.026/45
C= 17.9205
9. el número de bacterias por unidad de volumen en un cultivo tras X horas viene dado en la siguiente tabla:
X Numero de horas
0 1 2 3 4 5 6
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Y Numero de
bacterias
32 47 65 92 132 190 275
c) ajustar una curva de mínimos cuadrado de la forma Y = a.bx a los datos.d) estimar el valor de Y cuando X = 7
Solución:
1ero ordenamos en una taba de distribución
X Y Logy (logy)x X2 Logy2
0 32 1.5051 0 0 2.2651 47 1.672 1.672 1 2.7952 65 1.8129 3.6258 4 3.2833 92 1.9637 5.8911 9 3.8534 132 2.1205 8.482 16 4.4945 190 2.2787 11.3935 25 5.18926 275 2.4393 14.6358 36 5.94821 833 13.792 45.7002 91 27.827
2do graficamos los puntos respectivamente en el eje xy y luego trazamos la línea que pasa por casi la mayoría de los puntos.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
0 1 2 3 4 5 6 70
50
100
150
200
250
300
Grafica de dispersion de los puntos X,Y
3ro determinamos los parámetros a y b por el método de mínimos cuadrados.
Ecuación normal de la función exponencial
∑i=1
N
( logyi )=Nloga+logb∑i
N
x i
∑i=1
N
( logyi ) (xi )=loga∑i=1
N
x i+logb∑i=1
N
¿¿¿¿
Remplazamos la información obtenida en la distribución de la tabla.
13.792=7loga+21logb
34.50=21loga+91logb
Operando las ecuaciones los valores:
Loga= 1.506 a=32.06
logb =0.15 b=1.41
Sustituyendo los parámetros a y b en la función:
Y=abx
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
y = (32.06)1.41x
Estimando el valor de Y cuando X = 7 seria:
y = (32.06)1.41x
y = (32.06)1.41(7)
y = 355.21
10. Los siguientes datos se refieren a la dosis de rayos cósmicos medidos a varias altitudes
Altura (en pies)X 50 450 780 1200 4400 4800 5300Dosis Y 28 30 32 36 51 58 69
a. Ajustar esos datos a una curva de la forma Y=a . eex
b. El resultado obtenido en “a” para estimar la dosis media a una altitud de 3000pies.
Solución:
∑i=1
N
LogYi=N . log A+LogB∑i=1
N
Xi
∑i=1
N
(LogYi ) . (Xi )=¿ LogA .∑i=1
N
Xi+LogB∑i=1
N
Xi2¿
Reemplazando: 11,295579 = LogA . 7+ LogB.16980
29502,30578 = Log A .16980 + LogB . 72743400
LogA= 1.452031566 LogB= 6.662885957 x 10-5
A= 28.31597798 B= 1.00015343
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
B= ec c= ln(1.00015343) =1.5341861 x 10-4
a) Ecuación: Y=28,31597798 . e (1,5341861 .10−4 ) . X
b) X= 3000 pies Y=28,31597798 . e (1,5341861 .10−4 ) .3000
Y= 44.8660807
11. La presión P(kg/cm2) de un gas correspondiente a diferentes volúmenes V(cm3) se registró de la siguiente manera:
VolumenPresiónLa ley de los gases ideales da la ecuación PVa = C, donde a y C son constantes.
a) Encuentre las estimaciones de mínimos cuadrados de a y C de los datos proporcionados.
b) Estime P cuando V= 80 centímetros cúbicos.
Volumen (V) 50 60 70 90 100Presión (P) 64.7 51.3 40.5 25.9 7.8
La ley de los gases ideales da la ecuación P.Va = C, donde a y C son constantes a) Encuentre las estimaciones de mínimos cuadrados de a y C de los datos
proporcionados.b) Estime P cuando V=80 centímetros cúbicos.
Solución:
Llamamos V = X y P = YTABLA PARA METODO DE MINIMOS CUADRADOS
Xi Yi log Xi log Yi log Xi log Yi (log Xi)2
50 64.7 1.699 1.811 3.077 2.88760 51.3 1.778 1.709 3.039 3.16170 40.5 1.845 1.607 2.965 3.40490 25.9 1.954 1.413 2.761 3.818
100 7.8 2.00 0.892 1.784 4.000370 190,1 9.276 7.432 13.626 17.270
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Determinamos a y b. por m.m.c.
∑i=1
N
logYi=Nloga+b∑i=1
N
logXi
∑i=1
N
logYi logXi=loga∑i=1
N
logXi+b∑i=1
N
(logXi)2
Sustituyendo:7.432 = 5loga + b9.276
13.626 = 9.276loga + b17.270
Resolviendo el sistema, tenemos:
b = -2.644loga = 6.392 ⇒ a = 2466039
Ecuación: Y = 2466039 X-2.644
b) Y =2466039 (80)-2.644 ⇒ Y = 22.92 Kg/cm3
12. En la tabla siguiente, Y es la presión barométrico medida a la altura X sobre el nivel mar.
Y (pulgadas) 29.9 29.4 29.0 28.4 27.7
X (minutos) .0 500 1000 1500 2000
a) Usar el método de mínimos cuadrados para ajustar una curva exponencial de la forma:
Y = a.e-bx
b) Estimar Y para una altura de 2500 pies.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Solución:
a)
Xi Yi Xi2 Log(Yi) Log(Yi) . Xi0 29,9 0 1,475671188 0
500 29,4 250000 1,46834733 734,1736651000 29 1000000 1,462397998 1462,3981500 28,4 2250000 1,45331834 2179,977512000 27,7 4000000 1,442479769 2884,95954
∑=5000 ∑=144,4 ∑=7500000
∑=7,302214626
∑=7261,50871
∑logy = nloga + ∑x log b
∑xlogy=∑log X + ∑ X2logb
sustituyendo:
7.3019=5loga + 5000logb
a=30.7265; b=0.999937525
Y=a .bx
b = e-Bx B =( 6.2476 ).10-5
Ecuación :
Y=30.7265e –(6.2476).X.10-5
c) Para 2500 pies ; Y= 26.2833 pulgadas
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
13. Los datos siguientes pertenecen a la cantidad de una sustancias que permanece en un sistema químico en reacción después de X minutos:a) Ajustar una curva de Gompertz de la forma:
Y = eeax+b
b) Estimar Y para X = 8
Solución:
Yi Xi log Yi log (Yi).Xi (Xi)2
96 1 1.982 1.982 175 5 1.875 9.375 2563 10 1.799 17.99 10030 25 1.477 36.929 6259 50 0.954 47.700 25002 100 0.301 30.100 10000X 191 8.388 144.076 13251
Determinamos a y b. por m.m.c.
∑i=1
N
logYi=Nloga+logb∑i=1
N
Xi
∑i=1
N
logYi Xi=loga∑i=1
N
Xi+logb∑i=1
N
(Xi)2
Sustituyendo:8.388 = 6loga + logb 191
144.076 = 191loga + logb 13251
Resolviendo el sistema, tenemos:
Logb = -0.0171b = 0.9614a = 1.9424
Ecuación: Y = ee1.9424X +0.9614
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
Para X=8b) Y = 68.253 gr
⇒ En 8 minutos existirá 68.253 gr de sustancia.
14.- El número de pulgadas que una estructura recién construida se ah hundido en el terreno está dado por:
Y=3−3eaX
Donde X es su edad en meses.
X 2 4 6 12 18 24Y 1.07 1.88 2.26 2.78 2.97 2.99
Use el método de mínimos cuadrados para estimar a.
Solución:
Y: Nº pulgadas
X: edad en Nº meses
Yi Xi log Yi log (Yi).Xi (Xi)2
1.07 2 1.029 0.058 41.88 4 0.274 1.096 82.26 6 0.354 2.124 362.78 12 0.444 5.328 1442.97 18 0.473 8.514 3242.99 24 0.476 11.424 576
X 66 2.05 28.544 1092
Determinamos a y b. por m.m.c.
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS (Universidad del Perú, DECANA DE AMERICA)
∑i=1
N
logYi=Nloga+logb∑i=1
N
Xi
∑i=1
N
logYi Xi=loga∑i=1
N
Xi+logb∑i=1
N
(Xi)2
Sustituyendo:2.05 = 6loga + logb 66
28.544 = 66loga + logb 1092
Resolviendo el sistema, tenemos:
Logb = 0.0164b = 1.0385a = 1.4498