dati auto (auto.xlsx) - ecostat.unical.it · 27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20 28 11.0 8...

83
mpg cylinders displacement horsepower weight acceleration year origin name 1 18.0 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu 2 15.0 8 350.0 165 3693 11.5 70 1 buick skylark 320 3 18.0 8 318.0 150 3436 11.0 70 1 plymouth satellite 4 16.0 8 304.0 150 3433 12.0 70 1 amc rebel sst 5 17.0 8 302.0 140 3449 10.5 70 1 ford torino 6 15.0 8 429.0 198 4341 10.0 70 1 ford galaxie 500 7 14.0 8 454.0 220 4354 9.0 70 1 chevrolet impala 8 14.0 8 440.0 215 4312 8.5 70 1 plymouth fury 9 14.0 8 455.0 225 4425 10.0 70 1 pontiac catalina 10 15.0 8 390.0 190 3850 8.5 70 1 amc ambassador dpl 11 15.0 8 383.0 170 3563 10.0 70 1 dodge challenger se 12 14.0 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340 13 15.0 8 400.0 150 3761 9.5 70 1 chevrolet monte carlo 14 14.0 8 455.0 225 3086 10.0 70 1 buick estate wagon (sw) 15 24.0 4 113.0 95 2372 15.0 70 3 toyota corona mark 16 22.0 6 198.0 95 2833 15.5 70 1 plymouth duster 17 18.0 6 199.0 97 2774 15.5 70 1 amc hornet 18 21.0 6 200.0 85 2587 16.0 70 1 ford maverick 19 27.0 4 97.0 88 2130 14.5 70 3 datsun pl510 20 26.0 4 97.0 46 1835 20.5 70 2 volkswagen 1131 deluxe sedan 21 25.0 4 110.0 87 2672 17.5 70 2 peugeot 504 22 24.0 4 107.0 90 2430 14.5 70 2 audi 100 ls 23 25.0 4 104.0 95 2375 17.5 70 2 saab 99e 24 26.0 4 121.0 113 2234 12.5 70 2 bmw 2002 25 21.0 6 199.0 90 2648 15.0 70 1 amc gremlin 26 10.0 8 360.0 215 4615 14.0 70 1 ford f250 27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20 28 11.0 8 318.0 210 4382 13.5 70 1 dodge d200 Dati Auto (Auto.xlsx)

Upload: trinhminh

Post on 30-Nov-2018

224 views

Category:

Documents


0 download

TRANSCRIPT

mpg cylinders displacement horsepower weight acceleration year origin name

1 18.0 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu

2 15.0 8 350.0 165 3693 11.5 70 1 buick skylark 320

3 18.0 8 318.0 150 3436 11.0 70 1 plymouth satellite

4 16.0 8 304.0 150 3433 12.0 70 1 amc rebel sst

5 17.0 8 302.0 140 3449 10.5 70 1 ford torino

6 15.0 8 429.0 198 4341 10.0 70 1 ford galaxie 500

7 14.0 8 454.0 220 4354 9.0 70 1 chevrolet impala

8 14.0 8 440.0 215 4312 8.5 70 1 plymouth fury

9 14.0 8 455.0 225 4425 10.0 70 1 pontiac catalina

10 15.0 8 390.0 190 3850 8.5 70 1 amc ambassador dpl

11 15.0 8 383.0 170 3563 10.0 70 1 dodge challenger se

12 14.0 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340

13 15.0 8 400.0 150 3761 9.5 70 1 chevrolet monte carlo

14 14.0 8 455.0 225 3086 10.0 70 1 buick estate wagon (sw)

15 24.0 4 113.0 95 2372 15.0 70 3 toyota corona mark

16 22.0 6 198.0 95 2833 15.5 70 1 plymouth duster

17 18.0 6 199.0 97 2774 15.5 70 1 amc hornet

18 21.0 6 200.0 85 2587 16.0 70 1 ford maverick

19 27.0 4 97.0 88 2130 14.5 70 3 datsun pl510

20 26.0 4 97.0 46 1835 20.5 70 2 volkswagen 1131 deluxe sedan

21 25.0 4 110.0 87 2672 17.5 70 2 peugeot 504

22 24.0 4 107.0 90 2430 14.5 70 2 audi 100 ls

23 25.0 4 104.0 95 2375 17.5 70 2 saab 99e

24 26.0 4 121.0 113 2234 12.5 70 2 bmw 2002

25 21.0 6 199.0 90 2648 15.0 70 1 amc gremlin

26 10.0 8 360.0 215 4615 14.0 70 1 ford f250

27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20

28 11.0 8 318.0 210 4382 13.5 70 1 dodge d200

Dati Auto (Auto.xlsx)

mpg cylinders displacement horsepower weight acceleration year origin name

372 29.0 4 135.0 84 2525 16.0 82 1 dodge aries se

373 27.0 4 151.0 90 2735 18.0 82 1 pontiac phoenix

374 24.0 4 140.0 92 2865 16.4 82 1 ford fairmont futura

375 36.0 4 105.0 74 1980 15.3 82 2 volkswagen rabbit

376 37.0 4 91.0 68 2025 18.2 82 3 mazda glc custom l

377 31.0 4 91.0 68 1970 17.6 82 3 mazda glc custom

378 38.0 4 105.0 63 2125 14.7 82 1 plymouth horizon miser

379 36.0 4 98.0 70 2125 17.3 82 1 mercury lynx l

380 36.0 4 120.0 88 2160 14.5 82 3 nissan stanza xe

381 36.0 4 107.0 75 2205 14.5 82 3 honda accord

382 34.0 4 108.0 70 2245 16.9 82 3 toyota corolla

383 38.0 4 91.0 67 1965 15.0 82 3 honda

384 32.0 4 91.0 67 1965 15.7 82 3 honda civic (auto)

385 38.0 4 91.0 67 1995 16.2 82 3 datsun 310 gx

386 25.0 6 181.0 110 2945 16.4 82 1 buick

387 38.0 6 262.0 85 3015 17.0 82 1 oldsmobile cutlass ciera

388 26.0 4 156.0 92 2585 14.5 82 1 chrysler lebaron medallion

389 22.0 6 232.0 112 2835 14.7 82 1 ford granada l

390 32.0 4 144.0 96 2665 13.9 82 3 toyota celica gt

391 36.0 4 135.0 84 2370 13.0 82 1 dodge charger 2.2

392 27.0 4 151.0 90 2950 17.3 82 1 chevrolet camaro

393 27.0 4 140.0 86 2790 15.6 82 1 ford mustang gl

394 44.0 4 97.0 52 2130 24.6 82 2 vw pickup

395 32.0 4 135.0 84 2295 11.6 82 1 dodge rampage

396 28.0 4 120.0 79 2625 18.6 82 1 ford ranger

397 31.0 4 119.0 82 2720 19.4 82 1 chevy s-10

Dati Auto (Auto.txt)

Giovanni Latorre 3

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

Giovanni Latorre 4

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

RRetta di Regressione: Mpg = 35.12 - 0.06 DisplacementR2 = 0.6482

Giovanni Latorre 5

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

Residuals vs Displacement

Residui informativi

Giovanni Latorre 6

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

Residuals vs Fitted Mpg

Residui informativi

Giovanni Latorre 7

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

G. Latorre 8

Dati Auto (Auto.txt)Regression: Mpg vs Displacement

Curva di Regressione: Mpg = 42 – 0.1379 Displacement + + 0.0002 Displacement2

R2 = 0.6888

G. Latorre 9

Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Displacement

Residuals vs Displacement

Residui non informativi

G. Latorre 10

Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Displacement

Residuals vs Fitted Mpg

Residui non informativi

Giovanni Latorre 11

Dati Auto (Auto.txt)Regression: Mpg vs Weight

Giovanni Latorre 12

Dati Auto (Auto.txt)Regression: Mpg vs Weight

Retta di Regressione: Mpg = 46.22 - 0.0076 WeightR2 = 0.6926

Giovanni Latorre 13

Dati Auto (Auto.txt)Regression: Mpg vs Weight

Residuals vs Weight

Residui informativi

Giovanni Latorre 14

Residui informativi

Dati Auto (Auto.txt)Regression: Mpg vs Weight

Residuals vs Fitted Mpg

Giovanni Latorre 15

Dati Auto (Auto.txt)Regression: Mpg vs Weight

G. Latorre 16

Curva di Regressione: Mpg = 62 – 0.0185 Weight + + 0.000002 Weight2

R2 = 0.7151

Dati Auto (Auto.txt)Regression: Mpg vs Weight

G. Latorre 17

Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Weight

Residuals vs Weight

Residui non informativi

G. Latorre 18

Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Weight

Residuals vs Fitted Mpg

Residui non informativi

Estensione non – lineare

Sono chiamati “strettamente lineari” i modelli nei quali sia le

variabili che i parametri compaiono alla I^ potenza; esempi:

Y = a + b X

Y = a + b X1 + c X2

Sono chiamati “lineari” i modelli nei quali solo i parametri

sono alla I^ potenza; esempio:

Y = a + b X + c X2 = f(X)

Parabola di equazione: Y = -3 + 5X - X2G. Latorre 19

Per determinare a, b, e c in

Y = a + b X + c X2 (1)

basta porre: X = X1 e X2 = X2 e determinare a, b, e c in

Y = a + b X1 + c X2 (2)

con la metodologia dei modelli multivariati.

Nota:

1) Modello lineare (solo i parametri sono alla I^ potenza);

2) Modello strettamente lineare (parametri e variabili sono

entrambi alla I^ potenza).

G. Latorre 20

X=Dose di fertilizzante, Y= Raccolto medio di grano,

in 100 appezzamenti di terrenoX Y X Y X Y X Y

2,24 12,89 0,83 10,54 4,78 6,19 4,36 9,58

3,01 14,92 3,13 12,51 3,80 12,11 3,57 12,21

1,96 13,81 4,80 8,22 1,90 11,43 4,57 8,13

1,74 11,34 1,63 11,33 5,22 4,35 1,99 14,29

2,74 13,48 3,78 12,52 2,20 12,85 1,49 14,45

3,00 13,98 2,67 13,90 2,50 12,36 5,42 2,85

3,25 12,27 4,06 10,71 1,68 12,12 1,86 12,26

3,07 15,19 5,15 5,98 3,13 13,46 3,72 11,24

4,31 8,81 3,97 12,49 5,43 3,52 1,48 13,13

1,75 12,57 4,78 7,69 2,43 12,53 1,81 14,03

2,40 13,98 3,42 12,12 4,59 6,68 4,45 10,33

4,96 6,80 4,97 7,54 3,85 10,93 0,72 10,22

3,46 13,36 3,19 13,55 0,86 10,18 3,08 12,92

1,76 12,43 0,80 10,72 1,34 11,53 2,48 12,01

1,41 12,41 1,18 10,81 5,45 3,60 3,76 12,81

3,97 11,01 2,02 14,29 1,59 12,42 4,72 7,69

2,91 12,29 0,53 7,33 3,58 12,86 0,65 9,03

5,07 5,08 0,88 9,23 5,48 3,09 0,96 10,61

2,92 13,39 2,36 14,08 2,45 13,01 1,79 13,47

5,02 7,18 1,38 13,01 4,03 11,69 0,79 10,28

4,84 6,83 3,57 13,54 0,82 9,73 1,64 13,01

3,41 12,44 4,13 9,51 0,75 9,44 2,43 14,01

2,41 13,07 3,68 11,88 4,24 11,46 0,71 9,38

3,37 12,42 4,86 6,73 3,64 11,06 2,72 11,39

0,65 9,72 3,18 14,02 1,70 13,45 1,35 11,85G. Latorre 21

M(X)= 2,91

M(Y)= 10,89

V(X)= 2,01

V(Y)= 8,06

Cov(X,Y)= -2,06

b'= -1,02

a'= 13,96

Stima del Modello: Y = a + b X

Modello Stimato: Y’ = 13,96 - 1,02 X

G. Latorre 22

G. Latorre 23

Y' e=Y-Y' Y' e=Y-Y' Y' e=Y-Y' Y' e=Y-Y'

11,67 1,22 13,11 -2,57 9,08 -2,89 9,51 0,07

10,88 4,04 10,76 1,75 10,08 2,03 10,31 1,90

11,96 1,85 9,06 -0,84 12,02 -0,59 9,29 -1,16

12,18 -0,84 12,29 -0,96 8,63 -4,28 11,93 2,36

11,16 2,32 10,10 2,42 11,71 1,14 12,44 2,01

10,89 3,09 11,23 2,67 11,41 0,95 8,42 -5,57

10,64 1,63 9,81 0,90 12,24 -0,12 12,06 0,20

10,82 4,37 8,70 -2,72 10,76 2,70 10,16 1,08

9,56 -0,75 9,90 2,59 8,41 -4,89 12,45 0,68

12,17 0,40 9,08 -1,39 11,48 1,05 12,11 1,92

11,51 2,47 10,47 1,65 9,27 -2,59 9,41 0,92

8,89 -2,09 8,88 -1,34 10,03 0,90 13,22 -3,00

10,42 2,94 10,70 2,85 13,08 -2,90 10,81 2,11

12,16 0,27 13,14 -2,42 12,59 -1,06 11,43 0,58

12,52 -0,11 12,75 -1,94 8,39 -4,79 10,12 2,69

9,90 1,11 11,90 2,39 12,34 0,08 9,14 -1,45

10,99 1,30 13,42 -6,09 10,30 2,56 13,30 -4,27

8,78 -3,70 13,06 -3,83 8,36 -5,27 12,98 -2,37

10,98 2,41 11,55 2,53 11,46 1,55 12,13 1,34

8,83 -1,65 12,55 0,46 9,84 1,85 13,15 -2,87

9,01 -2,18 10,31 3,23 13,12 -3,39 12,28 0,73

10,48 1,96 9,74 -0,23 13,19 -3,75 11,48 2,53

11,50 1,57 10,20 1,68 9,63 1,83 13,23 -3,85

10,52 1,90 8,99 -2,26 10,24 0,82 11,18 -9,79

13,30 -3,58 10,71 3,31 12,22 1,23 12,58 -0,73

M(Y')= 10,99

M(e)= 0,00

V(Y')= 2,10

V(e)= 5,96

V(Y')+V(e)= 8,06

R2= 0,26

Analisi dei Residui

G. Latorre 24

-8,00

-6,00

-4,00

-2,00

0,00

2,00

4,00

6,00

0,00 1,00 2,00 3,00 4,00 5,00 6,00

e

X

G. Latorre 25

Analisi dei Residui

-8,00

-6,00

-4,00

-2,00

0,00

2,00

4,00

6,00

7,50 8,50 9,50 10,50 11,50 12,50 13,50 Y’

e

Diagramma scatter delle coppie di valori (xi , yi)

G. Latorre 260,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

0,00 1,00 2,00 3,00 4,00 5,00 6,00

Y

X

Diagramma scatter delle coppie di valori (xi , yi)

e Retta di Regressione: Y’ = 13,96 – 1,02 X

G. Latorre 270,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

0,00 1,00 2,00 3,00 4,00 5,00 6,00

Y

X

Stima del Modello: Y = a + b X + c X2

Ponendo: X1 = X , X2 = X2

avremo: Y = a + b X1 + c X2

M(X1)= 2,91M(X2)= 10,45M(Y)= 10,99V(X1)= 2,01V(X2)= 74,38V(Y)= 8,06

Cov(X1,Y)= -2,06Cov(X2,Y)= -16,52Cov(X1,X2)= 11,94

a'= 5,72b'= 6,19c'= -1,22

Modello Stimato: Y’ = 5,72 + 6,19 X – 1,22 X2G. Latorre 28

M(Y')= 10,99

M(e)= 0,00

V(Y')= 7,35

V(e)= 0,71

V(Y')+V(e)= 8,06

R^2= 0,91

Valori caratteristici del Modello Stimato

G. Latorre 29

Diagramma scatter delle coppie di valori (xi , yi)

G. Latorre 300,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

0,00 1,00 2,00 3,00 4,00 5,00 6,00

G. Latorre 31

Diagramma scatter delle coppie di valori (xi , yi)

e Modello di Regressione: Y’ = 5,72 + 6,19 X – 1,22 X2

0,00

2,00

4,00

6,00

8,00

10,00

12,00

14,00

16,00

0,00 1,00 2,00 3,00 4,00 5,00 6,00

Analisi dei Residuie

X

G. Latorre 32

-2,50

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

2,00

2,50

0,00 1,00 2,00 3,00 4,00 5,00 6,00

Analisi dei Residuie

Y’

G. Latorre 33

-2,50

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

2,00

2,50

0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00

G. Latorre 34

Diagramma di Dispersione: mpg vs horsepower

G. Latorre 35

Diagramma di Dispersione: mpg vs horsepowerRetta di Regressione: mpg = 39.935 - 0.158 *horsepower (R2=0.606)

G. Latorre 36

Diagramma di Dispersione: Residui vs mpg(teoriche1)

G. Latorre 37

Diagramma di Dispersione: mpg vs horsepowerEq. del Modello: mpg = 56.900 - 0.466 * hp + 0.001 * hp2 (R2=0.688)

G. Latorre 38

Diagramma di Dispersione: Residui vs mpg(teoriche2)

Esercitazione1. In otto aziende di un dato settore vengono rilevate mensilmente la

produzione (Y) in migliaia di tonnellate di prodotto ed il numero di ore di

lavoro (X):

Sapendo che:

stimare i parametri del

Modello: Y = a + b X e disegnarne il grafico, calcolare il coefficiente di

determinazione R2, calcolare la previsione di Y in corrispondenza di

X=2000.

X 1000 1100 1400 1550 1570 1610 1800 1780

Y 48 88 120 190 210 240 250 280

G. Latorre 39

44.2083325.147625.17822718008

1=

=M(X)M(Y)n

1=Y)Cov(X,

7542306.2179314

5.2254737M(X)n

1=V(X)

25.1476118108

1

n

1=M(X)

44.612025.178

148.3038

1M(Y)

n

1=V(Y)

25.17814268

1

n

1=M(Y)

1

2

1

2

1

2

2

1

2

1

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

i

yx

x

x

y

y

G. Latorre 40

¢b =Cov(X,Y)

V(X)=

20833.44

75423= 0.2762

¢a = M(Y)- ¢bM(X)=178.25-0.2762 ×1476.25=

=-229.49

r(X,Y)=Cov(X,Y)

V(X)V(Y)=

20833.44

75423×6120.44=

= 0.97

R2 = r(X,Y)2 = 0.972 = 0.94

¢Yi = ¢a + ¢bXi = -229.49 + 0.2762 × xi

V( ¢Y )=V( ¢a + ¢bXi ) = ¢b 2V(X)=0.27622 ×

×75423 = 5753.75

R2 =V( ¢Y )

V(Y)=

5753.75

6120.44= 0.94

G. Latorre 41

La previsione del valore di Y per X=2000 è pari a y” = 322,91.

G. Latorre 42

Esercitazione

2. Per determinare la temperatura ottimale alla quale ottenere

la sintesi di un certo farmaco, in modo da minimizzare la

quantità di impurità, vengono eseguiti 11 esperimenti con

temperature diverse (xi) e per ognuno di essi viene misurata la

quantità di impurità (yi). I valori delle xi e delle yi sono

riportati nella seguente tabella:X Y

-5 15,97

-4 9,72

-3 8,18

-2 3,48

-1 4,25

0 1,6

1 6,07

2 7,93

3 16,05

4 26,07

5 37,51

Sapendo che:

Σ xi2 = 110; Σ xi

4 = 1958; Σ yi = 136,83;

Σ yi2 = 2893,14; Σ xi yi =207,43;

Σ xi2 yi = 2183,67; Σ xi = Σ xi

3 = 0.

Stimare i parametri del modello:

Y = a + b X + cX2.

Inoltre, sapendo che Σ y’i= 2869,57

determinare il valore di R2.G. Latorre 43

Modello: a + b X + C X2 = Y

Sistema Normale:

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

yxxcxbxa

yxxcxbxa

yxcxba

1

2

1

4

1

3

1

2

11

3

1

2

1

11

2

1

n

18.218419580110

48.20701100

88.136110011

cba

cba

cba

da cui: b’ = 207,48/110 =1,89G. Latorre 44

Inoltre:

18.21841958110

88.13611011

ca

ca

18.2184195811088.13611

1110

11088.13611

1

cc

ca

18.2184195811008.1368

11088.13611

1

cc

ca

95.0

89.1

94.2

95.0

95.011088.13611

1

c

b

a

c

a

G. Latorre 45

Modello Stimato:

Y’ = 2,94 + 1,89 X + 0,95 X2

inoltre:

98.031.108

03.106

V(Y)

)YV(R

03.10611

88.136

11

2869.57=)YV(

31.10811

88.136

11

2894.69=V(Y)

2

2

2

G. Latorre 46

Esercitazione

3. In un’indagine epidemiologica vengono rilevati l’Età (X) e

la Pressione Arteriosa (Y) di 300 pazienti. I risultati della

rilevazione sono riassunti nella seguente tabella a doppia

entrata: Y\X 59 - 62 63 - 66 67 - 70 71 - 74 75 - 78

90 - 109 2 1 0 0 0

110 - 129 7 8 4 2 0

130 - 149 5 15 22 7 1

150 - 169 2 12 63 19 5

170 - 189 0 7 28 32 12

190 - 209 0 2 10 20 7

210 - 229 0 0 1 4 2

Indicando con xi , yj e nij , rispettivamente, i valori centrali

delle classi di X, di Y e le frequenze congiunte della

distribuzione bivariata (X , Y), si sa che: Σ xi ni. = 20.794;

Σ yj n.j = 49.340; Σ xi2 ni. =1.445.919; Σ yj

2 n.j = 8.306.935;

Σ Σ xi yj nij =3.438.773. Stimare il modello Y = a + b X e

valutarne la bontà dell’adattamento (fitness) mediante R2..G. Latorre 47

Riscriviamo, anche se non necessario, la tabella completata dei totali e dei

valori centrali delle classi:60,5 64,5 68,5 72,5 76,5

Y\X 59 - 62 63 - 66 67 - 70 71 - 74 75 - 78 Totali

99,5 90 - 109 2 1 0 0 0 3

119,5 110 - 129 7 8 4 2 0 21

139,5 130 - 149 5 15 22 7 1 50

159,5 150 - 169 2 12 63 19 5 101

179,5 170 - 189 0 7 28 32 12 79

199,5 190 - 209 0 2 10 20 7 39

219,5 210 - 229 0 0 1 4 2 7

Totali 16 45 128 84 27 300

15.39=69.31-300

1445919=

=M(X)-

n

nx

=V(X)

164.63=300

49390=

n

ny

=M(Y)

69.31=300

20794=

n

nx

=M(X)

2

2

r

=1i

s

j=1

ij

s

j=1

ij

r

=1i

2

i

r

=1i

s

j=1

ij

r

=1i

ij

s

j=1

j

r

=1i

s

j=1

ij

s

j=1

ij

r

=1i

i

291.5=164.6369.31-300

3438773=

=M(X)M(Y)-

n

nyx

=Y)Cov(X,

585.65=164.63-300

8306935=

=M(Y)-

n

ny

=V(Y)

r

=1i

s

j=1

ij

r

=1i

s

j=1

ijii

2

2

r

=1i

s

j=1

ij

s

j=1

ij

r

=1i

2

i

G. Latorre 48

da cui otteniamo:

ed il modello stimato:

Y’ = - 66,35 + 3,33 X

r(X,Y) =Cov(X,Y)

V(X)V(Y)=

51,29

15.39×585.65= 0.54

¢b =Cov(X,Y)

V(X)=

52.07

15.39= 3.33

¢a = M(Y) - ¢bM(X) = 164.63- 3.33×69.31= -66.35

R2 = r(X,Y)2 = 0.29

G. Latorre 49

Per comodità riportiamo la distribuzione marginale delle Y

osservate e, utilizzando il modello stimato: Y’=-66,35+3,33 X,

otteniamo anche la distribuzione delle Y’:

Si noti che la distribuzione delle Y’ ha un numero di modalità diverse

uguale a quello delle X , cioè 5, mentre la distribuzione delle Y ne ha ben

7, cioè tante quante sono le classi di Y. Dai risultati precedenti otteniamo

anche: R2 = V(Y’) / V(Y) = 0,29 ; V(e) = V(Y) - V(Y’) = 414,73 .

Y fr(Y) Y*fr(Y) Y2*fr(Y) Y' fr.(Y') Y'*fr.(Y') Y’2*fr.(Y')

99,50 3,00 298,50 29.700,75 135,26 16,00 2.164,22 292.741,03

119,50 21,00 2.509,50 299.885,25 148,59 45,00 6.686,70 993.600,32

139,50 50,00 6.975,00 973.012,50 161,92 128,00 20.726,14 3.356.038,98

159,50 101,00 16.109,50 2.569.465,25 175,25 84,00 14.721,21 2.579.930,32

179,50 79,00 14.180,50 2.545.399,75 188,58 27,00 5.091,72 960.206,73

199,50 39,00 7.780,50 1.552.209,75 Tot. 300,00 49.390,00 8.182.517,37

219,50 7,00 1.536,50 337.261,75 M(Y')=M(Y)= 164,63 V(Y')= 170,92

Tot. 300,00 49.390,00 8.306.935,00 V(Y)= 585,65 V(Y')=b’2*V(x)= 170,92

G. Latorre 50

Analisi dei ResiduiPer mettere in risalto le peculiarità dell’analisi dei residui nel

caso di dati forniti come distribuzione bivariata si considerino

le seguenti tabelle:

I^ Tabella: riporta le frequenze congiunte nij della tabella

originaria con le intestazioni riferite alle Y osservate (valori

centrali delle classi di Y) e le Y’ stimate (ottenute dal modello

stimato in corrispondenza dei valori centrali delle classi di X).

Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali

99,50 2 1 0 0 0 3

119,50 7 8 4 2 0 21

139,50 5 15 22 7 1 50

159,50 2 12 63 19 5 101

179,50 0 7 28 32 12 79

199,50 0 2 10 20 7 39

219,50 0 0 1 4 2 7

Totali 16 45 128 84 27 300G. Latorre 51

II^ Tabella: L’interno della tabella riportata i valori dei residui eij

= yj-y’i .

III^ Tabella: L’interno della tabella riporta i valori di eij * nij .

Nota: il totale generale dovrebbe essere 0, il fatto che sia pari ad 0,87 è da imputarsi

agli arrotondamenti nei calcoli.

Y\Y' 135,26 148,59 161,92 175,25 188,58

99,50 -35,76 -49,09 -62,42 -75,75 -89,08

119,50 -15,76 -29,09 -42,42 -55,75 -69,08

139,50 4,24 -9,09 -22,42 -35,75 -49,08

159,50 24,24 10,91 -2,42 -15,75 -29,08

179,50 44,24 30,91 17,58 4,25 -9,08

199,50 64,24 50,91 37,58 24,25 10,92

219,50 84,24 70,91 57,58 44,25 30,92

Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali

99,50 -71,52 -49,09 0,00 0,00 0,00 -120,61

119,50 -110,32 -232,72 -169,68 -111,50 0,00 -624,22

139,50 21,20 -136,35 -493,24 -250,25 -49,08 -907,72

159,50 48,48 130,92 -152,46 -299,25 -145,40 -417,71

179,50 0,00 216,37 492,24 136,00 -108,96 735,65

199,50 0,00 101,82 375,80 485,00 76,44 1.039,06

219,50 0,00 0,00 57,58 177,00 61,84 296,42

Totali -112,16 30,95 110,24 137,00 -165,16 0,87

G. Latorre 52

Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali

99,50 2.558 2.410 0 0 0 4.967

119,50 1.739 6.770 7.198 6.216 0 21.922

139,50 90 1.239 11.058 8.946 2.409 23.743

159,50 1.175 1.428 369 4.713 4.228 11.914

179,50 0 6.688 8.654 578 989 16.909

199,50 0 5.184 14.123 11.761 835 31.902

219,50 0 0 3.315 7.832 1.912 13.060

Totali 5.561 23.719 44.717 40.047 10.373 124.418

IV^ Tabella: L’interno della tabella riporta i valori di e2ij * nij ,

pertanto il totale generale diviso per n ci darà:

che coincide con il risultato ottenuto in precedenza per altra

via (V(e) = V(Y) - V(Y’) = 414,73).

G. Latorre 53

-80

-60

-40

-20

0

20

40

60

80

0,00 20,00 40,00 60,00 80,00 100,00 120,00 140,00 160,00 180,00 200,00

ei

y’i

G. Latorre 54

Esercitazione

4. Si considerino i seguenti dati:

Y X1 X2

1 1 1

1 1 1

2 1 -1

1 1 -1

1 -1 1

0 -1 1

1 -1 -1

1 -1 -1

Si stimino i parametri del modello:

Y = β0 + β1 X1 + β2 X2

e se ne verifichi la bontà dell’adattamento con R2. G. Latorre 55

Sistema normale:

;8;2 ;2 ;8

;0 ;8 ;0 ;0 ;8

1

2

2

1

21

1

1

2

1

1

21

11

2

1

1

1

22

1

2

21

1

210

1

2

1

12

1

211

1

2

10

1

1

1

2

1

21

1

10

n

i

i

n

i

ii

n

i

ii

n

i

i

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

ii

n

i

i

n

i

ii

n

i

i

n

i

ii

n

i

ii

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

xyxyxx

xxyxxn

yxxxxx

yxxxxx

yxxn

G. Latorre 56

25.0

25.0

1

2800

2080

800

2

1

0

210

210

210

n

da cui otteniamo il modello

stimato:

Y’ = 1 + 0,25 X1 – 0,25 X2

da cui otteniamo le yi’:

Y'

1

1

1,5

1,5

0,5

0,5

1

1

da cui otteniamo:

5.0250.0

125.0R

125.08

1

8

1=)YV(

250.08

1

8

1=V(Y)

;9 ;8

2

2

11

2

2

11

2

1

2

1

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

n

i

i

yy

yy

yy

G. Latorre 57

x lg=X dove

Xb+a=y lgxb+a=3)y

alg=A

ylg=Y dove xb+A=Y

xb+a lg=y lg ea=2)y

x

1=X

y

1=Y

dove Xb-a=Y

x

1b-a=

x

b-xa=

y

1

b-xa

x=y 1)

e

e

bx

Altre Relazioni

Non – Lineari

Linearizzabili:

1) iperbole,

2) esponenziale;

3) logaritmica.G. Latorre 58

IPERBOLE

G. Latorre 59

ESPONENZIALE

G. Latorre 60

LOGARITMICA

G. Latorre 61

2

2

2

x-

x-

x-

x

b

x=X dove Xc+xb+a=y

xc+xb+a=6)y

e=X

y

1=Y

dove Xb+a=Y

eb+a=y

1

eb+a

1=5)y

x

1=X

a lg=A

y lg=Y

dove Xb+A=Y

x

1b+a lg=y lg ea=4)y

2

Altre Relazioni

Non – Lineari

Linearizzabili:

4) esponenziale-

iperbole;

5) esponenziale-inversa;

6) parabola.G. Latorre 62

ESPONENZIALE - IPERBOLE

G. Latorre 63

ESPONENZIALE INVERSA

G. Latorre 64

PARABOLA

G. Latorre 65

x lg=X

a lg=A

y lg=Y

dove Xb+xc+A=Y

lgxb+xc+a lg=y lg exa=7)y xcb

Altre Relazioni

Non – Lineari

Linearizzabili:

7) esponenziale 2.

G. Latorre 66

G. Latorre 67

y = 1.1 x4.1 e0.1x

ESPONENZIALE - 2

Altri esempi di relazioni linearizzabili

Su n unità statistiche sono state rilevate le variabili esplicative

X1 e X2 e la variabile risposta Y. Il diagramma scatter di Y in

funzione di X1 suggerirebbe, tra X1 e Y, una relazione

logaritmica del tipo:

Y = a + b lg X1 (funzione logaritmica);

il diagramma scatter di Y in funzione di X2 suggerirebbe, tra

X2 e Y, una relazione inversa del tipo:

Y = c + d (1/X2) (funzione iperbolica).

Per catturare nel modello entrambe le tendenze sarebbe,

quindi, ipotizzabile la relazione:

Y = k + b lg X1 + d (1/X2),

i cui parametri possono essere stimati considerando il modello:

Y=k+bW+cZ, dove W=lg X1 e Z=1/X2.G. Latorre 68

A differenza della regressione polinomiale la metodologia

non-lineare “linearizzabile” non può essere sempre estesa al

caso multivariato. L’estensione è possibile quando le relazioni

Y con una particolare Xj richiede la trasformazione della sola

Xj medesima e non anche della Y.

Pertanto sono linearizzabili, in generale, le seguenti fattispecie

di relazioni:

Y = a0 + a1 f1(X1) +….+ ak fk(Xk)

oppure, più in generale:

g(Y) = a0 + a1 f1(X1) +….+ ak fk(Xk) .

Invece, se ad esempio, dall’esame grafico (mediante un

diagramma di dispersione) risulta lineare la relazione tra Y ed

X1 del tipo: g1(Y) = a1 + f1(X1), ed anche la relazione tra Y ed

X2, del tipo: g2(Y) = a2 + f2(X2) allora non c’è modo per

riassumere le due leggi in un’unica relazione tra X1, X2 ed Y.G. Latorre 69

Esempio 2: La funzione della Produzione Cobb – Douglas

Q = a Kb Lg

dove:

Q = quantità prodotta

K = capitale

L = lavoro

e a, b, g sono i parametri del modello che devono essere

stimati.

Il modello linearizzato è dato da:

lg Q = lg a + b lg K + g lg L

da cui:

Q’ = a’ + b K’ + g L’

con: Q’ = lg Q, a’ = lg a, K’ = lg K e L’ = lg L.G. Latorre 70

X Y X Y X Y

1,317 2,281 7,173 8,345 13,090 10,291

1,353 3,062 7,633 8,865 13,597 10,370

1,867 3,378 7,531 7,702 13,636 9,885

2,533 5,255 8,561 8,402 13,855 9,096

2,560 4,165 8,361 8,923 14,803 10,080

3,026 4,285 8,875 9,266 14,531 9,881

2,834 4,698 8,718 9,107 15,070 10,054

3,787 4,967 9,019 8,559 15,655 9,657

3,817 5,827 9,786 9,282 15,389 10,843

3,880 7,021 10,250 8,651 16,223 10,312

4,463 6,742 10,264 9,373 16,302 10,967

4,328 6,393 10,774 8,524 16,329 10,715

5,239 6,461 10,511 8,374 17,293 9,735

5,563 7,640 10,811 8,782 17,019 10,563

5,835 7,033 11,178 8,457 17,425 9,994

6,134 6,594 11,586 10,090 18,106 9,888

6,435 7,091 12,456 9,808 18,416 10,374

6,042 8,072 12,345 10,149 18,219 8,768

6,608 8,091 12,720 10,077 18,749 10,199

7,276 7,650 12,638 9,376 18,719 10,361

EsercitazioneI dati:

G. Latorre 71

0,000

2,000

4,000

6,000

8,000

10,000

12,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000

X

Il diagramma di dispersione:

Proviamo, in prima approssimazione, un modello del tipo Y = a + b X .G. Latorre 72

Risultati dell’analisi:

Modello Stimato: Y = 4,66 + 0,36 X

0,000

2,000

4,000

6,000

8,000

10,000

12,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000

M(X)=10,142

V(X)=26,644

M(Y)=8,314

V(Y)=4,458

Cov(X,Y)=9,599

b'=0,360

a'=4,660

r(X,Y)=0,881

R2=0,776

G. Latorre 73

-3,500

-3,000

-2,500

-2,000

-1,500

-1,000

-0,500

0,000

0,500

1,000

1,500

2,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000

e

Analisi dei Residui

-3,500

-3,000

-2,500

-2,000

-1,500

-1,000

-0,500

0,000

0,500

1,000

1,500

2,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000

Y’

e

X

I residui sono “informativi” e suggeriscono di inserire nel

modello una componente logaritmica.G. Latorre 74

Proviamo, allora, un modello di tipo Y = a + b lg X . Per poter

utilizzare la metodologia di stima finora utilizzata è necessario

ricondurci ad un modello strettamente lineare, tale operazione

si realizza facilmente considerando la “nuova variabile”

X1 = lg X che ci consente di riscrivere il modello in termini di

X1 : Y = a + b X1 . Ora possiamo stimare i parametri incogniti

nel modo usuale:

M(X1 )=2,13; V(X1)=0,46; Cov(X1,Y)=1,37;

b’’=Cov(X1,Y)/V(X1)=3,00; a’’=M(Y)-b’’M(X1)

Modello Stimato: Y’’ = 1,91 + 3 lg X

R2=r(X1,Y)2=Cov(X1,Y)2/[V(X1) V(Y)]=0,92.

Avremo anche: V(Y’’)=b’’2V(X1)=4,12 e R2=V(Y’’)/V(Y)=0,92.

Il valore molto elevato di R2 ci dice che il modello ha un

“fitting” molto buono, ciò nonostante effettuiamo l’analisi dei

residui.G. Latorre 75

0,000

2,000

4,000

6,000

8,000

10,000

12,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000

Diagramma Scatter dei dati originari

Y

XG. Latorre 76

0,000

2,000

4,000

6,000

8,000

10,000

12,000

0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000

Diagramma Scatter dei dati originari

ed in sovrimpressione i punti rappresentativi del

modello stimato:

Y’’= 1,91 + 3 lg X

X

Y

G. Latorre 77

Analisi dei Residui

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

0 5 10 15 20

e vs X

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

0 2 4 6 8 10 12

e vs Y''

I residui sono totalmente “non informativi”, pertanto il modello non

risulta essere migliorabile. Si noti, inoltre che M(e)=0 e V(e)=0,34,

risulta, quindi verificato che: V(Y) = V(Y’’) + V(e).G. Latorre 78

X Y X Y X Y

0,800 3,968 1,613 0,991 2,192 0,798

0,825 3,754 1,637 1,409 2,250 0,971

0,884 2,636 1,676 1,334 2,268 1,190

0,952 1,889 1,726 1,182 2,297 1,281

1,006 1,791 1,740 1,259 2,320 1,121

1,030 1,687 1,757 0,885 2,353 0,960

1,095 1,764 1,770 1,299 2,416 0,981

1,132 1,285 1,812 1,384 2,430 0,673

1,153 1,389 1,851 1,088 2,476 0,878

1,173 1,431 1,862 1,230 2,497 0,827

1,229 1,157 1,884 1,248 2,522 0,841

1,282 1,132 1,906 1,059 2,566 0,841

1,342 1,283 1,948 0,995 2,584 0,739

1,373 1,644 2,005 0,716 2,639 1,157

1,406 1,157 2,042 1,210 2,704 0,972

1,436 1,554 2,052 1,278 2,743 0,933

1,449 1,558 2,080 1,287 2,806 1,151

1,467 0,966 2,140 0,933 2,830 0,719

1,526 1,431 2,163 1,194 2,886 0,822

1,590 1,247 2,175 1,242 2,932 0,948

EsercitazioneI dati:

G. Latorre 79

Il diagramma di dispersione:

0,000

0,500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500

Y vs X

L’andamento che è suggerito dal diagramma è di tipo

iperbolico, cioè del tipo: Y = X / (c X + d) .G. Latorre 80

Al fine di stimare i parametri ignoti della precedente relazione

dobbiamo considerare la seguente trasformazione delle

variabili che la rende strettamente lineare: X1=1/X e Y1=1/Y da

cui: Y1 = a + b X1 , con a = c e

b = d .

Risultati dell’analisi

Modello Stimato:Y’1= 1,41- 0,89 X1 ,

da cui:Y’ = X / ( - 0,89 + 1,41 X ).

Bontà dell’adattamento (fitting): R2 = r(X1,Y1)2 = 0,61 ,

(avremo anche: V(Y’)=b’2V(X1)=0,05 e R2=V(Y’)/V(Y)=0,61).

MX1)= 0,598

V(X1)= 0,050403955

M(Y1)= 0,880

V(Y1)= 0,065566523

Cov(X1,Y1)= -0,044766051

r(X1,Y1)= -0,778709371

b'= -0,8881456

a'= 1,410697459

R2=r(X1,Y1)2= 0,606388284

V(Y1')=b’2V(X1)= 0,039758771

R2=V(Y’1)/V(Y1)= 0,606388284

G. Latorre 81

0,000

0,500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500

Y vs X

Diagramma Scatter dei dati originari

G. Latorre 82

0,000

0,500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500

Y vs X

Diagramma Scatter dei dati originari

ed in sovrimpressione i punti rappresentativi del

modello stimato:

Y’ = X / ( 1,41 X – 0,89 )

G. Latorre 83