uvod u statističko zaključivanje - fer · web viewunfortunately, the word "regression"...
TRANSCRIPT
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Statističko učenje
Multidisciplinarnost područja – razvoja i primjene
- pozvani predavači- seminari
Teme 15.03.2005.
Proširenje tema iz uvoda u statističke metode:
- Neparametarska statistika - ANOVA- Regresija
17.03.2004. 1/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
2 test
Neparametarski test
Koristi se za dvije kategorije testova: Testiranje ponašanja po distribuciji ( engl. goodness of
fit ) Testiranje nezavisnosti klasifikacija: kontigencijske
tablice (engl. contigency tables)
H0 dvije kvalitativne populacijske varijable su nezavisne
RxS tablice očekivana, teorijska
2 = (fobs- fizracunata)2 / fizracunata
PUŠAĆI NEPUŠAĆI totalMUŠKARCI 110 90 200
ŽENE 104 96 200total 214 186 400
Teorijske (očekivane) frekvencije
PUŠAĆI NEPUŠAĆI totalMUŠKARCI 107=
(214*200/400)
93 200
ŽENE 107 93 200total 214 186 400
17.03.2004. 2/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
2 = (110-107)2/107 + (104-107)2/107 +(90-93)/93 +(96-93)/93 = 0.084 + 0.084 + 0.097 + 0.097 = 0.362
Broj stupnjeva slobode = (R-1)(S-1) za tablicu RxS
Primjer 2:Muškarci 41 preferiraju novu formulu od 50.Žene preferiraju novu formulu od 50. (Statistica example)
17.03.2004. 3/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
ANOVA(ANALIZA VARIJANCE , ANalisys Of VAriance)
R.A. Fisher
Svrha: Nalaženje faktora koji najviše utječu na model (primjer
regresija) Reducira se na testiranje razlike između srednjih
vrijednosti više uzoraka. U principu uzorci nisu nezavisni i dobiveni su dizajnom
eksperimenta (kada se kontrolira vrijednost faktora)
2 populacije ANOVA t-test
Zašto se ne testira nizom t-testova?
1. broj testova n(n-1)/22. nivo značajnosti se automatski povećava:
=0.01 za pojedinačni test, vjerojatnost izbjegavanja pogreške je 0.99 pa je vjerojatnost izbjegavanja pogreške jest (1-)k za k testova. Vjerojatnost u k testova je 1-(1-)k što je za k=10 iznosi 0.364
3. Individualni testovi nisu nezavisni jedan od drugog4. Individualni testovi mogu proizvesti kontradiktoran rezultat
(sve su srednje vrijednosti jednake, jedan test odbacuje hipotezu)
Testiranje pomoću usporedbom varijanci!
Varijanca je suma kvadrata devijacija podataka od njihove srednje vrijednosti SS (sum of squares) podijeljena s (n-1).
VARIJANCA MOŽE BITI PARTICIONIRANA!
17.03.2004. 4/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST UNUTAR GRUPA SSERROR (ILI RESIDUAL) +
VARIJABILNOST IZMEĐU GRUPA SS(EFFECT)
Particioniranje varijance:
Grupa 1 Grupa 2O 1 3 6O 2 2 7O 3 1 5
2 6SS 2 2
Ukupna 4Total SS 28
Uoči: SS koji se temelji na varijabilnosti unutar grupa (2) je znatno manje nego ukupana varijabilnost (28).Razlog te razlike leži u različitosti srednjih vrijednosti grupa!
SS (TOTAL) = SS (unutar grupa) + SS(zbog varijabilnosti sred.vr.)
Slučajne oscilacije - ERROR variance (due to random error), (neobjašnjena varijabilnost)
SS (unutar grupa) = 2 + 2 = 4
SS Effect, SS(zbog varijabilnosti sred.vr.) = 28 – (2+2) = 24(varijabilnost zbog efekta)
TOTALNA
17.03.2004. 5/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Mnoge stat. procedure koriste omjer
H0 nema razlike između grupa
Čak i kada vrijedi H0 očekujemo manje razlike u očekivanjima između grupa, ali procijenjene varijance između grupa i
unutar grupa trebaju biti jednake.
F test – da li se omjer varijanci bitno razlikuje od 1.
n broj elemenata, k broj grupa (uzoraka) i indeks podatka u uzorku(grupi)
17.03.2004. 6/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
j je indeks grupeF (n-k, k-1)
VAŽNO: pretpostavke ANOVE: Podaci su normalno distribuirani Varijance uzoraka su jednake
Testiranje jednakosti varijanci: Barlett, Cochran
17.03.2004. 7/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
ANOVA I REGRESIJA
ANOVA je moćni postupak za analizu kvalitete regresijskog modela. VARIJANCA unutar modela može se particionirati, a zatim se ti dijelovi stavljaju u odnos tako otkrivajući činjenice o modelu!
ANOVA služi i za provjeru modela (goodness (or lack) of fit)
TOTALNA VARIJABILNOST SSTOTAL = VARIJABILNOST REZIDUALA (POGREŠKE-ERROR)
SSRESIDUAL/ERROR + VARIJABILNOST OBJAŠNJENA REG. MODELOM SSREG
17.03.2004. 8/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
VIŠESTRUKI REGRESIJSKI MODEL(engl. Multiple Linear Regression)
History Lesson
Sir Francis Galton, in his 1885 Presidential address before the anthropology section of the British Association for the Advancement of Science (Stigler, 1986), described a study he had made that compared the heights of children with the heights of their parents. He examined the heights of parents and their grown children, perhaps to gain some insight into what degree height is an inherited characteristic. He published his results in a paper, "Regression Towards Mediocrity In Hereditary Stature," (Galton, F. (1886)).Figure A shows a JMP scatterplot of Galton's original data. The right-hand plot is his attempt to summarize the data and fit a line. He multiplied the womens' heights by 1.08 to make them comparable to mens' heights and defined the parent's height as the average of the two parents. He defined ranges of parents' heights and calculated the mean child's height for each range. Then he drew a straight line that went through the means as best he could.
He thought he had made a discovery when he found that the heights of the children tended to be more moderate than the heights of their parents. For example, if parents were very tall the children tended to be tall but shorter than their parents. If parents were very short the children tended to be short but taller than their parents were. This discovery he called "regression to the mean," with the word "regression" meaning to come back to.However, Galton's original regression concept considered the variance of both variables, as does orthogonal regression, which is discussed later. Unfortunately, the word "regression" later became synonomous with the least squares method, which assumes the X values are fixed.17.03.2004. 9/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Linearna regresija
Podaci sakupljeni mjerenjem, promatranjem, zanima nas odnos između mjerenih varijabli -> oblikujemo model.
Najčešće je taj model linearna funkcija – pravac, ali ne mora biti i isti se postupak može primijeniti sve dok je model
linearan (!).
Y=ax + b
Y=a + bx + cx2
Linearan model je onaj koji je linearan u parametrima koji se procjenjuju – odnos između varijabli to ne mora biti!
Crtamo dijagram raspršenja - scatter diagram
(Pogledati animaciju RUVL Regression by eye)
Često transformiramo varijable da bi odnos između njih bio linearan
Primjer: logY = a logx + b
(RUVL , podaci MOLD, sqrt, square)
17.03.2004. 10/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Problem ekstremnih vrijednosti (outliers)
(Coimbra, leverege effect)
Regresijski model je onaj s pomoću kojeg procjenjujemo vrijednost jedne varijable na temelju druge.
jest rezidual, devijacija ili pogreška koja nastaje kada predviđamo Y u zavisnosti od X.
Reziduali predstavljaju onaj dio varijabilnosti koji nije moguće objasniti modelom.Reziduali se moraju pažljivo provjeriti jer oni odražavaju ispunjavanje pretpostavki modela – najbolje grafički (posebno za male uzorke kada numerički postupci nisu odgovarajući)
17.03.2004. 11/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
(analiza reziduala - animacija linearna regresija - uvid u zadovoljavanje pretpostavki - grafički)
Najbolja krivulja (best fit) regresijske funkcije može se dobiti minimiziranjem sume kvadrata pogreške
. Od svih krivulja koje aproksimiraju neki skup točaka krivulja
sa svojstvom naziva se LEAST SQUARE REGRESSION CURVE
(Uoči: ako zamjenimo x s y dobit ćemo drugačiju krivulju!)
Da li se best fit može dobiti na drugi način ? Zašto baš min SS?
17.03.2004. 12/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Mjera korisnosti modela – koeficijent determinacije R2
(goodness of fit)
Mjeri proporciju varijance zavisne varijable oko njezine srednje vrijednosti koja je objašnjena prediktorskim (zavisnim) varijablama.
0 < R2 < 1
Veći R znači veću snagu modela u objašnjavanju regresijske funkcije i dakle, bolju predikciju zavisne varijable.Osnovna ideja: izračunati redukciju pogreške predikcije kada je informacija koju osigurava nezavisna varijabla uključena u model.
17.03.2004. 13/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
1. Ako nema x u modelu, tj. nema doprinosa x-a predikciji y onda je najbolji pogodak srednja vrijednost y
2. Ako sada uključimo informacije s kojom x predviđa y, pogreška je reducirana. S obzirom da regresijska funkcija predstavlja najbolji opis podataka (best fit) pogreška je
model
R2 je relativno smanjenje pogreške kada je informacija o X uključena u model
17.03.2004. 14/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
To je količina varijacije Y objašnjena s X.
Za jednostavnu linearnu regresiju koeficijent determinacije jest kvadrat korelacijskog koeficijenta između X i Y.
(Pogledati animaciju RUVL Komponente r2)
Izvod normalnih jednadžbi ………….
Izvod za y = ax + bx2 …………………
17.03.2004. 15/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Pretpostavke za jednostavnu linearnu i multiplu regresiju:
Odnos između x i y je linearan (uoči razliku između ne-linearne i krivolinijske asocijacije može biti transformirana).
Sve varijable su nezavisne, nema korelacije s bilo kojom trećom varijablom.
Za svaki X, vrijednosti Y su distribuirani normalno Za svaki X, Y distribucija ima istu varijancu.
(homoscedastic data). HOMOSCEDASTIC data – slučajna pogreška je normalno distribuirana – često narušena pretpostavka!
To se grafički provjerava crtanjem pogreške u odnosu na signal bez pogreške.
17.03.2004. 16/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
Vrlo često nije zadovoljeno posebno kada podaci pokrivaju široki rang. Inače se kaže da su podaci heteroscedatic – slučajna pogreška (rezidual) zavisi od jačine signala, veličine nezavisne varijable.
17.03.2004. 17/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 18/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
VIŠE NEZAVISNIH VARIJABLI
(Francis Galton, 1886.)
Slična jednostavnoj linearnoj regresiji osim što je više ulaznih (nezavisnih) varijabli
y = a0 + a1 x1 + a2 x2 + …… + ak xk +
je ERROR ili RESIDUAL s očekivanjem 0.
Jednadžba određuje hiperravninu u k-dim prostoru (k broj varijabli)
a0, a1, ……an određeni tako da je suma kvadrata pogreške je minimalna
Važno: pretpostavke iste kao i u običnoj linearnoj regresiji!
Za analizu model služimo se ANOVA tablicom
Neke napomene za interpretaciju:
Za k = 1 jednostavna linearna regresija F-ratio testira nultu hipotezu da su svi koeficijenti
nezavisnih varijabli 0 tj.H0 a0 = a1 = ……= an = 0
F(k, n-k-1)F se odnosi prema r2 (godness to of fit):
17.03.2004. 19/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
SSRES je procjena varijabilnosti duž regresijske linije i koristi se za nalaženje procijenjene standardne pogreške pojedinih regresijskih koeficijenata ai. Procjena standardne pogreške je distribuirana kao t(n-k-1). Interval pouzdanosti je dan s +/- t(/2, n-k-1)s(ai)
Ako su dvije nezavisne varijable izrazito korelirane, teško je procijeniti regresijske koeficijente i dobivene vrijednosti koeficijenata ne reflektiraju stvarne ovisnosti. (važno: outlieri mogu značajno utjecati na kolinearnost!)
17.03.2004. 20/22
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
RAČUNANJE JEDINSTVENE I DIJELJENE VARIJANCE IZMEĐU NEZAVISNIH VARIJABLI
Temelj za procjenu svih regresijskih odnosa je korelacija između nezavisne varijable i zavisnih varijabli.
Korelacija je osnova za oblikovanje regresijske varijate procjenom regresijskih koeficijenata za za svaku nezavisnu varijablu koja maksimizira predviđanje zavisne varijable.
Za slučaj Y = a X1 + a0 postotak objašnjene varijabilnosti zavisne varijable je kvadrat korelacije
Za slučaj više nezavisnih varijabli potrebno je razmotriti postojanje korelacije između nezavisnih varijabli jer one dijele nešto prediktivne moći. Stoga se direktna korelacija zavisna i nezavisna varijable ne može uzeti u obzir.
Parcijalni korelacijski koeficijent je korelacija Xi i Yi kada su utjecaji drugih nezavisnih varijabli uklonjeni.Semiparcijalni koeficijent se razlikuje od gornjeg jer predstavlja korelaciju Xi i Yi kada su efekti drugih nezivisnih varijabli uklonjeni samo iz Xi. Koristi se za identifikaciju varijable koje imaju najveću inkrementalnu prediktivnu moć.Kvadrat daje jedinstvenu varijancu objašnjenu s nezavisnom varijablom.
17.03.2004. 21/22
dY1
X1Y
Prof.dr.sc. Bojana Dalbelo Bašić Uvod u statističko učenje
17.03.2004. 22/22
a bc
X2X1