![Page 1: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/1.jpg)
Tag der Mathematik 2009
Survival of the FittestWie statistische Modelle an Daten angepasst werden
Thomas Kneib
Fakultat fur Mathematik und NaturwissenschaftenCarl von Ossietzky Universitat Oldenburg
Oldenburg, 28.10.2009
![Page 2: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/2.jpg)
Thomas Kneib Statistische Modellierung
Statistische Modellierung
• Francis Galton (1822 – 1911): Wie hangen Korpergroße der Eltern und Korpergroßeder Kinder zusammen?
• Zu erklarende Variable: Korpergroße des Kindes in Inch.
• Erklarende Variable: Mittlere Korpergroße der Eltern in Inch. Um Manner und Frauenvergleichbar zu machen, multiplizierte Galton die Korpergroße der Frauen mit 1.08.
• Daten zu 18.918 Kindern.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 1
![Page 3: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/3.jpg)
Thomas Kneib Statistische Modellierung
64 66 68 70 72
6264
6668
7072
74
mittlere Größe der Eltern
Grö
ße
des
Kin
ds
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 2
![Page 4: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/4.jpg)
Thomas Kneib Statistische Modellierung
• Prinzipien statistischer Modellierung:
– Ziel: Vereinfachende Beschreibung (moglicherweise komplexer) Zusammenhange.
– Gleichzeitig Berucksichtigung der Unsicherheit aufgrund unvollstandiger Informati-on (z.B. aufgrund der Ziehung einer Stichprobe).
– Schatzung des Modells basierend auf Daten bzw. Anpassung des Modells an dieDaten.
– Prognose zukunftiger Beobachtungen aus einem geschatzten Modell.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 3
![Page 5: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/5.jpg)
Thomas Kneib Statistische Modellierung
• Anpassung ist einer der Schlusselbegriffe in Charles Darwins (1809 – 1882) Evoluti-onstheorie :
“Survival of the Fittest” = “Uberleben des am Besten Angepassten”
(eigentlich gepragt durch den Sozialphilosophen Herbert Spencer).
• Wird haufig in Zusammenhang gebracht und verwechselt mit:
“Only the strong survive” = “Uberleben des Starkeren”.
• Francis Galton war ein Halbcousin von Darwin.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 4
![Page 6: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/6.jpg)
Thomas Kneib Statistische Modellierung
• Galton wahlte die folgende Form eines statistischen Modells:
yi = β0 + β1xi + εi, i = 1, . . . , 18.918,
d.h. ein lineares Modell mit
– Zielvariable yi (Große des Kinds),
– Einflussgroße xi (mittlere Große der Eltern),
– Modellabweichung εi (Fehler).
• In der Statistik wird εi (und damit auch yi) als zufallige Große aufgefasst.
=⇒ Stochastische Modellierung.
• Aufgabe der Statistik: Trennung von Signal (Gerade) und Rauschen (Fehler) sowieAbschatzung des dabei gemachten Fehlers.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 5
![Page 7: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/7.jpg)
Thomas Kneib Statistische Modellierung
• Das lineare Modell ist parametrisch und wird charakterisiert durch
– den Achsenabschnitt β0 und
– die Steigung β1.
• Anpassung an die gegebenen Daten: Wie kann die Ubereinstimmung einer Geradenmit den Daten gemessen werden?
• Quantifiziere die Abweichung zwischen Modell und Daten.
• Gaußsche Methode der kleinsten Fehlerquadrate: Minimiere die quadrierten Abwei-chungen yi − β0 − xiβ1, d.h.
n∑
i=1
(yi − β0 − β1xi)2 → minβ0,β1
.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 6
![Page 8: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/8.jpg)
Thomas Kneib Statistische Modellierung
• Losung des Minimierungsproblems:
– Ableiten der Quadratsumme nach β0 und β1.
– Nullsetzen der resultierenden Ausdrucke.
– Auflosen nach β0 und β1.
– Uberprufen, dass es sich tatsachlich um ein Minimum handelt
• Man erhalt eine Losung in geschlossener Form.
• Im Beispiel ergeben sich
β0 = 27.777 β1 = 0.591
als Punktschatzer und
[29.156, 26.397] [0.571, 0.611]
als entsprechende Unsicherheitsbereiche.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 7
![Page 9: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/9.jpg)
Thomas Kneib Statistische Modellierung
• Interpretation:
– Die geschatzte Steigung β1 gibt an, um wieviele Einheiten sich die erwarteteKorpergroße des Kindes andert, wenn sich die durchschnittliche Große der Elternum eine Einheit andert.
– β1 < 1 bedeutet, dass Kinder großer Eltern tendenziell kleiner sind als ihre Elternwahrend Kinder kleiner Eltern tendenziell großer sind als ihre Eltern.
– Dieses Phanomen bezeichnete Galton als “Regression (Ruckkehr) zum Mittelwert”(“Regression towards mediocrity in hereditary stature”).
• Prognose fur neue Beobachtungen:
y = β0 + β1x.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 8
![Page 10: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/10.jpg)
Thomas Kneib Statistische Modellierung
64 66 68 70 72
6264
6668
7072
74
mittlere Größe der Eltern
Grö
ße
des
Kin
ds
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 9
![Page 11: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/11.jpg)
Thomas Kneib Kardiovaskulare Notfalle in Munchen
Kardiovaskulare Notfalle in Munchen
• Was unterscheidet 2006 von fruheren Jahren?
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 10
![Page 12: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/12.jpg)
Thomas Kneib Kardiovaskulare Notfalle in Munchen
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 11
![Page 13: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/13.jpg)
Thomas Kneib Kardiovaskulare Notfalle in Munchen
• Modellierung von Haufigkeiten ⇒ Kleinste-Quadrate-Schatzung nicht geeignet.
• Verwende ein stochastisches Modell basierend auf der Poisson-Verteilung.
• Unterscheidung zwischen normalen Tagen (keine Spiele der deutschen Mannschaft)und Tagen mit Spielen der deutschen Mannschaft.
• Relatives Risiko:
Risiko an Tagen mit Spielen der deutschen Mannschaft
Risiko an normalen Tagen
• Das geschatzte relative Risiko ist 2.66 (Unsicherheitsbereich 2.33 – 3.04).
• Erhohtes Risiko insbesondere fur Manner mit Herzerkrankung (relatives Risiko 4.22).
• Kein erhohtes Risiko fur Frauen ohne Herzerkrankung nachweisbar.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 12
![Page 14: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/14.jpg)
Thomas Kneib Nichtlineare Modellierung
Nichtlineare Modellierung
• In zahlreichen Anwendungen sind lineare Modelle nicht flexibel genug.
• Beispiel: Temperatur-Rekonstruktion auf der nordlichen Erdhalbkugel fur die letzten2000 Jahre.
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 13
![Page 15: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/15.jpg)
Thomas Kneib Nichtlineare Modellierung
Nichtlineare Modellierung
• In zahlreichen Anwendungen sind lineare Modelle nicht flexibel genug.
• Beispiel: Temperatur-Rekonstruktion auf der nordlichen Erdhalbkugel fur die letzten2000 Jahre.
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 14
![Page 16: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/16.jpg)
Thomas Kneib Nichtlineare Modellierung
• Erweitere das lineare Modell zu einem polynomialen Modell:
yi = β0 + xiβ1 + . . . + xpi βp + εi.
• Kleinste-Quadrate-Schatzung der Parameter:
n∑
i=1
(yi − β0 − xiβ1 − . . .− xpi βp)2 → min
β0,β1,...,βp
.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 15
![Page 17: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/17.jpg)
Thomas Kneib Nichtlineare Modellierung
• Quadratisch:
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 16
![Page 18: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/18.jpg)
Thomas Kneib Nichtlineare Modellierung
• Kubisch:
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 17
![Page 19: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/19.jpg)
Thomas Kneib Nichtlineare Modellierung
• Quartisch:
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 18
![Page 20: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/20.jpg)
Thomas Kneib Nichtlineare Modellierung
• Auch Polynome sind nicht flexibel genug, um den nichtlinearen Zusammenhang zubeschreiben.
• Betrachte nichtparametrische Modelle der Form
yi = f(xi) + εi
wobei f datengesteuert aus den Daten geschatzt werden soll.
• Das Kleinste-Quadrate-Kriterium
n∑
i=1
(yi − f(xi))2 → minf
fuhrt (ohne weitere Annahmen an f) zur Interpolation der gegebenen Daten.
⇒ Wahle f optimal aus einer geeigneten Funktionenklasse.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 19
![Page 21: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/21.jpg)
Thomas Kneib Nichtlineare Modellierung
• Approximiere f(x) durch Entwicklung in Basisfunktionen Bk(x):
f(x) =K∑
k=1
βkBk(x).
• Fuhrt die nichtparametrische Schatzung von f in eine semiparametrische Schatzungmit vielen Parametern uber.
• Wir verwenden Polynom-Splines basierend auf einer B-Spline-Basis.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 20
![Page 22: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/22.jpg)
Thomas Kneib Nichtlineare Modellierung
0 500 1000 1500 2000
−0.
50.
00.
5
0 500 1000 1500 2000
−0.
50.
00.
5
0 500 1000 1500 2000
−0.
50.
00.
5
0 500 1000 1500 2000
−0.
50.
00.
5
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 21
![Page 23: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/23.jpg)
Thomas Kneib Nichtlineare Modellierung
• B-Spline-Schatzungen fur variierende Anzahlen von Basisfunktionen:
0 500 1000 1500 2000
−0.
50.
00.
5
5 Basisfunktionen
0 500 1000 1500 2000
−0.
50.
00.
5
10 Basisfunktionen
0 500 1000 1500 2000
−0.
50.
00.
5
20 Basisfunktionen
0 500 1000 1500 2000
−0.
50.
00.
5
40 Basisfunktionen
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 22
![Page 24: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/24.jpg)
Thomas Kneib Nichtlineare Modellierung
• Die Schatzungen hangen stark von der Anzahl der Basisfunktionen ab.
⇒ Erganze das Kleinste-Quadrate-Kriterium um einen Regularisierungs-Term derraue Funktionsschatzungen bestraft.
• Haufiger Ansatz: Bestrafung der quadrierten zweiten Ableitung
pen(f) = λ
∫(f ′′(x))2dx.
• Der Glattungsparameter λ bestimmt den Einfluss der Regularisierung auf dieSchatzung
⇒ Die Schatzung des Glattungsparameters ist die eigentliche Schwierigkeit.
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 23
![Page 25: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/25.jpg)
Thomas Kneib Nichtlineare Modellierung
0 500 1000 1500 2000
−0.
50.
00.
5
λ=0.001
0 500 1000 1500 2000
−0.
50.
00.
5
λ=1
0 500 1000 1500 2000
−0.
50.
00.
5
λ=50
0 500 1000 1500 2000
−0.
50.
00.
5
λ=1000
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 24
![Page 26: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/26.jpg)
Thomas Kneib Nichtlineare Modellierung
• Optimale Schatzung fur die Temperatur-Rekonstruktionen:
0 500 1000 1500 2000
−1.
0−
0.5
0.0
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 25
![Page 27: Survival of the Fittest Wie statistische Modelle an Daten ... · Survival of the Fittest { Wie statistische Modelle an Daten angepasst werden 6. Thomas Kneib Statistische Modellierung](https://reader036.vdocuments.us/reader036/viewer/2022082913/605d28de2121d52e36314fe0/html5/thumbnails/27.jpg)
Thomas Kneib Fazit
Fazit
• Die Arbeit von Statistikern ist gepragt durch eine Kombination aus Kenntnissen in
– Mathematik (Abstraktion, Modellierung),
– Informatik (Programmieren, wissenschaftliches Rechnen)
– Anwendungsgebieten (Lebens-, Natur- und Wirtschaftswissenschaften, etc.).
• Aufgabe eines modernen Statistikers: Den Rohstoff Daten zu Wissen und Erkenntnisveredeln.
• Statistik – die wissenschaftliche Disziplin der verantwortungsvollen Datenanalyse.
• New York Times (5.8.2009): “the sexy job in the next 10 years will be statisticians”(Hal Varian, Chef-Okonom von Google).
• A place called home:
http://www.staff.uni-oldenburg.de/thomas.kneib
Survival of the Fittest – Wie statistische Modelle an Daten angepasst werden 26