Technische Universität München
Vorbesprechung
Proseminar - Data Mining
SCCS, Fakultät für Informatik
Technische Universität München
SS 2015
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 1
Technische Universität München
Data Mining: Beispiele (1)
• Hausnummererkennung (Klassifikation)
Source: http://arxiv.org/abs/1312.6082
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 2
Technische Universität München
Data Mining: Beispiele (2)
• Image Segmentation (Clustering)
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 3
Technische Universität München
Data Mining: Beispiele (3)
• Ähnliche Gene (Clustering)
[Hastie et al.]
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 4
Technische Universität München
Data Mining: Beispiele (4)
• Vorausschauender Versand (Klassifikation)
Source: http://1.usa.gov/19X75t9
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 5
Technische Universität München
Warum Data Mining?
• “Data Scientist: The Sexiest Job of the 21st Century” (HarvardBusiness Review)
• “We are drowning in information and starving for knowledge.”(Rutherford D. Roger)
• “The future belongs to the companies and people that turn datainto products.” (Mike Loukides, O’Reilly)
• Rank 5 in Computerworld’s “Top IT skills wanted for 2012”• Rank 1 in Computerworld’s “IT skills that employers can’t say no
to”• http://www.itjobswatch.co.uk/jobs/uk/datascientist.do
• http:
//www.itjobswatch.co.uk/jobs/uk/softwaredeveloper.do
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 6
Technische Universität München
Finding Data Science Unicorn
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 7
Technische Universität München
Data Mining Pipeline
Planung Aufbereitung Modellbildung Auswertung
Wir wollen nützliches Wissen aus Daten extrahieren• Planung. Finden des Problems. Was soll gemacht werden?
Dafür nötige Daten sammeln.• Aufbereitung. Rohdaten (unvollständig, redundant,
verschiedene Formate, Einheiten, etc.) werden in einebrauchbare Form gebracht.
• Modellbildung. Daten werden mit verschiedenen Methoden(Regression, Klassifikation, Clustering, etc.) analysiert.
• Auswertung. Interpretation und Auswertung der Ergebnisse.
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 8
Technische Universität München
Themen I
• Überblick• Genauere Darstellung der Data Mining Pipeline• Beispiele wo Data Mining verwendet wird
• Einsatz von Data Mining in Industrie• Software: Matlab und R• Software: Python• Software: RapidMiner• Aufbereitung von Daten, Pre-Processing• Hauptkomponentenanalyse• Lineare Modelle für Regression und Klassifikation
• Was sind lineare Modelle? Wieso lineare Modelle? Welche?• Was ist Regression? Beispiele.• Klassifikation mit Thresholding• Vergleich mit z.B. k -nearest Neighbor
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 9
Technische Universität München
Themen II
• Lernen mit Kernels• Max-margin Prinzip, Kernel Trick, SVM
• Spam Filtering with Naive Bayes Classifier• Entscheidungsbäume
• Merkmale in Reihenfolge der Wichtigkeit überprüfen• Es entsteht ein Baum
• Neuronale Netze I: Grundlagen• Neuronale Netze II: Deep Learning
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 10
Technische Universität München
Themen III
• Association Rules• Finde gemeinsame Belegung von Variablen die möglichst oft
in Datenbank auftritt• Z.B.: Bier und Windeln werden of zusammen gekauft
• Clustering• Finde Struktur in Daten, kein “outcome” vorhanden• k -means, mixture of gaussians
• Dichteschätzung• Schätzen der Dichte P eines gegebenen Datensatzes
X = {x1, . . . , xM}.• Histogram, Kerndichteschätzer, etc.
• Reinforcement Learning• Das System bekommt sofort Feedback und reagiert darauf• Welche Verfahren gibt es? Anwendungsbeispiele?
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 11
Technische Universität München
Themen IV
• Ensemble Learning• Verbinde mehrere verschiedene Algorithmen• Gewichte einzelne Antworten entsprechend• AdaBoost
• Kann als Ensemble Methode angesehen werden• Verwendet optimale Gewicht (bzgl. exp. loss)
• Big Learning• Wie große Datenmengen speichern und verwalten? Welcher
Einsatzbereich?• Hadoop, Cassandra, BigTable, ...• Stochastic Gradient Descent• Map-Reduce Parallelization
• Recommender Systems with Colaborative Filtering• Natural Language Processing
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 12
Technische Universität München
Themen V
• Latent Semantic Indexing• Latent Dirichlet allocation
• Data Mining für soziale Netzwerke
• Data Mining und Gesellschaft: Datenschutz, Verantwortung, usw.
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 13
Technische Universität München
Reviews
• Jede Ausarbeitung wird von zwei anderen Teilnehmern überprüft.• Dabei wird geachtet auf:
• Inhaltliches: Wissenschaftlichkeit, Verständlichkeit,Zusammenhänge klar, Beispiele hilfreich, ...
• Formelles: Sinnvolle Struktur der Ausarbeitung, Richtigzitiert, Grafiken mit Quelle versehen, ...
• Sprachliches: Rechtschreib- und Grammatikfehler (sollteneigentlich keine vorhanden sein ;-) )
• Damit der Review-Prozess funktionniert, muss die Ausarbeitungzur Deadline abgegeben werden!
• Der Stand der Ausarbeitung ist dabei "Release Candidate", nichtalpha oder beta
• Nach Abgabe der Reviews: Einarbeitung der Anmerkungen indie eigene Ausarbeitung
• Dann: Abgabe der finalen Ausarbeitung beim Betreuer
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 14
Technische Universität München
Organisatorisches I
• Jedem Teilnehmer wird ein Betreuer zugewiesen• Vortrag: ca. 20min + Diskussion• Ausarbeitung: mind. 5 und max. 6 Seiten (LATEX) im IEEE Format
(Webseite), excl. Quellenangaben.• Wichtige Termine:
• Anmeldung bei Betreuern (3 Themen) bis 3.2, über dasAnmeldeformular (LS Webseite)
• Anmeldung im Matching System 30.01.15 bis 3.02.15http://www.in.tum.de/en/current-students/modules-and-courses/
practical-courses-and-seminar-courses.html
• Themenzuteilung: 11.2 oder 12.2
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 15
Technische Universität München
Organisatorisches II
• Obligatorische Termine:1. Kick-Off Veranstaltung am 13.4 um 15 Uhr2. Literaturrecherche Workshop am 14.4 um 15 Uhr3. Vortragstermin wird (geblockt) zugeteilt, voraussichtlich 10.6 bis 12.64. 4 Wochen vor dem Vortrag - ein Entwurf der Ausarbeitung beim
Betreuer einreichen (per Email)5. 2 Wochen vor dem Vortrag - Folien beim Betreuer einreichen6. Am Tag des Vortrages - Abgabe der Ausarbeitung (Moodle)7. 1 Woche nach dem Vortrag - Einreichung der Reviews (Moodle)8. 2 Wochen nach dem Vortrag - Einreichung der fertigen Ausarbeitung
(Moodle)
• Webseite:http://www5.in.tum.de/wiki/index.php/Proseminar_Data_Mining_-_Summer_15 oderhttp://www5.in.tum.de → Teaching → Summer 15 → Proseminar - Data Mining
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 16
Technische Universität München
Die ersten Schritte im Seminar• Kontaktiere deinen Betreuer wegen dem Thema und Referenzen
(falls noch keine erhalten).• Mache ein LaTeX Tutorial, z.B. online.• Lade das IEEE Template und lerne die Struktur kennen.• Lese das IEEE Editorial Style Manual, markiere für diese Arbeit
relevante Teile und nutze es später als Nachschlagewerk.Vor der ersten Abgabe der Ausarbeitung
• Mache eine automatische Rechtschreibkorrektur.• Gehe durch die Checkliste auf der LS Webseite. Hast du alle
Punkte berücksichtigt?• Überprüfe ob die Regeln aus IEEE Editorial Style Manual
berücksichtigt sind.Vor der letzten Abgabe der Ausarbeitung
• Mache die gleichen Schritte wie bei der ersten Abgabe.• Überprüfe ob die Angaben im Literaturverzeichnis korrekt sind.
SCCS: Proseminar - Data Mining
Vorbesprechung, SS 2015 17