![Page 1: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/1.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Vorbesprechung
Praktikum: Data Warehousing und
Data Mining
![Page 2: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/2.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 2
Team • Matthias Bracht
• matthias DOT bracht AT stud DOT uni-karlsruhe DOT de
• Frank Eichinger • eichinger AT ipd DOT uka DOT de
• Matthias Huber • matthiashuber AT gmx DOT de
• Steffen Lang • steffen DOT lang AT stud DOT uni-karlsruhe DOT de
• Stephan Schosser • schosser AT ipd DOT uka DOT de
![Page 3: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/3.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 3
Motivation • Grosse Datensammlungen in Unternehmen
• Jede Abteilung hat eigene Datenbestände • Daten beschreiben alle Aspekte der Organisation
• Wissen in Daten nicht offensichtlich • Zu viele Attribute • Niemand hat Überblick über alle Daten • Mitarbeiter wechseln, alte Daten werden uninterpretierbar • Daten im Unternehmen verstreut
• Thema • Wie in der Vorlesung:
Wie kommt man in diesem Szenario zu Wissen? • … praktisch an Beispielen mit marktüblicher Software
![Page 4: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/4.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 4
Data Warehousing
• Ziel • Integration von Unternehmensdaten in zentralen
Datenbestand • Anfragen / Analysen auf diesem Datenbestand
• Charakteristika • Materialisierte Sichten auf unterschiedliche andere Quellen • Daten aus unterschiedlichen Quellen im Unternehmen • Daten meist sind aggregiert OLAP (Online Analytical Processing)
![Page 5: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/5.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 5
OLAP vs. OLTP (Data Warehouse vs. Datenbank)
transaktional analytisch Fokus Lesen, Schreiben,
Modifizieren, Löschen Lesen, periodisches Hinzufügen
Transaktionsdauer und -typ
Kurze Lese- / Schreibtransaktionen
Lange Lesetransaktionen
Anfragestruktur Einfach strukturiert komplex
Datenvolumen einer Anfrage
Wenige Datensätze Viele Datensätze
• Anfragecharakteristika
nach Bauer, Günzel (Hrsg): Data Warehouse Systeme – Architektur, Entwicklung, Anwendung
![Page 6: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/6.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 6
Data Warehousing in diesem Praktikum • Benutzung der Tools
• Oracle und Cognos ReportStudio
• Oracle • Datenwürfel entwerfen • Anfragen auf dem relationalen Datenbestand • Datenwürfel erstellen
• Cognos • Stellen von Anfragen auf dem Würfel • Erstellen von Analysen
![Page 7: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/7.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 7
Data Mining • Menge von Techniken
• Klassifikation Ist der Kunde kreditwürdig?
• Clustering Welche Kundengruppen gibt es?
• Assoziations Rules Welche Produkte werden zusammen gekauft?
• Ziel • Finden interessanter Muster und Eigenschaften in
großen Datenbeständen
![Page 8: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/8.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 8
Data Mining in diesem Praktikum
• Benutzung der Tools • SPSS Clementine • Weka • Knime
• Aufgaben zu • Datenbereinigung • Klassifikation • Optionalem Thema
• Daten aus dem Data Mining Cup
![Page 9: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/9.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 9
Synergieeffekte Data Warehousing und Data Mining
• Aufwändigster Schritt: Datenbereinigung • Fällt bei Data Warehousing und Data Mining an Daten des Data Warehouse eignen sich für Data Mining
• Data Mining als Analysekonzept im Data Warehouse
• Problem: • Data Mining benötigt operative, transaktionsorientierte Daten
(z. B. Kassenbons) • Data Warehouse benötigt häufig aggregierte Daten
granulare Informationen gehen verloren
![Page 10: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/10.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Data Preprocessing
Praktikum: Data Warehousing und
Data Mining
![Page 11: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/11.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 11
Motivation • We are drowning in information, but starving
for knowledge! (John Naisbett)
• Was genau ist Datenanalyse?
• Was ist Data Mining? • Techniken zur Mustererkennung • Ziel: unerwartete Muster • Beispiele für Muster: Assotiation Rules, Cluster…
![Page 12: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/12.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 12
Von Daten zur Entscheidung (Gianotti und Pedreschi)
Inspektion
Aggregation (zielgerichtet)
Interpretation Entscheidung • Sonderangebot für Produkt
A in Gebiet Z • Mailings an Familien mit
Profil P • Cross-Selling von Produkt
an Kunden C
Wissen • Anzahl Y des Produkts A
wird in Gebiet Z verwendet
• Kunden der Klasse Y verwenden x% von C in Zeitraum D Information
• X lebt in Z • S ist Y Jahre alt • X und S sind umgezogen • W hat Geld in Z Daten
• Kundendaten • Daten aus den Filialen • Demographische Daten • Geographische Daten
![Page 13: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/13.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 13
Knowledge Discovery in Databases
Interpretation
Data Mining
Datenbereinigung
Datenauswahl
Konsolidierung
Zieldefinition
![Page 14: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/14.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 14
Data Mining Projekt - Zeitaufwand
• Problemspezifikation: 20% • Was ist das Problem? • Wie sollte das Ergebnis aussehen? • Formale Spezifikation
• Finden von Wissen: 80% • Datenbeschaffung • Datenaufbereitung (Data Preprocessing) 60% • Data Mining • Evaluierung • Weiterführende Massnahmen
Vgl.: Vorlesung „Data Mining for Business Applications“; M. Spiliopoulou
![Page 15: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/15.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Vorverarbeitung
![Page 16: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/16.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 16
Teilnehmerliste des Praktikums • Ziel:
• Alle Studenten sollen teilnehmen! • Vorgehen
• Liste wurde handschriftlich ausgefüllt • Dann in Teilnehmerdatenbank übertragen
• Probleme • Feld männlich/weiblich fehlt
• Ist Conny männlich oder weiblich? • Feld Fachsemester ist nicht vielsagend
• Student ist im 15. Fachsemester, hat aber 5 Jahre davon Data Warehouses administriert
• Feld Prüfung Datenbankeinsatz Vorlesung fehlt • Ist Prüfung geplant oder nie angedacht? • Wurde aus Datenschutzgründen auf Angabe verzichtet?
• Beim Übertragen in Datenbank treten Fehler auf • E-Mail Adressen sind undeutlich geschrieben • Übertragender ist im Stress und liest nur oberflächlich
![Page 17: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/17.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 17
Teilnehmerliste des Praktikums II • Probleme (fortges.)
• Eintrag in der Teilnehmerdatenbank ist 30 Fachsemester • Gibt es einen gravierenden Unterschied zwischen 25 und 30
Semester? • Student hat Datenbankeinsatz im „SoSe 2007“ gehört.
• Suche nach SS05 (Datenbankstandardformat) wirft Datensatz nicht aus
• Was ist zu tun? • Hier:
• Alle Angemeldeten können teilnehmen. • „Politisch korrekt“
• Aber: • Was, wenn Unternehmenserfolg von Prognose abhängt?
• Dann: • Datenqualität essentiell • Daten müssen vorverarbeitet werden
![Page 18: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/18.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 18
Eigenschaften von Produktivdaten • Daten sind meist…
• Unvollständig • Enthalten NULL-Werte • Enthalten Aggregate • Interessante Informationen fehlen
• Verunreinigt: • Enthalten Fehler • Enthalten Ausreißer
• Inkonsistent: • Daten in unterschiedlichen Quellen inkonsistent
![Page 19: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/19.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 19
Data Preprocessing – Vorgehen • Analyse der Daten
• „Ansehen“ einzelner Tupel / Aggregate von Tupeln • Deskriptive Statistik • Visualisierung der Eingangsdaten
• Durchführung des Data Preprocessing • Datenbereinigung • Datenintegration • Datentransformation • Datenreduktion
![Page 20: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/20.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 20
„Ansehen“ der Daten • Nutzen:
• Oft sind Eigenschaften am leichtesten beim direkten Betrachten der Daten zu entdecken
• Meist erster Schritt des Data Preprocessing
• Beispiele • Entdecken von NULL-Werten • Skalentypen der Werte • Größe der Wertebereiche • Diskrepanz zwischen Attributlänge und Datenlänge • …
![Page 21: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/21.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 21
Skalentypen
• Anwendbarkeit der Statistiken abhängig vom Skalentyp • Mittelwert des Geschlechts • Modalwert der Prüfungsnoten
Skalentyp Wertebereich Mögliche Operationen Beispiele
Nominale Größen diskret, endlich
Gleichheit Geschlecht Augenfarbe
Ordinale Größen diskret, endlich, Ordnung
Gleichheit, größer / kleiner als
Prüfungsnoten Schulabschluß
Intervallgrößen kontinuierlich bzw. ganzzahlig, unendlich
Gleichheit, größer / kleiner als Differenz
Datum Temperatur
Ratiogrößen kontinuierlich bzw. ganzzahlig, unendlich
Gleichheit größer / kleiner als Differenz Verhältnis
Abstand Alter
![Page 22: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/22.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 22
Deskriptive Statistik • Nutzen
• Identifikation typischer Dateneigenschaften • Identifikation von Ausreißern und Datenfehlern
• Wichtige Statistiken • Masse für die Zentralität
• Mittelwert • Median • Modalwert
• Masse für die Verteilung • Interquartilabstand • Varianz • Skewness • …
![Page 23: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/23.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 23
Masse für Zentralität • Mittelwert
• Entspricht average (avg()) in SQL • Median
• „Mittlere Wert“ aller sortierten Werte • Durchschnitt der zwei „mittleren Werte“ bei gerader Wertanzahl
• Modalwert • Häufigster Wert • Abhängig von Anzahl der Werte: unimodal, bimodal, …
![Page 24: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/24.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 24
Masse für die Verteilung I • Quartil
• Seien Daten aufsteigend sortiert • 1. Quartil enthält unterste 25% der sortierten Werte • 2. Quartil enthält untere 25% - 50% der sortierten Werte • usw.
• Interquartilabstand • Abstand zwischen drittem und erstem Quartil • Einfaches Maß für die Verteilung der Daten
• Varianz
• Nur sinnvoll, wenn Mittelwert als Zentrum der Daten • Maß für die Verteilung der Daten
![Page 25: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/25.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 25
Masse für die Verteilung II • Skewness
mit und
• Mass für Abweichung von symmetrischer Verteilung
rechtssteil symmetrisch linkssteil
![Page 26: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/26.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 26
Masse für die Verteilung III • Kurtosis
mit und
• Mass für Krümmung der Verteilung
leptokurtic Gauss platikurtic
![Page 27: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/27.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 27
Visualisierung der Eingangsdaten • Nutzen
• Menschliches Gehirn ist auf Erfassung graphischer Inhalte optimiert
• Mehrere Aspekte können simultan untersucht werden
• Wichtige Visualisierungen • Boxplot • Histogram • Scatterplot • Web • Parallelkoordinaten
![Page 28: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/28.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 28
Visualisierung - Boxplot • Fasst mehrer statistische Masse zusammen
• Zeigt • Mittelwert, Quartile, Minimum
Maximum, Interquartilabstand
• Nutzen • Finden der Verteilung • Finden von Ausreißern
Mittelwert
2. Quartil
1. Quartil
3. Quartil
Minimum
Maximum
![Page 29: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/29.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 29
Visualisierung - Histogram • Zeigt die Verteilung einzelner, numerischer Attribute • Verteilung abhängig von kategorischem Attribut
möglich • Darstellung der Anzahl • Prozentsatz interpretierbar • Kenngröße gegebenenfalls
in Buckets gruppiert
• Nutzen • Finden von Ausreisern • Finden der Verteilung • Erkennen von Tupel-
charakteristika
![Page 30: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/30.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 30
Visualisierung – Scatterplot • Visualisiert einzelne Tupel • Bis zu drei numerische Attribute angebbar • Formatierung der Datenpunkte abhängig von
weiteren Attributen
• Nutzen • Finden von Korrelationen • Finden von Clustern • Finden von Ausreisern
![Page 31: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/31.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 31
Visualisierung – dreidimensionaler Scatterplot
![Page 32: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/32.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 32
Visualisierung - Webs • Visualisiert Beziehungen zwischen zwei
kategorischen Attributen • „Dicke“ Verbindungslinie zwischen häufig
auftretenden Attributwertkombination
• Nutzen • Frequent Itemsets
erkennbar • Beziehungen auffindbar
![Page 33: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/33.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 33
Parallelkoordinaten • Visualisiert unterschiedliche Attribute • Attributwerte normiert auf einheitliche Skala • Einfärbung nach Klasse • Pro Tupel ein Graph
• Nutzen • Erkennen von
Tupelcharakteristika • Finden von Selektionsattributen
Attribut A Attribut B Attribut C Attribut D
![Page 34: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/34.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 34
Exkurs: Risiken I
Quelle dieser und der folgenden Diagramme: D. Huff: How to Lie with Statistics bzw. W. Krämer: So lügt man mit Statistik. Nach einer Auwahl von C. Borgelt: Inteligent Data Analysis
![Page 35: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/35.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 35
Exkurs: Risiken II
![Page 36: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/36.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 36
Data Preprocessing – Vorgehen • Analyse der Daten
• „Ansehen“ einzelner Tupel / Aggregate von Tupeln • Deskriptive Statistik • Visualisierung der Eingangsdaten
• Durchführung des Data Preprocessing • Datenbereinigung • Datenintegration • Datentransformation • Datenreduktion
![Page 37: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/37.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 37
Datenbereinigung
• Beseitigung von… • fehlenden Werten • verunreinigten Daten
![Page 38: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/38.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 38
Beseitigung von fehlenden Werten I • Ignorieren von Tupeln
• Notgedrungen bei Klassifikation: fehlt Klasse • Sinnvoll wenn in Tupel viele Werte fehlen • Sonst vorsichtig:
• Fehlender Wert kann Logik sein • Kritisch, wenn Häufigkeit der fehlenden Werte unter Attributen
unterschiedlich • Beispiele:
• Beruf: Hausfrau • Sensor fällt bei großer Kälte aus
• Manuelles Auffüllen • Nur bei geringer Zahl fehlender Werte sinnvoll • Auffüllender muss über Expertenwissen verfügen
• Ersetzen durch globale Konstante • Beispiel: Alles durch „unbekannt“ oder „-∞“ • Aber vorsichtig:
• Kann als besonderer Wert interpretiert werden
![Page 39: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/39.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 39
Beseitigung von fehlenden Werten II • Einsetzen des Mittelwertes
• Beispiel: Mittelwert des Einkommens • Aber: nur bei metrischen Attributen sinnvoll • Vorsicht: Daten werden gebiast
• Einsetzen des Mittelwertes der Klasse • Beispiel: Mittelwert des Einkommens über alle in derselben Kreditrisiko-
Klasse • Aber: nur bei metrischen Attributen sinnvoll • Vorsicht: Daten werden gebiast
• Einsetzen des wahrscheinlichsten Wertes • Finden des Wertes über Modalwert • Finden mit Klassifikationsalgorithmen • Vorsicht: Daten werden gebiast
• Wichtig: • Einige Algorithmen können mit fehlenden Daten umgehen
![Page 40: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/40.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 40
Beseitigung von verunreinigten Daten • Binning
• …mit gemeinsamer Häufigkeit • Ersetzen durch Mittelwert • Ersetzen durch Median • Ersetzen durch nächste Bucketgrenze
• …mit gemeinsamer Breite der Buckets • Hilft bei Glätten der Eingangsdaten
• Regression • Daten werden durch Regressionsfunktion beschrieben
• Clustering • Daten werden geclustert • Dabei können Ausreißer identifiziert werden
• Hinweis: • Verfahren können auch zur Datenreduktion genutzt werden
![Page 41: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/41.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 41
Datenintegration
• Ziel… • Integration von Daten aus
verschiedenen Quellen
![Page 42: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/42.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 42
Datenintegration • Daten aus Unternehmensquellen
• … ähnlich Data Warehousing • Jetzt nicht Fokus
• Daten aus zusätzlichen Quellen • Frei verfügbar
• Postleitzahlen zu Adressen • Umrechnungskurse zwischen Währungen
• Extern zukaufbar • Schufa-Daten • Daten von der Post • Diverse andere Datenquellen
![Page 43: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/43.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 43
Datenintegration - Schwierigkeiten • Entitätsidentifikationsproblem
• Attributnamen: • Stimmt „Kunden-ID“ mit „Kundennummer“ überein?
• Attributwerte: • Ist „m“ in Geschlecht gleich „männlich“?
• Korrelationsanalyse • Finden von Redundanzen:
• Mehrinformation Jahres- gegenüber Monatseinkommen
• Skalierungsprobleme • Beispiele:
• Temperaturen in Celsius bzw. Fahrenheit • Einkommen in Dollar bzw. Euro
![Page 44: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/44.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 44
Datentransformation
• Ziel • Vorbereitung der Daten
für das Data Mining
-3; 45; 12,0; 17
-0.03, 0.45, 0.12, 0.17
![Page 45: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/45.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 45
Datentransformation • Bereinigung von Daten
• Wie eben • Aggregation
• Aggregat über Tageseinnahmen zu Monatseinnahmen • Besonders interessant, wenn auch Data Warehouse erstellt wird
• Generalisierung • Daten werden auf sinnvolles Niveau aggregiert • Beispiel: Von Adresse auf Stadt
• Normalisierung • Skalierung auf überschaubaren Wertebereich • Beispiel: auf 0,0 bis 1,0
• Attributgenerierung • Zusammenfassen mehrerer Attribute zu einem • Beispiel: Umrechnung in Vergleichswährung
![Page 46: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/46.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 46
Datentransformation – Normalisierung (Bsp.)
![Page 47: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/47.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 47
Datenreduktion
• Ziel: • Eingrenzen des
Curse of Dimensionality
B3
A2 A3 … A150 A1
… B200
B2 B1
… B154
B3 B1
A3 … A123 A1
![Page 48: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/48.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 48
Feature Selection • Vorteile
• Gewonnene Regeln sind leichter interpretierbar • Skalierbarkeit ermöglicht
• Vorgehen (allgemein) • Bestimmen des Attributwertes
• … über statistische Signifikanz • … über Information Gain
• Vorgehen (Alternativen) • Schrittweise Vorwärtsselektion
• Ausgangssituation: Leere Attributmenge • Rekursive Erweiterung um je ein Attribut
• Schrittweise Rückwärtsselektion • Ausgangssituation: Vollständige Attributmenge • Rekursive Entfernung um je ein Attribut
• Entscheidungsbauminduktion • Entscheidungsbaum wird generiert • Alle Attribute im Entscheidungsbaum werden genutzt
• Optional: • Expertenwissen nutzen
![Page 49: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/49.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 49
Sampling • Motivation
• Zu viele Lerndatensätze • Balancieren der Klassengröße
• Vorgehen • Auswahl einzelner Tupel
• Einfaches zufälliges Sampling • Zufälliges Ziehen von Tupeln
• Stratified Sampling • Attribut wird gewählt • Anteil der einzelnen Attributwerte in Ausgangsdaten gleich
dem Anteil im Sample
![Page 50: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/50.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Organisatorisches
Praktikum: Data Warehousing und
Data Mining
![Page 51: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/51.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 51
Veranstaltungstermine
![Page 52: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/52.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 52
Data Mining Cup • Thema: Lotterielose
• Fragestellung: Wie lange spielen Kunden? • Ziel: Kunde soll richtig eingeordnet werden
• Aufgabenstellung und Anmeldung unter • http://www.data-mining-cup.de
![Page 53: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/53.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining
Ausflug – Besuch von IBM in Böblingen • Programm (für den 16.05.08)
• 7:00 Abfahrt Karlsruhe • 9:30 Welcome und Überblick BB Lab • 10:00 DB2 Warehouse Überblick • 11:00 Kaffeepause • 11:30 Data Mining mit Demo • 12:30 Mittagessen • 13:30 Unstructured Analytics mit Demo • 14:30 Chiptest Demo • 15:30 Karriere bei IBM • 17:00 Ankunft Karlsruhe
53
![Page 54: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/54.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 54
Scheinvoraussetzungen • Für jede Leistung sind Punkte erreichbar
• Zwischenpräsentation Data Mining Cup: 2 Punkte • Jedes Team präsentiert Lösung in 15 Minuten
• Ergebnis Data Mining Cup: 7 Punkte • Lösung unter Top 12,5%: 7 Punkte • Lösung unter Top 25,0%: 6 Punkte • Usw.
• Data Mining (II): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Data Warehousing (I): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Data Warehousing (II): 3 Punkte • Je nach Qualität der Lösung 0 bis 3 Punkte
• Summe: 18 Punkte • Scheinvoraussetzung:
• Erlangen von 10 Punkten und mehr und Teilnahme am Ausflug!
![Page 55: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/55.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 55
Tutoren • Teams
• Je 4 Studenten • Geben Lösungen gemeinsam ab
• Tutorien • Je 1,5 Stunden pro Team, Woche
• Tutoren • Betreuen je 2 Team • Führen Tutorien durch • Sind Ansprechpartner nach den Veranstaltungen • Nehmen auch am Data Mining Cup teil
![Page 56: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/56.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 56
Was fehlt noch? • Ausblick auf nächste Woche
• Klassifikation
• Bestätigung der Teilnahme
• Anmeldung beim Data Mining Cup!
• Accounts beantragen
• Termin für die folgenden Treffen • Nächste Woche Montag 9:45 (Wichtig: bis 13:00 Uhr)
• http://dbis.ipd.uni-karlsruhe.de/dwm2008.php
• Verteilung auf Tutoren
![Page 57: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/57.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 57
Quellen
J. Han und M. Kamber: „Data mining : concepts and techniques“, Morgan Kaufmann, 2006.
C. Borgelt: Folien zur Vorlesung „Intelligent Data Analysis“, 2004
F. Klawonn: Folien zur Vorlesung „Data Mining“, 2006.
M. Spiliopoulou: Vorlesung „Data Mining for Business Applications“, 2003.
![Page 58: Praktikum: Data Warehousing und Data Mining - IPD … · • Deskriptive Statistik • Visualisierung der Eingangsdaten • Durchführung des Data Preprocessing • Datenbereinigung](https://reader031.vdocuments.us/reader031/viewer/2022020304/5ba0bea809d3f267388d7915/html5/thumbnails/58.jpg)
Systeme der Informationsverwaltung Universität Karlsruhe (TH)
Praktikum Data Warehousing und Mining 58
Tutorentermine
Steffen Lang Montag 11:30 Uhr Christoph, Fabian, Robert, Mirko Dienstag 11:30 Uhr Tilmann, Marcel, Moritz, Mathilde
Matthias Bracht Montag 11:30 Uhr Grigor, Kristina, Hristina, Pierre Dienstag 11:30 Uhr Matthias, Ahmet, Dan, Benjamin
Matthias Huber Montag 14:00 Uhr Martin, Feng, Elena, Kiril Montag 15:45 Uhr Roland, Michael, Alexander