data mining & knowledge discovery · data mining was ist data mining? nach welchen mustern wird...
TRANSCRIPT
Data Mining & Knowledge Discovery
Seminar Business Intelligence Teil II
Was ist Data Mining?Sabine Queckbörner
ÜbersichtData Mining
Was ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Was ist Data Mining?
Was ist Data Mining?Data Mining
BegriffsbestimmungAnalyse großer Datenmengen mit automatischen oder halbautomatischen Werkzeugen (Berry, Linoff)Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe Beschreibungen von Mustern und Regelmäßigkeiten in Datensätzen zu entdecken (Decker, Focardy)
Was ist Data Mining?Data Mining
BegriffsbestimmungTeilschritt des KDD-Prozesses, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus Daten gewonnen wurden, führt (Fayyad, Piatetsky-Shapiro und Smyth)
⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.
Nach welchen Mustern wird gesuchtData Mining
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Nach welchen Mustern wird gesuchtData Mining
Ausprägungen
Regeln und AbhängigkeitenGruppen (Cluster)Verbindungsmuster (Link)Zeitliche Muster (Sequence)AbweichungenFormeln und Gesetzmäßigkeiten
Nach welchen Mustern wird gesuchtData Mining
� Nicht alle gefundenen Muster sind für den Benutzer interessant!
� Nicht alle für den Benutzer relevanten Muster werden gefunden!
Wie wird gesucht?Data Mining
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Wie wird gesucht?Data Mining
Möglichkeiten
Nach mehreren Mustern parallel suchenIn verschiedenen Abstraktionsebenen suchenNach verschiedenen Schwerpunkten
Wie wird gesucht?Data Mining
Methoden
Künstliche neuronale NetzeKohonen-NetzeLineare RegressionGenetische AlgorithmenCHAIDRegelbasierte Systeme
Der KDD-ProzessKDD
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Der KDD-ProzessKDD
Daten Wissen
Prozess zur Identifikation von Mustern
• Gültig
• Neuartig
• Potentiell nützlich
• Verständlich
Auswahl
ZieldatenDaten Vorbereitete Daten
Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta-tion
Der KDD-ProzessKDD
Auswahl
ZieldatenDaten
Auswahl
ZieldatenDaten Vorbereitete Daten
Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta-tion
Der KDD-ProzessKDD
Vorbereitete Daten
Integration Bereinigung
Zieldaten
Der KDD-ProzessKDD
Vorbereitete Daten
ReduktionProjektion
Auswahl
ZieldatenDaten Vorbereitete Daten
Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta-tion
Transformierte Daten
Der KDD-ProzessKDD
Data Mining
Auswahl
ZieldatenDaten Vorbereitete Daten
Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta-tion
Transformierte Daten
Muster
Der KDD-ProzessKDD
Interpretation
Auswahl
ZieldatenDaten Vorbereitete Daten
Integration Bereinigung
Reduktion Projektion
Transformierte Daten
Muster Wissen
Data Mining Interpreta-tion
Muster Wissen
Data Mining ⇔ KDDKDD
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
KDD
Alle Daten
Wissen
Auswahl
Zieldaten Muster
Data Mining
InterpretationIntegration
Bereinigung
Vorbereitete Daten
Reduktion Projektion
Transformierte Daten
� Data Mining ist ein Teilschritt des KDD-Prozesses
Data Mining ⇔ KDD
OLAP-FunktionenOLAP
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
OLAP-FunktionenOLAP
Datenwürfel
n Dimensionen ⇔ n Attribute
Beispiel:3 Dimensionen:
⇒ Ort, Zeit, Produkt
Ort
Zeit
Produkt
OLAP-FunktionenOLAP
Datenwürfel
n Dimensionen ⇔ n Attribute
Wertebereich kontinuierlich ⇔ diskret
Hierarchien ⇒ Abstraktionsebenen
OLAP-FunktionenOLAP
Hierarchien Beispiel: Hierarchie auf Attribut „Zeit“
Januar 2003 Februar 2003 März 2003 Dezember 2003
1.Quartal 2003 4. Quartal 2003...
2003
Monat
Quartal
Jahr
...
OLAP-FunktionenOLAP
OLAP-Funktionen
Roll-UpDrill-Down
Januar 2003 Februar 2003 März 2003
1.Quartal 2003
Roll-Up
Drill-Down
OLAP-FunktionenOLAP
OLAP-Funktionen
Roll-UpDrill-Down
SliceZeit
Ort Produkt
Produkt = Radio
Zeit
Ort
Zeit
Ort Produkt
Ort = KL
Zeit
Produkt
OLAP-FunktionenOLAP
OLAP-Funktionen
Roll-UpDrill-Down
SliceDice
Zeit
Ort Produkt
Ort = RLPZeit = 4.Quartal
Produkt = Rundfunkgeräte
Zeit
Ort Produkt
OLAP-FunktionenOLAP
OLAP-Funktionen
Roll-UpDrill-Down
SliceDiceRotate (Pivote)
Data Mining ⇔ OLAPOLAP
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Data Mining ⇔ OLAPOLAP
Rennpferd ⇔ Arbeitspferd
OLAP = ArbeitspferdData Mining = Rennpferd
Data Mining ⇒ OLAPOLAP
Data Mining als Erweiterung des OLAP
Ergebnis sind Zusammenhänge und Muster in den Daten⇒
Ergebnis ist eine andere Darstellungsform der Daten�
�
�
�
�
Automatische Analyse(computergestützte Algorithmen)⇒
Benutzerinteraktive Analyse(aktive Auswertung der Daten)
Daten können vollkommen unbekannt sein⇒
Daten müssen bekannt sein(Benutzer wählt aus)
Ergebnis steht nicht fest, unbekannte Muster möglich⇒
Ergebnis steht fest (z.B. Bestätigung der Hypothese)
Kein Analyseziel notwendig (kann Hypothesen liefern)⇒
Analyseziel notwendig
(z.B. Hypothese)
Data Mining⇒OLAP
Data Mining ⇐ OLAPOLAP
OLAP Miningintegrierte, konsistente und gesäuberte Daten Anwendung von Data-Mining-AlgorithmenInteraktive Analyse und anschauliche Interpretation wie bei OLAP
OLAP-Mining-Funktionen (Auszug)Cubing then MiningMining then Cubing
Problemfelder des Data MiningProblemfelder
Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?
Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD
Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP
Problemfelder des Data Mining
Problemfelder des Data MiningProblemfelder
Speichergröße • Problem: Daten passen nicht vollständig in den Speicher
• Lösung: Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren
Antwortzeit• Problem: schnellere Analysen gewünscht – kürzere
Antwortzeiten des Systems
• Lösung: parallele Analysetechniken
Vielfalt der Datentypen • Problem: neue Datentypen, Videos ...
BenutzerfreundlichkeitDatenschutz und Sicherheit
ZusammenfassungWas ist Data Mining?
Data Mining Muster, Verfahren
KDD-ProzessData Mining als Teilschritt des KDD-Prozesses
OLAPDatenmodell, OLAP-Funktionen Data Mining als Erweiterung des OLAP
Problemfelder
Vielen Dank