data mining & knowledge discovery · data mining was ist data mining? nach welchen mustern wird...

Post on 30-Aug-2019

12 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Data Mining & Knowledge Discovery

Seminar Business Intelligence Teil II

Was ist Data Mining?Sabine Queckbörner

ÜbersichtData Mining

Was ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Was ist Data Mining?

Was ist Data Mining?Data Mining

BegriffsbestimmungAnalyse großer Datenmengen mit automatischen oder halbautomatischen Werkzeugen (Berry, Linoff)Methode zur Problemlösung um logische oder mathematische, zum Teil komplexe Beschreibungen von Mustern und Regelmäßigkeiten in Datensätzen zu entdecken (Decker, Focardy)

Was ist Data Mining?Data Mining

BegriffsbestimmungTeilschritt des KDD-Prozesses, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus Daten gewonnen wurden, führt (Fayyad, Piatetsky-Shapiro und Smyth)

⇒ Data Mining als Anwendung von Algorithmen auf Daten mit der Zielsetzung, Muster aus den Daten zu extrahieren.

Nach welchen Mustern wird gesuchtData Mining

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Nach welchen Mustern wird gesuchtData Mining

Ausprägungen

Regeln und AbhängigkeitenGruppen (Cluster)Verbindungsmuster (Link)Zeitliche Muster (Sequence)AbweichungenFormeln und Gesetzmäßigkeiten

Nach welchen Mustern wird gesuchtData Mining

� Nicht alle gefundenen Muster sind für den Benutzer interessant!

� Nicht alle für den Benutzer relevanten Muster werden gefunden!

Wie wird gesucht?Data Mining

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Wie wird gesucht?Data Mining

Möglichkeiten

Nach mehreren Mustern parallel suchenIn verschiedenen Abstraktionsebenen suchenNach verschiedenen Schwerpunkten

Wie wird gesucht?Data Mining

Methoden

Künstliche neuronale NetzeKohonen-NetzeLineare RegressionGenetische AlgorithmenCHAIDRegelbasierte Systeme

Der KDD-ProzessKDD

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Der KDD-ProzessKDD

Daten Wissen

Prozess zur Identifikation von Mustern

• Gültig

• Neuartig

• Potentiell nützlich

• Verständlich

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Der KDD-ProzessKDD

Auswahl

ZieldatenDaten

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Der KDD-ProzessKDD

Vorbereitete Daten

Integration Bereinigung

Zieldaten

Der KDD-ProzessKDD

Vorbereitete Daten

ReduktionProjektion

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Transformierte Daten

Der KDD-ProzessKDD

Data Mining

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Transformierte Daten

Muster

Der KDD-ProzessKDD

Interpretation

Auswahl

ZieldatenDaten Vorbereitete Daten

Integration Bereinigung

Reduktion Projektion

Transformierte Daten

Muster Wissen

Data Mining Interpreta-tion

Muster Wissen

Data Mining ⇔ KDDKDD

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

KDD

Alle Daten

Wissen

Auswahl

Zieldaten Muster

Data Mining

InterpretationIntegration

Bereinigung

Vorbereitete Daten

Reduktion Projektion

Transformierte Daten

� Data Mining ist ein Teilschritt des KDD-Prozesses

Data Mining ⇔ KDD

OLAP-FunktionenOLAP

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

OLAP-FunktionenOLAP

Datenwürfel

n Dimensionen ⇔ n Attribute

Beispiel:3 Dimensionen:

⇒ Ort, Zeit, Produkt

Ort

Zeit

Produkt

OLAP-FunktionenOLAP

Datenwürfel

n Dimensionen ⇔ n Attribute

Wertebereich kontinuierlich ⇔ diskret

Hierarchien ⇒ Abstraktionsebenen

OLAP-FunktionenOLAP

Hierarchien Beispiel: Hierarchie auf Attribut „Zeit“

Januar 2003 Februar 2003 März 2003 Dezember 2003

1.Quartal 2003 4. Quartal 2003...

2003

Monat

Quartal

Jahr

...

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

Januar 2003 Februar 2003 März 2003

1.Quartal 2003

Roll-Up

Drill-Down

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceZeit

Ort Produkt

Produkt = Radio

Zeit

Ort

Zeit

Ort Produkt

Ort = KL

Zeit

Produkt

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceDice

Zeit

Ort Produkt

Ort = RLPZeit = 4.Quartal

Produkt = Rundfunkgeräte

Zeit

Ort Produkt

OLAP-FunktionenOLAP

OLAP-Funktionen

Roll-UpDrill-Down

SliceDiceRotate (Pivote)

Data Mining ⇔ OLAPOLAP

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Data Mining ⇔ OLAPOLAP

Rennpferd ⇔ Arbeitspferd

OLAP = ArbeitspferdData Mining = Rennpferd

Data Mining ⇒ OLAPOLAP

Data Mining als Erweiterung des OLAP

Ergebnis sind Zusammenhänge und Muster in den Daten⇒

Ergebnis ist eine andere Darstellungsform der Daten�

Automatische Analyse(computergestützte Algorithmen)⇒

Benutzerinteraktive Analyse(aktive Auswertung der Daten)

Daten können vollkommen unbekannt sein⇒

Daten müssen bekannt sein(Benutzer wählt aus)

Ergebnis steht nicht fest, unbekannte Muster möglich⇒

Ergebnis steht fest (z.B. Bestätigung der Hypothese)

Kein Analyseziel notwendig (kann Hypothesen liefern)⇒

Analyseziel notwendig

(z.B. Hypothese)

Data Mining⇒OLAP

Data Mining ⇐ OLAPOLAP

OLAP Miningintegrierte, konsistente und gesäuberte Daten Anwendung von Data-Mining-AlgorithmenInteraktive Analyse und anschauliche Interpretation wie bei OLAP

OLAP-Mining-Funktionen (Auszug)Cubing then MiningMining then Cubing

Problemfelder des Data MiningProblemfelder

Data MiningWas ist Data Mining?Nach welchen Mustern wird gesucht?Wie wird gesucht?

Knowledge Discovery in Databases (KDD)Der KDD-ProzessGegenüberstellung Data Mining und KDD

Online Analytical Processing (OLAP)OLAP-FunktionenGegenüberstellung Data Mining und OLAP

Problemfelder des Data Mining

Problemfelder des Data MiningProblemfelder

Speichergröße • Problem: Daten passen nicht vollständig in den Speicher

• Lösung: Algorithmen, die zum Beispiel in mehreren Durchgängen analysieren

Antwortzeit• Problem: schnellere Analysen gewünscht – kürzere

Antwortzeiten des Systems

• Lösung: parallele Analysetechniken

Vielfalt der Datentypen • Problem: neue Datentypen, Videos ...

BenutzerfreundlichkeitDatenschutz und Sicherheit

ZusammenfassungWas ist Data Mining?

Data Mining Muster, Verfahren

KDD-ProzessData Mining als Teilschritt des KDD-Prozesses

OLAPDatenmodell, OLAP-Funktionen Data Mining als Erweiterung des OLAP

Problemfelder

Vielen Dank

top related