probabilistic neural network

Fakultät für IngenieurwissenschaftenBrodkorb, KarstenLiesche, ToniWendel, Tom

Team 6 – Multimedia Engineering

Probabilistic Neural Network

Team 6: Probabilistic Neural Networks 2

„The resulting network […] has the unique feature that the decision boundaryimplemented by the probabilistic neural network (PNN) asymptotically

approaches the Bayes optimal decision surface.“

Donald F. Specht (Lockheed Missiles & Space Company) - 1990

Team 6: Probabilistic Neural Networks

Inhaltsverzeichnis1 Probabilistic Neural Networks

… Grundlagen… Allgemeiner Aufbau… Mathematische Grundlagen… Der Glättungsparameter σ

2 Implementierung in Knime

3 Testdaten

4 Quellen

3


Grundlagen

4

Eigenschaften: Klassifizierer Nähert sich optimalem Bayes Klassifizierer an Berechnung anhand von Wahrscheinlichkeiten „Probabilistic“ NNs Unanfällig gegenüber Ausreißern Kurze Trainingszeit (klassisches PNN)

Voraussetzungen: Datensätze mit numerischen Attributen Menge mit (repräsentativen) Trainingsdaten Große Mengen an Speicher- und Rechenzeit nötig


Allgemeiner Aufbau

5

Input Layer Unbekannte Eingangsdaten

Pattern Layer Trainingsdaten in Populationen, Berechnung des Abstands

Summation Layer Bildung des durchschnittlichen Abstands je Population

Output Layer Klassifizierung


Mathematische Grundlagen

6

x Unbekannte Eingabegröße xik k-tes Beispiel der i-ten Population n Anzahl der Elemente einer Population σ Glättungsparameter p Länge der Merkmalsvektor

siehe Dokumentation

𝑔𝑖 ( �⃗� )= 1(2𝜋)𝑝 /2𝜎 𝑝𝑛𝑖

∑𝑘=1

𝑛 𝑖

𝑒−

‖�⃗�−�⃗�𝑘𝑖‖2

2𝜎2


Der Glättungsparameter σ (I)

7

Kleiner Wert für σ: Ausschläge in der Dichtefunktion

entsprechen den Positionender zugehörigen Trainingsdaten

Größerer Wert für σ: Stärkere Interpolation der Werte Werte nahe der Trainingsdaten:

ähnliche (geschätzte) Wahr-scheinlichkeiten wie Trainingsdaten

Noch größerer Wert für σ: Weitere Interpolation

Sehr großer Wert für σ: Gaußkurve unabhängig der realen Verteilung


Der Glättungsparameter σ (II)

8

Möglichkeiten zur Bestimmung: Freie Festlegung aufgrund von Erfahrung

Nutzung einer heuristischen Methode: Optimalen Wert innerhalb eines Intervalls suchen Intervall und Schrittweite verkleinern z.B. Jackknifing siehe Dokumentation



2 Implementierung in Knime… Dynamic Decay Adjustment (DDA)- Algorithmus… Workflowaufbau

3 Testdaten

4 Quellen

9


Dynamic Decay Adjustment (I)

10

Konstruktives Training: Neue Neuronen werden bei Bedarf angelegt Bestimmung der Netztopologie während des Trainings

Schnelles Training: In der Regel weniger als 5 Durchläufe

Garantierte Konvergenz: Terminierung bei endlicher Anzahl von Trainingsdaten kann bewiesen

werden

Unkritische Parameter: Nur zwei manuelle Parameter einzustellen

Binärdaten führen zu schlechten Vorhersagen!


Dynamic Decay Adjustment (II)

11

Deutliche Klassifizierungszonen: Alle Trainingsdaten erfüllen folgende Eigenschaften

Alle korrekten Klassifikationen ≥ ϴ+

Alle falschen Klassifikationen ≤ ϴ- Muster in „area of conflict“ haben niedrige Klassenwahrscheinlichkeiten

Zwei Schwellwerte während des Trainings: ϴ+: Minimalwert für gewinnende Klasse (0 … 1) ϴ-: Maximalwert für nicht gewinnende Klasse (0 … 1) ϴ- ≤ ϴ+


Dynamic Decay Adjustment (III)

12

Erweiterungen zu PNNs: Individuelle Diagonalmatrix Σ für jeden Trainingssatz statt globales σ Alternativer Ansatz: Manuelle Festlegung der Struktur, Anpassung der

Parameter

Dynamic Decay Adjustment vereint Vorteile der Verfahren: Topologie des Netzes zur Laufzeit bestimmt Lokale Glättungsparameter σ

Gewichtungen für sämtliche Prototypen (abhängig von Topologie)𝑔𝑖 (�⃗� )=∑𝑘=1

𝑛𝑖

𝜋𝑘𝑖 𝑔𝑘

𝑖 ( �⃗� );𝜋𝑘𝑖 =

𝐴𝑘𝑖

∑𝑗=1

𝑛𝑖

𝐴 𝑗𝑖;∑𝑘=1

𝑛𝑖

𝜋𝑘𝑖 =1

𝑔𝑘𝑖 ( �⃗� )= 1

(2𝜋 )𝑝 /2 (σ𝑘𝑖 )𝑝𝑒−

‖�⃗�− �⃗�𝑘𝑖‖²

2 (σ𝑘𝑖 )2


Dynamic Decay Adjustment (IV)

13

Beispiel für DDA- Lernverfahren:

Berechnung: siehe Dokumentation


Workflowaufbau

14

File Reader: Liest Daten aus Eingabedatei (CSV-Format)

Partitioning: Aufteilung in Trainingsdaten (60%) und Testdaten (40%) Stratified Sampling: Beibehaltung der Klassenverteilung

PNN Learner (DDA): Training des Netzes, Einstellen von ϴ(-) und ϴ(+)

PNN Predictor: Vorhersage der Daten

Ergebnisse normalisiert: a posteriori Wahrscheinl. Summe aller Klassen = 1




3 Testdaten… Vorverarbeitung… Auswertung

4 Quellen

15


Datenauswahl: Vollständige Datensätze gewählt (zum Vergleich mit MLP)

PNN = Euklidische Abstandsberechnung: Numerische Werte nötig Binärkodierung nominaler Werte

Normierung der Werte: 0 … 1 für Gleichgewichtung Individuelle Gewichtung möglich

Vorverarbeitung

16


C4.5: Entscheidungsbaum, Erweiterung von ID3 numerische Werte MLP: Multi Layer Perceptron kNN: k Nearest Neighbour (k = 3) Angegeben: Fehlerrate bei Klassifizierung der Testdaten in Prozent i.d.R.: geringer Einfluss von ϴ-/ϴ+ auf Klassifizierung, großer Einfluss auf

Netzgröße Ausnahme Kreditscoring: 20,5% Fehlerrate bei 0,2 / 0,4!

Auswertung

17

Datensatz Trainingsdaten/ Testdaten

C4.5 MLP kNN PNN ϴ-/ϴ+ Regeln

Reduzierungd. Netzgröße

Gehalt USA 320 / 214 35,05

33,18

36,45

31,78

0,05/0,1 203 36,6%

Kreditscoring

600 / 400 0 0 0 0,75 0,05/0,5 478 20,3%

Schwertlilien

90 / 60 3,33 5 0 0 0,45/0,65

10 88,88%

DMC 2007 30000 / 20000 23,645 22,665 23,13 22,615

0,2/0,4 3227 89,25%




3 Testdaten

4 Quellen

18


QuellenCheung, Vincent; Cannons, Kevin: An Introduction to Probabilistic Neural

Networks. Winnipeg (Kanada), University of Manitoba, Electrical & Computer Engineering, Information Paper, 2002

Berthold, Michael R.; Diamond, Jay: Constructive Training of Probabilistic Neural Networks. Karlsruhe, University of Karlsruhe, Deparment of Computer Design and Fault Tolerance, Wissenschaftliches Paper, 1997

Specht, Donald F.: Probabilistic Neural Networks. In Neural Networks, Vol. 3. Oxford (England) und New York (USA): Pergamon Press plc, 1990, S. 109 – 118

19


Vielen Dank für Ihre Aufmerksamkeit!

20

probabilistic neural network

Documents

probabilistic neural

dokumentation team

optimalen wert

groer wert

realen verteilung team

falschen klassifikationen

decision surface

strkere interpolation