iam medialab, winterthur, 06. dezember 2018 thilo stadelmann · iam medialab, winterthur, 06....
TRANSCRIPT
Zürcher Fachhochschule
Deep Learning und Medien
IAM MediaLab, Winterthur, 06. Dezember 2018
Thilo Stadelmann
Zürcher Fachhochschule2
Prolog
Zürcher Fachhochschule3
Was ist künstliche Intelligenz?
"The exciting new effort to make computers think... machines with minds,
in the full and literal sense." (Haugeland, 1985)
"[The automation of] activities that we associate with human thinking, activities such as decision-making, problem solving,
learning..." (Bellman, 1978)
"The study of mental faculties throughthe use of computational models."
(Charniak and McDermott, 1985)
"The study of the computations that make it possible to perceive, reason,
and act." (Winston, 1992)
"The art of creating machines that perform functions that require
intelligence when performed by people." (Kurzweil, 1990)
"The study of how to make computers do things at which, at the moment,
people are better." (Rich and Knight, 1991)
"Computational Intelligence is the study of the design of intelligent agents."
(Poole et al., 1998)
"AI... is concerned with intelligent behaviour in artefacts." (Nilsson, 1998)
thinking
acting
rationallyhumanly
concern
ed w
ith
standard measured by
Zürcher Fachhochschule4
Was ist künstliche Intelligenz?
"The exciting new effort to make computers think... machines with minds,
in the full and literal sense." (Haugeland, 1985)
"[The automation of] activities that we associate with human thinking, activities such as decision-making, problem solving,
learning..." (Bellman, 1978)
"The study of mental faculties throughthe use of computational models."
(Charniak and McDermott, 1985)
"The study of the computations that make it possible to perceive, reason,
and act." (Winston, 1992)
"The art of creating machines that perform functions that require
intelligence when performed by people." (Kurzweil, 1990)
"The study of how to make computers do things at which, at the moment,
people are better." (Rich and Knight, 1991)
"Computational Intelligence is the study of the design of intelligent agents."
(Poole et al., 1998)
"AI... is concerned with intelligent behaviour in artefacts." (Nilsson, 1998)
thinking
acting
rationallyhumanly
concern
ed w
ith
standard measured by
Zürcher Fachhochschule5
Was gehört zu künstlicher Intelligenz?
…
…
…
…
…
…
…
Zürcher Fachhochschule6
Was? Wie?Wow!
1Was ist passiert?
(Eine kurze Geschichte der letzten Jahre)
Zürcher Fachhochschule7
Zürcher Fachhochschule8
Zürcher Fachhochschule9
Zürcher Fachhochschule10
Zürcher Fachhochschule11
…und die Liste liesse sich fortsetzen!
Zürcher Fachhochschule12
…und die Liste liesse sich fortsetzen!
Zürcher Fachhochschule13
…und die Liste liesse sich fortsetzen!
Zürcher Fachhochschule14
Was ist passiert? Der ImageNet Wettbewerb
1000 Kategorien
1 Mio. Beispiele …
Zürcher Fachhochschule15
Was ist passiert? Der ImageNet Wettbewerb
1000 Kategorien
1 Mio. Beispiele …
A. Krizhevsky verwendet als erster ein
sog. «Deep Neural Network» (CNN)
Zürcher Fachhochschule16
Was ist passiert? Der ImageNet Wettbewerb
1000 Kategorien
1 Mio. Beispiele …
A. Krizhevsky verwendet als erster ein
sog. «Deep Neural Network» (CNN)
Zürcher Fachhochschule17
Was ist passiert? Der ImageNet Wettbewerb
1000 Kategorien
1 Mio. Beispiele …
A. Krizhevsky verwendet als erster ein
sog. «Deep Neural Network» (CNN)
2015: Computer haben “Sehen” gelernt
4.95% Microsoft (06. Februar)
Besser als Menschen (5.10%)
4.80% Google (11. Februar)
4.58% Baidu (11. Mai)
3.57% Microsoft (10. Dezember)
Zürcher Fachhochschule18
Was? Wie?Wow!
2Wie geht das?
Zürcher Fachhochschule19
Idee: Mehr Tiefe zum Lernen von Merkmalen
(0.2, 0.4, …)
Containerschiff
Tiger
Klassische Bild-
verarbeitung
(0.4, 0.3, …)
Merkmalsextraktion
(SIFT, SURF, LBP, HOG, etc.)
Containerschiff
Tiger
Mit Convolutional
Neural Networks
(CNNs)
Nimmt rohe Pixel entgegen,
Merkmale werden mitgelernt!
Klassifikation
(SVM, Neuronales Netz, etc.)
…
…
Zürcher Fachhochschule20
Idee: Mehr Tiefe zum Lernen von Merkmalen
(0.2, 0.4, …)
Containerschiff
Tiger
Klassische Bild-
verarbeitung
(0.4, 0.3, …)
Merkmalsextraktion
(SIFT, SURF, LBP, HOG, etc.)
Containerschiff
Tiger
Mit Convolutional
Neural Networks
(CNNs)
Nimmt rohe Pixel entgegen,
Merkmale werden mitgelernt!
Klassifikation
(SVM, Neuronales Netz, etc.)
…
…
Zürcher Fachhochschule21
GrundlageInduktives überwachtes Lernen
Annahme• Ein an genügend viele Beispiele
angepasstes Modell…
• …wird auch auf
unbekannte Daten generalisieren
Quelle: http://lear.inrialpes.fr/job/postdoc-large-scale-classif-11-img/attribs_patchwork.jpg
Zürcher Fachhochschule22
GrundlageInduktives überwachtes Lernen
Annahme• Ein an genügend viele Beispiele
angepasstes Modell…
• …wird auch auf
unbekannte Daten generalisieren
Methode• Suchen der Parameter einer
gegebenen Funktion…
• …so dass für alle Beispiele Eingabe (Bild)
auf Ausgabe («Auto») abgebildet wird
Quelle: http://lear.inrialpes.fr/job/postdoc-large-scale-classif-11-img/attribs_patchwork.jpg
Zürcher Fachhochschule23
GrundlageInduktives überwachtes Lernen
Annahme• Ein an genügend viele Beispiele
angepasstes Modell…
• …wird auch auf
unbekannte Daten generalisieren
Methode• Suchen der Parameter einer
gegebenen Funktion…
• …so dass für alle Beispiele Eingabe (Bild)
auf Ausgabe («Auto») abgebildet wird
Quelle: http://lear.inrialpes.fr/job/postdoc-large-scale-classif-11-img/attribs_patchwork.jpg
𝒇 𝒙 = 𝒚
Zürcher Fachhochschule24
Suche der Parameter einer Funktion?
Neuron
Merkmale (z.B. Pixel)
Anpassbare Parameter
Entscheidung
(Schwellwert)
Ergebnis (z.B. «Auto»)
𝑦
Zürcher Fachhochschule25
Suche der Parameter einer Funktion?
Neuron
Merkmale (z.B. Pixel)
Anpassbare Parameter
Entscheidung
(Schwellwert)
Ergebnis (z.B. «Auto»)
𝑦
Zürcher Fachhochschule26
Suche der Parameter einer Funktion?
Neuron Neuronales Netz
Merkmale (z.B. Pixel)
Anpassbare Parameter
Entscheidung
(Schwellwert)
Ergebnis (z.B. «Auto»)
𝑦
Zürcher Fachhochschule27
Suche der Parameter einer Funktion?
Neuron Neuronales Netz
Merkmale (z.B. Pixel)
Anpassbare Parameter
Entscheidung
(Schwellwert)
Ergebnis (z.B. «Auto»)
𝑦
Zürcher Fachhochschule28
Was? Wie?Wow!
3Was machen wir damit?
(Wow, mit lokalen Unternehmen!)
Zürcher Fachhochschule29
1. Print media monitoring
Task Challenge Nuisance
Zürcher Fachhochschule30
1. Print media monitoring – ML solution
Meier, Stadelmann, Stampfli, Arnold & Cieliebak (2017). «Fully Convolutional Neural Networks for Newspaper Article Segmentation». ICDAR’2017.
Stadelmann, Tolkachev, Sick, Stampfli & Dürr (2018). «Beyond ImageNet - Deep Learning in Industrial Practice». In: Braschler et al., «Applied Data Science», Springer.
Zürcher Fachhochschule31
2. Music scanning
Zürcher Fachhochschule32
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
Zürcher Fachhochschule33
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
Zürcher Fachhochschule34
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
Zürcher Fachhochschule35
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
,
Zürcher Fachhochschule36
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
Tuggener, Elezi, Schmidhuber & Stadelmann (2018). «Deep Watershed Detector for Music Object Recognition». ISMIR’2018.
,
Zürcher Fachhochschule37
2. Music scanning – challenges & solutions
Tuggener, Elezi, Schmidhuber, Pelillo & Stadelmann (2018). «DeepScores – A Dataset for Segmentation, Detection and Classification of Tiny Objects». ICPR’2018.
Tuggener, Elezi, Schmidhuber & Stadelmann (2018). «Deep Watershed Detector for Music Object Recognition». ISMIR’2018.
,
Zürcher Fachhochschule38
2. Music scanning – industrialization(Work in progress)
Recent results on class imbalance and robustness challenges1. Added sophisticated data augmentation in every page’s margins
2. Put additional effort (and compute) into hyperparameter tuning and longer training
3. Trained also on scanned (more real-worldish) scores
Improved our mAP from 16% (on purely synthetic data) to 73% on more challenging real-world data set
(additionally, using Pacha et al.’s evaluation method as a 2nd benchmark: from 24.8% to 47.5%)
Elezi, Tuggener, Pelillo & Stadelmann (2018). «DeepScores and Deep Watershed Detection: current state and open issues». WoRMS @ ISMIR’2018.
Pacha, Hajic, Calvo-Zaragoza (2018). «A Baseline for General Music Object Detection with Deep Learning». Appl. Sci. 2018, 8, 1488, MDPI.
Zürcher Fachhochschule39
Schlussfolgerungen
• KI löst komplexe (einzelne) Probleme; es geht nicht um «Intelligenz» in unserem Sinne
• Deep Learning hat zu Paradigmenwechsel in Mustererkennungsaufgaben geführt
• Deren Anwendung (in Unternehmen & Produkten) führt zu grossem Veränderungspotential
in der Gesellschaft – ganz ohne Science Fiction
• Die Veränderung wird kommen – gestalten wir sie!
Zu mir:• Leiter ZHAW Datalab, Board Data+Service
• 058 934 72 08
• https://stdm.github.io/
Mehr zum Thema:• KI: https://sgaico.swissinformatics.org/
• Data+Service Alliance: www.data-service-alliance.ch
• Gemeinsame Projekte: [email protected]
Fragen Sie gerne nach.
Zürcher Fachhochschule40
ANHANG
Zürcher Fachhochschule41
Suche der Parameter einer Funktion?
• Unser Neuronales Netz: 𝑓𝑾 𝑥 = 𝑦mit Bild 𝑥, echtem Resultat 𝑦 und Parametern 𝑾(𝑾 = {𝑤1, 𝑤2, … } anfangs zufällig gewählt)
• Fehlermass: 𝑙 𝑾 =1
𝑁σ𝑖=1𝑁 𝑓𝑾 𝑥𝑖 − 𝑦𝑖
2
Durchschnitt der quadratischen Abweichungen
über alle Bilder (Loss)
Fehlerlandschaft
𝑤2
𝑤1
𝑙(𝑤1, 𝑤2)
Methode: Anpassung der Gewichte
von 𝑓 in Richtung der steilsten
Steigung (abwärts) von 𝐽
Wahrscheinlichkeit [%] für bestimmtes Ergebnis
𝑙 𝑾 =1
𝑁
𝑖=1
𝑁
𝑓𝑾 𝑥𝑖 − 𝑦𝑖2
Durchschnitt (über
alle Beispiele)
Differenz IST – SOLL
(Fehler)
Bestraft grosse Fehler
überproportional
stärker
Zürcher Fachhochschule42
Was «sieht» das Neuronale Netz?Hierarchien komplexer werdender Merkmale
Quellen: https://www.pinterest.com/explore/artificial-neural-network/
Olah, et al., "Feature Visualization", Distill, 2017, https://distill.pub/2017/feature-visualization/.
Zürcher Fachhochschule43
Wie schlussfolgert die Maschine?«Debugging» für Einblicke in die vermeintliche «Black Box»
Verdeutlichen ein Problem:• Adversarial Examples
https://blog.openai.com/adversarial-example-research/
Bieten eine Lösung:• Saliency Maps
Ruth C. Fong & Andrea Vedaldi, «Interpretable Explanations of Black Boxes by Meaningful Perturbation», 2017
Zürcher Fachhochschule44
Adversarial attacks erkennen…mittels Local Spatial Entropy der Feature Responses
Amirian, Schwenker & Stadelmann (2018). «Trace and Detect Adversarial Attacks on CNNs using Feature Response Maps». ANNPR’2018.
Zürcher Fachhochschule45
Lessons learned – model interpretability
Interpretability is required.• Helps the developer in «debugging», needed by the user to trust
visualizations of learned features, training process, learning curves etc. should be «always on»
Stadelmann, Amirian, Arabaci, Arnold, Duivesteijn, Elezi, Geiger, Lörwald, Meier, Rombach & Tuggener (2018). «Deep Learning in the Wild». ANNPR’2018.
Schwartz-Ziv & Tishby (2017). «Opening the Black Box of Deep Neural Networks via Information».
https://distill.pub/2017/feature-visualization/, https://stanfordmlgroup.github.io/competitions/mura/
negative X-ray positive X-ray
DNN training on the Information Plane a learning curve feature visualization
Zürcher Fachhochschule46
2. OMR deep dive OMR vs state of the art object detectors
YOLO/SSD-type detectors
Source: https://pjreddie.com/darknet/yolov2/ (11.09.2018)
R-CNN• Two-step proposal and refinement scheme
• Very large amount of proposals at high resolution needed
Zürcher Fachhochschule47
2. OMR deep dive (contd.)The deep watershed detector
Fully convolutional net Output heads
Zürcher Fachhochschule48
2. OMR deep dive (contd.)The (deep) watershed transform
Zürcher Fachhochschule49
2. OMR deep dive (contd.)Output heads of the deep watershed detector
Energy Class Bbox
Gro
und
truth
Pre
dic
tion