1 a. cornuéjols les réseaux connexionnistes les réseaux connexionnistes antoine cornuéjols...

Post on 03-Apr-2015

110 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

TRANSCRIPT

1A. CornuéjolsLes réseaux connexionnistes

Les réseaux connexionnistes

Antoine Cornuéjols

(antoine.cornuejols@agroparistech.fr)

AgroParisTech

&

L.R.I., Université d’Orsay

2A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

3A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

4A. CornuéjolsLes réseaux connexionnistes

Introduction : Pourquoi les réseaux de neurones ?

• Inspiration biologique

Le cerveau naturel : un modèle très séduisant

– Robuste et tolérant aux fautes

– Flexible. Facilement adaptable

– S’accommode d’informations incomplètes, incertaines, vagues, bruitées ...

– Massivement parallèle

– Capable d’apprentissage

Neurones

– ≈ 1011 neurones dans le cerveau humain

– ≈ 104 connexions (synapses + axones) / neurone

– Potentiel d’action / période réfractaire / neuro-transmetteurs

– Signaux excitateurs / inhibiteurs

5A. CornuéjolsLes réseaux connexionnistes

Introduction : Pourquoi les réseaux de neurones ?

• Les attraits pratiques

Calculs parallélisables

Implantables directement sur circuits dédiés

Robustes et tolérants aux fautes (calculs et représentations distribués)

Algorithmes simples

D’emploi très général

• Les défauts

Opacité des “raisonnements”

Opacité des résultats

6A. CornuéjolsLes réseaux connexionnistes

Historique (très rapide) Prémisses

– Mc Culloch & Pitts (1943) : 1er modèle de neurone formel.

Rapport neurone et calcul logique : base de l’intelligence artificielle.

– Règle de Hebb (1949) : apprentissage par renforcement du couplage synaptique

Premières réalisations

– ADALINE (Widrow-Hoff, 1960)

– PERCEPTRON (Rosenblatt, 1958-1962)

– Analyse de Minsky & Papert (1969)

Nouveaux modèles

– Kohonen (apprentissage compétitif), ...

– Hopfield (1982) (réseau bouclé)

– Perceptron Multi-Couches (1985)

Analyse et développements

– Théorie du contrôle, de la généralisation (Vapnik), ...

7A. CornuéjolsLes réseaux connexionnistes

Les réseaux de neurones : Types de réseaux

• Interconnecté à boucles (e.g. réseau de Hopfield)

Fonctionnementen reconnaissance

Apprentissage ?

8A. CornuéjolsLes réseaux connexionnistes

Modèles de base : le Perceptron Multi-Couches

• Topologie typique

Flot des signaux

Entrée : xk

Couche d'entrée Couche de sortieCouche cachée

Sortie : yk

Sortie désirée : uk

9A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

10A. CornuéjolsLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

[Rosenblatt, 1957,1962]

11A. CornuéjolsLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

12A. CornuéjolsLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

13A. CornuéjolsLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

Discrimination contre tous les autres

14A. CornuéjolsLes réseaux connexionnistesDiscrimination linéaire : le Perceptron

Discrimination entre deux classes

15A. CornuéjolsLes réseaux connexionnistesLe perceptron : critère de performance

• Critère d’optimisation (fonction d’erreur) : Nb total d’erreurs de classification : NON

Critère du Perceptron :

Car nous voulons pour toutes les formes d’apprentissage :

Proportionnel, pour toutes les formes mal classées, à la distance à la surface de

décision

Fonction continue et linéaire par morceaux

REmp(w) = − wTxj . uj

xj ∈M∑

wT x ≥ 0

< 0⎧ ⎨ ⎩

⇒ x ∈ ω1

ω2

⎧ ⎨ ⎩

16A. CornuéjolsLes réseaux connexionnistes

L’apprentissage : Erreur quadratique

• Interprétation géométrique

φ1

φ2

y(x)

u(x)

17A. CornuéjolsLes réseaux connexionnistes

L’apprentissage : Erreur quadratique

ΦΤ ΦW −U( ) = 0

(ΦΤ Φ)WΤ = ΦΤ U

WΤ = Φ† U = (ΦΤ Φ)−1ΦΤ[ ]U

Φ† ≡ limε → 0

(ΦΤ Φ + εI)−1 ΦΤ

E(w) = 12

wjkφjl

j=0( inputs)

M

∑ − ukl

⎨ ⎪

⎩ ⎪

⎬ ⎪

⎭ ⎪k=1

(classes)

c

∑l=1

(exemples)

m

∑2

wik φil −

i=0

M

∑ ukl ⎧

⎨ ⎩

⎫ ⎬ ⎭l=1

m

∑ φ jl = 0

dérivation

soit :

Pseudo-inverse de Φ

Φ† Φ = I

d’où la solution :

• La solution directe : méthode de la pseudo-inverse

(seulement pour un réseau linéaire et une fonction d’erreur quadratique)

18A. CornuéjolsLes réseaux connexionnistes

Apprentissage direct : méthode de la pseudo-inverse

19A. CornuéjolsLes réseaux connexionnistes

Apprentissage direct : méthode de la pseudo-inverse

20A. CornuéjolsLes réseaux connexionnistes

Apprentissage direct : méthode de la pseudo-inverse

21A. CornuéjolsLes réseaux connexionnistes

Apprentissage direct : méthode de la pseudo-inverse

• La méthode de la pseudo-inverse requiert

La connaissance de toutes les paires (xp,tp)

Une inversion de matrice (souvent mal-configurée)

• La solution directe : méthode de la pseudo-inverse

(seulement pour un réseau linéaire et une fonction d’erreur quadratique)

• Nécessité d’une méthode itérative sans inversion de matrice

Descente de gradient

22A. CornuéjolsLes réseaux connexionnistesLe perceptron : algorithme• Méthode d’exploration de H

Recherche par gradient

– Minimisation de la fonction d’erreur

– Principe : procédure d'apprentissage dans l'esprit de la règle de Hebb : ajouter à

chaque connexion quelque chose de proportionnel à l'entrée et à la sortie.

– Apprentissage seulement si erreur de classification

Algorithme :

si la forme est correctement classée : ne rien faire

sinon :

boucler sur les formes d’apprentissage jusqu’à critère d’arrêt

Convergence ?

w(t+1) = w(t) − η xi ui

23A. CornuéjolsLes réseaux connexionnistesLe perceptron : Illustration

• Justification de l’algorithme Réduction de l’erreur

C1

C2

w (0)

C1

C2

w (1)

C1

C2

w (2)

−w(t+1)T(xj uj ) = −w(t+1)T(xj uj) − η (xj uj )T (xj uj ) < −w(t)T (xj uj )

24A. CornuéjolsLes réseaux connexionnistesLe perceptron : convergence et capacité mémoire

• Questions :

Qu’est-ce qui est apprenable ?

– Résultat de [Minsky & Papert,68] : séparatrices linéaires

Garantie de convergence ?

– Théorème de convergence du Perceptron [Rosenblatt,62]

Fiabilité de l’apprentissage et nombre d’exemples

– Combien faut-il d’exemples d’apprentissage pour avoir une certaine garantie

sur ce qui est appris ?

25A. CornuéjolsLes réseaux connexionnistes

Capacité expressive : Séparations linéaires

26A. CornuéjolsLes réseaux connexionnistes

Capacité expressive : Séparations linéaires

27A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

28A. CornuéjolsLes réseaux connexionnistes

Le Perceptron Multi-Couches : propagation

• Pour chaque neurone :

wjk : poidspoids de la connexion de la cellule j à la cellule k

ak : activationactivation de la cellule k

g : fonction d’activationfonction d’activation

g(a) = 1

1 + e−a

yl = g wjk φjj=0,d∑

⎝ ⎜

⎠ ⎟ = g(ak)

Fonction à base radiale

Fonction sigmoïde

Fonction à seuil

Fonction à rampe

Activation ai

Sortie zi

+1

+1

+1

g’(a) = g(a)(1-g(a))

29A. CornuéjolsLes réseaux connexionnistes

Le Perceptron Multi-Couches : exemple du XOR

A

B

C

x1

x2

y

Biais

Poids

Poids

-0.5

1-1.5

1

11

1

-0.5

-1

A B C

30A. CornuéjolsLes réseaux connexionnistes

Le PMC : puissance expressive

31A. CornuéjolsLes réseaux connexionnistes

Le PMC : puissance expressive

32A. CornuéjolsLes réseaux connexionnistes

Exemple de réseau (simulateur JavaNNS)

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

33A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

34A. CornuéjolsLes réseaux connexionnistes

Le PMC : l’apprentissage

• Trouver des poids permettant au réseau de réaliser une relation entrée-sortie spécifiée par des exemples de cette relation

(Toujours le problème de la généralisation)

• Apprentissage :

Minimiser la fonction de coût E(w,{xl,ul}) en fonction du paramètre w

Utiliser pour ceci une méthode de descente de gradient

(algorithme de rétro-propagation de gradient)

Principe inductif : On fait alors l’hypothèse que ce qui marche sur les exemples (minimisation du risque empirique), marche sur des données non vues (minimisation du risque réel)

Δwij ∝ −∂E ∂wij

35A. CornuéjolsLes réseaux connexionnistes

L’apprentissage : Erreur quadratique

• Interprétation géométrique

φ1

φ2

y(x)

u(x)

36A. CornuéjolsLes réseaux connexionnistes

L’apprentissage : descente de gradient

• Apprentissage = recherche dans l’espace multidimensionnel des paramètres (poids synaptiques) en vue de minimiser la fonction de coût

• Quasi totalité des règles d’apprentissage pour les RNs

= méthode de descente de gradient

Solution optimale w* tq. :

wij(τ+1) = wij

(τ ) − η∂E∂wij w(τ )

E(τ+1) = E(τ ) −∇wE

∇E(w* ) = 0

∇ = ∂

∂w1

,∂

∂w2

, ...,∂

∂w N

⎣ ⎢

⎦ ⎥

T

37A. CornuéjolsLes réseaux connexionnistes

Le Perceptron Multi-Couches : apprentissage

Objectif :

Algorithme (rétro-propagation de gradient) : descente de gradient

Algorithme itératif :

Cas hors-ligne (gradient total) :

où :

Cas en-ligne (gradient stochastique) :

w( t ) = w(t−1) −η∇Ew(t)

wij (t) = wij (t−1)−η(t)1m

∂RE (xk ,w)∂wijk=1

m

wij (t) = wij (t−1)−η(t)∂RE(xk,w)

∂wij

RE(xk,w) = [tk−f (xk ,w)]2

w * = argminw

1

my(xl ; w) − u(xl )[ ]

2

l=1

m

38A. CornuéjolsLes réseaux connexionnistes

Le Perceptron Multi-Couches : apprentissage

1. Présentation d’un exemple parmi l’ensemble d’apprentissage

Séquentielle, aléatoire, en fonction d’un critère donné

2. Calcul de l’état du réseau

3. Calcul de l’erreur = fct(sortie - sortie désirée) (e.g. = (yl - ul)2)

4. Calcul des gradients

Par l’algorithme de rétro-propagation de gradient

5. Modification des poids synaptiques

6. Critère d’arrêt

Sur l’erreur. Nombre de présentation d’exemples, ...

7. Retour en 1

39A. CornuéjolsLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• Le problème : Détermination des responsabilités (“credit assignment problem”) Quelle connexion est responsable, et de combien, de l’erreur E ?

• Principe : Calculer l’erreur sur une connexion en fonction de l’erreur sur la couche suivante

• Deux étapes :

1. Evaluation des dérivées de l’erreur par rapport aux poids

2. Utilisation de ces dérivées pour calculer la modification de chaque poids

40A. CornuéjolsLes réseaux connexionnistes

1. Evaluation de l’erreur Ej (ou E) due à chaque connexion :

Idée : calculer l’erreur sur la connexion wji en fonction de l’erreur après la cellule j

Pour les cellules de la couche de sortie :

Pour les cellules d’une couche cachée :

PMC : La rétro-propagation de gradient

∂ El

∂ wij

δk = ∂ El

∂ ak = g'(ak)

∂ El

∂ yk = g' (ak)⋅ uk(xl) −yk( )

δj = ∂ El

∂ aj =

∂ El

∂ ak

∂ ak∂ ajk

∑ = δk

∂ ak∂ zj

∂ zj∂ ajk

∑ = g'(aj )⋅ wjk δkk∑

∂ El

∂ wij

= ∂ El

∂ aj ∂ aj∂ wij

= δj zi

41A. CornuéjolsLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

ai : activation de la cellule i

zi : sortie de la cellule i

i : erreur attachée à la cellule i

wijji k

yk

Cellule de sortieCellule cachée

k

akaj

j

wjkzjzi

42A. CornuéjolsLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• 2. Modification des poids

On suppose gradient à pas (constant ou non ): η(t)

Si apprentissage stochastique (après présentation de chaque exemple)

Si apprentissage total (après présentation de l’ensemble des exemples)

Δ wji = η (t)δ j ai

Δ wji = η (t) δ jn ai

n

n∑

43A. CornuéjolsLes réseaux connexionnistes

Le PMC : passes avant et arrière (résumé)

x

ai(x) = wjxj

j=1

d

∑ +w0

yi(x) = g(ai(x))

ys(x) = wjsyjj=1

k

∑ys(x)

wis

k neurones sur lacouche cachée

. . .

x1

x2

x3

xd

w1 w

2 w3

wd

yi( x )

x0

w0

B i a i s

. . .y ( x )1

44A. CornuéjolsLes réseaux connexionnistes

Le PMC : passes avant et arrière (résumé)

x

ys(x)

wis

. . .x1 x2 x3 xd

w1 w2 w3wd

yi(x)

x0

w0Biais

. . .y (x)1

δs = g'(as) (us−ys)

δj = g'(aj ) wjsδscellules scouchesuivante

wis(t+1) = wis(t) − η(t)δsai

wei(t+1) = wei(t) − η(t)δiae

45A. CornuéjolsLes réseaux connexionnistes

PMC : La rétro-propagation de gradient

• Efficacité en apprentissage

En O(w) pour chaque passe d’apprentissage, w = nb de poids

Il faut typiquement plusieurs centaines de passes (voir plus loin)

Il faut typiquement recommencer plusieurs dizaines de fois un apprentissage en

partant avec différentes initialisations des poids

• Efficacité en reconnaissance

Possibilité de temps réel

46A. CornuéjolsLes réseaux connexionnistes

Analyse de la surface d’erreur

47A. CornuéjolsLes réseaux connexionnistes

Analyse de la surface d’erreur

48A. CornuéjolsLes réseaux connexionnistes

Analyse de la surface d’erreur

49A. CornuéjolsLes réseaux connexionnistes

Applications : la discrimination

• 1 neurone de sortie

{0,1}

[0,1]

– Erreur quadratique

Probabilité [0,1]

– Critère entropique

• Exemple :

Mines cylindriques / roches(http://www.ics.uci.edu/mlearn/MLRepository.html)

. . .

x 1 x 2 x 3 x d

w1 w

2 w3

wd

x 0

w0

B i a i s

. . .

50A. CornuéjolsLes réseaux connexionnistes

Applications : la discrimination multiclasse

• c-1 problèmes de discrimination

• 1 neurone de sortie

{0,1, …, c}

[0,1]

• n (≤ c) neurones de sortie

1 neurone / classe

Code correcteur d’erreur

Exemple :

Reconnaissance de caractères manuscrits

Reconnaissance de locuteurs

. . .

x 1 x 2 x 3 x d

w1 w

2 w3

wd

yi( x )

x 0

w0

B i a i s

. . .y ( x )1

x

y(x)

51A. CornuéjolsLes réseaux connexionnistes

Applications : optimisation multi-objectif

• cf [Tom Mitchell]

prédire à la fois la classe et la couleur

plutôt que la classe seulement.

52A. CornuéjolsLes réseaux connexionnistes

PMC : Les applications• Automatique : identification et contrôle de processus

(e.g. Commande de robot)

• Traitement du signal (filtrage, compression de données, traitement de la parole (Identification du locuteur, ...)

• Traitement d’images, reconnaissance des formes (reconnaissance de l’écriture manuscrite, Lecture automatique des codes postaux (Zip codes, USA), ...)

• Prédiction (consommations d’eau, d’électricité, météorologie, bourse, ...)

• Diagnostic (industrie, médecine, science, ...)

53A. CornuéjolsLes réseaux connexionnistes

Application aux codes postaux (Zip codes)

• [Le Cun et al., 1989, ...] (ATT Bell Labs : très forte équipe)

• ≈ 10000 exemples de chiffres manuscrits

• Segmentés et redimensionnés sur matrice 16 x 16

• Technique des poids partagés (“weight sharing”)

• Technique du optimal brain damage

• 99% de reconnaissance correcte (sur l’ensemble d’apprentissage)

• 9% de rejet (pour reconnaissance humaine)

54A. CornuéjolsLes réseaux connexionnistes

La base de données

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

55A. CornuéjolsLes réseaux connexionnistes

Application aux codes postaux (Zip codes)

1

2

3

4

5

6

7

8

9

0

Matrice 16 x 16 12 détecteursde traits (8 x 8)

12 détecteursde traits (4 x 4)

30 cellules

10 cellulesde sortie

56A. CornuéjolsLes réseaux connexionnistes

Les erreurs commises

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

57A. CornuéjolsLes réseaux connexionnistes

La régression

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

58A. CornuéjolsLes réseaux connexionnistes

Un échec : QSAR

• Quantitative Structure Activity Relations

QuickTime™ et undécompresseur TIFF (non compressé)sont requis pour visionner cette image.

Prédire certaines propriétés de molécules (par exemple activité biologique) à partir de descriptions :- chimiques- géométriques- éléctriques

59A. CornuéjolsLes réseaux connexionnistes

Rôle de la couche cachée

60A. CornuéjolsLes réseaux connexionnistes

Rôle de la couche cachée

61A. CornuéjolsLes réseaux connexionnistes

PMC : Analyse

• Rôle des cellules cachées

• Efficacité calculatoire

62A. CornuéjolsLes réseaux connexionnistes

Rôle de la couche cachée

63A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

64A. CornuéjolsLes réseaux connexionnistes

PMC : Mise en pratique (1)• Problèmes techniques :

comment améliorer la performance de l’algorithme

Le PMC en tant que méthode d’optimisation : variantes

• Ajout d’un moment

• Méthodes du 2° ordre

• Hessien

• Gradients conjugués

Heuristiques

• Apprentissage séquentiel vs en mode batch

• Choix de la fonction d’activation

• Normalisation des entrées

• Initialisation des poids

• Les gains d’apprentissage

65A. CornuéjolsLes réseaux connexionnistes

PMC : La rétro-propagation de gradient (variantes)

• Ajout d’un moment

Δ wji (t +1) = − η∂ E

∂ w ji

+ α Δw ji(t)

66A. CornuéjolsLes réseaux connexionnistes

Convergence

• Réglage du pas d’apprentissage : η

67A. CornuéjolsLes réseaux connexionnistes

PMC : Problèmes de convergence

• Minimums locaux. “Ravins”. etc.

Ajout d’un terme de moment (inertie)

Conditionnement des variables

Bruiter les données d’apprentissage

Algorithme stochastique (vs. total)

Un pas de gradient variable (dans le temps et pour chaque cellule)

Utilisation de la dérivée seconde (Hessien). Gradient conjugué.

68A. CornuéjolsLes réseaux connexionnistes

PMC : Problèmes de convergence (gradients variables)

• Gain adaptatif

si le gradient ne change pas de signe, sinon

Gain beaucoup plus faible en stochastique qu’en gradient total

Gain propre à chaque couche (e.g. 1 / (# entrées cellule)1/2 )

• Algorithmes plus complexes

Gradients conjugués

– Idée : Essayer de minimiser indépendamment sur chaque axe, en utilisant un

moment sur la direction de recherche

Méthodes de second ordre (Hessien)

Diminuent le nombre de pas mais augmentent le temps calcul.

69A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

70A. CornuéjolsLes réseaux connexionnistes

Le sur-apprentissage

71A. CornuéjolsLes réseaux connexionnistes

Le problème de la sélection de modèle

72A. CornuéjolsLes réseaux connexionnistes

Contrôle de H : régularisation

• Principe : limiter l’expressivité de H

• Nouveau risque empirique :

• Exemples de régularisateurs utilisés :

– Contrôle de l’architecture du RN

– Contrôle des paramètres

• Soft-weight sharing

• Weight decay

• Réseaux à convolution

– Exemples bruités

Remp (α) = 1m

L(h(xl , α ),ul

l=1

m

∑ ) + λ Θ[h(. ,α )]Terme de pénalisation

73A. CornuéjolsLes réseaux connexionnistes

Contrôle par limite de l’exploration effective de H

74A. CornuéjolsLes réseaux connexionnistes

Généralisation : optimiser la structure d’un réseau

• Par croissance progressive

Cascade correlation [Fahlman,1990]

• Par élagage

Optimal brain damage [Le Cun,1990]

Optimal brain surgeon [Hassibi,1993]

• Règle de l’arrêt prématuré

75A. CornuéjolsLes réseaux connexionnistes

Introduction de connaissances a priori

Invariances

• Exemples obtenus par transformation

Translation / rotation / dilatation

• Fonction de coût incorporant des dérivées (e.g. spatiales)

76A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

77A. CornuéjolsLes réseaux connexionnistes

ANN Application Areas

• Classification

• Clustering

• Associative memory

• Control

• Function approximation

78A. CornuéjolsLes réseaux connexionnistes

ANN Classifier systems

• Learning capability

• Statistical classifier systems

• Data driven

• Generalisation capability

• Handle and filter large input data

• Reconstruct noisy and incomplete patterns

• Classification rules not transparent

79A. CornuéjolsLes réseaux connexionnistes

Applications for ANN Classifiers

• Pattern recognition

Industrial inspection

Fault diagnosis

Image recognition

Target recognition

Speech recognition

Natural language processing

• Character recognition

Handwriting recognition

Automatic text-to-speech conversion

80A. CornuéjolsLes réseaux connexionnistes

Clustering with ANNs

• Fast parallel distributed processing

• Handle large input information

• Robust to noise and incomplete patterns

• Data driven

• Plasticity/Adaptation

• Visualisation of results

• Accuracy sometimes poor

81A. CornuéjolsLes réseaux connexionnistes

ANN Clustering Applications

• Natural language processing

Document clustering

Document retrieval

Automatic query

• Image segmentation

• Data mining

Data set partitioning

Detection of emerging clusters

• Fuzzy partitioning

• Condition-action association

82A. CornuéjolsLes réseaux connexionnistes

Associative ANN Memories

• Stimulus-response association

• Auto-associative memory

• Content addressable memory

• Fast parallel distributed processing

• Robust to noise and incomplete patterns

• Limited storage capability

83A. CornuéjolsLes réseaux connexionnistes

Application of ANN Associative Memories

• Character recognition

• Handwriting recognition

• Noise filtering

• Data compression

• Information retrieval

84A. CornuéjolsLes réseaux connexionnistes

ANN Control Systems

• Learning/adaptation capability

• Data driven

• Non-linear mapping

• Fast response

• Fault tolerance

• Generalisation capability

• Handle and filter large input data

• Reconstruct noisy and incomplete patterns

• Control rules not transparent

• Learning may be problematic

85A. CornuéjolsLes réseaux connexionnistes

ANN Control Schemes

• ANN controller

• conventional controller + ANN for unknown or non-linear dynamics

• Indirect control schemes

ANN models direct plant dynamics

ANN models inverse plant dynamics

86A. CornuéjolsLes réseaux connexionnistes

ANN Control Applications

• Non-linear process control Chemical reaction control

Industrial process control

Water treatment

Intensive care of patients

• Servo control Robot manipulators

Autonomous vehicles

Automotive control

• Dynamic system control Helicopter flight control

Underwater robot control

87A. CornuéjolsLes réseaux connexionnistes

ANN Function Modelling

• ANN as universal function approximator

• Dynamic system modelling

• Learning capability

• Data driven

• Non-linear mapping

• Generalisation capability

• Handle and filter large input data

• Reconstruct noisy and incomplete inputs

88A. CornuéjolsLes réseaux connexionnistes

ANN Modelling Applications

• Modelling of highly nonlinear industrial processes

• Financial market prediction

• Weather forecasts

• River flow prediction

• Fault/breakage prediction

• Monitoring of critically ill patients

89A. CornuéjolsLes réseaux connexionnistes

Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

Neural Network ApproachesALVINN - Autonomous Land Vehicle In a Neural Network

ALVINN

90A. CornuéjolsLes réseaux connexionnistes

Presented by Martin Ho, Eddy Li, Eric Wong and Kitty Wong - Copyright© 2000

- Developed in 1993.

- Performs driving with Neural Networks.

- An intelligent VLSI image sensor for road following.

- Learns to filter out image details not relevant to driving.

Hidden layer

Output units

Input units

ALVINN

91A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

92A. CornuéjolsLes réseaux connexionnistes

PMC à fonctions radiales (RBF)

• Définition

Couche cachée de cellules à fonction d’activation radiale (e.g. gaussienne)

– Idée : “paver” l’espace des entrées avec ces “champs récepteurs”

Couche de sortie : combinaison linéaire sur la couche cachée

• Propriétés

Approximateur universel ([Hartman et al.,90], ...)

Mais non parcimonieux (explosion combinatoire avec la taille des entrées)

Réservé aux problèmes de faible dimensionalité

Liens étroits avec les systèmes d’inférence floue et les réseaux neuro-flous

93A. CornuéjolsLes réseaux connexionnistes

PMC à fonctions radiales (RBF) : apprentissage

• Paramètres à régler :

Nb de cellules cachées

Position des centres des champs récepteurs

Diamètre des champs récepteurs

Poids vers la couche de sortie (moyenne pondérée)

• Méthodes

Adaptation de la rétro-propagation (possible)

Détermination de chaque type de paramètres par une méthode propre (souvent plus efficace)

– Centres déterminés par méthodes de “clustering” (k-means, ...)

– Diamètres déterminés par optimisation des taux de recouvrement (PPV, ...)

– Poids par technique d’optimisation linéaire (calcul de pseudo-inverse, ...)

94A. CornuéjolsLes réseaux connexionnistes

Les réseaux récurrents

• Tâches

Reconnaissance de séquence

E.g. reconnaître le mot correspondant à un signal vocal

Reproduction de séquence

E.g. poursuivre la séquence quand une séquence initiale a été fournie (ex: prévision de

consommation d’électricité)

Association temporelle

Production d’une séquence en réponse à la reconnaissance d’une autre séquence.

Time Delay Neural Networks (TDNNs)

Duplication des couches (artifice : pas vraiment récurrents)

Réseaux récurrents

95A. CornuéjolsLes réseaux connexionnistes

Recurrent ANN Architectures

• Feedback connections

• Dynamic memory: y(t+1)=f(x(τ),y(τ),s(τ)) τ(t,t-1,...)

• Models : Jordan/Elman ANNs

Hopfield

Adaptive Resonance Theory (ART)

96A. CornuéjolsLes réseaux connexionnistes

Les réseaux récurrents

Sortie

Cachée

Contexte Entrée

Sortie

Cachée

Contexte

Sortie

Cachée

Contexte

EntréeSortie

Cachée

Contexte Entrée

1

ααi

α

1

(d)

(a) (b) (c)

97A. CornuéjolsLes réseaux connexionnistes

Les réseaux récurrents

• Problèmes

Notoirement difficiles à contrôler

– Dynamique chaotique

Mémoire du passé limitée

Paramètres supplémentaires

– Apprentissage mal compris

98A. CornuéjolsLes réseaux connexionnistes

Une idée intrigante : le « reservoir computing »

• Idée :

Utiliser un réseau récurrent sans l’entraîner explicitement

Mais entraîner une seule couche de sortie

• Permet de rendre compte du temps

Séries temporelles

99A. CornuéjolsLes réseaux connexionnistes

Une idée intrigante : le « reservoir computing »

• Semble prometteur :

Demande encore beaucoup de recherches

• Voir aussi

– Liquid State Machines

– Echo State Machines

– Backpropagation-Decorrelation

100A. CornuéjolsLes réseaux connexionnistes

Plan

1. Introduction

2. Le perceptron

3. Le perceptron multi-couches (PMC)

4. Apprentissage dans les PMC

5. Aspects calculatoires

6. Aspects méthodologiques de l’apprentissage

7. Applications

8. Développements et perspectives

9. Conclusions

101A. CornuéjolsLes réseaux connexionnistes

Conclusions• Limites

Apprentissage lent et difficile

Opacité

– Réseaux appris très difficile à interpréter

– Difficile d’utiliser de la connaissance a priori

Apprentissage incrémental difficile : « catastrophic forgetting »

• Avantages

Souvent de très bonnes performances en généralisation

102A. CornuéjolsLes réseaux connexionnistes

ANN Summary

Artificial Neural Networks

Feedforward Recurrent

(Kohonen) (MLP, RBF)

Unsupervised Supervised

(ART) (Elman, Jordan,Hopfield)

Unsupervised Supervised

103A. CornuéjolsLes réseaux connexionnistes

Sources documentaires• Ouvrages / articles

Dreyfus et. al (2001) : Réseaux de neurones. Méthodologie et applications. Eyrolles, 2001.

Bishop C. (06) : Neural networks for pattern recognition. Clarendon Press - Oxford, 1995.

Haykin (98) : Neural Networks. Prentice Hall, 1998.

Hertz, Krogh & Palmer (91) : Introduction to the theory of neural computation. Addison Wesley, 1991.

Thiria, Gascuel, Lechevallier & Canu (97) : Statistiques et méthodes neuronales. Dunod, 1997.

Vapnik (95) : The nature of statistical learning. Springer Verlag, 1995.

• Sites web

http://www.lps.ens.fr/~nadal/ (point d’entrée pour de nombreux sites)

top related