informatique & mathematiques appliqu´ ees´...

Informatique & Mathematiques AppliqueesOptimisation

J. Gergaud & S. Gratton & D. Ruiz

30 avril 2013

Table des matieres

1 Exemples et definitions 3I Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

I.1 Cas continu et de dimension finie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3I.2 Problemes en nombres entiers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10I.3 Probleme en dimension infinie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

II Probleme d’optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13II.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13II.2 Classification . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

III Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2 Outils mathematiques 23I Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23II Algebre lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

II.1 rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23III Calcul differentiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

III.1 Notations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24III.2 Theoreme des fonctions composees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25III.3 Formule de Taylors . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26III.4 Courbes de niveau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26III.5 Surfaces et plan tangent dans R3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

IV Convexite des applications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27IV.1 Ensembles convexes - applications convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27IV.2 Convexite et derivee premiere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28IV.3 Convexite et derivee seconde . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29IV.4 Illustrations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

V Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30V.1 Avec corrections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3 Existence de solution, unicite de solution 33I Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33II Existence de solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

II.1 Problemes avec contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33II.2 Probleme sans contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

III Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34IV Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

IV.1 Corriges des exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36IV.2 Exercices sans corrections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4 Condition necessaire, condition suffisante de solutionCas sans contraintes et cas de contrainte convexe 39I Condition du premier ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

I.1 Cas sans contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39I.2 Cas de contraintes convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39I.3 Problemes convexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

II Conditions du deuxieme ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40II.1 Condition necessaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40II.2 Condition suffisante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

III Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

i

ii TABLE DES MATIERES

5 Problemes aux moindres carres 45I Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45II Les moindres carres lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

II.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45II.2 Approximation d’une fonction au sens des moindres carres . . . . . . . . . . . . . . . . . . . . . . . 46

III La methode de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47III.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47III.2 Algorithme de Newton pour resoudre f(x) = 0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47III.3 Resolution d’equations : cas de la dimension n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48III.4 Convergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49III.5 Application aux problemes d’optimisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

IV Resolution des problemes aux moindres carres non lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . 51IV.1 Algorithme de Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51IV.2 Algorithme de Gauß-Newton . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51IV.3 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

6 Problemes avec contraintes 55I Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55II Conditions du premier ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

II.1 Conditions du premier ordre : contraintes sous forme egalites . . . . . . . . . . . . . . . . . . . . . . 56II.2 Qualification des contraintes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59II.3 Theoreme de Karuch, Kuhn et Tucker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61II.4 Cas convexe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

III Conditions du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63III.1 Conditions Necessaires du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63III.2 Conditions suffisantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

IV Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65IV.1 Avec corrections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

7 Introduction a la dualite 67I Point selle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

I.1 Definition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67I.2 Caracterisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

II Condition suffisante de solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68II.1 Point selle de lagrangien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68II.2 Condition suffisante de solution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

III Dualite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69III.1 Definition du probleme dual et theoremes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69III.2 Cas d’un probleme lineaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

IV Exercice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

Chapitre 5

Problemes aux moindres carres

I IntroductionL’objectif de ce chapitre est de resoudre les problemes aux moindres carres non-lineaires.

(P1)

Min f(β) = 1

2 ||r(β)||2β ∈ Rp.

Dans le cas ou l’application r est affine, le probleme est lineaire et sera resolu facilement. Si r n’est pas affine, il nous fautdevelopper des algorithmes pour calculer une solution. La branche des mathematiques qui s’occupe de ces questions pour lesproblemes d’optimisation continues s’appelle l’optimisation continue et sera abordee en deuxieme annee. Nous allons ici nouslimiter a des algorithmes de base pour les problemes aux moindres carres, qui sont l’algorithme de Newton et l’algorithme deGauß-Newton.

II Les moindres carres lineaires

II.1 Rappels

Considerons le probleme aux moindres carres lineaire

(P2)

Min f(β) = 1

2 ||y −Xβ||2

β ∈ Rp.

Ce probleme admet une solution. En effet, ce probleme est equivalent a resoudre

(P3)

Min g(γ) = 1

2 ||y − γ||2

γ ∈ ImX ⊂ Rn.

Comme ImX est un ferme et que g est 0−coercive, le theoreme 3.II.2.2 demontre l’existence d’une solution.

Remarque II.1.1Le probleme (P3) est en fait le probleme de la projection orthogonale du vecteur y sur ImX . Il possede une unique solutioncar g est strictement convexe. Par contre le probleme initial (P2) possede une ou une infinite de solutions suivant que le rangde X est p ou est strictement inferieur a p.

Le probleme (P2) est un probleme convexe et differentiable, par suite une solution est caracterisee par les equations,appelees dans ce cas les equations normales,

∇f(β) = XTXβ −XT y = 0. (5.1)

Illustration graphique II.1.2 Considerons ici la matrice X comme l’expression d’une application lineaire de Rp a valeursdans Rn. on a alors

Rp = Ker X⊥ ⊕ Ker X Rn = ImX ⊕ ImX⊥ = ImX ⊕ Ker (XT )β∗ = X+y γ∗ = ProjImX(y)

X+X = Proj(Ker X)⊥ XX+ = ProjImX

Si rang (X) = p, alors Ker X = ~0 et β∗ = (XTX)−1XT y

45

46 CHAPITRE 5. PROBLEMES AUX MOINDRES CARRES

II.2 Approximation d’une fonction au sens des moindres carres

Le probleme de l’approximation d’une fonction f sur un intervalle I ⊂ R est fondamentalement different de celui del’interpolation. Il consiste a remplacer la fonction f consideree par une autre fonction P(x) (en general plus reguliere, etfacile a manipuler) de sorte que la distance entre f et P soit aussi petite que possible.

On peut chercher par exemple un polynome de bas degre, qui approche la fonction f en un sens a preciser sur l’intervalleI , ce qui differe du probleme d’interpolation qui consiste a trouver un polynome de degre en general eleve qui coıncide aumaximum avec la fonction f .

La notion de distance entre les fonctions f et P est bien evidemment fondamentale dans la definition du procede d’ap-proximation. On pourra par exemple distinguer :

(i) l’approximation au sens de la convergence uniforme, ou il s’agit de minimiser

maxx∈I|f(x)− P(x)| = ‖f − P‖∞ ,

(probleme ne relevant pas des moindres carres)

(ii) l’approximation en moyenne quadratique ou il s’agit de minimiser la quantite∫I

(f(x)− P(x))2 dx = ‖f − P‖2L2(I) ,

(iii) l’approximation au sens des moindres carres discrets, utile lorsque f n’est connue que de maniere discrete (c’est adire sur un ensemble fini de points xi ∈ I , 1 ≤ i ≤ m) ; cette approximation consiste alors a minimiser la quantite

m∑i=1

(f(xi)− P(xi))2 .

Approximation en moyenne quadratique

On se propose d’approcher f sur l’intervalle I = [a, b] par une fonction P(x), ou P est une combinaison lineaire d’unensemble de n fonctions donnees uj ∈ L2(I), j = 1, . . . , n,

P(x) =

n∑j=1

βjuj(x) ,

les coefficients βj etant donc les inconnues a determiner de facon a minimiser la quantite

f(β1, . . . , βn) = ‖f − P‖2L2(I) =

∫ b

a

(f(x)−n∑

j=1

βjuj(x))2 dx .

Remarque : Si on souhaite realiser une approximation polynomiale de f , il suffira de choisir

uj(x) = xj−1 , j = 1, 2, . . . , n .

Proposition II.2.1 Soit β ∈ Rn le vecteur des coefficients βj , j = 1, . . . , n. Une condition necessaire et suffisante pour queβ realise le minimum de la fonctionnelle f(β), est que β soit solution du systeme lineaire suivant

n∑j=1

(uj |ui)βj = (f |ui) , i = 1, . . . , n ,

avec

(uj |ui) =

∫ b

a

uj(x)ui(x) dx

(f |ui) =

∫ b

a

f(x)ui(x) dx

III. LA METHODE DE NEWTON 47

Approximation au sens des moindres carres discrets

Soit f une fonction dont on connaıt la valeur sur un sous ensemble fini de points x1, . . . , xm. On se propose alorsd’approcher la fonction f par une fonction P de telle facon que la quantite

m∑i=1

(f(xi)− P(xi))2 ,

soit minimale.De plus, on cherche P sous la forme

P(x) =

n∑j=1

βj uj(x); ,

ou les uj sont des fonctions connues et les βjnj=1 sont les inconnues a determiner. On suppose de plus que m > n, pourne pas etre ramene a un probleme d’interpolation. Ce probleme correspond au lissage d’une fonction f donnee par unecombinaison lineaire de fonctions quelconques.

Introduisons alors la matrice X a m lignes et n colonnes, ainsi que les vecteurs β ∈ Rn et y ∈ Rm definis par

X =

u1(x1) · · · un(x1)u1(x2) · · · un(x2)

......

u1(xm) · · · un(xm)

, β =

β1

β2

...βn

, et y =

f(x1)f(x2)

...f(xm)

.

En utilisant ces notations, on a alors le resultat suivant :

Proposition II.2.2 Il est facile de voir que le probleme d’approximation decrit ci-dessus se ramene en fait a minimiser parrapport a β ∈ Rn la quantite

f(β) = ‖Xβ − y‖22 ,

et donc que le vecteur de coefficients β ∈ Rn recherche correspond a la solution au sens des moindres carres du systemelineaire surdetermine

Xβ = y .

De plus, si les points xi, i = 1, . . . ,m, et les fonctions uj , j = 1, . . . , n, sont choisis de telle facon que la matrice X soit derang maximal, alors le probleme d’approximation au sens des moindres carres discrets precedent admet une solution uniqueβ ∈ Rn, solution du systeme lineaire

XTXβ = XT y .

III La methode de Newton

III.1 IntroductionL’algorithme de Newton est a la base des algorithmes d’optimisation implementes dans les bibliotheques numeriques.

Mais, avant de considerer le cas d’un probleme d’optimisation, nous allons nous interesser au probleme de la resolution d’unsysteme d’equations non lineaires a n equations et n inconnues.

III.2 Algorithme de Newton pour resoudre f(x) = 0

Resolution d’une equation : cas de la dimension 1

le probleme est ici de resoudre numeriquement une equation f(x) = 0 ou la fonction f est une fonction reelle de lavariable reelle. nous supposerons de plus que cette fonction est derivable. on considere alors l’algorithme suivant :

Algorithme III.2.1

Initialisation :choisir x(0) ∈ Rchoisir ε > 0 et MaxIterk := 0Corps :repeter


Resoudre f(x(k)) + f ′(x(k))(x− x(k)) = 0, soit x(k+1) la solutionk := k + 1

jusqu’a (|f(x(k))| < ε|f(x(0)|) ou (k = MaxIter)

Remarque III.2.2(i) ici f ′(x(k)) appartient a R.

(ii) l’algorithme peut se “bloquer” si f ′(x(k)) = 0, et donc dans ce cas l’algorithme ne fournit pas de solution.

(iii) cet algorithme ne converge pas toujours.

Illustration graphique III.2.3 l’intersection de la tangente a f en x(k) avec l’axe des abscisses (cf. FIGURE(5.1) est donneepar la solution de f(x(k)) + f ′(x(k)).(x− x(k)) = 0, soit :

x = x(k) − 1

f ′(x(k)).f(x(k))

−1 0 1 2 3 4 5−10

−5

0

5

10

15

20

25

x

f(x)

x0x1x2x3

FIGURE 5.1 – Algorithme de Newton.

III.3 Resolution d’equations : cas de la dimension nDe la meme facon qu’en dimension 1 on obtient l’algorithme en calculant x(k+1) a partir de x(k) donne en annulant

la “meilleure” approximation affine de la fonction f au voisinage de x(k), c’est-a-dire en resolvant le systeme lineaire a nequations et a n inconnues suivant :

f(x(k)) + Jf (x(k))(x− x(k)) = 0

qui admet une unique solution si Jf (x(k)) est inversible.

Remarque III.3.1On presente tres souvent l’algorithme de Newton sous la forme de la mise a jour du point courant donnee par 5.2. Cetteequation est tres utile pour la theorie, mais est bien evidement a bannir pour une implementation informatique.

x(k+1) := x(k) − [Jf (x(k))]−1.f(x(k)) (5.2)

Remarque III.3.2lorsque n = 1, f ′(x(k)) est un reel et [f ′(x(k))]−1 = 1/f ′(x(k)), et nous retrouvons la mise a jour exposee precedemment.

en conclusion nous obtenons l’algorithme suivant :

Algorithme III.3.3 [algorithme de newton]Initialisation :choisir x(0) ∈ R

III. LA METHODE DE NEWTON 49

choisir ε > 0 et MaxIterk := 0Corps :repeter

Resoudre f(x(k)) + Jf (x(k))(x− x(k)) = 0, soit x(k+1) la solutionk := k + 1

jusqu’a (||f(x(k))|| < ε||f(x(0)||) ou (k = MaxIter)

Remarque III.3.4(i) cet algorithme se “bloque” si Jf (x(k)) n’est pas inversible.

(ii) le test d’arret ‖|f(x(k))‖| < ε||f(x(0))|| signifie en fait que toutes les composantes de f(x(k)) sont “proches” de 0 enrelatif.

Exercice III.1On considere la fonction

soit f : R −→ R

x 7−→ x2 − a avec a > 0.

1 Donner l’iteration de Newton pour resoudre f(x) = 0.

Exercice III.2On considere la fonction

f : R2 −→ R2(x1

x2

)7−→

(x1 + x2 − 3x2

1 + x22 − 9

)alors f(x) = 0 si et seulement si x = (0, 3)T ou x = (3, 0)T .

1 Appliquer l’algorithme de Newton (III.3.3) en partant du point x(0) = (1, 5)T et en prenant ε = 0, 6.

III.4 ConvergenceTheoreme III.4.1Soit f une fonction definie sur un ouvert Ω de Rn a valeurs dans Rn de classe C2 dans B(x∗, r) ⊂ Ω et x∗ un point deΩ tel que f(x∗) = 0. On suppose que f ′(x∗) est inversible, alors il existe ε > 0 tel que pour tout point x(0) ∈ B(x∗, ε),l’algorithme de Newton est bien defini et la suite des iteres (xk)k converge vers x∗. De plus la convergence est quadratique,c’est-a-dire qu’il existe c > 0 tel que

||x(k+1) − x∗|| ≤ c||x(k) − x∗||2 (5.3)

Avant de voir la demonstration, voyons ce que signifie l’equation (5.3) (exemple provenant de [3] page 23). A la table(5.1) on voit que la convergence est plus rapide pour la fonction f1(x) = x2 − 1 qui verifie les hypotheses du theoreme quepour la fonction f2(x) = (x−1)2 qui ne verifie pas que f ′(1) soit inversible. La convergence quadratique signifie en pratiqueque si on est suffisemment pres de la solution et si a une iteration k on a p decimales qui sont exactes, on aura a l’iterationk + 1, 2p decimales qui seront exactes. 1

f1(x) = x2 − 1 f2(x) = (x− 1)2

x0 2 2x1 1.25 1.5x2 1.025 1.25x3 1.0003048780488 1.125x4 1.0000000464611 1.0625x5 1.0 1.03125

TABLE 5.1 – Convergence quatratique pour f1 et lineaire pour f2.

Demontrons maintenant le theoreme.Demonstration

L’ensemble x ∈ Ω, Jf (x)inversible = Ωx ∈ Ω,det Jf (x) = 0 est un ouvert car c’est le complementaire de

1. Ajouter le graphique, cf. Daniel.


l’antecedent d’un ferme par une application continue. Par suite il existe ε1 > 0 tel que pour tout x ∈ B(x∗, ε1), Jf (x)soit inversible. Comme f est C2 l’application qui a x ∈ B(x∗, ε1) associe ||[Jf (x)]−1|| est continue, on en deduit quepour 0 < ε2 < ε1 l’image par cette application de B(x∗, ε2) est un compact. Par suite, il existe β > 0 tel que pour toutx ∈ B(x∗, ε2) on a ||[Jf (x)]−1|| ≤ β.

||x(k+1) − x∗|| = ||x(k) − x∗ − [Jf (x(k))]−1f(x(k))|| (5.4)

≤ ||[Jf (x(k))]−1|| ||f(x(k))− f(x∗)− Jf (x(k))(x(k) − x∗)|| (5.5)

≤ 1

2||Jf (x(k))||−1 Supx∈Bf (x∗,ε2)||∇2f(x)|| ||x(k) − x∗||2. (5.6)

Mais f est C2 par suite en posant Supx∈Bf (x∗,ε2)||∇2f(x)|| = γ on obtient

||x(k+1) − x∗|| ≤ 1

2βγ||x(k) − x∗||2. (5.7)

Posons maintenant ε = min(ε2, 1/(βγ)) et prenons x(0) ∈ B(x∗, ε), on obtient

||x(1) − x∗|| ≤ 1

2||x(0) − x∗|| ≤ ε/2.

Donc x(1) ∈ B(x∗, ε) et par recurrence

||x(k) − x∗|| ≤ 1

2k||x(0) − x∗||.

Par suite x(k) ∈ B(x∗, ε) et la suite des iteres de Newton existe et converge vers x∗. Quand a la convergenge quadratique ellevient de l’inequation (5.7). 2

III.5 Application aux problemes d’optimisation

Nous rappelons que le probleme qui nous interesse ici est le suivant :

(P )

Min f(x)x ∈ Rn

et nous avons vu (theoreme (4.I.1.1)) qu’une condition necessaire de solution est f ′(x) = 0. Cette condition nous conduit donctout naturellement vers la recherche d’un zero de l’equation g(x) = 0 avec g(x) = ∇f(x). Il nous suffit donc d’appliquerl’algorithme de Newton a cette fonction g. A chaque iteration nous aurons donc a resoudre le systeme lineaire suivant :

∇2f(x(k))(x− x(k)) +∇f(x(k)) = 0. (5.8)

Remarque III.5.1Si∇2f(x(k)) n’est pas inversible alors l’algorithme se bloque.

Remarque III.5.2Nous avons vu a la remarque 2.III.3.2 que la meilleure approximation quadratique de la fonctionnelle f au voisinage du pointx(k) est donnee par :

q(x) = f(x(k)) + (∇f(x(k))|x− x(k)) +1

2(∇2f(x(k))(x− x(k))|x− x(k))

et nous avons∇q(x) = ∇f(x(k))+∇2f(x(k))(x−x(k)) et∇2q(x) = ∇2f(x(k)). Par suite si∇2f(x(k)) est definie positiveq est convexe et rechercher le minimum de q(x) sur Rn est equivalent a resoudre l’equation ∇q(x) = 0. Mais cette derniereequation est equivalente a l’iteration de Newton pour resoudre ∇f(x) = 0. En conclusion notre algorithme recherche achaque iteration, lorsque ∇2f(x(k)) est definie positive, le minimum de l’approximation a l’ordre 2 de la fonctionnelle f .

IV. RESOLUTION DES PROBLEMES AUX MOINDRES CARRES NON LINEAIRES 51

IV Resolution des problemes aux moindres carres non lineaires

IV.1 Algorithme de NewtonLa fonction a optimiser s’ecrit ici

f(β) =1

2||r(β)||2 =

1

2

n∑i=1

r2i (β).

Nous avons donc

∇f(β) =∑i

ri(β)∇ri(β) = Jr(β)T r(β) (5.9)

∇2f(β) =∑i

ri(β)∇2ri(β) +∑i

∇ri(β)∇ri(β)T (5.10)

= S(β) + Jr(β)TJr(β) (5.11)(5.12)

L’iteration de l’algorithme de Newton s’ecrit donc

x(k+1) = x(k) − [S(β) + Jr(β)TJr(β)]−1Jr(β)T r(β) (5.13)

IV.2 Algorithme de Gauß-NewtonL’idee est ici de lineariser les residus autour du point β(k) et ainsi de se ramener a un probleme des moindres carres

lineaire. Posons s = β − β(k), on cherche donc a chaque iteration a resoudre

(Pk)

Min f(β) = 1

2 ||r(β(k)) + Jr(β(k))s||2

s ∈ Rp,

ce qui est equivalent a resoudre les equations normales

Jr(β(k))TJr(β(k))s+ Jr(β(k))T r(β(k)) = 0. (5.14)

Donc, si Jr(β(k))TJr(β(k)) est inversible, on peut ecrire l’iteration de Gauß-Newton :

β(k+1) = β(k) − [Jr(β(k))TJr(β(k))]−1Jr(β(k))T r(β(k)). (5.15)

Remarque IV.2.1(i) La difference entre les deux algorithmes reside dans l’absence du terme S(β) dans l’equation (5.13), terme qui contient

les matrice hessiennes des residus.

(ii) Il y a deux avantages a l’algorithme de Gauß-Newton par rapport a l’algorithme de Newton :– On n’a pas besoin de calculer les matrices hessiennes des residus ;– Contrairement a l’algorithme de Newton, on peut toujours trouver une solution β(k) a (Pk).

IV.3 ExemplesExemple IV.3.1Considerons le probleme suivant

(P )

Min f(x) = 1

2 ((x21 − x2)2 + (1− x1)2)

x ∈ R2

La figure (5.2) visualise la fonctionnelle a minimiser. Calculons le gradient de f et sa derivee seconde.

∇f(x) =

(2x3

1 − 2x1x2 + x1 − 1−x2

1 + x2

)

∇2f(x) =

(6x2

1 − 2x2 + 1 −2x1

−2x1 1

)Prenons x0 = (0, 1)T .


A la premiere iteration, nous avons a resoudre le systeme lineaire

∇2f(x0)(x− x0) +∇f(x0) = 0

⇐⇒(−1 00 1

)(x1

x2 − 1

)+

(−11

)=

(00

)⇐⇒

−x1 + 0x2 = 10x1 + x2 = 0

D’ou

x1 =

(−10

)A la deuxieme iteration, nous avons a resoudre le systeme lineaire

∇2f(x1)(x− x1) +∇f(x1) = 0

⇐⇒(

7 22 1

)(x1 + 1x2

)+

(−4−1

)⇐⇒

7x1 + 2x2 = −32x1 + x2 = −1

=

(00

)D’ou

x1 =

(− 1

3− 1

3

)La figure (5.3) donne les courbes de niveaux de la fonction a minimiser ainsi que les iteres successifs

−1−0.5

00.5

11.5

2

−1

0

1

2

3

4

0

2

4

6

8

10

12

14

x1

x2

f(x)

FIGURE 5.2 – Fonction f a minimiser pour l’exemple IV.3.1.

Exemple IV.3.2Reprenons l’exemple de l’exercice 1.III.3 sur la datation du carbone C14. La figure 5.5 visualise la fonction aux moindrescarres a minimiser. La figure 5.6 (respectivement la figure 5.7) visualise les courbes de niveaux et les iteres successifs pourl’algorithme de Newton (respectivement de Gauß-Newton) a partir du point de depart x0 = (10, 0.0001)T .

On peut par contre voir sur la figure 5.8 que pour le point de depart x(0) = (15, 0.0005)T , l’algorithme de Newton divergealors que l’algorithme de Gauß-Newton converge.

Exemple IV.3.3Reprenons le modele de Kaplan 1.I.1.6. On obtient comme valeur des parametres :

β = (c0, k1, k2, k3) = (0.3140, 0.2284, 0.9235, 243.7939).

IV. RESOLUTION DES PROBLEMES AUX MOINDRES CARRES NON LINEAIRES 53

x1

x2

o point de dparto

−(∇ 2f(x

0))

−1∇ f(x

0)

o

o o

o

oo

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

FIGURE 5.3 – Algorithme de Newton pour l’exemple IV.3.1.

x1

x2

o point de dpart

−1 −0.5 0 0.5 1 1.5 2−1

−0.5

0

0.5

1

1.5

2

2.5

3

3.5

4

FIGURE 5.4 – Algorithme de Gauß-Newton pour l’exemple IV.3.1.

810

1214

1618

20

0

1

2

3

x 10−4

0

50

100

150

200

250

300

A0

λ

f(A

0,λ

FIGURE 5.5 – Fonction f a minimiser.


0 1000 2000 3000 4000 5000 6000 70000

2

4

6

8

10

12

14

16

18

A0

λ

o point de dpart

9 10 11 12 13 14 15 16 17 18 19 200

1

2

x 10−4

FIGURE 5.6 – Courbes de niveaux et iteres pour l’algorithme de Newton.

0 1000 2000 3000 4000 5000 6000 70000

2

4

6

8

10

12

14

16

18

A0

λ

o point de dpart

9 10 11 12 13 14 15 16 17 18 19 200

1

2

x 10−4

FIGURE 5.7 – Courbes de niveaux et iteres pour l’algorithme de Gauß-Newton.

0 1000 2000 3000 4000 5000 6000 70000

2

4

6

8

10

12

14

16

18

0 1000 2000 3000 4000 5000 6000 70000

2

4

6

8

10

12

14

16

18

FIGURE 5.8 – Iteres pour les algorithmes de Newton et de Gauß-Newton.

FIGURE 5.9 – Solution pour le modeme de Kaplan

Bibliographie

[1] Carpentier. Cours de 3ieme annee enseeiht, filiere informatique et mathematiques appliquees. INPT-ENSEEIHT, 1983.

[2] Gerard Cornuejols and Reha Tutuncu. Optimization Methods in Finance. Cambridge University Press, 2007.

[3] J.E. Dennis and Jr. Robert B. Schnabel. Numerical Methods for Unconstrained Optimization and Nonlinear Equations.SIAM, 1996.

[4] J.M. Devos. Fermat ”le premier homme du monde”. France 3, IREM de Toulouse, CRDP Midi-Pyrenees, 1995. Casettevideo.

[5] Jean-Baptiste Hiriart-Urruty. L’Optimisation. Que sais-je. Presses Universitaires de France, 1996. ISBN : 2 13 0479812.

[6] Jean-Baptiste Hiriart-Urruty. Analyse convexe et optimisation. Presses Universitaires de France, 2000. ISBN :.

[7] Jean-Baptiste Hiriart-Urruty and Claude Lemarechal. Fundamentals of Convex Analysis. Presses Universitaires deFrance, 2001. ISBN : 978-3-540-42205-1.

[8] Sylvie Huet, Annie Bouvier, Marie-Anne Gruet, and Emmanuel Jolivet. Statistical Tools for Nonlinear Regression, APractical Guide with S-PLUS Examples. Springer, 1996. ISBN : 0-387-94727-2.

[9] Sylvie Huet, Emmanuel Jolivet, and Antoine Messean. La regression non-mineaire : methodes et applications a labiologie. INRA, 1992.

[10] Jorge Nocedal and Stephen J. Wright. Numerical optimization. Springer, second edition, 2006.

[11] R. Tyrrell Rockafellar. Convec Analysis. Princeton University Press, 1996.

73

Index

equation d’Euler, 39equations normales, 40

cone tangent, 59condition necessaire du deuxieme ordre, 40condition suffisante du deuxieme ordre, 41

direction tangente, 59

formule de Taylor-Young, 26

hypothese de qualification des contraintes, 59

inequation d’Euler, 39

KKT (conditions de —), 61

Lagrangien, 61lagrangien, 57lemme de Farkas et Minkowski, 62

multiplicateur de Karush-Kuhn-Tucker, 61multiplicateur de Lagrange, 61

point critique, 39

theoreme de Karuch, Kuhn et Tucker, 61theoreme des fonctions implicites, 26

valeur critique, 39

74

informatique & mathematiques appliqu´ ees´...

Documents