Algebre Lineaire Et Analyse Numerique Matricielle

167
ALG ` EBRE LIN ´ EAIRE ET ANALYSE NUM ´ ERIQUE MATRICIELLE Yves Achdou 1 23 novembre 2005 1 UFR Math´ ematiques, Universit´ e Paris 7, Case 7012, 75251 PARIS Cedex 05, France and Laboratoire Jacques-Louis Lions, Universit´ e Paris 6. [email protected]

Transcript of Algebre Lineaire Et Analyse Numerique Matricielle

Page 1: Algebre Lineaire Et Analyse Numerique Matricielle

ALGEBRE LINEAIRE ET ANALYSE NUMERIQUE

MATRICIELLE

Yves Achdou1

23 novembre 2005

1UFR Mathematiques, Universite Paris 7, Case 7012, 75251 PARIS Cedex 05, France and LaboratoireJacques-Louis Lions, Universite Paris 6. [email protected]

Page 2: Algebre Lineaire Et Analyse Numerique Matricielle

2

Page 3: Algebre Lineaire Et Analyse Numerique Matricielle

Table des matieres

1 Rappels d’Algebre Lineaire 7

1.1 Espaces vectoriels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.2 Applications Lineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3 Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.4 Representation matricielle d’une application lineaire . . . . . . . . . . . . . . . . 14

1.5 Changement de Bases, Matrices Semblables . . . . . . . . . . . . . . . . . . . . . 18

1.6 Transposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.7 Espaces Euclidiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.8 Espaces Hermitiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

1.9 Procede de Gram-Schmidt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

1.10 Determinants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

1.11 Traces . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2 Reduction de matrices 29

2.1 Valeurs propres, vecteurs propres, polynome caracteristique . . . . . . . . . . . . 29

2.2 Rappels sur les polynomes et polynomes de matrices . . . . . . . . . . . . . . . . 32

2.3 Polynome minimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

2.4 Theoreme de Hamilton-Cayley . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

2.5 Diagonalisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.6 Triangulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

2.7 Matrices nilpotentes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2.8 Reduction de Jordan . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

2.8.1 Reduction de Jordan des matrices triangularisables . . . . . . . . . . . . . 44

2.8.2 Applications aux systemes d’equations differentielles lineaires . . . . . . . 45

2.9 Reduction simultanee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

2.10 Decomposition de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.11 Valeurs singulieres d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . 49

3 Formes Quadratiques et Hermitiennes 53

3.1 Formes Bilineaires sur des Espaces Vectoriels Reels . . . . . . . . . . . . . . . . . 53

3.1.1 Rang d’une forme bilineaire . . . . . . . . . . . . . . . . . . . . . . . . . . 54

3.1.2 Formes Bilineaires Symetriques et Orthogonalite . . . . . . . . . . . . . . 54

3.2 Formes Quadratiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

3.3 Formes Sesquilineaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

3.4 Formes Hermitiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

3

Page 4: Algebre Lineaire Et Analyse Numerique Matricielle

4 TABLE DES MATIERES

4 Analyse matricielle 67

4.1 Normes vectorielles et matricielles . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1.2 Les normes ‖ ‖p . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

4.1.3 Normes matricielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

4.2 Nombre de conditionnement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

4.2.1 Sensibilite de la solution d’un systeme lineaire . . . . . . . . . . . . . . . . 72

4.3 Rayon spectral d’une matrice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.3.1 Definition et proprietes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

4.3.2 Suite des puissances d’une matrice . . . . . . . . . . . . . . . . . . . . . . 74

4.4 Sensibilite d’un probleme aux valeurs propres . . . . . . . . . . . . . . . . . . . . 76

5 Methodes Directes pour les Systemes Lineaires 79

5.0.1 Elimination de Gauss sans pivotage . . . . . . . . . . . . . . . . . . . . . 80

5.0.2 Cout de la methode d’elimination de Gauss. . . . . . . . . . . . . . . . . . 84

5.0.3 Utilisations de la factorisation LU . . . . . . . . . . . . . . . . . . . . . . 84

5.0.4 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.0.5 Condition necessaire et suffisante d’existence d’une factorisation LU, unicite 86

5.0.6 Un deuxieme algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.0.7 Cas de matrices bandes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

5.1 Methode de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

5.1.1 Existence de la factorisation de Cholesky . . . . . . . . . . . . . . . . . . 88

5.1.2 Algorithme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.1.3 Complexite de la factorisation de Cholesky . . . . . . . . . . . . . . . . . 90

5.2 Programmes Scilab pour les factorisation LU et de Cholesky . . . . . . . . . . . . 90

5.2.1 Factorisation LU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.2.2 Factorisation de Cholesky . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

5.3 Methode de Gauss avec pivot partiel . . . . . . . . . . . . . . . . . . . . . . . . . 92

5.4 Factorisations QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.1 Les reflexions de Householder . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.2 Factorisations QR a l’aide des reflexions de Householder . . . . . . . . . . 97

5.4.3 Algorithme de factorisation QR avec des symetries de Householder . . . . 99

5.4.4 Les rotations de Givens . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

5.5 Problemes aux moindres carres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6 Methodes Iteratives Stationnaires 103

6.1 Principe et resultats generaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.1.1 Principe general . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

6.1.2 Une condition suffisante dans le cas ou A est hermitienne, definie positive 104

6.2 La methode de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

6.3 La methode de Gauss-Seidel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.4 Methodes SOR (successive over relaxation) . . . . . . . . . . . . . . . . . . . . . 108

6.5 Comparaisons des methodes pour des matrices tridiagonales . . . . . . . . . . . . 110

6.6 Autres methodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

Page 5: Algebre Lineaire Et Analyse Numerique Matricielle

TABLE DES MATIERES 5

7 Methodes de Descente 1137.1 Principe des methodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.1.1 Minimisation de fonctions quadratiques . . . . . . . . . . . . . . . . . . . 1137.1.2 Methodes de descente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1137.1.3 Choix optimal de αn pour pn fixe . . . . . . . . . . . . . . . . . . . . . . . 114

7.2 Methodes de gradient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1147.2.1 Principe des methodes de gradient . . . . . . . . . . . . . . . . . . . . . . 1147.2.2 Interpretation geometrique en dimension deux . . . . . . . . . . . . . . . 1157.2.3 Methodes du gradient a pas fixe . . . . . . . . . . . . . . . . . . . . . . . 1157.2.4 Methode du gradient a pas optimal . . . . . . . . . . . . . . . . . . . . . . 117

7.3 La methode du Gradient Conjugue . . . . . . . . . . . . . . . . . . . . . . . . . . 119

8 Recherche de valeurs propres 1258.1 Generalites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125

8.1.1 Decomposition de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1258.1.2 Sensibilite d’un probleme aux valeurs propres . . . . . . . . . . . . . . . . 1258.1.3 Valeurs singulieres d’une matrice . . . . . . . . . . . . . . . . . . . . . . 1268.1.4 Norme de Frobenius . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

8.2 Methodes partielles de recherche de valeurs propres . . . . . . . . . . . . . . . . . 1278.2.1 La methode de la puissance . . . . . . . . . . . . . . . . . . . . . . . . . . 1278.2.2 Test d’arret pour la methode de la puissance . . . . . . . . . . . . . . . . 1288.2.3 Methode de la puissance inverse . . . . . . . . . . . . . . . . . . . . . . . 1298.2.4 Methode de la puissance inverse avec translation . . . . . . . . . . . . . . 130

8.3 La methode de Jacobi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1308.4 La methode QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

8.4.1 Factorisations QR d’une matrice . . . . . . . . . . . . . . . . . . . . . . . 1338.4.2 Generalisation de la methode de la puissance . . . . . . . . . . . . . . . . 1368.4.3 La methode QR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1378.4.4 Acceleration de la methode QR pour A ∈ Mn(R) . . . . . . . . . . . . . . 1388.4.5 Demonstration du Theoreme 8.8 . . . . . . . . . . . . . . . . . . . . . . . 139

8.5 Annexe : Distance entre deux sous-espaces de Cn . . . . . . . . . . . . . . . . . . 141

9 Problemes 1439.1 Partiel du 25 Novembre 2002 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1439.2 Partiel du 25 Novembre 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1469.3 Partiel 2004 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1489.4 Partiel du 18 Novembre 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1519.5 Examen du 30 Janvier 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1539.6 Examen du 28 Janvier 2004. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1579.7 Examen du 3 Septembre 2003. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1609.8 Examen Janvier 2005 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 163

Page 6: Algebre Lineaire Et Analyse Numerique Matricielle

6 TABLE DES MATIERES

Page 7: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 1

Rappels d’Algebre Lineaire

On rappelle les resultats elementaires (qu’il faut absolument connaıtre) en algebre lineaire.On donne la majorite des enonces sans demonstration : il est fortement conseille au lecteur defaire toutes les demonstrations.

1.1 Espaces vectoriels

Definition 1.1 Soit E et I deux ensembles : Une famille, notee (xi)i∈I , xi ∈ E, d’elements deE indexee par I est une application de I dans E.

On designe par K un corps commutatif. On prendra K = C (corps des nombres complexes) ouK = R (corps des nombres reels).

Definition 1.2 Soit E un ensemble muni– d’une loi de composition interne + : E × E → E, (u, v) 7→ u+ v.– d’une loi de composition externe · : K × E → E, (λ, u) 7→ λ · u.

On dit que (E,+, ·) est un espace vectoriel sur le corps K si

1. (E,+) est un groupe commutatif.

2. ∀λ ∈ K, ∀u, v ∈ E, λ · (u+ v) = λ · u+ λ · v.3. ∀λ, µ ∈ K, ∀u ∈ E, (λ+ µ) · u = λ · u+ µ · u.4. ∀λ, µ ∈ K, ∀u ∈ E, = λ · (µ · u) = (λµ) · u.5. ∀u ∈ E, 1 · u = u.

On appelle vecteurs les elements de E et scalaires les elements de K.

Dans la suite, on omettra la notation “·” : λ · u = λu.

Definition 1.3 Soient (E,+, ·) un espace vectoriel sur le corps K et F un sous-ensemble de E.On dit que F est un sous-espace vectoriel de E si

1. F est non vide.

2. F est stable par + : ∀u, v ∈ F, u+ v ∈ F .

3. F est stable par · : ∀λ ∈ K, ∀v ∈ F, λv ∈ F .

Proposition 1.1 Soient (E,+, ·) un espace vectoriel sur le corps K et F un sous-ensemble deE. L’ensemble F est un sous-espace vectoriel de E si et seulement si 0 ∈ E et E est stable parcombinaison lineaire, i.e. ∀λ, µ ∈ K, ∀u, v ∈ F, λu+ µv ∈ F .

7

Page 8: Algebre Lineaire Et Analyse Numerique Matricielle

8 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

Proposition 1.2 L’intersection d’une famille quelconque de sous-espaces vectoriels de E est unsous-espace vectoriel de E.

Si F est un sous-espace vectoriel de E, alors (F,+, ·) est un espace vectoriel.

Definition 1.4 On appelle sous-espace vectoriel engendre par une famille (pas forcement finie)A de vecteurs de E et on note Vect(A) le sous-espace vectoriel forme des combinaisons lineaires(finies) des vecteurs de A :

Vect(A) =

x ∈ E : il existe p ∈ N, x1, . . . , xp ∈ A, et λ1, . . . , λp ∈ K tels que x =

p∑

i=1

λixi

(1.1)On dit qu’un vecteur de Vect(A) est une combinaison lineaire des vecteurs de A .

Exercice. Verifier que Vect(A) est bien un sous-espace vectoriel de E.

Lemme 1.1 Soit une famille A de vecteurs de E, Vect(A) est le plus petit sous-espace vectorielqui contient A.

Definition 1.5 On dit qu’une famille A de vecteurs de E est generatrice si Vect(A) = E, c’est adire si pour tout x ∈ E, il existe p ∈ N, x1, . . . , xp ∈ A , et λ1, . . . , λp ∈ K tels que x =

∑pi=1 λixi.

Definition 1.6 On dit qu’une famille A de vecteurs de E est libre si pour toute famille finie(x1, . . . , xp) de vecteurs de A, distincts deux a deux, et pour toute famille de scalaires (λ1, . . . , λp),∑p

i=1 λixi = 0 si et seulement si λi = 0 pour i = 1, . . . , p. On dit aussi que les vecteurs x1, . . . , xp

sont lineairement independants.

Definition 1.7 Une famille A de vecteurs de E a la fois libre et generatrice est appelee unebase de E.

Proposition 1.3 Une famille A de vecteurs de E est une base si et seulement si, pour toutx ∈ E, il existe un unique p ∈ N, une unique sous-famille de A avec p vecteurs (x1, . . . , xp), etune unique famille (λ1, . . . , λp) de scalaire non nuls tels que x =

∑pi=1 λixi.

Exemple. Dans Kn, on utilise tres souvent la base dite base canonique : cette base est formeepar les vecteurs ei, 1 ≤ i ≤ n :

ei =

0...010...0

. . . 1

...

. . . i− 1

. . . i

. . . i+ 1

...

. . . n

(1.2)

ou encore : la j-eme composante de ei est δij , (les δij sont les symboles de Kronecker : δij = 0si j 6= i et δii = 1.)

Page 9: Algebre Lineaire Et Analyse Numerique Matricielle

1.1. ESPACES VECTORIELS 9

Definition 1.8 Soit k un entier positif. Soient V1, . . . , Vk k sous-espaces vectoriels de E. Onappelle somme des sous-espace V1, . . . , Vk et on note V1 + · · · + Vk le sous-espace vectoriel

V1 + · · · + Vk = Vect

(k⋃

i=1

Vi

)(1.3)

Proposition 1.4 Soient V1, . . . , Vk k sous-espaces vectoriels de E.

V1 + · · · + Vk =

x ∈ E : il existe x1 ∈ V1, . . . , xk ∈ Vk tels que x =

k∑

i=1

xi

. (1.4)

Definition 1.9 Si pour tout x ∈ V1 + . . . Vk la decomposition x =∑k

i=1 xi, avec xi ∈ Vi, estunique, alors on dit alors que les sous-espaces V1, . . . , Vk sont en somme directe et on utilise lanotation

⊕ki=1 Vi ou encore V1 ⊕ · · · ⊕ Vk a la place de la notation V1 + . . . Vk.

Proposition 1.5 Pour que les sous-espaces V1 et V2 de E soient en somme directe, il faut et ilsuffit que

V1 ∩ V2 = 0. (1.5)

Definition 1.10 On dit que les sous-espaces V1 et V2 de E sont supplementaires si et seulementsi V1 ⊕ V2 = E ou de maniere equivalente si

V1 + V2 = E et V1 ∩ V2 = 0. (1.6)

Proposition 1.6 (fondamentale) Soit (E,+, ·) un espace vectoriel sur K admettant une fa-mille generatrice G de k vecteurs. Alors une famille libre F de vecteurs de E a un nombre fini ℓde vecteurs avec ℓ ≤ k, et on peut obtenir une nouvelle famille generatrice de E en echangeantℓ vecteurs de G avec ceux de F .

Demonstration. Par recurrence sur le nombre de vecteurs de F quand ce nombre est ≤ k.Apres, on montre qu’on ne peut pas avoir une famille libre avec k + 1 vecteurs.

Theoreme 1.1 (de la base incomplete) Soit (E,+, ·) un espace vectoriel sur K admettantune famille generatrice finie G. Soit L une famille libre de vecteurs de E. Alors il existe unesous-famille G′ de G telle que L ∪G′ soit une base de E.

Corollaire 1.1 Soit (E,+, ·) un espace vectoriel sur K admettant une famille generatrice finie.Alors il existe au moins une base de E avec un nombre fini de vecteurs et toutes les bases de Eont le meme nombre de vecteurs. Ce nombre note dim (E), est appele la dimension de E et ondit que E est de dimension finie.

Proposition 1.7 Si E est de dimension finie,

– toute famille generatrice de E a au moins dim (E) vecteurs.– toute famille libre de E a au plus dim (E) vecteurs.– une famille libre de E comportant dim (E) vecteurs est une base de E.– une famille generatrice de E comportant dim (E) vecteurs est une base de E.– tout sous-espace F de E est de dimension finie inferieure ou egale a dim (E). Si dim (F ) =

dim (E) alors F = E.

Page 10: Algebre Lineaire Et Analyse Numerique Matricielle

10 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

– soient deux sous-espaces F et G de E. On a

dim (F +G) = dim (F ) + dim (G) − dim (F ∩G).

En particulier, soient deux sous-espaces F et G tels que F ⊕G = E. On a

dim (E) = dim (F ) + dim (G).

Soient k sous-espaces vectoriels F1, . . . , Fk de E tels que F1 ⊕ · · · ⊕ Fk = E, on a

dim (E) =

k∑

i=1

dim (Fi).

Definition 1.11 Si un espace vectoriel E sur K n’admet pas de famille generatrice finie ou demaniere equivalente, si pour tout p ∈ N, il existe une famille libre avec p vecteurs de E, alorson dit que E est dimension infinie.

Dans ce cours qui est surtout consacre a l’analyse numerique matricielle, il sera peu questiond’espaces vectoriels de dimension infinie.

1.2 Applications Lineaires

Definition 1.12 Soient (E,+, ·) et (F,+, ·) deux espaces vectoriels sur K. On dit que l’appli-cation ℓ de E dans F est une application lineaire de E dans F si pour tout λ, µ ∈ K, pour toutu, v ∈ E,

ℓ(λu+ µv) = λℓ(u) + µℓ(v). (1.7)

On note L(E,F ) l’ensemble des applications lineaires de E dans F . On utilise la notation pluscourte L(E) pour L(E,E).

Exemple. L’application identite de E note idE est une application lineaire de E dans E.

Proposition 1.8 Soient (E,+, ·), (F,+, ·) et (G,+, ·) trois espaces vectoriels sur K, ℓ ∈ L(E,F ),et ∈ L(F,G). La composee ℓ est une application lineaire de E dans F : ℓ ∈ L(E,G).

Proposition 1.9 L’ensemble des applications de E dans F , note FE est un espace vectoriel,quand on le munit de

– l’addition d’applications– le produit par un scalaire.

L(E,F ) est un sous-espace vectoriel de (FE ,+, ·), l’espace des applications de E dans F .

Definition 1.13 Une application lineaire de E dans K est appelee une forme lineaire.

Definition 1.14 Soit ℓ une une application lineaire de E dans F . On appelle noyau de ℓ l’imagereciproque de 0F par ℓ. C’est un sous-espace vectoriel de E. Le noyau de ℓ est note ker (ℓ),(du mot anglais kernel (ou allemand kern) qui veut dire noyau).

ker(ℓ) = x ∈ E : ℓ(x) = 0F (1.8)

Page 11: Algebre Lineaire Et Analyse Numerique Matricielle

1.2. APPLICATIONS LINEAIRES 11

Definition 1.15 Soit ℓ une une application lineaire de E dans F . L’image de ℓ (c’est a direl’image de E par ℓ) est un sous-espace vectoriel de F . Elle est notee Im(ℓ).

Im(ℓ) = ℓ(x), x ∈ E (1.9)

Definition 1.16 Soit ℓ une une application lineaire de E dans F . Le rang de ℓ, note rang(ℓ)est la dimension de Im(ℓ) (eventuellement infinie).

Soit ℓ une une application lineaire de E dans F . Il est clair que ℓ est injective si et seulement siker(ℓ) = 0E.

Proposition 1.10 Soit ℓ une une application lineaire de E dans F . L’application ℓ est unisomorphisme de E sur F , c’est a dire une application lineaire bijective de E sur F (a la foisinjective et surjective) si et seulement si il existe une application lineaire notee ℓ−1 de F dansE telle que ℓ ℓ−1 = idF et ℓ−1 ℓ = idE.

Dans le cas ou E est de dimension finie, on a le theoreme du rang

Theoreme 1.2 (du rang) Soient (E,+, ·) et (F,+, ·) deux espaces vectoriels sur K, E etantde dimension finie. Soit ℓ une application lineaire de E dans F . On a l’identite

rang(ℓ) + dim (ker(ℓ)) = dim (E). (1.10)

Du Theoreme du rang, on deduit en particulier que si E et F sont de dimension finie, unecondition necessaire et suffisante pour qu’il existe un isomorphisme de E sur F est que dim (E) =dim (F ).

Corollaire 1.2 Soient (E,+, ·) et (F,+, ·) des espaces vectoriels sur K de dimension finie ettels que dim (E) = dim (F ). Soit ℓ une une application lineaire de E dans F . Alors les assertionssuivantes sont equivalentes

– ℓ est injective– ℓ est surjective– ℓ est un isomorphisme de E sur F .– ℓ admet un inverse a gauche : il existe ∈ L(F,E) telle que ℓ = idF

– ℓ admet un inverse a droite : il existe ∈ L(F,E) telle que ℓ = idE.

Si ℓ admet un inverse a droite (ou a gauche) , alors ℓ est inversible et = ℓ−1.

Le corollaire 1.2 s’applique particulierement si E = F , et un endomorphisme de l’espace vectorielE inversible est appele un automorphisme de E.Donnons quelques resultats sur les formes lineaires :

Lemme 1.2 Soient (E,+, ·) un espace vectoriel sur K de dimension finie n. Soit ℓ une formelineaire non nulle sur E. Le noyau de ℓ est un sous-espace de E de dimension n− 1 (on dit unhyperplan de E).Reciproquement, pour tout hyperplan F de E, on peut trouver une forme lineaire ℓ sur E dontle noyau est F .

Page 12: Algebre Lineaire Et Analyse Numerique Matricielle

12 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

1.3 Matrices

Definition 1.17 Soient n et m deux entiers strictement positifs. On appelle matrice a n ligneset m colonnes a coefficients dans K, un tableau a double entree (aij), 1 ≤ i ≤ n, 1 ≤ j ≤ m (untableau a double entree etant une application de 1, . . . , n × 1, . . . ,m dans K). Le premierindice est l’indice de ligne et le deuxieme indice est l’indice de colonne. Une matrice A a n ligneset m colonnes a coefficients dans K est donc de la forme

A =

a11 . . . a1,j . . . a1m

......

...ai1 . . . ai,j . . . aim

......

...an1 . . . an,j . . . anm

On note Mn,m(K) l’ensemble des matrices a n lignes et m colonnes a coefficients dans K. Pourabreger, on note Mn(K) l’ensemble des matrices carrees a n lignes et n colonnes a coefficientsdans K. Les matrices de Mn(K) sont appelees matrices carrees d’ordre n.

Convention 1.1 On identifiera les matrices colonnes de Mn,1(K) aux vecteurs de Kn.

Remarque 1.1 On pourra aussi employer la notation Kn×m pour Mn,m(K).

Definition 1.18 Soient A = (aij) et B = (bij) deux matrices de Mn,m(K). On definit la sommedes matrices A et B et on note A+B la matrices dont le coefficient situe sur la i-eme ligne etla j-eme colonne est aij + bij , i = 1, . . . , n, j = 1, . . . ,m.Soient A = (aij) une matrice de Mn,m(K) et λ ∈ K un scalaire. On definit le produit de lamatrice A par le scalaire λ et on note λA la matrices dont le coefficient situe sur la i-eme ligneet la j-eme colonne est λaij , i = 1, . . . , n, j = 1, . . . ,m.

Proposition 1.11 (Mn,m(K),+, ·) est un espace vectoriel sur K de dimension nm.

Definition 1.19 Soient m,n, p trois entiers naturels strictement positifs. Soient A = (aij)une matrice de Mm,n(K) et B = (bij) une matrice de Mn,p(K). On definit le produit ABcomme la matrice de Mm,p(K) dont le coefficient situe sur la i-eme ligne et la j-eme colonneest∑n

k=1 aikbkj, i = 1, . . . ,m, j = 1, . . . , p.On vient de definir une loi de composition appelee produit matriciel.

Proposition 1.12 – Le produit matriciel est associatif : soient A ∈ Mm,n(K), B ∈ Mn,p(K),C ∈ Mp,q(K).

A(BC) = (AB)C

– Le produit matriciel est distributif a gauche sur l’addition : soient A ∈ Mm,n(K), B1, B2 ∈Mn,p(K),

A(B1 +B2) = AB1 +AB2

– Le produit matriciel est distributif a droite sur l’addition : soient B ∈ Mn,p(K), A1, A2 ∈Mm,n(K),

(A1 +A2)B = A1B +A2B

Page 13: Algebre Lineaire Et Analyse Numerique Matricielle

1.3. MATRICES 13

– Soient λ ∈ K, A ∈ Mm,n(K) et B ∈ Mn,p(K) :

(λA)B = A(λB) = λ(AB) = λAB

– L’element neutre pour le produit dans Mn(K) est la matrice identite notee I ou In :

I =

1 0 . . . . . . 0

0 1. . .

......

. . .. . .

. . ....

.... . .

. . . 00 . . . . . . 0 1

Remarque 1.2 Dans Mn(K), le produit matriciel n’est pas commutatif, i.e. pour des matricesA et B de Mn(K), on a en general AB 6= BA. Exercice : donner des exemples.

Definition 1.20 On dit que deux matrices A ∈ Mn(K) et B ∈ Mn(K) commutent si AB =BA.

Exemple. Soit A ∈ Mn(K). Les puissances de A commutent entre elles :

∀p, q ∈ N, ApAq = AqAp = Ap+q

ou l’on pose A0 = In, et Ap = A× · · · ×A︸ ︷︷ ︸p

.

Definition 1.21 Soient d1, . . . , dn des scalaires. On notera Diag(d1, . . . , dn) la matrice de D ∈Mn(K), dont les coefficients sont

Dij = diδij , 1 ≤ i, j ≤ n.

Une telle matrice est appelee matrice diagonale.

Proposition 1.13 Soit D = Diag(d1, . . . , dn) une matrice diagonale de Mn(K).– Soit A une matrice de Mn,m(K). La matrice DA ∈ Mn,m(K) est obtenue en multipliant

les coefficients de la ieme ligne de A par di, pour i = 1, . . . , n.– Soit A une matrice de Mm,n(K). La matrice AD ∈ Mm,n(K) est obtenue en multipliant

les coefficients de la jeme colonne de A par dj , pour j = 1, . . . , n.

Definition 1.22 On appelle permutation d’ordre n une bijection de 1, . . . , nsur 1, . . . , n. L’ensemble des permutations d’ordre n compte n! elements.

Definition 1.23 Soit σ une permutation d’ordre n, on associe a σ une matrice P σ ∈ Mn(K) :

P σij = δσ(i)j ,

c’est a direP σ

ij = 1 si j = σ(i),

P σij = 0 si j 6= σ(i),

On dit que P σ est une matrice de permutation d’ordre n.

Page 14: Algebre Lineaire Et Analyse Numerique Matricielle

14 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

Lemme 1.3 Soit P et Q deux matrices de permutation d’ordre n, alors PQ est une matrice depermutation d’ordre n.

On peut definir les permutations elementaires d’ordre n : pour 1 ≤ k < l ≤ n, σk,l est lapermutation d’ordre n echangeant k et l en laissant les autres valeurs inchangees.

Proposition 1.14 Pour une permutation σ d’ordre n, il existe un entier p et une famille finie(σki,li)1≤i≤p de permutations elementaires telle que σ = σkp,lp · · · σk1,l1. De plus, pour tousles entiers p ayant la propriete precedente, −1p est invariant et ne depend que de σ : ce nombreest appele la signature de la permutation σ, et note s(σ).

Definition 1.24 Soient 1 ≤ k < l ≤ n, la matrice P kl ∈ Mn(K) definie par

P klij = δij si i 6= k et i 6= l

P klkj = δlj ∀1 ≤ j ≤ n

P kllj = δkj ∀1 ≤ j ≤ n

est appelee matrice de permutation elementaire d’ordre n.

De la Proposition 1.14, on deduit immediatement le

Corollaire 1.3 Toute matrice de permutation d’ordre n peut se decomposer en un produit dematrices de permutation elementaire d’ordre n.

Proposition 1.15 Soient trois entiers positifs k < l ≤ n et P kl ∈ Mn(K) une matrice depermutation elementaire.

– Soit A ∈ Mn,m(K). Le produit a gauche de A par P kl revient a echanger les lignes k et lde A, en laissant les autres lignes inchangees, i.e.

B = P klA⇔

∣∣∣∣∣∣

Bij = Aij si i 6= k et i 6= lBkj = Alj ∀1 ≤ j ≤ NBlj = Akj ∀1 ≤ j ≤ N

– Soit A ∈ Mm,n(K). Le produit a droite de A par P kl revient a echanger les colonnes k etl de A, en laissant les autres colonnes inchangees

1.4 Representation matricielle d’une application lineaire

Soient F un espace vectoriel sur K de dimension n et E un espace vectoriel sur K de dimensionm. Soit (f1, . . . , fn) une base de F et (e1, . . . , em) une base de E. Soit ℓ une application lineairede E dans F . Pour chaque vecteur ej , 1 ≤ j ≤ m, on peut ecrire ℓ(ej) sur la base (fi)1≤i≤n : ilexiste un unique n-uplet de scalaires (a1j , . . . , anj) tels que

ℓ(ej) =n∑

i=1

aijfi (1.11)

On a alors par linearite de ℓ : pour tout x ∈ E, x =∑m

j=1 xjej ,

ℓ(x) =n∑

i=1

(m∑

j=1

aijxj)fi. (1.12)

Les coefficients aij , 1 ≤ i ≤ n, 1 ≤ j ≤ m, forment une matrice de Mn,m(K) :

Page 15: Algebre Lineaire Et Analyse Numerique Matricielle

1.4. REPRESENTATION MATRICIELLE D’UNE APPLICATION LINEAIRE 15

Definition 1.25 On appelle representation matricielle (ou matrice) de l’application lineaire ℓde E dans F relativement aux bases (ej)1≤j≤m de E et (fj)1≤j≤n de F la matrice A = (ai,j) deMn,m(K) dont les coefficients sont definis par (1.11).

L’application ℓ est donc uniquement caracterisee par sa representation matricielle relativementaux bases (ej)1≤j≤m de E et (fi)1≤i≤n de F . On montre de plus que la representation ma-tricielle relativement aux bases (ej)1≤j≤m de E et (fi)1≤i≤n de F definit un isomorphisme de(L(E,F ),+, ·) dans (Mn,m(K),+, ·), ce qui montre que la dimension de L(E,F ) est mn.Cependant, cet isomorphisme n’est pas intrinseque car il depend des bases choisies.

On fait donc le choix d’une application lineaire canonique associee a une matrice A de Mn,m(K) :on choisit E = Km, F = Kn, (ej)j=1,...,m la base canonique de Km, (fi)i=1,...,n la base canoniquede Kn et on considere l’application lineaire ℓ de L(Km,Kn) dont la representation matriciellerelativement aux bases (ej)1≤j≤m et (fi)1≤i≤n est A (c’est a dire ℓ est definie par (1.12)).

On a donc un isomorphisme canonique entre Mn,m(K) et L(Km,Kn). De plus, grace a la Conven-tion 1.1, on voit que si ℓ ∈ L(Km,Kn) et si A est sa matrice relativement aux bases canoniques,alors pour tout vecteur v ∈ Km, ℓ(v) est le vecteur Av ∈ Mn,1(K) = Kn (obtenu comme le pro-duit matriciel Av defini dans la Definition 1.19, en voyant v comme une matrice de Mm,1(K)).

Cet isomorphisme canonique permet de definir pour les matrices toutes les notions presenteesdans la Section 2, et d’obtenir pour les matrices les resultats analogues a ceux enonces pour lesapplications lineaires. Par exemple,

– La matrice In est associee canoniquement a l’identite idKn .– le noyau d’une matrice A ∈ Mn,m(K), note ker(A), est le noyau de l’application lineaire

canonique associee a A, et on a

ker(A) = v ∈ Km : Av = 0Kn. (1.13)

– l’image d’une matrice A ∈ Mn,m(K), notee Im(A), est l’image de l’application lineairecanonique associee a A, et on a

Im(A) = w ∈ Kn : ∃v ∈ Km tel que Av = w. (1.14)

– Im(A) est le sous-espace vectoriel de Kn engendre par les colonnes de A.– Le rang de A ∈ Mn,m(K) est la dimension de l’image de A. C’est le nombre maximal de

colonnes de A formant une famille libre de Kn (donc en particulier rang(A) ≤ min(m,n)).Le produit matriciel correspond a la composition d’application lineaire : Soient A ∈ Mm,n(K)et B ∈ Mn,p(K) deux matrices et ℓ ∈ L(Kn,Km) et ∈ L(Kp,Kn) leur applications lineairescanoniquement associees : alors l’application ℓ ∈ L(Kp,Km) est canoniquement associee auproduit matriciel AB ∈ Mm,p(K). L’analogue matriciel de la Proposition 1.10 permet alors dedefinir la notion d’inverse d’une matrice carree :

Definition 1.26 Soit A une matrice de Mn(K). On dit que A est inversible si et seulement siil existe une matrice de Mn(K), notee A−1 telle que

AA−1 = A−1A = In.

et du Corollaire 1.2, on deduit

Proposition 1.16 Soit A une matrice de Mn(K). Les assertions suivantes sont equivalentes

Page 16: Algebre Lineaire Et Analyse Numerique Matricielle

16 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

– A est inversible– rang(A) = n– ker(A) = 0Kn– A admet un inverse a gauche : il existe une matrice B ∈ Mn(K) telle que BA = In– A admet un inverse a droite : il existe une matrice B ∈ Mn(K) telle que AB = In

Si A ∈ Mn(K) admet un inverse a droite (ou a gauche) B, alors A est inversible et B = A−1.

Proposition 1.17 Soient A et B deux matrices inversibles de Mn(K). La matrice AB estinversible et

(AB)−1 = B−1A−1.

On peut verifier que pour n ≥ 2, le sous-ensemble de Mn(K) forme par les matrices inversiblesmuni du produit matriciel est un groupe non commutatif.

On peut maintenant demontrer de nouvelles proprietes concernant les formes lineaires

Proposition 1.18 – Soit (E,+, ·) un espace vectoriel sur K de dimension finie n. Une fa-mille de formes lineaires sur E (ℓi)i=1,...,m est libre si et seulement si m ≤ n et ∩m

i=1 ker(ℓi)est un sous-espace de E de dimension n−m.

– Soit (E,+, ·) un espace vectoriel sur K de dimension finie n et F un sous-espace de E dedimension m ≤ n. Il existe n−m formes lineaires independantes (ℓi)i=1,...,n−m telles queF = ∩n−m

i=1 ker(ℓi).

Demonstration. On a vu que dim(L(E,K)) = n, donc si (ℓi)i=1,...,m est libre, alors m ≤ n.Demontrons l’implication ⇒ dans le premier point, par recurrence.La propriete est vraie pour m = 1, c’est le Lemme 1.2.Prenons m ≤ n et supposons la propriete vraie jusqu’a m − 1. L’ensemble ∩m−1

i=1 ker(ℓi) est unsous-espace de E de dimension n−m+1. Considerons l’application lineaire f (m−1) ∈ L(E,Km−1),f (m−1)(x) = (ℓ1(x), . . . , ℓm−1(x)). On a ker(f (m−1)) = ∩m−1

i=1 ker(ℓi). Donc d’apres l’hypothesede recurrence et le theoreme du rang, rang(f (m−1)) = m− 1. Il existe donc m− 1 vecteurs de E,e1, . . . , em−1 tels que (f (m−1)(e1), . . . , f

(m−1)(em−1)) soit une base de Km−1. Ceci est equivalenta dire que ∀z ∈ Km−1, le systeme lineaire : trouver (xi)i=1,...,m−1, xi ∈ K, tels que

m−1∑

i=1

xif(m−1)(ei) = z

a une solution unique. Ce systeme s’ecrit

x1ℓ1(e1) + · · · + xm−1ℓ1(em−1) = z1,...

x1ℓi(e1) + · · · + xm−1ℓi(em−1) = zi,...

x1ℓm−1(e1) + · · · + xm−1ℓm−1(em−1) = zm−1.

Par suite, la matriceB ∈ Mm−1(K), Bij = ℓi(ej),

est inversible.Considerons maintenant l’application lineaire f (m) ∈ L(E,Km), f (m)(x) = (ℓ1(x), . . . , ℓm(x))On a ker(f (m)) = ∩m

i=1 ker(ℓi) donc ker(f (m)) ⊂ ker(f (m−1)), ce qui montre que

m− 1 ≤ rang(f (m)) ≤ m,

Page 17: Algebre Lineaire Et Analyse Numerique Matricielle

1.4. REPRESENTATION MATRICIELLE D’UNE APPLICATION LINEAIRE 17

en utilisant le theoreme du rang. Supposons que rang(f (m)) = m−1. Comme (f (m)(e1), . . . , f(m))(em−1))

est une famille libre, c’est une base de Im(f (m)). Pour tout y ∈ E, le systeme lineaire : trouver(xi)i=1,...,m−1, xi ∈ K, tels que

m−1∑

i=1

xif(m)(ei) = f (m)(y)

a une solution unique. Ce systeme s’ecrit

x1ℓ1(e1) + · · · + xm−1ℓ1(em−1) = ℓ1(y),...

x1ℓi(e1) + · · · + xm−1ℓi(em−1) = ℓi(y),...

x1ℓm−1(e1) + · · · + xm−1ℓm−1(em−1) = ℓm−1(y),x1ℓm(e1) + · · · + xm−1ℓm(em−1) = ℓm(y).

Il est equivalent a :

x1...

xm−1

= B−1

ℓ1(y)...

ℓm−1(y)

,

x1ℓm(e1) + · · · + xm−1ℓm(em−1) = ℓm(y).

On en deduit qu’il existe (αi)i=1,...,m−1 tels que ∀y ∈ E,

ℓm(y) =m−1∑

i=1

αiℓi(y),

ce qui contredit l’hypothese (ℓ1, . . . , ℓm) libre. Donc rang(f (m)) = m, ce qui prouve l’hypothesede recurrence au rang m.La demonstration de la reciproque dans le premier point est laissee au lecteur.Pour demontrer le deuxieme point, on choisit une base de F : (e1, . . . , em) que l’on complete avec(em+1, . . . , em) pour former une base de E. Tout vecteur s’ecrit x =

∑ni=1 xiei et on choisit pour

i ≤ n −m : ℓi(x) = xi+m. Les formes lineaires (ℓi)i=1,...n−m sont lineairement independantes et∩n−m

i=1 ker(ℓi) = F .

On a demontre au passage la proposition

Proposition 1.19 – Soit (E,+, ·) un espace vectoriel sur K de dimension finie n. Soitm ≤ n et (ℓi)i=1,...,m une famille de formes lineaires sur E, lineairement independantes.Alors si f ∈ L(E,Km) est l’application

f(x) =

ℓ1(x)...

ℓm(x)

,

alors rang(f) = m.

Page 18: Algebre Lineaire Et Analyse Numerique Matricielle

18 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

1.5 Changement de Bases, Matrices Semblables

De la Proposition 1.16, on tire facilement

Proposition 1.20 Soit P ∈ Mn(K) une matrice inversible. Les colonnes de P forment unebase de Kn. Reciproquement, soit E un espace vectoriel sur K de dimension n, et deux bases Bet B′ de E : la matrice dont la j-eme colonne contient les coordonnees du j-eme vecteur de B′

dans la base B, pour 1 ≤ j ≤ n, est inversible.

Definition 1.27 Soit B une base de Kn. La matrice P dont les colonnes sont les vecteurs de labase B est appelee matrice de passage ou matrice de changement de base de la base canoniquevers la base B.Plus generalement, si E est un espace vectoriel de dimension n sur K, et si B et B′ sont deuxbases de E, on appelle matrice de changement de base de B vers B′ la matrice dont la j-emecolonne contient les coordonnees du j-eme vecteur de B′ dans la base B, pour 1 ≤ j ≤ n.

Proposition 1.21 Soit E un espace vectoriel sur K de dimension n. Si P est la matrice depassage d’une base B de E vers une base B′, alors P−1 est la matrice de passage de B′ vers B.Si les coordonnees d’un vecteur dans la base B sont donnees par le vecteur x ∈ Kn, alors sescoordonnees dans la base B′ sont donnees par le vecteur P−1x.

En particulier, si une matrice P ∈ Mn(K) est inversible et transforme la base canonique de Kn

en une nouvelle base (f1, . . . , fn) de Kn (formee par les colonnes de P ), on a pour tout vecteurx, (dont les coordonnees dans la base canonique sont xi, 1 ≤ i ≤ n)

x =

n∑

i=1

yifi avec y = P−1x. (1.15)

On deduit de la Proposition 1.21 la

Proposition 1.22 Soit E un espace vectoriel sur K de dimension n. Soient B et B′ deux basesde E et P la matrice de passage de B vers B′. Si ℓ est une application lineaire de L(E) dont lamatrice dans la base B est A, alors la matrice de ℓ dans la base B′ est B = P−1AP .

Definition 1.28 On dit que deux matrices A et B sont semblables si il existe une matriceinversible P telle que

B = P−1AP. (1.16)

La Proposition 1.22 montre donc que toutes les representations matricielles d’une meme appli-cation lineaire ℓ ∈ L(E) sont semblables. Des Propositions 1.22 et 1.20, on deduit que deuxmatrices semblables ont meme rang.

1.6 Transposition

Definition 1.29 Soit A = (aij) une matrice de Mn,m(K). On definit la matrice transposee deA et on note AT la matrice de Mm,n(K) dont le coefficient situe sur la i-eme ligne et la j-emecolonne est aji pour i = 1, . . . ,m et j = 1, . . . , n.

Exemple. Le transposee de la matrice colonne V ∈ Mn,1(K) est une matrice ligne V T ∈M1,n(K).On demontre facilement la

Page 19: Algebre Lineaire Et Analyse Numerique Matricielle

1.6. TRANSPOSITION 19

Proposition 1.23 Soient A ∈ Mn,m(K) et B ∈ Mm,p(K). On a

(AB)T = BTAT . (1.17)

a) Rang et Inversibilite Soit A une matrice de Mn,m(K). Le rang de AT est le nombremaximal de colonnes de AT lineairement independantes, donc de lignes de A lineairementindependantes. Par suite, si ker(A) 6= 0, il existe une combinaison lineaire nulle des lignesde A avec des coefficients non tous nuls et rang(AT ) < n. En particulier, on vient de demontrerle

Lemme 1.4 Soit A ∈ Mn(K). On a

A inversible ⇔ AT inversible (1.18)

On peut aussi par un simple calcul utilisant (1.17), prouver la

Proposition 1.24 Si A ∈ Mn(K) est inversible, alors

(AT )−1 = (A−1)T . (1.19)

Lemme 1.5 Le rang d’une matrice A ∈ Mm,n est le nombre maximal de lignes de A lineairementindependantes et on a rang(A)=rang(AT ).

Demonstration. Soit q le nombre maximal de lignes de A formant un systeme libre (on sait queq=rang(AT )) et r le rang de A, i.e. le nombre maximal de colonnes de A formant un systeme libre.Alors en supposant que les lignes de A : Li1,. . ., Liq forment un systeme libre, on a ∀i 6= i1, . . . , iq,Li =

∑qk=1 αi,kLik . Un vecteur de Im(A) s’ecrit yi =

∑ni=1 Li,jxj , i = 1, . . . ,m donc on a

yi =∑q

k=1 αi,kyik , i 6= i1, . . . iq. Donc Im(A) ⊂ y ∈ Km, yi =∑q

k=1 αi,kyik , i 6= i1, . . . , iq quiest un sous-espace de E de dimension q d’apres la Proposition 1.18 (car les formes lineairesy 7→ yi −

∑qk=1 αi,kyik , i 6= i1, . . . , iq sont lineairement independantes). Mais on sait que

dim (Im(A)) = r donc r ≤ q. En faisant le meme raisonnement sur la matrice AT ∈ Mn,m,on voit que q ≤ r. Donc q = r.

On peut caracteriser le rang d’une matrice en etudiant l’inversibilite de matrices extraites :extraire une matrice d’une matrice plus grande, c’est ne conserver de la matrice initiale que lescoefficients situes sur certaines lignes et sur certaines colonnes. Plus precisement,

Definition 1.30 Soient m,n,m′, n′ quatre entiers strictement positifs, avec m′ ≤ m et n′ ≤ n.Soit σ une application strictement croissante de 1, . . . ,m′ dans 1, . . . ,m, et τ une applicationstrictement croissante de 1, . . . , n′ dans 1, . . . , n. Soit A ∈ Mm,n(K). On definit la matriceextraite Aσ,τ ∈ Mm′,n′(K) comme la matrice dont les coefficients sont bi,j = aσ(i),τ(j), 1 ≤ i ≤m′, 1 ≤ j ≤ n′.

De la caracterisation du rang d’une matrice comme le nombre maximal de colonnes lineairementindependantes, on deduit la

Proposition 1.25 Soit A ∈ Mn,m(K). Le rang de A est le plus grand entier p tel qu’on puisseextraire de A une matrice carree B ∈ Mp(K) qui soit inversible.

Remarque 1.3 On en deduit avec le Theoreme du rang que si A ∈ Mm,n(K), alors n −dim (Ker(A)) = m− dim (Ker(AT )).

Page 20: Algebre Lineaire Et Analyse Numerique Matricielle

20 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

b) Matrices symetriques et antisymetriques.

Definition 1.31 Une matrice A ∈ Mn(K) est symetrique si AT = A.Une matrice A ∈ Mn(K) est antisymetrique si AT = −A.

Les matrices symetriques forment un sous-espace de Mn(K) de dimension n(n + 1)/2. Unebase de ce sous-espace est formee par les matrices (Sij)1≤i≤j≤n dont les coefficients sont sij

kl =δki × δlj + δli × δkj, k = 1, . . . , n, l = 1, . . . , n.Les matrices antisymetriques forment un sous-espace de Mn(K) de dimension n(n − 1)/2,supplementaire au sous-espace des matrices symetriques. Une base de ce sous-espace est formeepar les matrices (Aij)1≤i<j≤n dont les coefficients sont aij

kl = δki × δlj − δli × δkj , k = 1, . . . , n,l = 1, . . . , n.Soit A ∈ Mn(K), la partie symetrique de A est 1

2(A + AT ), et sa partie antisymetrique est12(A−AT ).

c) Dualite Il est naturel de poser la question : quelle est la notion correspondant a la trans-position de matrices pour les applications lineaires ? La reponse a cette question fait intervenirla notion de dualite :

Definition 1.32 On appelle dual d’un espace vectoriel E sur K, l’espace E∗ des formes lineairessur E, c’est a dire E∗ = L(E,K).

Supposons maintenant E de dimension n. Si (ei)1≤i≤n est une base de E, on peut montrer que lafamille (e∗i )1≤i≤n, avec e∗i (ej) = δij est une base de E∗, appelee base duale de la base (ei)1≤i≤n.La forme lineaire e∗i n’est rien d’autre que l’application qui a un vecteur x de E associe sa i-emecoordonnee dans la base (ei)1≤i≤n.L’application qui a un vecteur x =

∑ni=1 xiei associe la forme lineaire x∗ =

∑ni=1 xie

∗i est

un isomorphisme de E sur E∗. Cet isomorphisme depend de la base choisie ; ce n’est pas unisomorphisme intrinseque.

Definition 1.33 Soient E et F deux espaces vectoriels sur K. Soit une application lineaireℓ ∈ L(E,F ), on voit que pour tout v ∈ F ∗, v ℓ ∈ E∗. On definit alors l’application lineaireℓT ∈ L(F ∗, E∗) par ℓT (v) = v ℓ.

Soit (ei)1≤i≤m une base deE et (e∗i )1≤i≤m sa base duale. Soit (fi)1≤i≤n une base de F et (f∗i )1≤i≤n

sa base duale. Soit A ∈ Mn,m(K), A = (ai,j)1≤i≤n,1≤j≤m est la matrice de ℓ relativement auxbase (ei) et (fj), i.e. ℓ(ei) =

∑nj=1 ajifj. On a (f∗k ℓ)(ei) =

∑nj=1 ajif

∗k (fj) = aki, ce qui veut

dire que ℓT (f∗k ) = f∗k ℓ =∑m

i=1 akie∗i . La matrice de ℓT relativement aux bases (f∗j ) de F ∗ et

(e∗i ) de E∗ est donc AT . La notion de transposition de matrice est donc l’analogue de la notionde transposition d’applications lineaires.

1.7 Espaces Euclidiens

Definition 1.34 Un espace vectoriel E sur R, de dimension finie n, et muni d’un produit sca-laire (x, y) 7→ 〈x, y〉, c’est a dire d’une forme bilineaire sur E×E, symetrique et definie positive,est appele espace Euclidien. Plus explicitement, on a

– symetrie : ∀x, y ∈ E, 〈x, y〉 = 〈y, x〉.– ∀λ, µ ∈ R,∀x, y, z ∈ E, 〈x, λy + µz〉 = λ〈x, y〉 + µ〈x, z〉.– ∀x ∈ E, 〈x, x〉 ≥ 0 et 〈x, x〉 = 0 ⇐⇒ x = 0.

Page 21: Algebre Lineaire Et Analyse Numerique Matricielle

1.7. ESPACES EUCLIDIENS 21

Exemple. L’espace Rn du produit scalaire canonique : 〈x, y〉 =∑n

i=1 xiyi, est un espace Eucli-dien. Remarquons que 〈x, y〉 s’ecrit aussi xT y = yTx en utilisant le produit matriciel.

Lemme 1.6 Soit E un espace Euclidien. L’application ‖.‖, E → R+, qui a un vecteur x associe‖x‖ =

√〈x, x〉 est une norme, appele norme euclidienne associee a 〈.〉 : on a

– ∀λ ∈ R, ∀v ∈ E, ‖λv‖ = |λ|‖v‖.– ∀v,w ∈ E, ‖v + w‖ ≤ ‖v‖ + ‖w‖.– ∀v ∈ E, ‖v‖ = 0 ⇒ v = 0E.

Lemme 1.7 Soit E un espace Euclidien. On a l’inegalite de Cauchy-Schwarz ∀v,w ∈ E,|〈v,w〉| ≤ ‖v‖‖w‖.

Definition 1.35 – Deux vecteurs x et y d’un espace E Euclidien sont orthogonaux si 〈x, y〉 =0. On note alors x ⊥ y.

– Soit K une partie de E : K⊥ est le sous-ensemble de E formes des vecteurs othogonauxaux vecteurs de K. K⊥ est un sous-espace vectoriel de E.

– On dit qu’une famille de vecteurs de E est orthogonale si les vecteurs qui la composentsont deux a deux orthogonaux.

– On dit qu’une famille de vecteurs de E est orthonormee ou orthonormale si elle est ortho-gonale et si chacun de ses vecteurs v est tel que ‖v‖ = 1.

Proposition 1.26 Soit E un espace Euclidien.– Soient F et G deux sous-espaces vectoriels de E tels que F ⊂ G⊥. Alors F ∩G = 0.– Soit F un sous-espace vectoriel de E. On a F ⊕F⊥ = E. On appelle F⊥ le supplementaire

orthogonal de F .

Proposition 1.27 Soit E un espace Euclidien. Une famille de n vecteurs non nuls de E, deuxa deux orthogonaux est une base. On dit que la base est orthogonale. Si les vecteurs ont de plusnorme 1, on parle de base orthonormale.

Dans les espaces Euclidiens, le produit scalaire permet d’identifier E et E∗ :

Proposition 1.28 Soit E un espace Euclidien, alors pour tout f∗ ∈ E∗, il existe un uniquef ∈ E tel que f∗(v) = 〈f, v〉 ∀v ∈ E. L’application qui a f∗ associe f est un isomorphismeintrinseque (il ne depend que du produit scalaire). Il permet d’identifier E a E∗.

Demonstration. Soit (ei)1≤i≤n une base de E. On note gij = 〈ei, ej〉 et G la matrice de Mn(R)dont les coefficients sont les gij . La matrice G est inversible, car le produit scalaire est definipositif (demontrer en detail pourquoi G est inversible).Definissons un vecteur ei tel que, pour tout vecteur x,

〈ei, x〉 = e∗i (x) = xi

ou e∗i est la forme lineaire qui a un vecteur x fait correspondre sa ieme composante xi dans labase (e1, . . . , en).On cherche ei sous la forme : ei =

∑nj=1 α

ijej . Alors 〈ei, ej〉 =∑n

k=1 αikgkj = e∗i (ej) = δij . On

doit resoudre∑n

k=1 αikgkj = δij , j = 1, . . . , n. A i fixe, c’est un systeme a n equations et n

inconnues, dont la matrice est G. Le systeme a pour solution unique la ieme colonne de G−1.On a donc montre l’existence et l’unicite de ei. La famille (ei)i=1,...,n est une base de E : en effet,s’il existe x1, . . . , xn tels que

∑nj=1 xje

j = 0, on prend le produit scalaire avec ei, i = 1, . . . , n ,

Page 22: Algebre Lineaire Et Analyse Numerique Matricielle

22 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

ce qui conduit a xi = 0, i = 1, . . . , n.Pour le vecteur f∗ de E∗, le vecteur f =

∑ni=1 f

∗(ei) ei est l’unique vecteur tel que f∗(v) =〈f, v〉 ∀v ∈ E.

Remarque 1.4 La base (ei)i=1,...,n de E construite est l’image de la base duale (e∗i )i=1,...,n deE∗ construite ci dessus par l’isomorphisme intrinseque de E∗ sur E construit ci-dessus.

Remarque 1.5 Si la base (ei)i=1,...,n est orthonormee, alors ei = ei, i = 1, . . . , n.

Soient deux espaces Euclidiens E et F et ℓ une application lineaire de E dans F . On definitl’application adjointe de ℓ et on note ℓ∗ l’application lineaire de F dans E definie par

〈ℓ(u), v〉 = 〈u, ℓ∗(v)〉. (1.20)

Soient (ei)1≤i≤m une base de E et (fi)1≤i≤n une base de F . Soit A ∈ Mn,m(R) la matrice de

ℓ relativement a ces deux bases. Soient(ei)1≤i≤m

et(f i)1≤i≤n

les bases de E et F definies

ci-dessus. la matrice de ℓ∗ relativement aux bases(f i)1≤i≤n

et(ei)1≤i≤m

est AT .

En choisissant E = Rm et F = Rn et en prenant (ei)1≤i≤m et (fi)1≤i≤n les bases canoniques(donc orthonormees), on voit que ∀A ∈ Mn,m(R), ∀u ∈ Rm, ∀v ∈ Rn,

vTAu = 〈Au, v〉Rn = 〈u,AT v〉Rm = uTAT v,

ce qui est aussi une consequence de (1.17). Par analogie a ℓ∗, on emploiera aussi la notation A∗

pour la matrice AT , A ∈ Mn(R).On peut montrer la

Proposition 1.29 Soit A ∈ Mn(R), on a

ker(AT ) = (Im(A))⊥,Im(AT ) = (ker(A))⊥.

(1.21)

Definition 1.36 – On dit que A ∈ Mn(R) est normale si AAT = ATA.– On dit que A ∈ Mn(R) est orthogonale ou unitaire si AAT = ATA = I, ou de maniere

equivalente si A−1 = AT .

Remarque 1.6 Il est clair qu’une matrice A ∈ Mn(R) symetrique est normale, et qu’unematrice orthogonale est normale.

Proposition 1.30 Une matrice A ∈ Mn(R) est orthogonale si et seulement si ses colonnesforment une base orthonormee de Rn. Une matrice A ∈ Mn(R) est orthogonale si et seulementsi ses lignes forment une base orthonormee de Rn.Une matrice orthogonale O ∈ Mn(R) est donc la matrice de passage de la base canonique (doncorthonormale) de Rn vers une base orthonormale. Reciproquement, si B et B′ sont deux basesorthonormales de Rn, la matrice de passage O de B vers B′ est orthogonale. Dans ce cas, siA (resp. B) est la representation matricielle de ℓ ∈ L(Rn) dans B, (resp. B′), la formule dechangement de base s’ecrit aussi B = OTAO.

Page 23: Algebre Lineaire Et Analyse Numerique Matricielle

1.8. ESPACES HERMITIENS 23

1.8 Espaces Hermitiens

Definition 1.37 Un espace vectoriel E sur C, de dimension finie n, et muni d’un produit sca-laire hermitien (x, y) 7→ 〈x, y〉, c’est a dire d’une forme sesquilineaire sur E × E, hermitienneet definie positive, est appele espace Hermitien. Plus explicitement, on a

– ∀x, y ∈ E, 〈x, y〉 = 〈y, x〉.– ∀λ, µ ∈ C,∀x, y, z ∈ E, 〈x, λy+µz〉 = λ〈x, y〉+ µ〈x, z〉 et 〈λy+µz, x〉 = λ〈y, x〉+µ〈z, x〉.– ∀x ∈ E, 〈x, x〉 ≥ 0 et 〈x, x〉 = 0 ⇐⇒ x = 0.

Exemple. L’espace Cn du produit scalaire hermitien canonique 〈x, y〉 =∑n

i=1 xiyi est un espacehermitien.

Lemme 1.8 Soit E un espace hermitien. L’application ‖.‖, E → R+, qui a un vecteur x associe‖x‖ =

√〈x, x〉 est une norme : on a

– ∀λ ∈ C, ∀v ∈ E, ‖λv‖ = |λ|‖v‖.– ∀v,w ∈ E, ‖v + w‖ ≤ ‖v‖ + ‖w‖.– ∀v ∈ E, ‖v‖ = 0 ⇒ v = 0E.

et l’inegalite de Cauchy-Schwarz : ∀v,w ∈ E, |〈v,w〉| ≤ ‖v‖‖w‖.

Comme pour les espaces Euclidiens, on peut aussi definir les notions d’orthogonalite pour leproduit scalaire hermitien, de sous-espace orthogonal a une partie de E, de bases orthogonaleset orthonormees. On peut aussi definir la notion d’application lineaire adjointe :

Definition 1.38 Soient deux espaces hermitiens E et F et ℓ une application lineaire de E dansF . On definit l’application adjointe de ℓ et on note ℓ∗ l’application lineaire de F dans E definiepar

〈ℓ(u), v〉 = 〈u, ℓ∗(v)〉. (1.22)

Proposition 1.31 Soient deux espaces hermitiens E et F , et (e1, . . . , em), (f1, . . . , fn) des basesorthonormees de E et de F . Soit ℓ une application lineaire de E dans F , dont la matricerelativement aux bases (e1, . . . , em) et (f1, . . . , fn) est A ∈ Mn,m(C). La matrice de ℓ∗ dans lesbases (f1, . . . , fn), (e1, . . . , em) est

A∗ = (A)T , i.e. a∗ij = aji, i = 1, . . . ,m; j = 1, . . . , n (1.23)

La matrice A∗ est appelee matrice adjointe, elle verifie

〈Au, v〉 = 〈u,A∗v〉, ∀u ∈ Cm, ∀v ∈ Cn.

On peut montrer la

Proposition 1.32 Soit A ∈ Mn(C), on a

rang(A∗) = rang(A),ker(A∗) = (Im(A))⊥,Im(A∗) = (ker(A))⊥.

(1.24)

ou l’orthogonalite est prise par rapport au produit scalaire hermitien dans Cn.

Definition 1.39 – Une matrice A ∈ Mn(C) est hermitienne si A∗ = A.– Une matrice A ∈ Mn(C) est normale si AA∗ = A∗A.

Page 24: Algebre Lineaire Et Analyse Numerique Matricielle

24 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

– Une matrice A ∈ Mn(C) est unitaire si AA∗ = A∗A = In.

Remarque 1.7 Il est clair qu’une matrice hermitienne est normale. Une matrice unitaire estnormale.

On remarquera que l’ensemble des matrices hermitiennes n’est pas un sous-espace de Mn(C)(comme espace sur C). On a l’analogue de la Proposition 1.30 pour les matrices reelles :

Proposition 1.33 Une matrice A ∈ Mn(C) est unitaire si et seulement si ses colonnes formentune base orthonormee de Cn. Une matrice A ∈ Mn(C) est unitaire si et seulement si ses lignesforment une base orthonormee de Cn.Une matrice unitaire A ∈ Mn(C) est donc la matrice de passage de la base canonique (doncorthonormale) de Cn vers une base orthonormale. Reciproquement, si B et B′ sont deux basesorthonormales de Cn, la matrice de passage de B vers B′ est unitaire.

1.9 Procede de Gram-Schmidt

Dans cette section, E est soit un espace Euclidien (espace vectoriel sur R, de dimension finie,muni d’un produit scalaire) ou un espace hermitien (espace vectoriel sur C, de dimension finie,muni d’un produit scalaire hermitien). On note 〈, 〉 le produit scalaire. Le but est ici de decrirele procede (ou algorithme) de Gram-Schmidt, permettant de construire des bases orthonormalesde E. Le procede de Gram-Schmidt est en fait l’essence de la demonstration du resultat suivant

Theoreme 1.3 Soit (f1, . . . , fn) une famille libre de vecteurs de E. Il existe une famille ortho-normee (e1, . . . , en) de vecteurs de E, telle que,

Vect(e1, . . . , ep) = Vect(f1, . . . , fp), ∀p ≤ n. (1.25)

De plus, si E est un espace euclidien, la famille (e1, . . . , en) est unique a une multiplicationpres des vecteurs par −1. Si E est un espace hermitien, la famille (e1, . . . , en) est unique a unemultiplication pres des vecteurs par un nombre complexe de module 1.

Demonstration. On procede par recurrence sur n : pour n = 1, e1 = 1‖f1‖f1 est bien l’unique

vecteur norme (a une multiplication pres par −1 si E est euclidien, par un nombre complexe demodule 1 si E est hermitien) tel que Vect(e1) = Vect(f1).Supposons la propriete vrai jusqu’a n−1 < dim(E). Soit (f1, . . . , fn) une famille libre de vecteursde E. D’apres l’hypothese de recurrence, il existe une famille orthonormee (e1, . . . , en−1) devecteurs de E telle que,

Vect(e1, . . . , ep) = Vect(f1, . . . , fp), ∀p ≤ n− 1, (1.26)

et cette famille est unique aux multiplications mentionnees plus haut pres.La famille (e1, . . . , en−1, fn) est libre et engendre le meme sous-espace vectoriel que (f1, . . . , fn).Cherchons en sous la forme

en = β(fn +n−1∑

p=1

apep) (1.27)

pour que en ∈ Vect(e1, . . . , en−1)⊥ et ‖en‖ = 1 ; on obtient aisement que

a1 = −〈fn, e1〉...

an−1 = −〈fn, en−1〉

Page 25: Algebre Lineaire Et Analyse Numerique Matricielle

1.10. DETERMINANTS 25

et que

‖en‖2 = |β|2‖fn −n−1∑

p=1

〈fn, ep〉ep‖2

Mais fn −∑n−1p=1 〈fn, ep〉ep 6= 0 car fn 6∈ Vect(e1, . . . , en−1). Donc il existe un unique scalaire β

repondant a la question, a une multiplication pres par −1 si E est euclidien, par un nombrecomplexe de module 1 si E est hermitien.On a alors construit une famille (e1, . . . , en) repondant a la question.

Si (f1, . . . , fn) est une base de E, le procede de Gram-Schmidt permet d’en deduire une baseorthonormale.

1.10 Determinants

Definition 1.40 On note Sn l’ensemble des permutations d’ordre n (bijections de l’ensemblede 1, . . . , n). Soit A ∈ Mn(K). On definit le determinant de A comme le scalaire

det(A) =∑

σ∈Sn

s(σ)

n∏

i=1

ai,σ(i). (1.28)

ou Sn est l’ensemble des permutations d’ordre n et pour tout σ ∈ Sn, s(σ) est la signature deσ.

Remarque 1.8 On voit que pour calculer le determinant de A ∈ Mn(K) par la formule (1.28),il faut effectuer n! sommes et n ∗ n! produits. Ce nombre d’operations devient tres vite enormeet on verra dans ce cours d’autres facons beaucoup plus rapides de calculer le determinant de A.

On a les trois proprietes

1. L’application qui a une colonne v (resp. une ligne vT ) de A associe det(A) (toutes lesautres colonnes (resp. lignes) etant fixees) est une application lineaire. En particulier, siune matrice A contient une colonne ou une ligne nulle, son determinant est nul. L’ap-plication determinant peut etre vue comme une forme n-lineaire sur le produit d’espacesKn × · · · × Kn

︸ ︷︷ ︸n

.

2. Soit A ∈ Mn(K) et B une matrice obtenue en echangeant deux colonnes de A en lais-sant les autres inchangees. On a det(B) = − det(A). On dit que la forme n-lineaire surKn × · · · × Kn

︸ ︷︷ ︸n

est alternee. Ceci implique que si A comporte au moins deux colonnes egales

(ou au moins deux lignes egales) alors det(A) = 0.

3. det(In) = 1.

On peut en fait montrer le

Theoreme 1.4 (fondamental) L’ensemble des applications de Mn(K) dans K ayant les deuxpremieres proprietes ci-dessus est un espace vectoriel de dimension un, engendre par l’applicationA 7→ det(A).L’application A 7→ det(A) est la seule application de Mn(Kn) dans K ayant les trois proprietesci-dessus.

Page 26: Algebre Lineaire Et Analyse Numerique Matricielle

26 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

Soit B une matrice de Mn(K). L’application qui a A ∈ Mn(K) associe det(BA) a les deuxpremieres proprietes ci-dessus, et verifie de surcroıt det(BIn) = det(B). Donc, d’apres le Theoreme1.4, cette application est en fait A 7→ det(A) det(B).

Proposition 1.34 Soient A et B deux matrices de Mn(K). On a

det(AB) = det(A) det(B) = det(BA). (1.29)

On a aussi la

Proposition 1.35 Soit A ∈ Mn(K). On a

det(AT ) = det(A). (1.30)

Demonstration.

det(A) =∑

σ∈Sn

s(σ)

n∏

i=1

ai,σ(i)

=∑

σ∈Sn

s(σ)n∏

i=1

aσ−1(i),i caractere bijectif de σ

=∑

σ∈Sn

s(σ−1)n∏

i=1

aσ−1(i),i car s(σ−1) = s(σ)

=∑

σ∈Sn

s(σ)

n∏

i=1

aσ(i),i car Sn = σ−1, σ ∈ Sn

= det(AT ).

On deduit de la Proposition 1.34 et des proprietes de l’application A 7→ det(A) les

Lemme 1.9 Si une matrice P ∈ Mn(K) est inversible, alors det(P ) 6= 0 et on a det(P−1) =(det(P ))−1.

Lemme 1.10 Soient A et B deux matrices de Mn(K), semblables : on a det(A) = det(B).

On deduit des deux Lemmes precedents la

Proposition 1.36 Une matrice A ∈ Mn(K) est inversible si et seulement si det(A) 6= 0.

Demonstration. Si A n’est pas inversible, A est semblable a une matrice dont une colonne aumoins est nulle, et d’apres le Lemme 1.10, det(A) = 0. On conclut alors avec le Lemme 1.9.

Definition 1.41 Soit A ∈ Mn(K), et 1 ≤ i, j ≤ n. On appelle mineur associe au coefficient aij

de A et on note mij, le determinant de la matrice d’ordre n− 1 extraite de A en supprimant lai-eme ligne et la j-eme colonne. On appelle cofacteur associe au coefficient aij de A le scalaire∆ij = (−1)i+jmij.

Proposition 1.37 (developpement suivant une ligne ou une colonne) On a, pour A ∈Mn(K),

det(A) =∑n

j=1 ∆ljalj , ∀l, 1 ≤ l ≤ n

det(A) =∑n

i=1 ∆ikaik, ∀k, 1 ≤ k ≤ n(1.31)

Page 27: Algebre Lineaire Et Analyse Numerique Matricielle

1.11. TRACES 27

Proposition 1.38 Soit A ∈ Mn(K), on note A la matrice des cofacteurs de A. On a

ATA = AAT = det(A)In. (1.32)

Si A est inversible ,

A−1 =1

det(A)AT . (1.33)

1.11 Traces

Definition 1.42 Soit A = (aij)1≤i,j≤n une matrice carree d’ordre n a coefficents dans K. Latrace de A, notee trace(A) est le scalaire

trace(A) =

n∑

i=1

aii. (1.34)

L’application trace qui a une matice asssocie sa trace est une forme lineaire sur Mn(K). Il estclair que trace(A) = trace(AT )

Proposition 1.39 Soit A et B deux matrices carrees d’ordre n a coefficients dans K. On a

trace(AB) = trace(BA). (1.35)

Corollaire 1.4 Soit A et B deux matrices carrees d’ordre n a coefficients dans K. Si A et Bsont semblables, on a

trace(A) = trace(B). (1.36)

Page 28: Algebre Lineaire Et Analyse Numerique Matricielle

28 CHAPITRE 1. RAPPELS D’ALGEBRE LINEAIRE

Page 29: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 2

Reduction de matrices

Dans ce qui suit, on s’interesse a des matrices carrees de Mn(K), ou K = R ou K = C. Onnote I la matrice identite de Mn(K).Il existe des classes de matrices particulierement simples : les matrices diagonales A = (aij)1≤i,j≤n

avec aij = 0 si i 6= j et les matrices triangulaires superieures (ai,j = 0 si i < j) ou triangulairessuperieures (ai,j = 0 si i > j). Par exemple, pour de telles matrices, resoudre un systeme lineaireest particulierement simple (c’est l’idee de base de la methode de Gauss). Ces matrices sontaussi particulierement utiles pour la resolution des systemes d’equations differentielles lineaireset pour l’etude des proprietes qualitatives des systemes d’equations differentielles non lineaires.Pour une matrice donnee A, il est donc souvent tres utile de chercher un changement de basequi transforme A en une matrice semblable, diagonale ou a defaut triangulaire. On appelle cettedemarche reduction de matrices.Pour la reduction des matrices, les notions importantes sont celles de valeurs propres et vecteurspropres, polynome caracteristique, polynome de matrices, sous-espace stable. On montrera enparticulier que si le polynome caracteristique d’une matrice est scinde, on peut trouver un chan-gement de base ou la matrice devient triangulaire superieure et un theoreme fondamental, letheoreme d’Hamilton-Cayley, permet de preciser la structure de la matrice triangulaire obtenue.

2.1 Valeurs propres, vecteurs propres, polynome caracteristique

Definition 2.1 Soit A ∈ Mn(K), on dit que λ ∈ K est une valeur propre de A s’il existe unvecteur v ∈ Kn, v 6= 0 tel que Av = λv. On dit que le vecteur v 6= 0 est un vecteur propre de Aassocie a la valeur propre λ.

Autrement dit, λ est une valeur propre de A si et seulement si le noyau de A − λI n’est pasreduit a 0, ce qui a lieu si et seulement si det(A− λI) = 0.

Remarque 2.1 Un vecteur non nul v est un vecteur propre de A si et seulement si Av estcolineaire a v.L’union de 0 et de l’ensemble des vecteurs propres associes a une valeur propre λ de A est unsous-espace vectoriel de Kn.

Definition 2.2 Soit A ∈ Mn(K). Soit λ ∈ K est une valeur propre de A. Le sous-espaceVλ = v ∈ Kn : Av = λv (non reduit a 0) est appele sous-espace propre associe a la valeurpropre λ. Le sous-espace Vλ est le noyau de A− λI :

Vλ = ker(A− λI).

29

Page 30: Algebre Lineaire Et Analyse Numerique Matricielle

30 CHAPITRE 2. REDUCTION DE MATRICES

Definition 2.3 Soit A ∈ Mn(K). L’ensemble des valeurs propres de A est appele spectre de Aet est note σ(A).

Lemme 2.1 Soit A ∈ Mn(K). Soit λ1, . . . , λk des valeurs propres distinctes de A. On a

Vλ1 + · · · + Vλk= Vλ1 ⊕ · · · ⊕ Vλk

Demonstration. On effectue une demonstration par recurrence sur k : pour k = 1, c’estimmediat.Supposons le resultat vrai pour les entiers positifs inferieurs strictement a k. Soient w = u1 +· · · + uk = v1 + · · · + vk, avec ui, vi ∈ Vλi

. On a (u1 − v1) + · · · + (uk − vk) = 0. Ceci impliqueque λ1(u1 − v1) + · · · + λk(uk − vk) = 0, en multipliant par A. Supposons que λ1 6= 0, (cequi est vrai quitte a permuter les indices car k > 1). En divisant par λ1 on obtient que (u1 −v1) + λ2

λ1(u2 − v2) · · · + λk

λ1(uk − vk) = 0. On en deduit en retranchant la premiere identite que

(λ2λ1

− 1)(u2 − v2) · · · + (λk

λ1− 1)(uk − vk) = 0, avec λi

λ1− 1 6= 0 ∀2 ≤ i ≤ k, et ui − vi ∈ Vλi

.L’hypothese de recurrence implique que ui = vi, pour i = 2, . . . , k. On obtient alors que u1 = v1en revenant a la premiere egalite.Le resultat est demontre par recurrence.

Lemme 2.2 Soient A ∈ Mn(K) et λ1, . . . , λk des valeurs propres distinctes de A, v1, . . . , vk desvecteurs propres associes. Le systeme (v1, . . . , vk) est libre.

Demonstration. Consequence du Lemme 2.1.

Definition 2.4 Soit A ∈ Mn(K). Le polynome caracteristique de A est le polynome PA(λ) acoefficients dans K defini par

PA(λ) = det(A− λI)

C’est un polynome de degre egal a n et dont le coefficient du monome de degre n est egal a(−1)n. On a vu que les racines de PA sont les valeurs propres de A.La multiplicite d’une valeur propre λ de A est sa multiplicite en tant que racine de PA. Unevaleur propre de A de multiplicite un (respectivement deux) est appelee valeur propre simple(respectivement double).

On verifie aisement la Proposition suivante

Lemme 2.3 Le polynome caracteristique est invariant par changement de base. En d’autrestermes, deux matrices semblables ont le meme polynome caracteristique et le meme spectre.

Demonstration. Si Q est une matrice inversible,

det(QAQ−1 − λI) = det(Q(A− λI)Q−1) = det(A− λI).

Exemple. La matrice

A =

5. −1. −2. −1. −1.1. 3. −2. −1. −1.1. −1. 2. −1. −1.1. −1. 0. 1. −1.4. −4. 0. 0. 0.

Page 31: Algebre Lineaire Et Analyse Numerique Matricielle

2.1. VALEURS PROPRES, VECTEURS PROPRES, POLYNOME CARACTERISTIQUE 31

a pour polynome caracteristique PA(λ) = −λ(4 − λ)2(2 − λ)(1 − λ) (le verifier) et σ(A) =4, 2, 1, 0. La valeur propre 4 est double et les autres valeurs propres sont simples. On a V4 =(a + b, b, 0, 0, a)T , a, b ∈ R, V0 = (a, a, a, a, a)T , a ∈ R, V2 = (a, a, a, 0, 0)T , a ∈ R, V1 =(a, a, a, a, 0)T , a ∈ R.Exemple. Soit a ∈ K, et A = aI ∈ Mn(K) la matrice de l’homothetie de rapport a. Toutvecteur non nul de Kn est un vecteur propre de A associe a la valeur propre a. Le polynomecaracteristique de A est PA(λ) = (a− λ)n.Exemple. On considere une reel θ et la matrice A ∈ M2(R) de la rotation d’angle θ

A =

(cos θ sin θ− sin θ cos θ

)(2.1)

Son polynome caracteristique est PA(λ) = λ2 − 2λ cos θ + 1. Si θ 6∈ πZ, le polynome n’a pas deracines dans R et A n’a donc pas de valeur propre dans R.En revanche, si on considere A comme une matrice de M2(C), on voit que les racines de PA sontλ± = cos θ± i sin θ. Si θ 6∈ πZ, les valeurs propres de A sont les complexes conjugues (non reels)λ± et des vecteurs propres correspondants sont v± = (1,±i)T . On voit que pour toute valeur deθ, on peut trouver une base de C2 dans laquelle la matrice A devient diagonale. On dira que Aest diagonalisable dans M2(C).

Definition 2.5 On dit qu’un sous-espace vectoriel V de Kn est un sous-espace stable pour A sipour tout vecteur v ∈ V , Av ∈ V .

Exemple. On considere la matrice

A =

2 1 0 23 3 0 10 0 4 01 2 0 5

Les sous-espaces Vect(e1, e2, e4) et Vect(e3) sont stables pour A.

Comment traduire de facon matricielle qu’un sous-espace est stable pour A ? Si V est un sous-espace stable pour A de dimension m ≤ n, le theoreme de la base incomplete nous dit que l’onpeut trouver une base (f1, . . . , fn) de Kn dont les m premiers vecteurs forment une base de V .Soit Q la matrice de changement de base (dont les colonnes contiennent les coordonnees desvecteurs fi dans la base canonique), la matrice Q−1AQ est de la forme

Q−1AQ =

(B11 B12

0 B22

)(2.2)

ou B11 ∈ Mm(K) et B22 ∈ Mn−m(K).Reciproquement si il existe une matrice inversible Q telle que Q−1AQ est de la forme (2.2), alorsle sous-espace V engendre par les m premieres colonnes de Q est stable pour A.

Lemme 2.4 Soient A ∈ Mn(K) et une matrice inversible Q telle que Q−1AQ soit de la forme(2.2), alors

PA = PB11PB22 . (2.3)

Demonstration. En notant B = Q−1AQ, on a PA = PB d’apres le Lemme 2.3 et on voitimmediatement que PB = PB11PB22 .

Page 32: Algebre Lineaire Et Analyse Numerique Matricielle

32 CHAPITRE 2. REDUCTION DE MATRICES

2.2 Rappels sur les polynomes et polynomes de matrices

Dans la suite, on va avoir besoin de quelques resultats fondamentaux sur les polynomes acoefficients dans K.On rappelle que l’ensemble K[X] des polynomes a coefficients dans K est un anneau, c’est a direque

– (K[X],+) est un groupe commutatif.– La multiplication × qui a deux polynomes P et Q associe le produit PQ, est une loi de

composition interne, commutative et associative dans K[X], avec pour element neutre lepolynome 1.

– La multiplication × est distributive sur l’addition : soit P,Q,R trois polynomes de K[X],on a P (Q+R) = PQ+ PR.

On resume ces proprietes en disant que (K[X],+,×) est un anneau commutatif.

Definition 2.6 On dit qu’un polynome est unitaire si son coefficient de plus haut degre est 1.

Definition 2.7 Soit P et Q deux polynomes de K[X]. On dit que Q est un diviseur de P (ouque P est un multiple de Q) s’il existe un polynome R tel que P = QR.

Definition 2.8 Soit P ∈ K[X]. On dit que λ ∈ K est racine de P de multiplicite m (m entier> 0) si le polynome (X − λ)m est un diviseur de P .

On admettra le resultat important suivant :

Theoreme 2.1 Le corps C est algebriquement clos, ce qui signifie que tout polynome P ∈ C[X]non nul est scinde, c’est a dire que si le degre de P est n, P a exactement n racines dans C(comptees avec leur multiplicite).

Il est clair que R n’est pas algebriquement clos, puisque le polynome X2 + 1 n’admet pas deracine dans R.

Definition 2.9 On dit que P et Q sont premiers entre eux si P et Q n’ont pas d’autre diviseurcommun que les polynomes de degre 0.

Remarque 2.2 Comme C est algebriquement clos, P ∈ C[X] et Q ∈ C[X] sont premiers entreeux si et seulement P et Q n’ont pas de racines communes dans C.

Exemple. Les polynomes P (X) = 3X + 5 et Q(X) = X2 + 2x+ 1 sont premiers entre eux.

Comme pour les entiers, on peut definir une division euclidienne dans K[X] :

Proposition 2.1 (division euclidienne) Soient P1 et P2 deux polynomes : il existe un uniquepolynome Q et un unique polynome R de degre strictement inferieur a celui de P2 tels queP1 = QP2 +R.

Demonstration. La preuve consiste a ecrire l’algorithme de la division euclidienne.

Exemple. On considere les polynomes P1(X) = 5X5 + 6X3 + 2X + 1 et P2(X) = X3 +X + 2.On a P1 = QP2 +R, ou Q(X) = 5X2 + 1 et R(X) = −10X2 +X − 1.

Page 33: Algebre Lineaire Et Analyse Numerique Matricielle

2.2. RAPPELS SUR LES POLYNOMES ET POLYNOMES DE MATRICES 33

Proposition 2.2 (identite de Bezout) Deux polynomes P1 et P2 sont premiers entre eux siet seulement si il existe deux polynomes Q1 et Q2 tels que Q1P1 +Q2P2 = 1.

Demonstration. Commencons par supposer qu’il existe deux polynomes Q1 et Q2 tels queQ1P1 +Q2P2 = 1. Un diviseur commun a P1 et P2 est donc un diviseur de 1, donc P1 et P2 sontpremiers entre eux.Pour la reciproque, on procede par recurrence sur le degre maximal des deux polynomes P1 etP2, que l’on note n. Pour n = 0, on voit que deux polynomes de degre 0 sont premiers entre euxsi l’un des deux polynomes est non nul. Le resultat souhaite est donc vrai si n = 0.Soit n > 0, supposons la propriete vraie pour tous les entiers positifs ou nuls inferieur a n.Prenons P1 et P2 deux polynomes :supposons dans un premier temps que le degre de P1 est n et que le degre de P2 est strictementinferieur a n. On effectue la division euclidienne de P1 par P2 : on a P1 = QP2 + R, ou R estun polynome de degre inferieur strictement a celui de P2. On verifie que R et P2 sont premiersentre eux, car un diviseur commun a P2 et R est un diviseur commun a P1 et P2. On appliquel’hypothese de recurrence a P2 et R : il existe deux polynomes A et B tels que AP2 +BR = 1.On en conclut que AP2 +B(P1 −QP2) = 1 ce qui est la conclusion souhaitee.Si P1 et P2 sont tous deux de degre n : on effectue la division euclidienne de P1 par P2 : ona P1 = QP2 + R, ou R est un polynome de degre inferieur strictement a celui de P2, et R estpremier avec P2. On sait alors qu’il existe deux polynomes A et B tels que AP2 + BR = 1puisque R est de degre strictement inferieur a n. On en conclut que AP2 +B(P1 −QP2) = 1.

Exemple. Les polynomes P1(X) = 3X + 5 et P2(X) = X2 + 2x + 1 sont premiers entreeux. On a bien Q1P1 +Q2P2 = 1, avec Q1(X) = −3

4X − 14 et Q2(X) = 9

4 .

Definition 2.10 Soit P (X) un polynome a coefficients dans K : P (X) = αmXm + · · · + α0 =∑m

i=0 αiXi. Soit A une matrice de Mn(K), on note P (A) la matrice P (A) = αmA

m+· · ·+α0I =∑mi=0 αiA

i. On dit que P (A) est un polynome de la matrice A.

On verifie aisement les lemmes suivants

Lemme 2.5 Soient P et Q deux polynomes a coefficients dans K, et A une matrice de Mn(K),alors P (A) et Q(A) commutent :

P (A)Q(A) = Q(A)P (A) = PQ(A) = QP (A)

Lemme 2.6 Soient P un polynome a coefficients dans K, et A une matrice de Mn(K). Si λest une valeur propre de A alors P (λ) est une valeur de P (A).

Demonstration. Soit λ une valeur propre de A. Il existe un vecteur v 6= 0 tel que Av = λv.On voit facilement que P (A)(v) = P (λ)v. On en deduit que P (A) a pour valeur propre P (λ).

Remarque 2.3 On verra plus tard que si A ∈ Mn(C), σ(P (A)) est exactement l’image par Pde σ(A).Ceci n’est pas vrai pour A ∈ Mn(R), car le spectre de la matrice A donnee par (2.1) avec θ = π

n

est vide si n > 1, alors que le spectre de An est −1.

Page 34: Algebre Lineaire Et Analyse Numerique Matricielle

34 CHAPITRE 2. REDUCTION DE MATRICES

Lemme 2.7 Soient P un polynome a coefficients dans K, et A une matrice de Mn(K). Lesous-espace ker(P (A)) est stable pour A.

Demonstration. Soit v ∈ ker(P (A)), on a d’apres le lemme 2.5, P (A)Av = AP (A)v = 0.

Proposition 2.3 Soient P1 et P2 deux polynomes premiers entre eux et A ∈ Mn(K). Les sous-espaces ker(P1(A)) et ker(P2(A)) sont en somme directe et

ker((P1P2)(A)) = ker(P1(A)) ⊕ ker(P2(A)) (2.4)

Demonstration. Pour montrer que ker(P1(A)) ∩ ker(P2(A)) = 0, on utilise l’identite deBezout : il existe deux polynomes Q1 et Q2 tels que Q1P1 + Q2P2 = 1. Donc Q1(A)P1(A) +Q2(A)P2(A) = I. Soit v ∈ ker(P1(A))∩ker(P2(A)), on a v = (Q1(A)P1(A)+Q2(A)P2(A))v = 0.Pour v1 ∈ ker(P1(A)) et v2 ∈ ker(P2(A)), le Lemme 2.5 implique que (P1P2)(A)(v1 + v2) =P2(A)P1(A)v1 + P1(A)P2(A)v2 = 0. Donc ker(P1(A)) ⊕ ker(P2(A)) ⊂ ker((P1P2)(A)).Reciproquement en utilisant l’identite de Bezout, si v ∈ ker((P1P2)(A)), on a v = Q1(A)P1(A)v+Q2(A)P2(A)v et Q1(A)P1(A)v ∈ ker(P2(A)), Q2(A)P2(A)v ∈ ker(P1(A)) ; on a bien montre queker((P1P2)(A)) ⊂ ker(P1(A)) ⊕ ker(P2(A)).

2.3 Polynome minimal

On va s’interesser a trouver des polynomes P qui annulent A, c’est a dire tels que P (A) = 0.De tels polynomes existent : en effet, on sait que la dimension de Mn(K) est n2. Par suite,la famille de matrices (I,A,A2, . . . , An2

) ne peut pas etre une famille libre de Mn(K). En

consequence, il existe une famille de coefficients non tous nuls (αi)i=0,...,n2 tels que∑n2

i=0 αiAi = 0.

Le polynome P (X) =∑n2

i=0 αiXi annule donc A. On note IA l’ensemble des polynomes qui

annulent A.On verifie facilement que

– IA est un sous-groupe de (K[X],+),– quels que soient P ∈ K[X], Q ∈ IA, on a PQ ∈ IA.

On resume ces deux proprietes en disant que IA est un ideal de K[X].

Proposition 2.4 (polynome minimal) Il existe un unique polynome unitaire µA ∈ IA, telque tout polynome de IA soit un multiple de µA. On a

IA = µAP,P ∈ K[X]. (2.5)

On dit que µA est le polynome minimal de A.

Demonstration. Il est clair que le polynome 1 n’appartient pas a IA.Soit µA ∈ IA un polynome unitaire de IA de degre minimal, (on vient de voir que son degre estnon nul).Soit donc P un polynome de IA. On veut montrer que P est un multiple de µA. On effectue ladivision euclidienne de P par µA : il existe un unique polynome Q et un unique polynome R dedegre strictement inferieur a celui de µA tels que P = QµA +R. On voit alors que

– R ∈ IA car IA est un ideal de K[X].– Le degre de R est strictement inferieur a celui de µA.

Page 35: Algebre Lineaire Et Analyse Numerique Matricielle

2.4. THEOREME DE HAMILTON-CAYLEY 35

Le polynome R ne peut etre que nul : si ce n’etait pas le cas, en divisant R par son coefficientde plus haut degre, on obtiendrait un polynome unitaire de IA de degre strictement inferieur acelui de µA. Donc P est un multiple de µA.On a donc trouve un polynome unitaire µA de degre ≥ 1 tel que tout polynome de IA soit unmultiple de µA. L’unicite de µA et (2.5) sont laisses en exercice.

Remarque 2.4 En fait, pour tout ideal J de K[X], il existe un unique polynome G ∈ J telque J = GP,P ∈ K[X]. Cette propriete est une propriete de l’anneau K[X] : on dit que K[X]est un anneau principal.

Remarque 2.5 Le polynome minimal est moins facile a calculer que le polynome caracteristique,car ce dernier est defini par le calcul d’un determinant. Le lien entre les deux polynomes est donnepar le theoreme d’Hamilton-Cayley qui nous dit que le polynome minimal divise le polynome ca-racteristique et qu’ils ont les memes racines, (mais les racines n’ont pas forcement les memesmultiplicites).

Exemple. Le polynome minimal de la matrice A = aI (homothetie de rapport a) est µA(X) =X − a, tandis que le polynome caracteristique est PA(X) = (a−X)n.

2.4 Theoreme de Hamilton-Cayley

Theoreme 2.2 (Hamilton-Cayley) Soit A une matrice de Mn(K) et PA son polynome ca-racteristique. On a PA ∈ IA (ou de maniere equivalente PA(A) = 0).

Demonstration. Soit v ∈ Kn.– Si v = 0, alors PA(A)v = 0.– Si v 6= 0, on considere l’espace vectoriel V = Vect(v,Av, . . . , Anv). Le sous-espace V est

de dimension m ≤ n et (v,Av, . . . , Am−1v) est une base de V . Il existe donc m coefficients(α0, . . . , αm−1) tels que

Amv =m−1∑

i=0

αiAiv (2.6)

et V est donc un sous-espace stable pourA. On complete (v,Av, . . . , Am−1v) par (fm+1, . . . , fn)pour former une base de Kn et on note Q la matrice de changement de base. On a (2.2) et

B11 =

0 . . . α0

1 0 . . . α1

0 1 0 α2

. . .. . .

. . ....

1 αm−1

D’apres le Lemme 2.4, le polynome PB11 divise PA. On peut facilement calculer PB11(λ)en developpant ∣∣∣∣∣∣∣∣∣∣∣

−λ . . . α0

1 −λ . . . α1

0 1 −λ α2

. . .. . .

. . ....

1 αm−1 − λ

∣∣∣∣∣∣∣∣∣∣∣

Page 36: Algebre Lineaire Et Analyse Numerique Matricielle

36 CHAPITRE 2. REDUCTION DE MATRICES

par rapport a la premiere ligne. On a que

∣∣∣∣∣∣∣∣∣∣∣

−λ . . . α0

1 −λ . . . α1

0 1 −λ α2

. . .. . .

. . ....

1 αm−1 − λ

∣∣∣∣∣∣∣∣∣∣∣

= (−1)m+1α0 − λ

∣∣∣∣∣∣∣∣∣

−λ . . . α1

1 −λ α2

. . .. . .

...1 αm−1 − λ

∣∣∣∣∣∣∣∣∣

On demontre alors par recurrence que PB11(λ) = (−1)m(λm −∑m−1i=0 αiλ

i).On en deduit que PA(A)v = PB22(A)PB11(A)v = (−1)mPB22(A)(

∑m−1i=0 αiA

iv−Amv) = 0,d’apres (2.6).

On a donc demontre que PA(A)v = 0 pour tout v ∈ Kn, ce qui implique que PA(A) = 0.

Remarque 2.6 Pour un polynome unitaire de degre m, P (X) =∑m−1

i=0 αiXi +Xm, la matrice

0 . . . −α0

1 0 . . . −α1

0 1 0 −α2

. . .. . .

. . ....

1 −αm−1

s’appelle la matrice compagnon du polynome P . Son polynome caracteristique est (−1)mP (X).

Theoreme 2.3 (Hamilton Cayley, version complete) Soit A une matrice de Mn(K). Lepolynome minimal µA divise le polynome caracteristique PA. De plus, les racines du polynomeminimal µA sont exactement celles du polynomes caracteristiques (mais avec des multipliciteseventuellement differentes)

Demonstration. La premiere assertion est une consequence de la Proposition 2.4 et du Theoreme2.2 .On sait que µA est un diviseur de PA, donc une racine de µA est necessairement une racine dePA, donc une valeur propre de A. Reciproquement, soit λ une valeur propre et v un vecteurpropre associe, on a 0 = µA(A)v = µA(λ)v ce qui implique que µA(λ) = 0.

Exemple. Si θ 6∈ πZ, le polynome minimal de la matrice

A =

(cos θ sin θ− sin θ cos θ

)

(rotation d’angle θ) est µA(X) = X2 − 2X cos θ + 1. En effet, on sait que A (vue comme unematrice a coefficients complexes) a ses deux valeurs propres distinctes (de multiplicite un) et letheoreme de Hamilton-Cayley implique alors que µA = PA.Exemple. Considerons les trois matrices

A =

a 1 0 00 a 0 00 0 a 00 0 0 a

B =

a 1 0 00 a 0 00 0 a 10 0 0 a

C =

a 1 0 00 a 1 00 0 a 10 0 0 a

(2.7)

Page 37: Algebre Lineaire Et Analyse Numerique Matricielle

2.5. DIAGONALISATION 37

On a PA(X) = PB(X) = PC(X) = (a − X)4. D’apres le theoreme d’Hamilton-Cayley, µA, µB

et µC sont de la forme (X − a)m. On peut verifier que µA(X) = µB(X) = (X − a)2 et queµC(X) = (X − a)4. Le sous-espace propre de A associe a a est de dimension 3. Le sous-espacepropre de B associe a a est de dimension 2. Le sous-espace propre de C associe a a est dedimension 1.

Exercice. Cet exercice consiste a prouver le theoreme d’Hamilton-Cayley d’une autre maniere,par des arguments d’“analyse”. Montrer que l’ensemble des matrices diagonalisables est densedans Mn(C). En deduire le theoreme de Hamilton Cayley.

2.5 Diagonalisation

Definition 2.11 On dit qu’une matrice A ∈ Mn(K) est diagonalisable si et seulement si ilexiste une base de Kn formee de vecteurs propres de A, ou de maniere equivalente si A estsemblable a une matrice diagonale.

Une consequence immediate du Lemme 2.2 est la

Proposition 2.5 Si A a n valeurs propres distinctes, alors A est diagonalisable.

Une consequence du Lemme 2.1 est la

Proposition 2.6 Si A ∈ Mn(K) a exactement k valeurs propres distinctes λ1, . . . , λk, alors Aest diagonalisable si et seulement si dim(Vλ1) + · · · + dim(Vλk

) = n.

Demonstration. On sait par le Lemme 2.1 que les sous-espaces propres de A sont en sommedirecte, donc si dim(Vλ1) + · · · + dim(Vλk

) = n, on a Kn = Vλ1 ⊕ · · · ⊕ Vλk, donc A est diagona-

lisable. La reciproque est immediate.

Lemme 2.8 Soit A ∈ Mn(K) et soit α une valeur propre de la matrice A. Soit p la dimensiondu sous-espace propre Vα. Le polynome (α−X)p est un diviseur de PA.

Demonstration. D’apres la definition de Vα, A induit sur Vα une homothetie de rapport α,dont le polynome caracteristique est (α−X)p. Comme Vα est un sous-espace propre pour A, ondeduit du Lemme 2.4 que le polynome (α−X)p divise PA.

On en deduit de ce lemme une condition necessaire et suffisante pour que A soit diagonali-sable :

Theoreme 2.4 Si A ∈ Mn(K) a exactement k valeurs propres distinctes λ1, . . . , λk, alors Aest diagonalisable si et seulement si

PA(X) =k∏

i=1

(λi −X)mi , (2.8)

ou mi est la dimension du sous-espace propre Vλi.

Page 38: Algebre Lineaire Et Analyse Numerique Matricielle

38 CHAPITRE 2. REDUCTION DE MATRICES

Demonstration. D’apres la proposition 2.6, A est diagonalisable si et seulement si∑k

i=1mi = n

et donc si et seulement si∏k

i=1(λi − X)mi est un polynome de degre n, et le lecteur verifiera

que ceci equivaut a (2.8) car on a vu au Lemme 2.8 que∏k

i=1(λi −X)mi divise PA.

Remarque 2.7 La dimension du sous-espace propre associe a la valeur propre λi de A peutetre strictement inferieure a la multiplicite mi de λi. Dans ce cas, A n’est pas diagonalisable,cf. l’exemple des matrices donnees par (2.7).

Le Theoreme de Hamilton-Cayley permet de donner une condition necessaire pour que A soitdiagonalisable en fonction de la structure du polynome minimal :

Theoreme 2.5 Soit A ∈ Mn(K), A est diagonalisable si et seulement si son polynome minimalµA est de la forme

µA(X) =k∏

i=1

(X − λi), avec λi 6= λj si i 6= j,

En d’autres termes, A est diagonalisable si et seulement si µA est scinde avec des racines simples.

Demonstration. Supposons que A a k valeurs propres distinctes λ1, . . . , λk. Si A est diagonali-sable, on voit facilement que le polynome

∏ki=1(X−λi) annule A et donc µA divise ce polynome.

Comme on sait d’apres le Theoreme 2.3 que les racines de µA sont exactement les valeurs propresde A, on en deduit que µA =

∏ki=1(X − λi), et on voit que les racines du polynome minimal

sont simples.Reciproquement, si le polynome minimal a k racines simples λ1, . . . , λk, ces racines sont exacte-ment les valeurs propres de A, d’apres le Theoreme 2.3. Soit Vλi

= ker(A−λiI). On a d’apres laProposition 2.3 que Kn = ker(µA(A)) = Vλ1 ⊕ · · · ⊕ Vλk

car les polynomes X − λi sont premiersentre eux. On conclut en utilisant la Proposition 2.6.

Exemple. D’apres le Theoreme 2.5, aucune des trois matrices dans (2.7) n’est diagonalisable.

2.6 Triangulation

Definition 2.12 On dit qu’une matrice A ∈ Mn(K) est triangularisable si elle est semblable aune matrice triangulaire superieure U ∈ Mn(K), c’est a dire s’il existe une matrice inversibleQ ∈ Mn(K) et une matrice triangulaire superieure U ∈ Mn(K) telles que

Q−1AQ = U. (2.9)

Il est clair que si A ∈ Mn(K) verifie (2.9), alors

PA(λ) =

n∏

i=1

(uii − λ),

et

– les coefficients diagonaux de U sont les valeurs propres de A,– le polynome caracteristique de A a n racines dans K, comptees avec leur multiplicite. On

dit que le polynome caracteristique PA est scinde dans K[X].

Page 39: Algebre Lineaire Et Analyse Numerique Matricielle

2.6. TRIANGULATION 39

Donc, une matrice de Mn(R) dont le polynome caracteristique est divisible par x2+a2, a ∈ R\0ne peut pas etre triangularisable dans Mn(R). On verra que cette meme matrice, vue commeune matrice de Mn(C) est diagonalisable.Le caractere scinde du polynome caracteristique est en fait une condition necessaire et suffisantepour que A soit triangularisable :

Theoreme 2.6 Une matrice A ∈ Mn(K) est triangularisable si et seulement si son polynomecaracteristique est scinde.

Demonstration. Il ne reste plus qu’a demontrer l’implication : PA scinde ⇒ A triangularisable.On le fait par recurrence sur n. Pour n = 1, la propriete est evidente. Supposons la proprietevraie pour n− 1. Soit A ∈ Mn(K) et v un vecteur propre de A associe a la valeur propre λ. Onpeut par le theoreme de la base incomplete trouver une base (v, f2, . . . , fn) de Kn. Si on noteQ(1) la matrice dont les colonnes sont ces vecteurs de bases, on a

Q(1)−1AQ(1) =

(λ l0 B

), l ∈ M1,n−1(K), B ∈ Mn−1(K).

D’apres le Lemme 2.4, PA(X) = (λ − X)PB(X). Comme PA est scinde, PB est un polynomede degre n − 1 scinde. On applique alors l’hypothese de recurrence a B : il existe une matriceinversible Q(2) ∈ Mn−1(K) et une matrice U (2) ∈ Mn−1(K) triangulaire superieure telles que

Q(2)−1BQ(2) = U (2). En notant U ∈ Mn(K) et Q ∈ Mn(K) les matrices

U =

(λ l

0 U (2)

), Q = Q(1)

(1 0

0 Q(2)

),

on verifie que Q est inversible, U triangulaire superieure et on a (2.9).

On deduit alors du Theoreme 2.6 le

Theoreme 2.7 Toute matrice A ∈ Mn(C) est triangularisable.

Remarque 2.8 Insistons bien sur le fait que toute matrice A ∈ Mn(R) n’est pas forcementtriangularisable. On prendra par exemple la matrice de rotation

(0 1−1 0

)

dont le polynome caracteristique est X2+1. Cette matrice n’est pas triangularisable dans M2(R)alors qu’elle est diagonalisable dans M2(C)

Pour des matrices reelles, on a le resultat suivant :

Proposition 2.7 Soit A une matrice de Mn(R). Il existe une matrice Q ∈ Mn(R) inversibleet une matrice R ∈ Mn(R) triangulaire superieure par blocs

R =

R11 R12 . . . R1k

0 R22 . . . R2k

.... . .

. . ....

0 . . . 0 Rkk

(2.10)

ou Rii est soit une matrice 1 × 1 (un reel) ou une matrice de M2(R) avec des valeurs proprescomplexes conjuguees et non reelles telles que

Q−1AP = R.

Page 40: Algebre Lineaire Et Analyse Numerique Matricielle

40 CHAPITRE 2. REDUCTION DE MATRICES

Demonstration. Montrons le resultat par recurrence sur n. Supposons la propriete vraie pourdes matrices d’ordre inferieur ou egal a n− 1.Soit A ∈ Mn(R), son polynome caracteristique est a coefficients reels. Il a n racines dans C, etles racines non reelles se presentent par paires de nombres complexes conjugues.Si toutes les racines sont reelles, on peut trouver Q ∈ Mn(R) inversible telle que Q−1AQ soittriangulaire avec les valeurs propres sur la diagonale.Supposons que PA a deux racines complexes conjuguees : λ = γ + iµ, µ 6= 0 et λ : il existe deuxvecteurs y et z de Rn tels que A(y ± iz) = (γ ± iµ)(y ± iz). On a donc

A(y, z) = (y, z)

(γ µ−µ γ

)

Donc y, z engendrent un sous-espace vectoriel stable pour A : Par suite, il existe une matriceinversible Q1 ∈ Mn(R) telle que

Q−11 AQ1 =

(T11 T12

0 T22

),

ou T11 ∈ R2×2 a pour valeurs propres de λ et λ. On applique l’hypothese de recurrence a T22 :il existe une matrice inversible Q2 ∈ Mn−2(R) telle que Q−1

2 T22Q2 ait la forme donnee dans(2.10). On pose alors Q = Q1Block-Diag(I2, Q2), et on a QTAQ = R ou R a la forme donneedans (2.10).

En fait, la connaissance du polynome caracteristique (qu’on suppose ici scinde) donne des ren-seignements precis sur la structure de la matrice U dans (2.9) :

Definition 2.13 Soit A ∈ Mn(K) une matrice dont le polynome caracteristique PA est scinde :PA(X) =

∏ki=1(λi −X)mi , avec m1 + · · ·+mk = n. Notons Pi le polynome Pi(X) = (λi −X)mi .

On appelle sous-espace caracteristique associe a la valeur propre λi le sous-espace

Ei = ker(Pi(A)). (2.11)

Theoreme 2.8 Soit A ∈ Mn(K) une matrice dont le polynome caracteristique PA est scinde :PA(X) =

∏ki=1(λi −X)mi , avec m1 + · · · +mk = n. Les sous-espaces caracteristiques Ei sont

stables pour A et dim(Ei) = mi. On a

Kn = E1 ⊕ · · · ⊕ Ek (2.12)

et pour chaque i, 1 ≤ i ≤ k, il existe une base qi,1, . . . qi,mide Ei, telle que si on appelle Q

la matrice de Mn(K) dont les colonnes sont q1,1, . . . q1,m1 , . . . , qk,1, . . . qk,mk, alors Q−1AQ est

diagonale par blocs,

Q−1AQ =

T1 0 . . . 0

0. . .

. . ....

.... . .

. . . 00 . . . 0 Tk

, Ti ∈ Mmi

(K), (2.13)

et chaque bloc diagonal Ti est triangulaire superieur avec ses coefficients diagonaux egaux a λi.On ecrit aussi

Q−1AQ = Bloc-Diag(T1, . . . , Tk), Ti ∈ Mmi(K). (2.14)

Page 41: Algebre Lineaire Et Analyse Numerique Matricielle

2.7. MATRICES NILPOTENTES 41

Demonstration. La stabilite des Ei pour A est une consequence du Lemme 2.7. Le Theoremed’Hamilton-Cayley nous dit que ker(P (A)) = Kn. On obtient alors (2.12) en appliquant (plu-sieurs fois) la Proposition 2.3. Soit alors une base de Kn obtenue en assemblant des bases deE1, . . . , Ek et Q la matrice de changement de base : on obtient que

Q−1AQ = Bloc-Diag(T1, . . . , Tk) =

T1 0 . . . 0

0. . .

. . ....

.... . .

. . . 0

0 . . . 0 Tk

, Ti ∈ Mmi

(K).

On sait que PA = PT1. . . PTk

, et donc que chaque PTiest scinde. D’autre part, comme (Ti −

λiI)mi = 0, le theoreme d’Hamilton-Cayley nous dit que PTi

ne peut avoir d’autre racine queλi. Donc PTi

= Pi = (λi −X)mi , ce qui montre que

– Ti est triangularisable avec des λi sur la diagonale.– la dimension de Ei est mi.

On a prouve (2.13).

Dans la decomposition (2.13), le bloc Ti est de la forme Di + Ni ou Di = λiImiet Ni est une

matrice de Mmi(K), triangulaire superieure strictement. Il est clair que Di et Ni commutent.

On a donc Q−1AQ = D +N ou D = Bloc-Diag(D1, . . . ,Dk) et N = Bloc-Diag(N1, . . . ,Nk), Dest diagonale, N est strictement triangulaire superieure, et D et N commutent.

Definition 2.14 On dit qu’une matrice N ∈ MnK est nilpotente s’il existe un entier m > 0 telque Nm = 0.

On a Nn = 0 : N est donc une matrice nilpotente. On a presque demontre la

Proposition 2.8 (decomposition de Dunford) Soit A ∈ Mn(K) une matrice dont le po-lynome caracteristique PA est scinde : A peut s’ecrire comme la somme d’une matrice diagona-lisable et d’une matrice nilpotente N (Nn = 0), qui commutent.

Demonstration, suite et fin. On a vu que Q−1AQ = D + N , donc A = QDQ−1 +QNQ−1. La matrice QDQ−1 est clairement diagonalisable. On a (QNQ−1)n = QNnQ−1 = 0,et QDQ−1QNQ−1 = QDNQ−1 = QNDQ−1 = QNQ−1QDQ−1.

Les blocs Ni etant nilpotents, on va montrer qu’on peut en effectuant encore un changement debase les mettre sous une forme particulierement simple.

2.7 Matrices nilpotentes

Soit N ∈ Mn(K) une matrice telle que, pour un entier m > 0, Nm+1 = 0 et Nm 6= 0. Onnote Ei = ker(N i). On a Em+1 = Kn et E0 = 0.

Lemme 2.9 Pour 0 ≤ i ≤ m

v ∈ Ei+1 ⇔ Nv ∈ Ei. (2.15)

Demonstration.

v ∈ Ei+1 ⇔ N i+1v = 0 ⇔ Nv ∈ Ei.

Page 42: Algebre Lineaire Et Analyse Numerique Matricielle

42 CHAPITRE 2. REDUCTION DE MATRICES

Lemme 2.10 Soit Ei = ker(N i). On a la suite d’inclusions strictes

E0 = 0 ( E1 ( · · · ( Em ( Em+1 = Kn. (2.16)

Demonstration. L’inclusion Ei ⊂ Ei+1 est claire. Si Ei+1 = Ei pour i < m+1, alors v ∈ Ei+2 siet seulement si Nv ∈ Ei+1 = Ei, ce qui a lieu si et seulement si v ∈ Ei+1. Donc Ei = Ei+1 = Ei+2

et en iterant on montre que Ei = · · · = Em+1 = Kn, ce qui contredit l’hypothese Nm 6= 0.

Remarque 2.9 On a montre au passage qu’on a necessairement m < n, car les inclusionsstrictes precedentes montrent que dim(Em+1) ≥ m+ 1.

Lemme 2.11 Soit F un sous-espace vectoriel de Kn. Pour tout i,

F ∩ Ei+1 = 0 ⇔ v ∈ F,Nv ∈ Ei = 0,F ∩ Ei+1 = 0 ⇒ F ∩ ker(N) = 0 (2.17)

Demonstration.

– La premiere ligne est une consequence de (2.15).– Comme ker(N) = E1 ⊂ Ei, F ∩Ei+1 = 0 ⇒ ker(N) ∩ F = 0.

On definit alors

1. un supplementaire Fm de Em dans Kn,

2. puis, comme ∀v ∈ Fm\0, on a

– Nv /∈ Em−1 d’apres le Lemme 2.11– Nv ∈ Em d’apres (2.15),

on peut choisir Fm−1 un supplementaire de Em−1 dans Em contenant l’image de Fm parN .

3. puis, par recurrence, on construit une suite de sous-espace Fi tel que Fi soit un supplementairede Ei dans Ei+1 contenant l’image de Fi+1 par N .

On a clairement dim(Fi) = dim(Ei+1) − dim(Ei), 1 ≤ i ≤ m.En posant F0 = E1, on a

Kn = F0 ⊕ F1 ⊕ · · · ⊕ Fm,

Les dimensions des Fi forment une suite decroissante (au sens large) :

dim(Fi) ≤ dim(Fi−1)

car on sait que ker(N)∩Fi = 0 et que l’image de Fi par N est contenue dans Fi−1 (theoremedu rang).

On va montrer comment construire une base de Kn dans laquelle la matrice deN devient triangu-laire superieure avec comme seuls coefficients eventuellement non nuls ceux situes immediatementau dessus de la diagonale.

Page 43: Algebre Lineaire Et Analyse Numerique Matricielle

2.7. MATRICES NILPOTENTES 43

a) Soit en un vecteur de Fm, on construit les vecteurs en−1 = Nen ∈ Fm−1, . . . , en−m =Nen−m+1 ∈ F0. Si dim(Fm) > 1 on choisit alors en−m−1 un vecteur de Fm independant de en,et on construit alors en−m−2 = Nen−m−1, . . . , en−2m−1 = Nen−2m. On repete le procede jusqu’ace que les vecteurs (en, en−m−1, . . . ) forment une base de Fm. Pour p, 0 < p < m, la famille(en−p, en−m−1−p . . . ) = (Npen, N

pen−m−1, . . . ) est une famille libre de vecteurs de Fm−p : eneffet,

∑i=0 αien−im−i−p = 0 si et seulement si Np(

∑i=0 αien−im−i) = 0. Ceci implique que les

coefficients αi sont tous nuls car∑

i=0 αien−im−i ∈ Fm et Fm ∩ ker(Np) = 0.

b) Quand on a construit une base de Fm, si l’image de Fm par N est strictement contenuedans Fm−1, on enrichit la famille precedemment construite d’un vecteur dans Fm−1\NFm puisde ses images successives par N, . . . ,Nm−1. On repete le procede jusqu’a avoir construit unebase de Fm−1.

c) Si la famille ainsi construite ne contient pas une base de Fm−2, on l’enrichit d’un vecteurdans Fm−2\NFm−1 puis de ses images successives parN, . . . ,Nm−2. On repete le procede jusqu’aavoir construit une base de Fm−2.

d) ainsi de suite, jusqu’a avoir aussi une base de F0.

On obtient par cette methode une base de Kn, dans laquelle la matriceN devient U = (uij)1≤i,j≤n

ou uij = 0 si j 6= i+ 1, et ui i+1 = yi avec yi vaut 0 ou 1. Les coefficients yi valant 1 sont rangesen sequences de plus en plus longues, chaque sequence etant separee de ses voisines par un seulyi = 0. On a

– dim(F0) colonnes nulles.– dim(F1) − dim(F2) sequences de yi = 1 de longueur 1.– dim(F2) − dim(F3) sequences de yi = 1 de longueur 2.

–...

– dim(Fm−1) − dim(Fm) sequences de yi = 1 de longueur m− 1.– dim(Fm) sequences de yi = 1 de longueur m.– Le nombre total de sequences de yi = 1 est dim(F1). Elles sont separees par dim(F1) − 1

coefficients nuls. Les dim(F0) − dim(F1) + 1 premieres colonnes sont donc nulles.

Les points ci-dessus montrent en fait que la matrice U est unique, alors que la matrice dechangement de base ne l’est pas.On a demontre le

Theoreme 2.9 Soit N ∈ Mn(K) nilpotente telle que Nm+1 = 0 et Nm 6= 0. La matrice N estsemblable a une matrice U ∈ Mn(K) telle que uij = 0 si j 6= i+ 1, et ui i+1 = yi avec yi valant0 ou 1. Les coefficients yi valant 1 sont ranges en sequences de plus en plus longues, chaquesequence etant separee de ses voisines par un unique yi = 0, et la derniere sequence de yi = 1ayant une longueur m.

Page 44: Algebre Lineaire Et Analyse Numerique Matricielle

44 CHAPITRE 2. REDUCTION DE MATRICES

2.8 Reduction de Jordan

2.8.1 Reduction de Jordan des matrices triangularisables

Definition 2.15 On appelle matrice de Jordan une matrice M de la forme

M =

λ 1 0 . . . 0

0 λ 1. . .

......

. . .. . .

. . . 0...

. . .. . . 1

0 . . . . . . 0 λ

(2.18)

Le Theoreme 2.9 dit qu’une matrice nilpotente est semblable a une matrice diagonale par blocsdont les blocs diagonaux sont des matrices de Jordan ayant 0 sur leur diagonale.Des Theoremes 2.8 et 2.9, on deduit le

Theoreme 2.10 (reduction de Jordan) Soit A ∈ Mn(K) une matrice dont le polynome ca-racteristique PA est scinde : PA(X) =

∏ki=1(λi −X)mi , avec λi 6= λj si i 6= j. La matrice A est

semblable a une matrice diagonale par blocs :

Q−1AQ = Bloc-Diag(T1, . . . , Tk)

chaque bloc Ti ∈ Mmi(K) s’ecrivant Ti = λiI + Ui ou Ui est une matrice nilpotente sous la

forme decrite dans le Theoreme 2.9.On peut aussi ecrire

Q−1AQ = Bloc-Diag(M1, . . . ,Mr) (2.19)

ou les blocs Mi sont des matrices de Jordan (les coefficients diagonaux des blocs Mi sont lesvaleurs propres de A, et deux blocs Mi, Mj peuvent avoir les memes coefficients diagonaux). Lareduction (2.19) est unique aux permutations pres sur les blocs de Jordan. Deux matrices dontles polynomes caracteristiques sont scindes sont semblables si et seulement si elles ont la memereduction de Jordan.

Comme consequence du Theoreme 2.8, on a la

Proposition 2.9 Soit A ∈ Mn(K) une matrice dont le polynome caracteristique PA est scinde.Le polynome minimal µA est µA(X) =

∏ki=1(X − λi)

pi ou pi est la taille du plus grand bloc deJordan Mk dans (2.19) ayant λi sur sa diagonale.

Exemple. Considerons la matrice

A =

2 1 1 1 1 00 2 −4 −3 −4 03 −1 4 −1 −1 10 0 1 5 1 0

−3 1 1 1 6 −10 0 0 0 0 5

(2.20)

Son polynome caracteristique est PA(λ) = (5 − λ)4(2 − λ)2. Le polynome minimal de A est dela forme µA(X) = (5 − λ)p(2 − λ)q avec p ≤ 4 et q ≤ 2. En cherchant les vecteurs propresde A, on trouve que les vecteurs propres associes a la valeur propre 5 sont (0, a, b,−a,−b, 0)T ,

Page 45: Algebre Lineaire Et Analyse Numerique Matricielle

2.8. REDUCTION DE JORDAN 45

(a, b) 6= (0, 0), et les vecteurs propres associes a la valeur propre 2 sont (a, 0,−a, 0, a, 0)T , a 6= 0.On peut alors facilement verifier que le polynome minimal de A est µA = (5 − λ)2(2 − λ)2, eton peut donc pas avoir un bloc de Jordan associe a la valeur propre 5 d’ordre 3, i.e.

5 1 00 5 10 0 5

car son polynome minimal est (X − 5)3.On en conclut que la reduction de Jordan de A est de la forme

B =

2 1 0 0 0 00 2 0 0 0 00 0 5 1 0 00 0 0 5 0 00 0 0 0 5 10 0 0 0 0 5

Exercice. Dans l’exemple precedent, trouver une matrice de passage Q telle que Q−1AQ = B.

2.8.2 Applications aux systemes d’equations differentielles lineaires

Les puissances des matrices de Jordan sont particulierement faciles a calculer :

Proposition 2.10 Soit M ∈ Mn(K) une matrice de Jordan (de la forme (2.18)) et p ∈ N : ona

Mp = (bij)1≤i,j≤n

bij = 0 si j < i ou si j − i > p,

bij = Cj−ip λp+i−j si 0 ≤ j − i ≤ p,

(2.21)

et pour t ∈ K, notant par exp(tM) =∑+∞

i=01i! t

iM i,

exp(tM) = (cij)1≤i,j≤n

cij = 0 si j < i,

cij = tj−i

(j−i)!etλ si i ≤ j.

(2.22)

Demonstration. Exercice.

Soit A ∈ Mn(K), on sait que la solution du probleme de Cauchy

dvdt

(t) = Av(t) t > 0,v(0) = w

(2.23)

est donnee parv(t) = exp(tA)w (2.24)

En consequence, si M ∈ Mn(K) est une matrice de Jordan (de la forme (2.18)), la solution duprobleme de Cauchy pour le systeme d’equations differentielles

dvdt

(t) = Mv(t) t > 0,v(0) = w

(2.25)

Page 46: Algebre Lineaire Et Analyse Numerique Matricielle

46 CHAPITRE 2. REDUCTION DE MATRICES

est donnee par

vi(t) =

n∑

j=i

tj−i

(j − i)!etλwj (2.26)

Pour le systeme d’equations dvdt

(t) = Av(t) avec une matrice A plus generale mais triangularisable(dont le polynome caracteristique est scinde), on procede de la maniere suivante :

1. on calcule une reduction de Jordan de A donnee par le Theoreme 2.10. A l’aide d’unchangement de base, la matrice devient diagonale par blocs, chaque bloc etant une matricede Jordan.

2. On applique la formule (2.22) pour chaque bloc de Jordan.

Exercice. Resoudre le probleme de Cauchy : trouver u : R+ → R5 tel que u(t = 0) =(1, 1, 1, 1, 1)T et u′(t) = Au(t) pour tout t > 0, avec A donnee par (2.20).

Toujours pour A triangularisable, sans meme connaıtre une reduction de Jordan de A, on ades informations sur la solutions de (2.23), des qu’on connaıt le polynome minimal de A :µA(X) =

∏ki=1(λi −X)pi , avec λi 6= λj si i 6= j ; on sait en effet d’apres le Theoreme 2.10 et la

Proposition 2.9 que la solution de l’equation differentielle s’ecrit sous la forme

k∑

i=0

pi−1∑

j=0

ui,jtjetλi ,

ou ui,j ∈ Kn sont des vecteurs a determiner.

2.9 Reduction simultanee

Proposition 2.11 Si deux matrices A ∈ Mn(K) et B ∈ Mn(K) commutent, c’est a dire siAB = BA, alors les sous-espaces propres de A sont stables pour B.

Demonstration. Soit λ une valeur propre de A, et soit v un vecteur propre associe. On aABv = BAv = λBv, donc Bv appartient au sous-espace propre de A correspondant a λ.

Proposition 2.12 Soient deux matrices A ∈ Mn(K) et B ∈ Mn(K) diagonalisables. Elles sontdiagonalisables dans la meme base si et seulement si A et B commutent.

Demonstration. Si A et B sont diagonalisables dans la meme base, il est clair qu’elles com-mutent : A = Q−1DQ et B = Q−1D′Q, donc AB = Q−1DD′Q = Q−1D′DQ = BA, car deuxmatrices diagonales commutent.Reciproquement, montrons la propriete par recurrence sur n. Si A n’est pas une homothetie,notons λi, i = 1 . . . , k les valeurs propres de A, mi leur multiplicite, et Vi = ker(A− λiIn) pouri = 1, . . . , k. On a Kn = V1 ⊕ · · · ⊕ Vk.Comme A est diagonalisable, il existe une matrice Q inversible, dont les colonnes sontq1,1, . . . q1,m1, . . . , qk,1, . . . qk,mk

, qi,j ∈ Vi, telle que Q−1AQ soit diagonale, et plus precisementQ−1AQ = Bloc-Diag(λ1Im1 , . . . , λkImk

) .D’apres la Proposition 2.11, Q−1BQ = Bloc-Diag(B1, . . . , Bk), ou Bi ∈ Mmi

(K). On peut alorsappliquer l’hypothese de recurrence aux matrices λiIi et Bi, car mi < n (car la matrice A n’estpas une matrice d’homothetie).

En fait la demonstration precedente permet de demontrer le resultat plus fort :

Page 47: Algebre Lineaire Et Analyse Numerique Matricielle

2.10. DECOMPOSITION DE SCHUR 47

Proposition 2.13 Soit E une famille (pas forcement finie) de matrices de Mn(K), diagonali-sables. Elles sont toutes diagonalisables dans une meme base si et seulement si elles commutentdeux a deux.

Exercice. Pour v = (v0, . . . , vn−1)T ∈ Cn, on appelle T (v) la matrice telle que

T(v)ij = v(j+i−1) mod n.

Montrer que toutes les matrices T (v) commutent, en montrant qu’elles sont toutes diagonali-sables dans la meme base.Indication : on pourra considerer les vecteurs ek = (ei

2kπn , . . . , ei

2knπn )T , pour k = 0, . . . , n − 1,

avec i2 = −1.

2.10 Decomposition de Schur et Reduction de Matrices Nor-

males, Hermitiennes, Symetriques Reelles.

Donnons d’abord une version plus precise du Theoreme 2.6 :

Lemme 2.12 Soit A une matrice de Mn(K) dont le polynome caracteristique est scinde : soientλ1, . . . , λn les valeurs propres de A (non necessairement distinctes deux a deux). Quelque soit unepermutation σ ∈ Sn, on peut choisir une matrice inversible P telle que P−1AP soit triangulairesuperieure et sa diagonale soit D = Diag(λσ(1), . . . , λσ(n)).

Demonstration. Par recurrence.

On peut facilement demontrer le theoreme suivant :

Theoreme 2.11 (decomposition de Schur dans Mn(C)) Soit A une matrice de Mn(C).Il existe une matrice Q unitaire et T une matrice triangulaire superieure telle que

T = Q∗AQ.

La matrice diagonale D = Diag(T ) contient exactement les valeurs propres de A, et Q peut etrechoisie de maniere a ce que les valeurs propres apparaissent dans n’importe quel ordre dans D.

Demonstration.Soit P une matrice inversible telle que P−1AP = T (1) est triangulaire superieure. Les colonnesde P forment une base de Kn. On peut effectuer une orthonormalisation de Gram-Schmidt decette base : en terme matriciel, cela revient a multiplier P a droite par une matrice triangulairesuperieure P (exercice : le prouver) : On a Q = PP est unitaire, et T = Q−1AQ = (P )−1T (1)Pest triangulaire superieure comme produit de telles matrices. Remarquons que T et T ont lameme diagonale.D’apres le Lemme 2.12, on peut choisir P de maniere a ce que les valeurs propres de A appa-raissent dans n’importe quel ordre dans Diag(T ) et donc dans Diag(T ).

Remarque 2.10 Remarquons que si A est reelle (A ∈ Mn(R)) et si son polynome caracteristiqueest scinde dans R, alors on peut prendre T ∈ Mn(R) triangulaire superieure et Q ∈ Mn(R)orthogonale dans le Theoreme 2.11.

Page 48: Algebre Lineaire Et Analyse Numerique Matricielle

48 CHAPITRE 2. REDUCTION DE MATRICES

On a le resultat plus general pour des matrices reelles quelconques :

Theoreme 2.12 (decomposition de Schur dans Mn(R)) Soit A une matrice de Mn(R).Il existe une matrice Q orthogonale et R ∈ Mn(R) une matrice triangulaire superieure par blocs

R =

R11 R12 . . . R1n

0 R22 . . . R2n

.... . .

. . ....

0 . . . 0 Rnn

(2.27)

ou Rii est soit une matrice 1× 1 (un reel) ou une matrice reelle 2× 2 avec deux valeurs proprescomplexes conjuguees et non reelles , telles que

QTAQ = R. (2.28)

Demonstration. Exactement identique a celle du Theoreme 2.11. Appliquer la Proposition 2.7puis effectuer une orthogonalisation de Gram-Schmidt dans Mn(R).

Theoreme 2.13 (matrices normales) Une matrice A ∈ Mn(C) est normale (AA∗ = A∗A)si et seulement si il existe une matrice Q unitaire telle que Q∗AQ soit diagonale.

Demonstration. On sait d’apres le Theoreme 2.11 qu’il existe Q unitaire et T triangulairesuperieure telle que Q∗AQ = T . Du caractere normal de A on tire que TT ∗ = T ∗T . En regardantla premiere ligne de ces matrices on voit que

|t11|2 =n∑

i=1

|t1i|2.

Ceci implique que t1i = 0 pour i > 1. Apres, on regarde le coefficient diagonal sur la deuxiemeligne et on obtient de meme que t2i = 0 pour i > 2, et on continue en raisonnant par recurrence.La reciproque est evidente.

On a comme consequence

Corollaire 2.1 Soit A ∈ Mn(C) une matrice normale. Si u ∈ Cn et v ∈ Cn sont deux vecteurspropres associes a des valeurs propres distinctes de A alors u∗v = 0.

On aurait pu prouver ce resultat autrement comme consequence du

Lemme 2.13 Soit A ∈ Mn(C) une matrice normale. Le vecteur u ∈ Cn est un vecteur proprede A de valeur propre λ si et seulement si u est vecteur propre de A∗ de valeur propre λ.

Demonstration. On a 0 = ‖Au− λu‖2 = u∗A∗Au− λu∗A∗u− λu∗Au+ |λ|2u∗u = u∗AA∗u−λu∗A∗u− λu∗Au+ |λ|2u∗u = ‖A∗u− λu‖2.

Si A est hermitienne, on montre facilement que la matrice diagonale obtenue au Theoreme2.13 est reelle :

Theoreme 2.14 (matrices hermitiennes) Une matrice A ∈ Mn(C) est hermitienne (A∗ =A) si et seulement si il existe une matrice Q ∈ Mn(C) unitaire telle que Q∗AQ soit diagonalea coefficients reels.

Page 49: Algebre Lineaire Et Analyse Numerique Matricielle

2.11. VALEURS SINGULIERES D’UNE MATRICE 49

Theoreme 2.15 (matrices symetriques reelles) Une matrice A ∈ Mn(R) est symetrique(AT = A) si et seulement si il existe une matrice Q ∈ Mn(R) orthogonale telle que Q∗AQ ∈Mn(R) soit diagonale.

Demonstration. On utilise le Theoreme 2.12. Il existe R ∈ Mn(R) de la forme (2.27), avec desblocs diagonaux d’ordre un (reel) ou deux (ayant deux valeurs propres complexes conjugueesnon reelles), et Q orthogonale telles que QTAQ = R. Montrons que R ne peut pas avoir devaleur propre non reelle. Comme A est symetrique, on a que RT = QTATQ = QTAQ = R, doncR est symetrique. Si R avait un bloc diagonal avec deux valeurs propres complexes conjugueesnon reelles, ce bloc serait aussi symetrique a coefficient reel : le simple calcul du polynomecaracteristique d’un matrice symetrique reelle d’ordre deux, montre que cette situation est im-possible. La matrice R est donc diagonale.La reciproque est evidente.

2.11 Valeurs singulieres d’une matrice

Theoreme 2.16 (Valeurs singulieres d’une matrice) Soit une matrice A ∈ Mn,m(C). Ilexiste Q ∈ Mn(C) et P ∈ Mm(C) unitaires telles que Q∗AP soit diagonale, a coefficientsreels positifs ou nuls sur la diagonale. Les min(m,n) coefficients diagonaux (di)1≤i≤min(m,n)

sont uniques a une permutation pres, et sont appeles les valeurs singulieres de A.

Demonstration. Supposons que m ≤ n. On sait que A∗A est une matrice hermitienne deMm(C). Elle est donc diagonalisables et ses valeurs propres sont donc reelles d’apres le Theoreme2.14. Montrons que les valeurs propres de A∗A sont positives ou nulles : Soit λ ∈ σ(A∗A)et v ∈ Cm un vecteur propre associe a λ. On a λ‖v‖2 = λv∗v = v∗A∗Av = ‖Av‖2, donc

λ = ‖Av‖2

‖v‖2 ≥ 0.

Il existe donc P unitaire, P ∈ Mm(C) telle que P ∗A∗AP = D2, ou D = Diag(d1, . . . dm) estdiagonale reelle. On suppose qu’on a choisi P de maniere a ce que les valeurs propres nulles deA∗A soient rangees en premier dans D2. Donc il existe 0 ≤ r ≤ m tel di = 0 si i ≤ r et di > 0si i > r. Pour i > r, on note qi la ieme colonne de AP divisee par di. La famille (qi)r<i≤m

est orthonormale dans Cn. On peut la completer par (qi)i≤r et (qi)i>m pour former une baseorthonormale de Cn. Soit Q ∈ Mn(C) la matrice unitaire dont les colonnes sont les qi. On a

Q∗AP =

(D0

)

Si m ≤ n, on reproduit le raisonnement precedent pour A∗. On obtient comme precedemmentqu’il existe P ∈ Mm(C), Q ∈ Mn(C), et D ∈ Mm,n(R), diagonale avec des coefficients diago-naux positifs ou nuls tels que P ∗A∗Q = D, et on a immediatement que Q∗AP = (D)T , et onpose D = (D)T .

Le Theoreme 2.16 nous dit que si m < n, il existe Q ∈ Mn(C) et P ∈ Mm(C) unitaires

Page 50: Algebre Lineaire Et Analyse Numerique Matricielle

50 CHAPITRE 2. REDUCTION DE MATRICES

telles que

Q∗AP =

d1 0 . . . 0

0 d2. . .

......

. . .. . . 0

0 . . . 0 dm

0 . . . 0...

...0 . . . 0

m

n−m

Si n < m, il existe Q ∈ Mn(C) et P ∈ Mm(C) unitaires telles que

Q∗AP =

d1 0 . . . 0 0 . . . 0

0 d2. . .

......

......

. . .. . . 0

......

0 . . . 0 dn 0 . . . 0

Definition 2.16 Une decomposition de A sous la forme A = QΞP ∗, avec Q, P unitaires, etΞ ∈ Mn,m(R), diagonale a coefficients diagonaux positifs ou nuls, donnees par le Theoreme2.16, est appelee decomposition de A en valeurs singulieres, ou decomposition SVD (singularvalues decomposition).

Remarque 2.11 La decomposition SVD utilise en general deux matrices de changement debases au lieu d’une pour la diagonalisation.

Remarque 2.12 La demonstration du Theoreme 2.16 donne un algorithme pour construire unedecomposition SVD d’une matrice A, (en supposant connu un algorithme de diagonalisation dematrices hermitiennes).

Exercice. Ecrire l’algorithme correspondant a la demonstration du Theoreme 2.16.

Remarque 2.13 Il est clair que s’il n’y a pas unicite d’une decomposition SVD d’une matriceA (car il n’y a pas unicite dans le Theoreme 2.14, l’ensemble des valeurs singulieres de A nedepend pas du choix de la decomposition SVD.

Remarque 2.14 Si A ∈ Mn(R), alors A∗A = ATA et AA∗ = AAT sont des matrices symetriquesa coefficients reels, dont les valeurs propres sont positives ou nulles. Dans ce cas, en refaisantla demonstration du Theoreme 2.16, on voit qu’on peut donc choisir P et Q orthogonales. Tousles coefficients d’une telle decomposition SVD de A sont reels.

Exemple. On considere la matrice

A =1√2

(−1 −3 −

√3

1 −3√

3

)

Montrer qu’on a la decomposition A = QΞP ∗, ou

P =

12 0 −

√3

20 1 0√3

2 0 12

, Q =

(−

√2

2 −√

22√

22 −

√2

2

), Ξ =

(2 0 00 3 0

).

Page 51: Algebre Lineaire Et Analyse Numerique Matricielle

2.11. VALEURS SINGULIERES D’UNE MATRICE 51

Exercice. Montrer que pour toute matrice A ∈ Mn,m(C), alors A et A∗ ont les memes valeurssingulieres.Exercice. Montrer que pour toute matrice A ∈ Mn(C), alors A est inversible si et seulementsi ses valeurs singulieres sont non nulles.

Proposition 2.14 Soit A ∈ Mn,m(K). Soient P ∈ Mn(K) et Q ∈ Mm(K) deux matricesinversibles. Le rang de A est egal au rang de P−1AQ.

Demonstration. Exercice

Corollaire 2.2 Le rang de A ∈ Mn,m(C) est le nombre de ses valeurs singulieres non nulles.

Proposition 2.15 Soit A ∈ Mn(C) une matrice normale. Les valeurs singulieres de A sontexactement les modules des valeurs propres de A.

Demonstration. On sait d’apres le Theoreme 2.13 qu’il existe une matrice Q ∈ Mn(C) unitaireet une matrice diagonale D ∈ Mn(C), D = Diag(d1, . . . , dn) telles que Q∗AQ = D. On appelles la fonction de C dans le cercle unite de C telle que s(z) = z

|z| si z 6= 0 et s(0) = 1. On appelle

S la matrice diagonale de Mn(C) definie par S = Diag(s(d1), . . . , s(dn)). La matrice S est clai-rement unitaire. La matrice P = QS est unitaire, et on a Q∗AP = Ξ ou Ξ = Diag(|z1|, . . . , |zn|).On vient de trouver une decomposition SVD de A. Les valeurs singulieres de A sont donc lesmodules des valeurs propres de A.

On peut donner une interpretation geometrique des valeurs singulieres d’une matrice A ∈Mn,m(R). Supposons que n ≤ m et que le rang de A est n (A a n valeurs singulieres nonnulles).Considerons l’image par A de la boule unite B1 de Rm, i.e. de l’ensemble des vecteurs de Rm

tels que xTx ≤ 1. On sait par le Theoreme 2.16 qu’il existe une decomposition SVD, QTAP = Ξavec Q et P orthogonales, et Ξ ∈ Mn,m(R) est diagonale a coefficients diagonaux positifs ounuls. On suppose qu’on a choisi P et Q pour que les n premiers coefficients diagonaux de Σsont non nuls et que les suivants sont nuls. Notons Ξ† la matrice diagonale de Mn(R) dont lescoefficients diagonaux sont les inverses de ceux de Ξ. On a

Ξ†QTAP =(In, 0

)et P TATQ(Ξ†)T Ξ†QTAP =

(In 00 0

)

On en deduit que x ∈ B1 ⇒ ‖Ξ†QTAPx‖ ≤ 1. Reciproquement, par definition de P Q etΞ†, pour tout vecteur y de Rn tel que ‖Ξ†y‖ ≤ 1, il existe un vecteur Px de Vect(p1, . . . , pn)(p1, . . . , pm sont les colonnes de P ) verifiant ‖x‖ ≤ 1 tel que APx = Qy.L’image des vecteurs de B1, exprimee dans la base orthonormale formee par des colonnes de Qest

E = n∑

i=1

yiqi, y ∈ Rn; ∃x ∈ B1 tel que y = QTAPx

On a donc E = ∑ni=1 yiqi, ‖Ξ†y‖ ≤ 1. Il est donc clair que E est un hyper-ellipsoıde dont les

demi-axes ont pour longueur les valeurs singulieres de A. On a demontre la proposition

Proposition 2.16 Soit deux entiers strictement positif n ≤ m et soit A ∈ Mn,m(R) de rang n.L’image par A de la boule unite B1 de Rm est un hyper-ellipsoıde dont les demi-axes ont pourlongueur les valeurs singulieres de A.

Page 52: Algebre Lineaire Et Analyse Numerique Matricielle

52 CHAPITRE 2. REDUCTION DE MATRICES

Remarque 2.15 On peut generaliser le resultat precedent si A a des valeurs singulieres quel-conques. On obtient alors un hyper-ellipsoıde degenere.

Remarque 2.16 Les valeurs singulieres maximale et minimale de A sont souvent notees σmax(A)et σmin(A).

Page 53: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 3

Formes Quadratiques etHermitiennes

3.1 Formes Bilineaires sur des Espaces Vectoriels Reels

Definition 3.1 Soit E et F deux espaces vectoriels sur R. On appelle forme bilineaire sur E×Fune application b de E × F dans R, telle que ∀x, y ∈ E, ∀u, v ∈ F , ∀α, β ∈ R,

b(αx+ βy, u) = αb(x, u) + βb(y, u)

b(x, αu + βv) = αb(x, u) + βb(x, v)

On note B(E,F ) l’ensemble des formes bilineaires sur E × F . Il est clair que B(E,F ) est unespace vectoriel sur R.Si E = F , on parle de forme bilineaire sur E et on utilise la notation plus courte B(E) pourl’espace vectoriel des formes bilineaires sur E.

Remarque 3.1 Rien n’empeche de definir des formes bilineaires sur des espaces vectoriels surC. C’est dans le but de simplifier l’exposition et d’eviter les confusions avec les formes sesqui-lineaires (definies plus loin) que nous nous restreignons aux espaces vectoriels reels.

Exemple. L’application b : R3 ×R2 → R, (x, u) 7→ 2x1u1 + 4x1u2 + 2x2u1 + 3x2u2 + 6x3u2 estune forme bilineaire sur R3 × R2.

Remarque 3.2 Soit x ∈ E et u ∈ F . Il est clair que l’application qui a v ∈ F associe b(x, v)est une forme lineaire sur F (un element de F ′), et que l’application qui a y ∈ E associe b(y, u)est une forme lineaire sur E (un element de E′).

Supposons que E est de dimension finie n, F est de dimension finie m, et soient E = (e1, . . . , en)et F = (f1, . . . , fm) des bases de E et F respectivement. Si x =

∑nj=1 xjej et si u =

∑mi=1 uifi,

on verifie facilement que pour toute forme bilineaire b, on a

b(x, u) =

n∑

j=1

m∑

i=1

b(ej , fi)uixj .

On voit donc qu’une forme bilineaire b est completement determinee par la connaissance desm× n coefficients bij = b(ej , fi), ou encore de la matrice B = (bij) 1 ≤ i ≤ m

1 ≤ j ≤ n

∈ Mm,n(R).

53

Page 54: Algebre Lineaire Et Analyse Numerique Matricielle

54 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

Definition 3.2 On dit que la matrice B construite ci-dessus est la matrice de la forme bilineaireb par rapport aux bases E et F .Si m = n, on appelle discriminant de b par rapport aux bases E et F le determinant de la matricede b par rapport aux bases E et F .

Il est clair que l’application qui a b associe sa matrice par rapport aux bases E et F est unisomorphisme de B(E,F ) sur Mm,n(R). On a donc dim(B(E,F )) = nm. Cet isomorphismen’est pas canonique car il depend du choix des bases.On a un isomorphisme canonique de B(Rn,Rm) sur Mn,m(R), en choisissant E (respectivementF) la base canonique de Rn (respectivement Rm). Si B est la matrice de b par rapport aux basescanoniques de Rn et Rm, on a

b(x, u) = uTBx. (3.1)

Regardons l’effet de changements de bases :

Lemme 3.1 Soient E = (e1, . . . , en) et E ′ = (e′1, . . . , e′n) deux bases de E, et F = (f1, . . . , fm)

et F ′ = (f ′1, . . . , f′m) deux bases de F . On note P ∈ Mn(R) la matrice de passage de E dans

E ′ et Q ∈ Mm(R) la matrice de passage de F dans F ′. Soit B la matrice de b par rapport auxbases E et F . La matrice de b par rapport aux bases E ′ et F ′ est QTBP .

Demonstration. On a b(e′j , f′i) = b(

∑nk=1 pkjek,

∑ml=1 qlifl) =

∑nk=1

∑ml=1 pkjbklqli, qui est bien

le coefficient de la matrice QTBP sur la ieme ligne et la jeme colonne.

3.1.1 Rang d’une forme bilineaire

Le Lemme 3.1 et la Proposition 2.14 nous disent aussi que le rang de la matrice de b parrapport aux bases E et F ne depend pas du choix des bases E et F .

Definition 3.3 Supposons que E est de dimension finie n, F est de dimension finie m. Onappelle rang d’une forme bilineaire b sur E × F et on note rang(b) le rang de B, ou B est lamatrice de b par rapport a deux bases quelconques E de E et F de F .

Definition 3.4 Supposons que E est de dimension finie n, F est de dimension finie m. On ditque b ∈ B(E,F ) est une forme non degeneree si m = n = rang(b). Dans le cas contraire, on ditque b est degeneree.En d’autres termes, soit B la matrice de b par rapport a deux bases quelconques E de E et F deF ; la forme bilineaire b est non degeneree si et seulement si B est carree et inversible.

Lemme 3.2 La forme bilineaire b est non degeneree si et seulement si

– l’application qui a x ∈ E associe la forme lineaire sur F : v 7→ b(x, v), est un isomorphismede E sur F ′.

– l’application qui a u ∈ F associe la forme lineaire sur E : y 7→ b(y, u), est un isomorphismede F sur E′.

3.1.2 Formes Bilineaires Symetriques et Orthogonalite

Definition 3.5 Soit b une forme bilineaire sur E. On dit que b est est une forme bilineairesymetrique si b(x, y) = b(y, x), ∀x, y ∈ E.

Page 55: Algebre Lineaire Et Analyse Numerique Matricielle

3.1. FORMES BILINEAIRES SUR DES ESPACES VECTORIELS REELS 55

Lemme 3.3 L’ensemble des formes bilineaires symetriques sur E, note Bsym(E) forme un sous-espace de B(E).

Lemme 3.4 Soit E un espace vectoriel de dimension n sur R et b est une forme bilineairesymetrique sur E. Pour toute base E de E, la matrice de b par rapport a E est symetrique.L’application qui a une forme bilineaire symetrique associe sa matrice par rapport a E est unisomorphisme de Bsym(E) sur l’espace des matrices symetriques d’ordre n. L’espace Bsym(E) est

de dimension n(n+1)2 .

Definition 3.6 Soient E un espace vectoriel de dimension n sur R et b ∈ Bsym(E). On ditque deux vecteurs x et y de E sont orthogonaux pour b et on note x ⊥b y si et seulement sib(x, y) = 0.Soit C une partie de E. On note C⊥b l’ensemble

C⊥b = x ∈ E : ∀y ∈ C, x ⊥b y

Lemme 3.5 Soit b ∈ Bsym(E) et C une partie de E. L’ensemble C⊥b est un sous-espace vectorielde E.

Remarque 3.3 Soit b une forme bilineaire symetrique. On a l’equivalence : b non degeneree siet seulement si E⊥b = 0.

Lemme 3.6 Soient E un espace vectoriel de dimension n sur R. Soit b ∈ Bsym(E), b nondegeneree, et G un sous-espace de E. On a dim(G⊥b) + dim(G) = n et (G⊥b)⊥b = G.

Demonstration. Le cas G = 0 est trivial. SupposonsG de dimension p > 0 et soit (e1, . . . , ep)une base de G. On note f ′i ∈ E′ la forme lineaire : f ′i(v) = b(ei, v). D’apres le Lemme 3.2,(f ′1, . . . , f

′p) est une famille libre de E′. L’application lineaire qui a v associe (f ′1(v), . . . , f

′p(v)) est

donc de rang p. On a G⊥b = ∩pi=1 ker(f ′i) et le theoreme du rang nous dit que dim(G⊥b) = n−p.

D’autre part, il est clair que G ⊂ (G⊥b)⊥b et on vient de montrer que dim((G⊥b)⊥b) = n −dim(G⊥b) = p, donc G = (G⊥b)⊥b .

Remarque 3.4 Dans le Lemme 3.6, si on n’avait pas l’hypothese b non degeneree, on auraitdim(G⊥b) + dim(G) ≥ n.

Remarque 3.5 On peut avoir G⊥b ∩G 6= 0 pour b symetrique non degeneree, ceci equivaut al’existence d’un element x non nul de G tel que b(x, x) = 0. Par exemple, on pourra considererla forme bilineaire symetrique sur R2 : b(x, y) = x1y2 + x2y1.

Proposition 3.1 Soit b une forme bilineaire symetrique sur E. L’ensemble des vecteurs telsque b(x, x) = 0 est un cone, appele cone d’isotropie de b.

Definition 3.7 Soit b une forme bilineaire symetrique sur E. On dit qu’un sous-espace G deE est non isotrope pour b, s’il ne contient pas de vecteur x non nul tel que b(x, x) = 0.

Lemme 3.7 Soit b une forme bilineaire symetrique sur E et un sous-espace G de E non isotropepour b. On a G⊕G⊥b = E.

Demonstration. Soit p la dimension de G.– on a G ∩G⊥b = 0, ce qui implique que dim(G⊕G⊥b) = p+ dim(G⊥b)

Page 56: Algebre Lineaire Et Analyse Numerique Matricielle

56 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

– En reprenant la demonstration du Lemme 3.6, c.f. Remarque 3.4, on voit que dim(G⊥b) ≥n− p (avec egalite dans le cas non degenere).

On deduit des deux points precedents que dim(G⊕G⊥b) ≥ n, et donc G⊕G⊥b = E.

Remarque 3.6 Dans le Lemme 3.7, on n’a pas besoin de l’hypothese b non degeneree.

Definition 3.8 Soit E une famille de vecteurs de E. On dit que E est une famille orthogonalepour b si et seulement si ses vecteurs sont orthogonaux deux a deux pour b. Soit E une base deE. On dit que E est une base orthogonale pour b si c’est une famille orthogonale de vecteurs deE. On dit que E est une base orthonormale pour b si E est une base orthogonale pour b et sichaque vecteur e de E verifie b(e, e) = 1.

Proposition 3.2 Si b est une forme bilineaire symetrique sur E, il existe une base orthogonalede E pour b.

Demonstration. Par recurrence sur la dimension n de E. Le cas n = 1 est trivial. Supposonsla propriete est vraie pour des entiers positifs < n, et soit E de dimension n.Si b est nulle, toute base convient.Si b est non nul, on peut trouver un vecteur e1 6= 0, tel que b(e1, e1) 6= 0 : en effet, dans le cascontraire, on aurait une base (e1, . . . , en) de E telle que

– b(ei, ei) = 0, i = 1, . . . , n ;– b(ei + ej , ei + ej) = 0, i, j = 1, . . . , n ;

D’apres le premier point et la symetrie de b, le deuxieme point implique que b(ei, ej) = 0,i, j = 1, . . . , n. Mais alors b = 0, ce qui est contraire a l’hypothese. Soit donc e1 6= 0 tel queb(e1, e1) 6= 0. On sait d’apres le Lemme 3.7 que e1⊥b est de dimension n − 1 et que ce sous-espace est supplementaire a la droite vectorielle engendree par e1. On applique l’hypothese derecurrence a la restriction de b a e1⊥b . Il existe (e2, . . . , en) une base orthogonale de e1⊥b

pour b, et (e1, . . . , en) est une base orthogonale de E.

Remarque 3.7 Une autre facon de demontrer la Proposition 3.2 est de considerer la matriceB de b dans une base E de E.Trouver une base orthogonale pour b, c’est trouver un changement de base de E a E ′, i.e. unematrice P ∈ Mn(R) inversible telle que P TBP soit diagonale (cf (3.1)). Mais on sait que Best une matrice symetrique, et donc il existe une matrice P , orthogonale telle que P TBP soitdiagonale.

Remarque 3.8 Soit b une forme bilineaire et E une base orthogonale pour b, et soit D la matrice(diagonale) de b par rapport a cette base. Si b est degeneree, alors rang(D) = rang(b) < n, i.e.D a des coefficients diagonaux nuls. On en deduit qu’une forme bilineaire degeneree n’admetpas de base orthonormale.

Theoreme 3.1 (procede d’orthogonalisation de Schmidt) Soit b une forme bilineaire symetriquesur E telle que pour tout vecteur non nul x ∈ E, b(x, x) 6= 0. Soit (f1, . . . , fp) une famille librede vecteurs de E. Il existe une famille libre orthogonale (e1, . . . , ep) pour b de vecteurs de E,telle que,

V ect(e1, . . . , eq) = V ect(f1, . . . , fq), ∀q ≤ p. (3.2)

Page 57: Algebre Lineaire Et Analyse Numerique Matricielle

3.2. FORMES QUADRATIQUES 57

Demonstration. La demonstration utilise le procede d’orthogonalisation de Schmidt deja vusi b est un produit scalaire.

Remarque 3.9 L’hypothese du Theoreme 3.1 est plus forte que b non degeneree. On verra plustard comment construire une base orthogonale pour une forme bilineaire symetrique generale enutilisant la reduction de Gauss des formes quadratiques.

3.2 Formes Quadratiques

Definition 3.9 Soit E un espace vectoriel sur R. Une forme quadratique q sur E est une ap-plication E dans R telle qu’il existe une forme bilineaire b sur E avec ∀x ∈ E, q(x) = b(x, x).L’ensemble des formes quadratiques est clairement un espace vectoriel sur R, que l’on note Q(E)

A toute forme bilineaire, on peut associer une forme quadratique. Reciproquement, si q est uneforme quadratique sur E, on peut construire a partir de q une forme bilineaire symetrique c parc(x, y) = 1

2(q(x+ y) − q(x) − q(y)) : en effet, soit b une forme bilineaire telle q(x) = b(x, x), ona c(x, y) = 1

2 (b(x + y, x + y) − b(x, x) − b(y, y)) = 12(b(x, y) + b(y, x)), ce qui definit bien une

forme bilineaire symetrique. On appelle c la forme polaire de q. L’application qui a une formequadratique lui fait correspondre sa forme polaire est un isomorphisme d’espaces vectoriels deQ(E) sur Bsym(E). Si E est de dimension n, la dimension de Q(E) est n(n+1)

2 .Grace a la bijection ainsi construite, on peut utiliser pour les formes quadratiques les notionsdefinies pour les formes bilineaires. La matrice d’une forme quadratique par rapport a une baseE de E est la matrice de sa forme polaire par rapport a E . En particulier, si E = Rnet si E estla base canonique de Rn et si C = (cij) ∈ Mn(R) est la matrice de Q par rapport a E , on a

q(x) =

n∑

i=1

ciix2i + 2

1≤i<j≤n

cijxixj =

n∑

i=1

n∑

j=1

cijxixj = xTCx. (3.3)

Le rang d’une forme quadratique q est le rang de sa forme polaire. Une forme quadratique estdegeneree si sa forme polaire l’est. On definit l’orthogonalite par rapport a une forme quadratiqueq comme l’orthogonalite par rapport a sa forme polaire et on utilise le symbole ⊥q. Une familleorthogonale pour q est une famille orthogonale pour sa forme polaire c, et la notion d’orthogonald’une partie G de Rn pour q coıncide avec celle d’orthogonal de G pour c.La Proposition 3.2 se recrit en terme de formes quadratiques sous la forme

Proposition 3.3 Soit E un espace vectoriel reel de dimension n, et soit q une forme quadratiquesur E. Il existe n reels (γ1, . . . , γn) et n formes lineaires lineairement independantes (ℓi)i=1,...,n

telles que

q(x) =

n∑

i=1

γi(ℓi(x))2 (3.4)

Demonstration. Soit c la forme polaire de q, et soit E = (e1, . . . , en) une base de E orthogonalepour q (la Proposition 3.2 nous dit qu’une telle base existe). La matrice de c par rapport a Eest Diag(γ1, . . . , γn). On a

q(x) =n∑

i=1

γi(ℓi(x))2

ou (ℓi)1≤i≤n est la base duale de E , i.e. ℓi(ej) = δij .

Page 58: Algebre Lineaire Et Analyse Numerique Matricielle

58 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

La proposition 3.3 nous dit que toute forme quadratique peut etre decomposee en une com-binaison de carres de forme lineaires.

La reduction de Gauss en somme de carre permet de construire une telle decomposition, i.e.de construire une base orthogonale pour une forme quadratique q.

La methode de Gauss Supposons que la matrice de q dans une base E s’ecrive C = (cij),i.., si on note xi les coordonnees d’un vecteur x dans E , on a

q(x) =n∑

i=1

ciix2i + 2

1≤i<j≤n

cijxixj.

On distingue deux cas :

1. L’un des coefficients diagonaux de C est non nul. Sans restriction, on peut supposer quec11 6= 0. On a

q(x) =c11

x2

1 +2

c11

1<j≤n

c1jx1xj +1

c211(∑

1<j≤n

c1jxj)2

+n∑

i=2

ciix2i + 2

2≤i<j≤n

cijxixj −1

c11(∑

1<j≤n

c1jxj)2.

On definit la forme lineaire ℓ1 et la forme quadratique q′ par

ℓ1(x) = x1 +∑

1<j≤n

c1j

c11xj , q′(x) =

n∑

i=2

ciix2i + 2

2≤i<j≤n

cijxixj −1

c11(∑

1<j≤n

c1jxj)2

et on peut recrire l’identite precedente

q(x) = c11(ℓ1(x))2 + q′(x)

Il est clair que rang(q′) ≤ n− 1, car q′(x) ne depend pas de x1.

2. Tous les coefficients diagonaux de C sont nuls. On peut supposer qu’un des coefficientsextra-diagonaux de C est non nul (sinon q = 0 et on a fini). Sans restriction, on peutsupposer que c12 6= 0. On pose ψ1(x) = c12x1 +

∑ni=3 c2ixi et ψ2(x) = c12x2 +

∑ni=3 c1ixi.

On a

ψ1(x)ψ2(x) = c12

n∑

i=2

c1ix1xi +n∑

i=3

c2ix2xi +n∑

i=3

n∑

j=3

c2ic1j

c12xixj

.

On pose ℓ1(x) = (ψ1(x) + ψ2(x)) et ℓ2(x) = (ψ1(x) − ψ2(x)) et on appelle q′ la formequadratique

q′(x) = 2∑

3≤i<j≤n

cijxixj − 2

n∑

i=3

n∑

j=3

c2ic1j

c12xixj .

On a

q(x) =1

2c12

((ℓ1(x))

2 − (ℓ2(x))2)

+ q′(x)

et il est clair que rang(q′) ≤ n − 2, car q′(x) ne depend pas de x1, ni de x2. Les formeslineaires ℓ1 et ℓ2 sont lineairement independantes, car ψ1 et ψ2 sont lineairement independantes.

Page 59: Algebre Lineaire Et Analyse Numerique Matricielle

3.2. FORMES QUADRATIQUES 59

Dans les deux cas, on a construit une forme lineaire q′ de rang strictement inferieur a celui de q.Si q′ est nulle, on a termine. Sinon, on peut appliquer le procede ci dessus a q′. En un nombrefini d’etapes (plus petit que n), on construit ainsi r formes lineaires lineairement independantesℓ1, . . . , ℓr et r reels non nuls γ1, . . . , γr tels que

q(x) =r∑

i=1

γi(ℓi(x))2

Apres, si r < n, on complete la famille des ℓi pour former une base de E′ et on prend γi = 0pour i > r. ⊓⊔Exercice. Appliquer la methode de Gauss a la forme quadratique sur R4 :

q(x) = 4x21 + 2x2

2 + 3x23 + x4 + 6x1x2 + 12x1x3 + 2x2x4

Definition 3.10 Soit E un espace vectoriel sur R et q une forme quadratique sur E.– On dit que q est positive si q(x) ≥ 0, ∀x ∈ E. On dit aussi parfois que q est semi-definie

positive.– On dit que q est negative si q(x) ≤ 0, ∀x ∈ E. On dit aussi parfois que q est semi-definie

negative.– On dit que q est definie positive si q est positive et si q(x) = 0 ⇔ x = 0.– On dit que q est definie negative si q est negative et si q(x) = 0 ⇔ x = 0.

Definition 3.11 Soit A ∈ Mn(R), A symetrique.– On dit que A est positive (ou semi-definie positive) si la forme quadratique x 7→ xTAx est

positive.– On dit que A est negative (ou semi-definie negative) si la forme quadratique x 7→ xTAx

est negative.– On dit que A est definie positive si la forme quadratique x 7→ xTAx est definie positive.– On dit que A est definie negative si la forme quadratique x 7→ xTAx est definie negative.

Exercice. Montrer que la matrice tridiagonale dont les coefficients de la diagonale principalesont egaux a 2 et les coefficients des deux autres diagonales sont −1 est positive.

Proposition 3.4 (inegalite de Cauchy-Schwarz) Soit q une forme quadratique positive surE et c sa forme polaire. On a, pour tout x et y dans E,

|c(x, y)|2 ≤ q(x)q(y).

Demonstration. On considere le polynome de degre deux, µ 7→ q(x+µy) = µ2q(y)+2µc(x, y)+q(x). Comme q est positive, ce polynome a son discriminant negatif ou nul : |c(x, y)|2−q(x)q(y) ≤0.

Theoreme 3.2 (d’inertie de Sylvester) Soit E un espace vectoriel reel de dimension n, etsoit q une forme quadratique sur E. Il existe deux sous-espaces E+ et E− tels que

1. la restriction de q a E+ soit definie positive.

Page 60: Algebre Lineaire Et Analyse Numerique Matricielle

60 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

2. la restriction de q a E− soit definie negative.

3. on a la somme directeE = E+ ⊕ E− ⊕ E⊥q .

De plus, si deux sous-espaces F+ et F− ont les memes proprietes que E+ et E−, on

dim(E+) = dim(F+), dim(E−) = dim(F−).

Demonstration. Soit E = (e1, . . . , en) une base deE orthogonale pour q. On note Diag(γ1, . . . , γn)la matrice de q dans cette base. Quitte a permuter les vecteurs de base, on peut supposer quepour 0 ≤ p1 ≤ p2 ≤ n, on a

γi > 0 pour 1 ≤ i ≤ p1,

γi < 0 pour p1 < i ≤ p2,

γi = 0 pour p2 < i ≤ n.

On prend alors E+ = V ect(ei, 1 ≤ i ≤ p1), E− = V ect(ei, p1 < i ≤ p2), et on a E⊥q =V ect(ei, p2 < i ≤ n). On verifie facilement que E+ et E− ont les proprietes desirees.Soient F− et F+ ayant les memes proprietes que E− et E+. Comme p2 = n−dim(E⊥q ), on a dim(F+)+dim(F−) = p2. Soit p′1 la dimension de F+. On a F+∩(E−⊕E⊥q) = 0ce qui implique que p′1 ≤ p1. De meme, on a F− ∩ (E+ ⊕ E⊥q) = 0 ce qui implique quep2 − p′1 ≤ p2 − p1. Des deux dernieres inegalites, on deduit p′1 = p1.

Definition 3.12 Soit E un espace vectoriel sur R de dimension finie et q une forme quadratiquesur E. Soit E+, E− deux sous-espaces de E ayant les proprietes decrites dans le Theoreme 3.2.On appelle signature de q la paire (dim(E+),dim(E−))

3.3 Formes Sesquilineaires

Definition 3.13 Soit E et F deux espaces vectoriels sur C. On appelle forme sesquilineaire surE × F une application s de E × F dans C, telle que ∀x, y ∈ E, ∀u, v ∈ F , ∀α, β ∈ C,

s(αx+ βy, u) = αs(x, u) + βs(y, u)

s(x, αu+ βv) = αs(x, u) + βs(x, v)

On note S(E,F ) l’ensemble des formes sesquilineaires sur E × F . Il est clair que S(E,F ) estun espace vectoriel sur C.Si E = F , on parle de forme sesquilineaire sur E et on utilise la notation plus courte S(E) pourl’espace vectoriel des formes sesquilineaires sur E.

Remarque 3.10 Soit x ∈ E et u ∈ F . Il est clair que l’application qui a v ∈ F associe b(x, v)est une forme lineaire sur F (un element de F ′), et que l’application qui a y ∈ E associe b(y, u)est une forme lineaire sur E (un element de E′).

Supposons que E est de dimension finie n, F est de dimension finie m, et soient E = (e1, . . . , en)et F = (f1, . . . , fm) des bases de E et F respectivement. Si x =

∑nj=1 xjej et si u =

∑mi=1 uifi,

on verifie facilement que pour toute forme sesquilineaire s, on a

s(x, u) =

m∑

i=1

n∑

j=1

s(ej , fi)xj ui.

Page 61: Algebre Lineaire Et Analyse Numerique Matricielle

3.3. FORMES SESQUILINEAIRES 61

On voit donc qu’une forme sesquilineaire s est completement determinee par la connaissancedes m× n coefficients complexes sij = s(ej , fi), ou encore de la matrice S = (sij) 1 ≤ i ≤ m

1 ≤ j ≤ n

Mm,n(C).

Definition 3.14 On dit que la matrice S construite ci-dessus est la matrice de la forme sesqui-lineaire s par rapport aux bases E et F .Si m = n, on appelle discriminant de b par rapport aux bases E et F le determinant de la matricede b par rapport aux bases E et F .

Il est clair que l’application qui a s associe sa matrice par rapport aux bases E et F est unisomorphisme de S(E,F ) sur Mm,n(C). On a donc dim(S(E,F )) = nm. Cet isomorphismen’est pas canonique car il depend du choix des bases.On a un isomorphisme canonique de S(Cn,Cm) sur Mm,n(C), en choisissant E (respectivementF) la base canonique de Cn (respectivement Cm). Si S est la matrice de s par rapport aux basescanoniques de Cn et Cm, on a

s(x, y) = y∗Sx. (3.5)

Regardons l’effet de changements de bases :

Lemme 3.8 Soient E = (e1, . . . , en) et E ′ = (e′1, . . . , e′n) deux bases de E, et F = (f1, . . . , fm)

et F ′ = (f ′1, . . . , f′m) deux bases de F . On note P ∈ Mn(C) la matrice de passage de E dans

E ′ et Q ∈ Mm(C) la matrice de passage de F dans F ′. Soit S la matrice de s par rapport auxbases E et F . La matrice de s par rapport aux bases E ′ et F ′ est Q∗SP .

Demonstration. exercice

On voit que le rang de la matrice de s par rapport aux bases E et F ne depend pas du choixdes bases E et F .

Definition 3.15 Supposons que E est de dimension finie n, F est de dimension finie m. Onappelle rang d’une forme sesquilineaire s sur E × F et on note rang(s) le rang de S, ou S estla matrice de s par rapport a deux bases quelconques E de E et F de F .

Definition 3.16 Supposons que E est de dimension finie n, F est de dimension finie m. Ondit que s ∈ S(E,F ) est une forme sesquilineaire non degeneree si m = n = rang(b) ou encoresi S (la matrice de s par rapport a deux bases quelconques E de E et F de F ) est carree etinversible. Dans le cas contraire, on dit que s est degeneree.

Lemme 3.9 La forme sesquilineaire s est non degeneree si et seulement si– l’application qui a x ∈ E associe la forme lineaire sur F : v 7→ b(x, v), est un isomorphisme

de E sur F ′.– l’application qui a u ∈ F associe la forme lineaire sur F : y 7→ b(y, u), est un isomorphisme

de F sur E′.

Definition 3.17 Soit s une forme sesquineaire sur E. On dit que s est une forme sesquilineairehermitienne si b(x, y) = b(y, x), ∀x, y ∈ E.

Exemple. La forme sesquilineaire s definie sur C3

s(x, y) = 2x1y1 + i(x1y2 − x2y1) + 3x2y2 + (2 + i)x1y3 + (2 − i)x3y1 + 3(x2y3 + x3y2) + 4x3y3

est une forme sesquilineaire hermitienne.

Page 62: Algebre Lineaire Et Analyse Numerique Matricielle

62 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

Lemme 3.10 Soit E un espace vectoriel de dimension n sur C et s une forme sesquilineairehermitienne sur E. Pour toute base E de E, la matrice de s par rapport a E est hermitienne.

Definition 3.18 Soient E un espace vectoriel de dimension n sur C et s une forme sesqui-lineaire hermitienne sur E. On dit que deux vecteurs x et y de E sont orthogonaux pour s et onnote x ⊥s y si et seulement si s(x, y) = 0.Soit C une partie de E. On note C⊥s l’ensemble

C⊥s = x ∈ E : ∀y ∈ C, x ⊥s yLemme 3.11 Soit s une forme sesquilineaire hermitienne sur E et C une partie de E. L’en-semble C⊥s est un sous-espace vectoriel de E.

On a l’equivalence : s non degeneree si et seulement si E⊥s = 0.Lemme 3.12 Soient E un espace vectoriel de dimension n sur C. Soit s une forme sesqui-lineaire hermitienne sur E, s non degeneree, et G un sous-espace de E. On a dim(G⊥s) +dim(G) = n et (G⊥s)⊥s = G.Si s est degeneree, on a dim(G⊥s) + dim(G) ≥ n et G ⊂ (G⊥s)⊥s .

Demonstration. Le cas G = 0 est trivial. SupposonsG de dimension p > 0 et soit (e1, . . . , ep)une base de G. On note f ′i ∈ E′ la forme lineaire : f ′i(v) = s(ei, v). D’apres le Lemme 3.9,(f ′1, . . . , f

′p) est une famille libre de E′. L’application lineaire qui a v associe (f ′1(v), . . . , f

′p(v))

est donc de rang p. Donc le sous-espace W = ∩pi=1 ker(f ′i) verifie dim(W ) = n−p, par le theoreme

du rang et on a G⊥s = w, w ∈W donc dim(G⊥s) = n− p.D’autre part, il est clair que G ⊂ (G⊥s)⊥s et on vient de montrer que dim((G⊥s)⊥s) = n −dim(G⊥s) = p, donc G = (G⊥s)⊥s .

Definition 3.19 Soit s une forme sesquilineaire hermitienne sur E. On dit qu’un sous-espaceG de E est non isotrope pour s, s’il ne contient pas de vecteur x non nul tel que b(x, x) = 0.

Lemme 3.13 Soit s une forme sesquilineaire hermitienne sur E et un sous-espace G de E nonisotrope pour s. On a G⊕G⊥s = E.

Demonstration. exercice

Definition 3.20 Soit E une famille de vecteurs de E. On dit que E est une famille orthogonalepour s si et seulement si ses vecteurs sont orthogonaux deux a deux pour s. Soit E une base deE. On dit que E est une base orthogonale pour s si c’est une famille orthogonale de vecteurs deE. On dit que E est une base orthonormale pour s si E est une base orthogonale pour s et sichaque vecteur e de E verifie b(e, e) = 1.

Proposition 3.5 Si s est une forme sesquilineaire hermitienne sur E, il existe une base ortho-gonale de E pour s.

Demonstration. Identique a celle de la Proposition 3.2.

Theoreme 3.3 (procede d’orthogonalisation de Schmidt) Soit s une forme sesquilineairehermitienne sur E telle que pour tout vecteur non nul x ∈ E, s(x, x) 6= 0. Soit (f1, . . . , fp) unefamille libre de vecteurs de E. Il existe une famille libre orthogonale (e1, . . . , ep) de vecteurs deE pour s, telle que,

V ect(e1, . . . , eq) = V ect(f1, . . . , fq), ∀q ≤ p. (3.6)

Page 63: Algebre Lineaire Et Analyse Numerique Matricielle

3.4. FORMES HERMITIENNES 63

3.4 Formes Hermitiennes

Definition 3.21 Soit E un espace vectoriel sur C. Une forme hermitienne q sur E est uneapplication E dans R telle qu’il existe une forme sesquilineaire hermitienne s sur E avec ∀x ∈ E,q(x) = s(x, x).

A toute forme sesquilineaire s, on peut associer une forme hermitienne q. Reciproquement, si qest la forme hermitienne associee a s, on peut deduire s de q par

s(x, y) =1

4(q(x+ y) − q(x− y) + iq(x+ iy) − iq(x− iy))

Grace a la bijection ainsi construite, on peut utiliser pour les formes quadratique hermitiennesles notions definies pour les formes sesquilineaires hermitiennes.La Proposition 3.5 se recrit en terme de formes quadratiques hermitiennes sous la forme

Proposition 3.6 Soit E un espace vectoriel sur C de dimension n, et soit q une forme her-mitienne sur E. Il existe n reels (γ1, . . . , γn) et n formes lineaires lineairement independantes(ℓi)i=1,...,n telles que

q(x) =

n∑

i=1

γi|ℓi(x)|2 (3.7)

La methode de Gauss Supposons que la matrice de q dans une base E s’ecrive C = (cij), i.e.,si on note xi les coordonnees d’un vecteur x dans E , on a

q(x) =

n∑

i=1

cii|x|2i + 2ℜ(∑

1≤i<j≤n

cij xixj).

On distingue deux cas :

1. L’un des coefficients diagonaux de C est non nul. Sans restriction, on peut supposer quec11 6= 0. On a

q(x) =c11

|x1|2 +

2

c11ℜ(

1<j≤n

c1j x1xj) +1

c211|∑

1<j≤n

c1jxj|2

+n∑

i=2

cii|x|2i + 2ℜ(∑

2≤i<j≤n

cij xixj) −1

c11|∑

1<j≤n

c1jxj |2

On definit la forme lineaire ℓ1 et la forme hermitienne q′ par

ℓ1(x) = x1 +∑

1<j≤n

c1j

c11xj , q′(x) =

n∑

i=2

cii|x|2i + 2ℜ(∑

2≤i<j≤n

cij xixj) −1

c11|∑

1<j≤n

c1jxj|2

et on peut recrire l’identite precedente

q(x) = c11|ℓ1(x)|2 + q′(x)

Il est clair que rang(q′) ≤ n− 1, car q′(x) ne depend pas de x1.

Page 64: Algebre Lineaire Et Analyse Numerique Matricielle

64 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

2. Tous les coefficients diagonaux de C sont nuls.

q′(x) = 2ℜ(∑

1≤i<j≤n

cijxixj).

On peut supposer qu’un des coefficients extra-diagonaux de C est non nul (sinon q = 0 eton a fini). Sans restriction, on peut supposer que c12 6= 0. On pose ψ1(x) = x1 +

∑ni=3

c2i

c12xi

et ψ2(x) = c12x2 +∑n

i=3 c1ixi. On a

ψ1(x)ψ2(x) =

n∑

i=2

c1ix1xi +

n∑

i=3

c2ix2xi +

n∑

i=3

n∑

j=3

c2ic1j

c12xixj

.

ψ1(x)ψ2(x) =

n∑

i=2

c1ix1xi +

n∑

i=3

c2ix2xi +

n∑

i=3

n∑

j=3

c2ic1j

c12xixj

.

Donc

q(x) = 2ℜ(ψ1(x)ψ2(x)

)+ q′(x) =

1

2(|ψ1(x) + ψ2(x)|2 − |ψ1(x) − ψ2(x)|2) + q′(x)

ou

q′(x) = 2ℜ(∑

3≤i<j≤n

cijxixj) − 2ℜ(

n∑

i=3

n∑

j=3

c2ic1j

c12xixj)

et il est clair que rang(q′) ≤ n − 2, car q′(x) ne depend pas de x1, ni de x2. Les formeslineaires ℓ1 = ψ1 + ψ2 et ℓ2 = ψ1 − ψ2 sont lineairement independantes, car ψ1 et ψ2 sontlineairement independantes.

Dans les deux cas, on a construit une forme lineaire q′ de rang strictement inferieur a celui de q.Si q′ est nulle, on a termine. Sinon, on peut appliquer le procede ci dessus a q′. En un nombrefini d’etapes (plus petit que n), on construit ainsi r formes lineaires lineairement independantesℓ1, . . . , ℓr et r reels non nuls γ1, . . . , γr tels que

q(x) =r∑

i=1

γi|ℓi(x)|2

Apres, si r < n, on complete la famille des ℓi pour former une base de E′ et on prend γi = 0pour i > r. ⊓⊔On peut definir les formes hermitiennes positives, definies positives, negatives,definies negatives, comme pour les formes quadratiques reelles. De meme, on definit les matriceshermitiennes positives, definies positives, negatives, definies negatives.

Proposition 3.7 (inegalite de Cauchy-Schwarz) Soit q une forme hermitienne positive surE et s sa forme sesquilineaire associee. On a, pour tout x et y dans E,

|s(x, y)|2 ≤ q(x)q(y).

Demonstration. On considere l’application de C a valeurs dans R+, µ 7→ q(x+µy) = |µ|2q(y)+2ℜ(µs(y, x))+ q(x). Si q(y) = 0, alors la positivite de cette application ne peut etre obtenue quesi s(x, y) = 0.

Si q(y) > 0, on prend µ = − s(x,y)q(y) , et on obtient

−|s(x, y)|2q(y)

+ q(x) ≥ 0,

qui est le resultat desire.

Page 65: Algebre Lineaire Et Analyse Numerique Matricielle

3.4. FORMES HERMITIENNES 65

Theoreme 3.4 (d’inertie de Sylvester) Soit E un espace vectoriel sur C de dimension n,et soit q une forme hermitienne sur E. Il existe deux sous-espaces E+ et E− tels que

1. la restriction de q a E+ soit definie positive.

2. la restriction de q a E− soit definie negative.

3. on a la somme directeE = E+ ⊕ E− ⊕ E⊥q .

De plus, si deux sous-espaces F+ et F− ont les memes proprietes que E+ et E−, on

dim(E+) = dim(F+), dim(E−) = dim(F−).

Definition 3.22 Soit E un espace vectoriel sur C de dimension finie et q une forme hermitiennesur E. Soit E+, E− deux sous-espaces de E ayant les proprietes decrites dans le Theoreme 3.4.On appelle signature de q la paire (dim(E+),dim(E−))

Page 66: Algebre Lineaire Et Analyse Numerique Matricielle

66 CHAPITRE 3. FORMES QUADRATIQUES ET HERMITIENNES

Page 67: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 4

Analyse matricielle

Ici K designe C ou R.

4.1 Normes vectorielles et matricielles

4.1.1 Definitions

On rappelle qu’une norme ‖ ‖ dans Kn est une application de Kn dans R+ qui a v associe‖v‖ avec les proprietes suivantes

1. ‖v‖ = 0 si et seulement si v = 0.

2. ‖αv‖ = |α|‖v‖.3. ‖v + w‖ ≤ ‖v‖ + ‖w‖.

4.1.2 Les normes ‖ ‖p

Une famille de normes tres utiles est celle des normes ‖ ‖p ou p est un reel plus grand que ouegal a 1 :

‖v‖p =

(n∑

i=1

|vi|p) 1

p

. (4.1)

On definira aussi ‖ ‖∞ par

‖v‖∞ = maxi=1...n

|vi|. (4.2)

Il est clair que ‖ ‖∞ et ‖ ‖1 sont des normes. Pour montrer que ‖ ‖p est une norme pour 1 < p <∞,on a les lemmes :

Lemme 4.1 Si p est un reel tel que 1 < p <∞, et si x et y sont des reels non negatifs, alors

xy ≤ 1

pxp +

1

qyq (4.3)

ou q est le reel defini par 1q

+ 1p

= 1.

Demonstration. On a xy = exp(log(x) + log(y)) = exp(1p

log(xp) + 1qlog(yq)). On utilise la

convexite de l’application exponentielle pour conclure

67

Page 68: Algebre Lineaire Et Analyse Numerique Matricielle

68 CHAPITRE 4. ANALYSE MATRICIELLE

Lemme 4.2 (inegalite de Holder) Si p est un reel tel que 1 < p < ∞, alors pour tousvecteurs x ∈ Kn, y ∈ Kn,

|y∗x| ≤ ‖x‖p‖y‖q (4.4)

Demonstration. Posons x = 1‖x‖p

x et y = 1‖y‖q

y. On applique (4.3). On a |y∗x| ≤ 1p

∑ni=1

1‖x‖p

p|xi|p+

1q

∑ni=1

1‖y‖q

q|yi|q = 1

p+ 1

q= 1. On en deduit immediatement (4.4).

Proposition 4.1 Pour 1 < p <∞, ‖ ‖p est une norme.

Demonstration. La seule propriete non completement immediate est l’inegalite triangulaire :pour cela on ecrit ‖x+y‖p

p =∑n

i=1 |xi+yi||xi+yi|p−1 ≤∑ni=1 |xi||xi+yi|p−1+

∑ni=1 |yi||xi+yi|p−1.

On utilise l’inegalite de Holder :

n∑

i=1

|xi||zi| ≤ ‖x‖p‖z‖q etn∑

i=1

|yi||zi| ≤ ‖y‖p‖z‖q,

ou z ∈ Rn est le vecteur dont les composantes sont zi = |xi + yi|p−1. Mais q = pp−1 , donc

‖z‖q = ‖x+ y‖p−1p . On en conclut que

‖x+ y‖pp ≤ (‖x‖p + ‖y‖p)‖x+ y‖p−1

p .

Exercice. Montrer en trouvant des contre-exemples que si p < 1, ‖ ‖p n’est pas une norme dansR2.

La norme ‖ ‖2 est la norme euclidienne bien connue : elle est associee au produit scalaire usuel,et on a l’inegalite de Cauchy-Schwarz bien connue

|u∗v| ≤ ‖u‖2‖v‖2. (4.5)

En dimension finie, toutes les normes sont equivalentes, mais les constantes d’equivalence dependenten general de la dimension n :

Proposition 4.2 Soit u un vecteur de Kn : on a

pour 1 ≤ q < p < +∞, ‖u‖p ≤ ‖u‖q ≤ n1q− 1

p ‖u‖p. (4.6)

pour 1 ≤ p < +∞, ‖u‖∞ ≤ ‖u‖p ≤ n1p ‖u‖∞. (4.7)

Demonstration. Soit p et q tels que 1 ≤ q < p < +∞, ‖u‖p = (∑n

i=1 |ui|p)1p = (

∑ni=1(|ui|q)

p

q )1p .

Mais∑n

i=1(|ui|q)p

q ≤ (∑n

i=1(|ui|q))p

q car q < p.C’est l’inegalite de Jensen : ∀α > 1,∀xi > 0, i = 1 . . . n,

∑ni=1 x

αi ≤ (

∑ni=1 xi)

α, car

n∑

i=1

xαi

(∑n

j=1 xj)α≤

n∑

i=1

xi∑nj=1 xj

= 1

car xiPn

j=1 xj≤ 1.

On en deduit que (∑n

i=1(|ui|q)p

q )1p ≤ (

∑ni=1 |ui|q)

1q = ‖u‖q. Donc ‖u‖p ≤ ‖u‖q et on a l’inegalite

Page 69: Algebre Lineaire Et Analyse Numerique Matricielle

4.1. NORMES VECTORIELLES ET MATRICIELLES 69

de gauche dans (4.6).Pour montrer l’inegalite de droite dans (4.6), on procede comme suit

‖u‖qq =

n∑

i=1

|ui|q =n∑

i=1

1.|ui|q ≤ n1− q

p (n∑

i=1

|ui|p)q

p .

C’est l’inegalite de Holder avec les normes ‖ ‖p

qet‖ ‖ p

p−q. Donc ‖u‖q ≤ n

1q− 1

p ‖u‖p.

On laisse l’inegalite (4.7) en exercice.

4.1.3 Normes matricielles

Definition 4.1 L’application ‖ ‖ de Mn(K) → R+ est une norme matricielle si et seulementsi

1. ∀A ∈ Mn(K), ‖A‖ = 0 si et seulement si A = 0.

2. ∀A ∈ Mn(K), ∀α ∈ K, ‖αA‖ = |α|‖A‖.3. ∀A,B ∈ Mn(K), ‖A+B‖ ≤ ‖A‖ + ‖B‖.

et de plus∀A,B ∈ Mn(K), ‖AB‖ ≤ ‖A‖‖B‖. (4.8)

Remarque 4.1 Il existe des normes sur Mn(K) qui ne sont pas des normes matricielles ; Lanorme ‖A‖ = max1≤i,j≤2 |aij | est une norme sur M2(R), mais

A =

(1 11 1

)et ‖A2‖ = 2 ≥ ‖A‖2 = 1

Normes subordonnees a des normes vectorielles

Proposition 4.3 A une norme ‖ ‖ sur Kn, on peut associer une norme matricielle sur Mn(K)qu’on note encore ‖ ‖ par : pour tout A ∈ Mn(K),

‖A‖ = sup06=x∈Kn

‖Ax‖‖x‖ = max

06=x∈Kn

‖Ax‖‖x‖ = max

x∈Kn,‖x‖=1‖Ax‖ (4.9)

On dit que la norme matricielle ‖ ‖ est la norme matricielle subordonnee a ‖ ‖.

Demonstration. Soit donc ‖ ‖ une norme sur Kn.Exercice Montrer les egalites dans (4.9). Verifier que la norme subordonnee est bien une normesur Mn(K).Il reste juste a demontrer que la norme subordonnee a la propriete (4.8). On a par definitiondes normes subordonnees que ‖Ax‖ ≤ ‖A‖‖x‖ pour tout x ∈ Kn : donc ‖ABx‖ ≤ ‖A‖‖Bx‖ ≤‖A‖‖B‖‖x‖ et on obtient bien (4.8) en divisant par ‖x‖ et en prenant le sup.

Lemme 4.3 Soit ‖.‖ une norme subordonnee sur Mn(K). On a ‖In‖ = 1.

Demonstration. exercice.

Pour 1 ≤ p ≤ ∞, on va noter ‖ ‖p la norme matricielle subordonnee a la norme ‖ ‖p sur Kn.On a les identites suivantes

Page 70: Algebre Lineaire Et Analyse Numerique Matricielle

70 CHAPITRE 4. ANALYSE MATRICIELLE

Proposition 4.4

‖A‖∞ = max1≤i≤n

n∑

j=1

|ai,j |. (4.10)

‖A‖1 = max1≤j≤n

n∑

i=1

|ai,j| = ‖A∗‖∞. (4.11)

‖A‖2 = σmax(A) =√ρ(A∗A) =

√ρ(AA∗) = ‖A∗‖2. (4.12)

ou ρ(M) designe le module maximal des valeurs propres de M .

Demonstration. On a, pour tout x ∈ Kn,

‖Ax‖∞ = max1≤i≤n

|n∑

j=1

ai,jxj | ≤

max

1≤i≤n

n∑

j=1

|ai,j |

‖x‖∞,

d’ou l’inegalite ‖A‖∞ ≤ max1≤i≤n

∑nj=1 |ai,j|. Pour montrer l’egalite, on appelle i0 l’indice

realisant le maximum :∑n

j=1 |ai0,j| = max1≤i≤n

∑nj=1 |ai,j |. On choisit alors x de la maniere

suivante : xj =ai0,j

|ai0,j | si ai0,j 6= 0 et xj = 0 sinon. Il est clair que ‖x‖∞ = 1 et on voit que

la coordonnee d’indice i0 de Ax est∑n

j=1 |ai0,j|. On a donc trouve x tel que ‖x‖∞ = 1 et‖Ax‖∞ ≥ max1≤i≤n

∑nj=1 |ai,j |. On a prouve (4.10).

On a, pour tout x ∈ Kn,

‖Ax‖1 =∑

1≤i≤n

|n∑

j=1

ai,jxj | ≤(

max1≤j≤n

n∑

i=1

|ai,j|)

n∑

j=1

|xj |,

d’ou l’inegalite ‖A‖1 ≤ max1≤j≤n

∑ni=1 |ai,j |. Pour montrer l’egalite, on appelle j0 l’indice

realisant le maximum :∑n

i=1 |ai,j0| = max1≤j≤n

∑ni=1 |ai,j |. On choisit alors x de la maniere

suivante : xj = δj,j0. Il est clair que ‖x‖1 = 1 et on voit que ‖Ax‖1 =∑n

i=1 |ai,j0|. On a donctrouve x tel que ‖x‖1 = 1 et ‖Ax‖1 ≥ max1≤j≤n

∑ni=1 |ai,j|. On a prouve (4.11).

On a

‖A‖22 = sup

06=x∈Kn

‖Ax‖22

‖x‖22

= sup06=x∈Kn

x∗A∗Ax

‖x‖22

Mais A∗A est hermitienne donc diagonalisable dans une base orthonormale et on a sup06=x∈Knx∗A∗Ax‖x‖2

2=

ρ(A∗A). De plus, si λ est une valeur propre non nulle de A∗A, il existe vλ 6= 0 tel queA∗Avλ = λvλ. Alors AA∗Avλ = λAvλ. Donc Avλ est un vecteur propre (car non nul) de AA∗

avec la valeur propre λ. Si λ est une valeur propre non nulle de A∗A c’est aussi une valeur proprede AA∗. Donc si ρ(A∗A) 6= 0 alors ρ(AA∗) = ρ(A∗A). Ceci est encore vrai si ρ(A∗A) = 0, car ona lors A = 0. On a donc prouve (4.12).

Proposition 4.5 Si U est une matrice unitaire de Mn(C), on a pour tout A ∈ Mn(C),

‖A‖2 = ‖UA‖2 = ‖AU‖2 = ‖UAU∗‖2. (4.13)

Si A est normale,‖A‖2 = ρ(A). (4.14)

Enfin, pour toute matrice A ∈ Mn(C),

‖A‖22 = ‖A∗A‖2. (4.15)

Page 71: Algebre Lineaire Et Analyse Numerique Matricielle

4.1. NORMES VECTORIELLES ET MATRICIELLES 71

Demonstration. On laisse le premier point en exercice.Si A est normale, A est semblable a une matrice diagonale D par une transformation unitaire :on a ‖A‖2 = ‖D‖2 d’apres le premier point et il est facile verifier que ‖D‖2 = ρ(D) = ρ(A).Enfin, on a, pour toute matrice A,

‖A‖22 = ρ(A∗A) = ‖A∗A‖2.

Remarque 4.2 L’egalite (4.14) est vraie en particulier si A est reelle symetrique ou hermi-tienne.

Proposition 4.6 On a les inegalites : pour p : 1 ≤ p < +∞,

n− 1

p ‖A‖∞ ≤ ‖A‖p ≤ n1p ‖A‖∞ (4.16)

pour p, q : 1 ≤ p < q < +∞,

n1q− 1

p ‖A‖q ≤ ‖A‖p ≤ n1p− 1

q ‖A‖q (4.17)

‖A‖2 ≤√

‖A‖∞‖A‖1 (4.18)

Demonstration. On laisse (4.16) et (4.17) en exercice. Pour prouver (4.18), on utilise (4.15) :‖A‖2

2 = ‖A∗A‖2 = ρ(A∗A). On verra par la suite, cf. Proposition 4.9 que pour toute normematricielle ‖.‖, on a ρ(A∗A) ≤ ‖A∗A‖ : donc

‖A‖22 = ρ(A∗A) ≤ ‖A∗A‖∞≤ ‖A∗‖∞‖A‖∞ = ‖A‖1‖A‖∞.

Norme de Frobenius

On definit la norme de Frobenius d’une matrice M d’ordre n

‖M‖2F =

1≤i≤n

1≤j≤n

|mi,j|2. (4.19)

On verifie facilement que

‖M‖2F = trace(M∗M) = trace(MM∗) = ‖M∗‖2

F . (4.20)

Le carre de la norme de Frobenius de M est donc la somme du carre de ses valeurs singulieres.On en deduit que

‖M‖2 ≤ ‖M‖F ≤ √n‖M‖2. (4.21)

De (4.20), on deduit aussi que si P s’ecrit P = Q∗MQ avec Q unitaire, alors ‖P‖F = ‖M‖F ,car la trace de P ∗P est egale a celle de Q∗M∗MQ qui est egale a celle de M∗M .Enfin, la norme de Frobenius a la propriete (4.8) : en effet, en appliquant l’inegalite de Cauchy-Schwarz dans Kn, on a

‖AB‖2F =

n∑

i=1

n∑

j=1

|n∑

k=1

AikBkj|2 ≤n∑

i=1

n∑

j=1

(n∑

k=1

|Aik|2n∑

l=1

|Blj|2)

= ‖A‖2F ‖B‖2

F

La norme de Frobenius est donc une norme matricielle.Elle n’est pas subordonnee a une norme vectorielle, car ‖In‖ =

√n 6= 1.

Page 72: Algebre Lineaire Et Analyse Numerique Matricielle

72 CHAPITRE 4. ANALYSE MATRICIELLE

4.2 Nombre de conditionnement

On s’interesse ici a la sensibilite d’un systeme lineaire Ax = b , A ∈ Mn(K), x, b ∈ Kn a desperturbations du second membre b ou de la matrice A.

Definition 4.2 On considere une norme ‖ ‖ sur Kn et on note encore ‖ ‖ la norme subor-

donnee dans Mn(K) : ∀M ∈ Mn(K), ‖M‖ = sup06=x∈Kn‖Mx‖‖x‖ . Pour une matrice A ∈ Mn(K)

inversible, on definit le nombre de conditionnement de A par rapport a la norme ‖ ‖ parcond‖ ‖(A) = ‖A‖‖A−1‖.

On verifie facilement avec (4.8) que cond‖ ‖(A) ≥ 1.

Remarque 4.3 Il est clair que si α ∈ K\0 alors cond‖.‖(αA) = cond‖.‖(A), et que cond‖.‖(A−1) =

cond‖.‖(A).

Un exemple important est le conditionnement par rapport a la norme ‖ ‖2, qu’on note cond2 :on peut le caracteriser par

– cond2(A) = σmax(A)σmin(A) , ou σmax(A) et σmin(A) sont respectivement la plus grande et la plus

petite valeur singuliere de A.– siA est normale (en particulier hermitienne), on a la caracterisation plus simple : cond2(A) =

|λ|max(A)|λ|min(A) ou |λ|max(A) et |λ|min(A) sont les plus grand et plus petit modules des valeurspropres de A.

4.2.1 Sensibilite de la solution d’un systeme lineaire

On veut etudier la sensibilite de la solution du systeme Ax = b (A inversible) a une variationdu second membre δb : on a A(x+ δx) = b+ δb, ce qui implique que δx = A−1δb, donc ‖δx‖ ≤‖A−1‖‖δb‖. D’autre part ‖b‖ ≤ ‖A‖‖x‖, par suite ‖δx‖

‖x‖ ≤ ‖A‖‖A−1‖‖δb‖‖b‖ = cond‖ ‖(A)‖δb‖‖b‖ . On

a le resultat

Proposition 4.7 Si Ax = b et A(x+ δx) = b+ δb on a

‖δx‖‖x‖ ≤ cond‖ ‖(A)

‖δb‖‖b‖ , (4.22)

et on peut trouver x et δb tels que cette inegalite soit une egalite.

Demonstration. On a deja prouve la premiere assertion.La derniere assertion est prouvee en prenant x realisant le maximum : ‖Ax‖

‖x‖ = max06=y‖Ay‖‖y‖ =

‖A‖ et δb realisant le maximum ‖A−1δb‖‖δb‖ = max06=y

‖A−1y‖‖y‖ = ‖A−1‖. L’inegalite (4.22) est donc

optimale.

On s’interesse maintenant a la sensibilite aux perturbations de la matrice A : soit donc uneperturbation δA de A et x+δx la solution de (A+δA)(x+δx) = b. On a δx = −A−1δA(x+δx),

d’ou ‖δx‖‖x+δx‖ ≤ ‖A−1‖‖δA‖ = cond‖ ‖(A)‖δA‖

‖A‖ .

Proposition 4.8 Si Ax = b et (A+ δA)(x + δx) = b on a

‖δx‖‖x+ δx‖ ≤ cond‖ ‖(A)

‖δA‖‖A‖ , (4.23)

et on peut trouver A, x et δx tels que cette inegalite soit une egalite.

Page 73: Algebre Lineaire Et Analyse Numerique Matricielle

4.3. RAYON SPECTRAL D’UNE MATRICE 73

Demonstration. La derniere assertion est prouvee en prenant δA = I et y ∈ Kn realisant le

maximum de ‖A−1y‖‖y‖ . On prend alors b = (A+ δA)y et x tel que Ax = b. On a δx = y− x. Pour

ce choix de matrices et de vecteurs, l’inegalite (4.23) devient une egalite.

4.3 Rayon spectral d’une matrice

Dans cette section et la suivante, on considere des matrices de Md(C).

4.3.1 Definition et proprietes

Definition 4.3 Soit A une matrice de Md(C). On sait que le polynome caracteristique de A ad racines complexes. On appelle spectre de A et on note sp(A) l’ensemble forme de ses d valeurspropres (comptees avec leur multiplicite). On appelle rayon spectral de A et on note ρ(A) le reelpositif ou nul defini par

ρ(A) = maxλ∈sp(A)

|λ|. (4.24)

Proposition 4.9 ;

1. Soit ‖ ‖ une norme matricielle sur Md(C) (ayant donc la propriete multiplicative (4.8))

ρ(A) ≤ ‖A‖ (4.25)

2. De plus pour toute matrice A et pour tout reel positif ǫ, il existe une norme matricielle ‖ ‖subordonnee a une norme vectorielle telle que

‖A‖ ≤ ρ(A) + ǫ.

Demonstration. Demontrons le premier point. Soit ‖ ‖ une norme matricielle sur Md(C). Onpeut alors definir une norme vectorielle sur Cd qu’on note ||| ||| par

|||v||| = ‖Mv‖, ou Mv = (v, . . . , v)

Exercice Verifier qu’il s’agit bien d’une norme sur Cd.Soit λ une valeur propre de A telle que |λ| = ρ(A) et vλ un vecteur propre correspondant : on a

ρ(A)|||v||| = |||Av||| ≤ ‖(Av, . . . , Av)‖ = ‖A(v, . . . , v)‖ ≤ ‖A‖‖(v, . . . , v)‖ = ‖A‖|||v|||,

l’inegalite venant de la propriete (4.8). On a donc

ρ(A) ≤ ‖A‖.

Pour le deuxieme point, on sait qu’il existe une matrice unitaire U et une matrice triangulairesuperieure R telles que A = URU∗. La matrice triangulaire R s’ecrit

R =

λ1 r12 . . . r1d

λ2 r23 . . . r2d

. . .. . .

...λd−1 rd−1 d

λd

Page 74: Algebre Lineaire Et Analyse Numerique Matricielle

74 CHAPITRE 4. ANALYSE MATRICIELLE

Soit alors la matrice Dη = Diag(1, η, . . . ηd−1). On considere la norme ||| ||| definie par

|||M ||| = ‖D−1η U∗MUDη‖∞

On a

D−1η U∗AUDη = D−1

η RDη =

λ1 ηr12 . . . ηd−1r1d

λ2 ηr23 . . . ηd−2r2d

. . .. . .

...λd−1 ηrd−1 d

λd

Donc |||A||| = max1≤i≤d

(|λi| +

∑j>i η

j−i|rij |). Pour ǫ > 0 fixe, on peut choisir η assez petit

pour que |||A||| ≤ ρ(A) + ǫ.Enfin on verifiera facilement que ||| ||| est la norme subordonnee a la norme vectorielle

|||v||| = ‖D−1η U∗v‖∞

Proposition 4.10 1. Pour toute norme matricielle sur Md(C) et pour toute matrice A ∈Md(C), on a l’implication

‖A‖ < 1 ⇒ Id +A inversible

2. Si la norme ‖.‖ est de plus subordonnee a une norme sur Cn et si ‖A‖ < 1 alors

‖(Id +A)−1‖ ≤ 1

1 − ‖A‖ .

Demonstration.

1. Si Id +A n’est pas inversible, il existe u 6= 0 tel que Au = −u, et ‖A‖ ≥ ρ(A) ≥ 1. Donc,si ‖A‖ < 1 alors Id +A est inversible.

2. Si ‖.‖ est une norme subordonnee, on a ‖Id‖ = 1 et (Id + A)−1 = Id − A(Id + A)−1, etdonc ‖(Id +A)−1‖ ≤ 1 + ‖A‖‖(Id +A)−1‖ ce qui donne le resultat desire.

Remarque 4.4 On a aussi par contraposition : si Id + A n’est pas inversible alors ‖A‖ ≥ 1,pour toute norme matricielle subordonnee ou non.

4.3.2 Suite des puissances d’une matrice

On dit qu’une suite de matrices (An)n∈N dans Md,d′(C) tend vers 0, si pour une norme ‖ ‖definie sur Md,d′(C), la suite (‖An‖)n∈N tend vers 0 quand n→ ∞.Comme toutes les normes sont equivalentes, cette convergence a alors lieu pour toutes les normes.Si d = d′, en prenant les normes subordonnees aux normes vectorielles, on voit que

An → 0 ⇔ ∀v ∈ Cd, Anv → 0.

On deduit de la proposition 4.9 le theoreme :

Page 75: Algebre Lineaire Et Analyse Numerique Matricielle

4.3. RAYON SPECTRAL D’UNE MATRICE 75

Theoreme 4.1 Soit A ∈ Md(C). Une condition necessaire et suffisante pour que la suite despuissances de A, (An)n∈N, converge vers 0 est que

ρ(A) < 1. (4.26)

Demonstration. Soit une matrice A ∈ Md(C) telle que An → 0 quand n→ ∞. Il est clair queρ(An) = ρn(A). Mais d’apres la proposition 4.9, ρn(A) ≤ ‖An‖, pour toute norme matricielle.Donc ρn(A) → 0, ce qui implique que ρ(A) < 1.Reciproquement, soit une matrice telle que ρ(A) < 1. D’apres la proposition 4.9, il existe unenorme matricielle ‖ ‖ subordonnee a une norme vectorielle, telle que ‖A‖ < 1. Comme ‖ ‖ a lapropriete (4.8), ‖An‖ ≤ ‖A‖n → 0 quand n→ ∞.

Le resultat suivant est une caracterisation du rayon spectral d’une matrice :

Theoreme 4.2 Pour toute norme matricielle sur Mn(C),

ρ(A) = limn→∞

‖An‖ 1n . (4.27)

Demonstration. On a bien sur :

ρ(A) ≤ ‖An‖ 1n , ∀n > 0,

car ρ(A)n = ρ(An) ≤ ‖An‖. Donc

ρ(A) ≤ lim infn→∞

‖An‖ 1n . (4.28)

D’autre part, pour ǫ > 0, considerons la matrice Aǫ = 1ρ(A)+ǫ

A. On a que ρ(Aǫ) < 1, donclimn→∞An

ǫ = 0 : il existe donc N > 0 tel que pour tout n > N ,

‖Anǫ ‖ ≤ 1,

ce qu’on ecrit aussi

‖An‖ ≤ (ρ(A) + ǫ)n.

Donc, pour tout ǫ > 0,

lim supn→∞

‖An‖ 1n ≤ ρ(A) + ǫ,

donc

lim supn→∞

‖An‖ 1n ≤ ρ(A).

Proposition 4.11 La serie∑∞

n=0An est convergente si et seulement si ρ(A) < 1. On a alors

(Id −A)−1 =∞∑

n=0

An.

Page 76: Algebre Lineaire Et Analyse Numerique Matricielle

76 CHAPITRE 4. ANALYSE MATRICIELLE

Demonstration. Pour tout ǫ, il existe une norme subordonnee ‖.‖ verifiant ‖A‖ ≤ ρ(A) + ǫ,ce qui montre que si ρ(A) < 1, il existe une norme subordonnee ‖.‖ verifiant ‖A‖ < 1 ; la serie∑∞

n=0An est absolument convergente pour cette norme et on verifie que

(Id −A)

∞∑

n=0

An = limN→∞

(Id −A)

N∑

n=0

An = Id − limN→∞

AN+1 = Id.

Reciproquement, si∑∞

n=0An est convergente, alors pour toute valeur propre λ (complexe) de

A, on a∑∞

n=0 λn converge, ce qui implique que |λ| < 1. On en deduit que ρ(A) < 1.

Remarque 4.5 Sous les hypotheses de la Proposition 4.11 on a

(Id +A)−1 =

∞∑

n=0

(−1)nAn.

4.4 Sensibilite d’un probleme aux valeurs propres

Exemple. On considere la matrice de Mn(R)

0 . . . ǫ1 0 . . . 0

0. . .

. . ....0 . . . 1 0

Son polynome caracteristique est xn ± ǫ : les valeurs propres sont nulles si ǫ = 0 et ce sont lesracines n iemes de ±ǫ si ǫ 6= 0. Si n = 10 et si ǫ = 10−10, les valeurs propres ont pour module 0.1.On voit donc qu’une perturbation de 10−10 d’un coefficient de la matrice entraıne des variationsimportantes des valeurs propres.

On note σ(A) le spectre d’une matrice A de Mn(C).Pour tenter de comprendre la sensibilite des valeurs propres aux perturbations d’une matrice,on a le resultat

Theoreme 4.3 Soit A ∈ Mn(C) diagonalisable, et P une matrice de changement de base telleque P−1AP = Diag(λ1, . . . λn). Soit ‖‖ une norme sur Mn(C) telle que

‖MN‖ ≤ ‖M‖‖N‖ et ‖Diag(µ1 . . . µn)‖ = maxi=1...n

|µi|

alors pour toute perturbation δA de A, on a

σ(A+ δA) ⊂ ∪ni=1Di (4.29)

etDi = µ ∈ C; |µ− λi| ≤ cond‖ ‖(P )‖δA‖. (4.30)

Demonstration On sait que µ est valeur propre de A+ δA si et seulement si A+ δA−µI n’estpas inversible. En multipliant a droite par P et a gauche par P−1, ceci est equivalent a dire queDiag(λ1 − µ, . . . , λn − µ) + P−1δAP est singuliere. Deux cas se presentent :

Page 77: Algebre Lineaire Et Analyse Numerique Matricielle

4.4. SENSIBILITE D’UN PROBLEME AUX VALEURS PROPRES 77

1. si Diag(λ1 − µ, . . . , λn − µ) est singuliere, alors µ ∈ Di pour un indice i ∈ 1, . . . , n.2. sinon, I + Diag((λ1 − µ)−1, . . . , (λn − µ)−1)P−1δAP est singuliere. Ceci implique que

‖Diag((λ1 − µ)−1, . . . , (λn − µ)−1)P−1δAP‖ ≥ 1, autrement on pourrait construire uninverse avec une serie. Les proprietes de la norme impliquent alors que ‖Diag((λ1 −µ)−1, . . . , (λn−µ)−1)‖‖P−1‖‖δA‖‖P‖ ≥ 1, soit encore maxi |λi−µ|−1cond‖ ‖(P )‖δA‖ ≥ 1.On en deduit que

mini

|λi − µ| ≤ cond‖ ‖(P )‖δA‖⊓⊔

Remarque 4.6 La sensibilite d’un probleme aux valeurs propres d’une matrice A diagonalisablepar rapport aux perturbations depend donc du conditionnement de la matrice de passage P etnon pas de celui de A.

Remarque 4.7 Si A est normale, on sait que A est diagonalisable avec P unitaire. On acond2(P ) = 1. Dans ce cas les valeurs propres de A sont contenues dans des cercles centresaux valeurs propres de A et de rayon ‖δA‖2.

Remarque 4.8 On a un resultat plus precis si A et δA sont hermitiennes. Dans ce cas, cf.[2], le theoreme du min-max permet de dire que si on ordonne les valeurs propres par valeurcroissante, les k iemes valeurs propres de A et A+ δA sont distantes d’au plus ‖δA‖2.

Page 78: Algebre Lineaire Et Analyse Numerique Matricielle

78 CHAPITRE 4. ANALYSE MATRICIELLE

Page 79: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 5

Methodes Directes pour lesSystemes Lineaires

Le but est de resoudre le systeme lineaire dans Cn : trouver x ∈ Cn tel que

Ax = b, A ∈ Mn(C),

ou b ∈ Cn. On suppose que A ∈ Mn(C) est inversible.

Cas ou A est triangulaire superieure : remontee La matrice A = (aij)i,j∈1,...,n esttriangulaire superieure :

aij = 0 si j < i

Comme A est inversible,aii 6= 0 si 1 ≤ i ≤ n.

Le systeme s’ ecrita11x1 + a12x2 + . . . + a1nxn = b1

a22x2 + . . . + a2nxn = b2. . .

annxn = bn

On resout le systeme en remontant

xn = bn/ann

xn−1 = (bn−1 − an−1 nxn)/an−1 n−1...

x1 = (b1 − a12x2 − · · · − a1nxn)/a11

Cout du calcul de xk :

xk = (bk − ak k+1xk+1 − · · · − aknxn)/akk →(n− k) additions(n− k) multiplications1 division

Cout total de la remontee :

∼n∑

k=1

(n− k) =1

2(n− 1)n ∼ n2

2additions+multiplications

79

Page 80: Algebre Lineaire Et Analyse Numerique Matricielle

80 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

Cas ou A est triangulaire inferieure : descente La matrice A = (aij)i,j∈1,...,n esttriangulaire inferieure :

aij = 0 si i < j

Comme A est inversible,

aii 6= 0 si 1 ≤ i ≤ n.

Le systeme s’ ecrit

a11x1 = b1a21x1 + a22x2 = b2

. . .

an1x1 + an2x2 + . . . + annxn = bn

On resout le systeme en descendant

x1 = b1/a11

x2 = (b2 − a21x1)/a22...

xn = (bn − an n−1xn−1 − · · · − an1x1)/ann

Cout total de la descente :

∼n∑

k=1

k =1

2(n− 1)n ∼ n2

2additions+multiplications

5.0.1 Algorithme d’elimination de Gauss sans recherche de pivot, et in-terpretation matricielle

On suppose que A est inversible. On veut resoudre le systeme : trouver x ∈ Cn tel que

Ax = b, A ∈ Mn(C),

ou b ∈ Cn. On suppose que A ∈ Mn(C) est inversible.Le but est de se ramener a un systeme triangulaire

Premiere etape : elimination de l’inconnue x1 des lignes 2 a n. On va chercher unsysteme equivalent (ayant la meme solution x), ou x1 n’apparaıt que dans la ligne 1.Premiere Hypothese :

a11 6= 0 → on appelle premier pivot π(1) = a11.

On peut alors former une combinaison lineaire de la ligne i > 1 avec la ligne 1 pour eliminerl’inconnue x1 dans la ligne i : la ligne i devient

0x1 + (ai2 −ai1

π(1)a12)x2 + · · · + (ain − ai1

π(1)a1n)xn = bi −

ai1

π(1)b1,

ce qu’on peut reecrire

a(2)i2 x2 + · · · + a

(2)in xn = b

(2)i , ∀i > 1

Page 81: Algebre Lineaire Et Analyse Numerique Matricielle

81

en posant

a(2)i2 = ai2 − ai1

π(1)a12,...

a(2)in = ain − ai1

π(1) a1n,

b(2)i = bi − ai1

π(1) b1.

Si on pose aussi, pour 1 ≤ j ≤ n,

a(2)1j = a1j ∀1 ≤ j ≤ n et b

(2)1 = b1,

on a obtenu le nouveau systeme equivalent

A(2)x = b(2),

avec

A(2) =

a(2)11 a

(2)12 . . . a

(2)1n

0 a(2)22 . . . a

(2)2n

......

...

0 a(2)n2 . . . a

(2)nn

On voit que

A(2) = M (1)A ou M (1) =

1 0 . . . . . . 0

−a21a11

1. . .

...... 0

. . .. . .

......

.... . .

. . . 0−an1

a110 . . . 0 1

Le systeme s’ecrit :A(2) = M (1)A, et b(2) = M (1)b.

kieme etape : elimination de l’inconnue xk des lignes k + 1 a n On suppose qu’on apu iterer le procede ci-dessus k− 1 fois, c’est a dire que les pivots apparus jusqu’al’etape k sontnon nuls :

Π(i) = a(i)ii 6= 0, pour 1 ≤ i ≤ k − 1.

On obtient alors le systeme equivalent

A(k)x = b(k)

ou A(k) est de la forme

A(k) =

a(k)11 a

(k)12 . . . . . . . . . . . . a

(k)1n

0 a(k)22

. . ....

.... . . a

(k)33

. . ....

.... . .

. . .. . .

...

0 . . . . . . 0 a(k)k−1k−1 . . . . . . a

(k)k−1n

...... 0

......

... A(k)

0 . . . . . . 0 0

Page 82: Algebre Lineaire Et Analyse Numerique Matricielle

82 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

et A(k) est une matrice carree d’ordre n− k + 1 :

A(k) =

a(k)kk . . . a

(k)kn

......

a(k)nk . . . a

(k)nk

.

On va chercher un systeme equivalent (ayant la meme solution x), ou xk n’apparaıt pas dans leslignes k + 1 a n.k-ieme Hypothese :

a(k)kk 6= 0 → on appelle kieme pivot π(k) = a

(k)kk .

On introduit

M (k) =

1 0 . . . . . . . . . . . . . . . 0

0 1. . .

......

. . .. . .

. . ....

... 0 1. . .

......

... −a(k)k+1 k

π(k)

. . .. . .

......

...... 0

. . .. . .

......

......

.... . .

. . . 0

0 . . . 0 − a(k)n k

π(k) 0 . . . 0 1

Remarquons que l’inverse de M (k) est L(k) :

L(k) =

1 0 . . . . . . . . . . . . . . . 0

0 1. . .

......

. . .. . .

. . ....

... 0 1. . .

......

...a(k)k+1 k

π(k)

. . .. . .

......

...... 0

. . .. . .

......

......

.... . .

. . . 0

0 . . . 0a(k)n k

π(k) 0 . . . 0 1

Soit

A(k+1) = M (k)A(k) et b(k+1) = M (k)b(k),

alors

A(k+1)x = b(k+1),

Page 83: Algebre Lineaire Et Analyse Numerique Matricielle

83

et

A(k+1) =

a(k+1)11 a

(k+1)12 . . . . . . . . . . . . a

(k+1)1n

0 a(k+1)22

. . ....

.... . . a

(k+1)33

. . ....

.... . .

. . .. . .

...

0 . . . . . . 0 a(k+1)kk . . . . . . a

(k+1)kn

...... 0

......

... A(k+1)

0 . . . . . . 0 0

,

ou A(k+1) est une matrice carree d’ordre n− k :

A(k+1) =

a(k+1)k+1k+1 . . . a

(k+1)k+1n

......

a(k+1)nk+1 . . . a

(k+1)nk+1

.

Apres n− 1 etapes Si on itere n− 1 fois, et si les pivots apparus sont tous non nuls :Hypotheses des n− 1 etapes :

π(i) = a(i)ii 6= 0, pour 1 ≤ i ≤ n− 1.

on arrive au systeme triangulaire equivalent

A(n)x = b(n),

avec

A(n) =

π(1) ∗ . . . ∗0 π(2) ∗ . . . ∗0 0

. . .

0 . . . 0. . . ∗

0 . . . 0 π(n)

qui est inversible si de plusHypothese :

π(n) 6= 0.

Si on appelle L la matrice triangulaire inferieure avec des 1 sur la diagonale

L = L(1) . . . L(n−1)

et U la matrice triangulaire superieure

U = A(n),

on aA = LU.

On dit qu’on a effectue une factorisation de Gauss ou factorisation LU de A.

Remarque 5.1 Il est aussi possible avec le meme algorithme d’obtenir la factorisation LU d’unematrice de Mm(C), avec m ≥ n, si les pivots qui apparaissent sont non nuls.

Page 84: Algebre Lineaire Et Analyse Numerique Matricielle

84 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

5.0.2 Cout de la methode d’elimination de Gauss.

On estime le cout de l’elimination de xk. Rappelons qu’a l’etape k− 1, on obtient la matriceAk

A(k) =

a(k)11 a

(k)12 . . . . . . . . . . . . a

(k)1n

0 a(k)22

. . ....

.... . . a

(k)33

. . ....

.... . .

. . .. . .

...

0 . . . . . . 0 a(k)k−1k−1 . . . . . . a

(k)k−1n

...... 0

......

... A(k)

0 . . . . . . 0 0

C’est sur le bloc A(k) de A(k) qu’il faut travailler.Construction de M (k) : n− k divisions par le pivot.

M (k) =

1 0 . . . . . . . . . . . . . . . 0

0 1. . .

......

. . .. . .

. . ....

... 0 1. . .

......

... −a(k)k+1 k

π(k)

. . .. . .

......

...... 0

. . .. . .

......

......

.... . .

. . . 0

0 . . . 0 − a(k)n k

π(k) 0 . . . 0 1

Multiplication de A(k) par M (k) : (n− k)2 adds+mults.Total

n∑

k=1

(n− k)2 =1

3n(n− 1)(n − 1

2) ∼ n3

3additions+multiplications.

n∑

k=1

(n− k) =1

2n(n− 1) divisions.

5.0.3 Utilisations de la factorisation LU

Calcul de determinant Une utilisation de la factorisation LU est le calcul du determinantde A : en effet, si A admet une factorisation LU , on a

det(A) = det(U) = produit des pivots

car det(L) = 1. La factorisation LU permet donc de calculer le determinant de A avec une

complexite de l’ordre de n3

3 adds + mults, plutot que n! avec la formule du determinant !

Remarque 5.2 Calculer le determinant d’une matrice d’ordre 100 avec la formule du determinantprendrait un temps superieur a l’age de l’univers sur le calculateur le plus puissant disponibleaujourd’hui.

Page 85: Algebre Lineaire Et Analyse Numerique Matricielle

85

Resolution de systemes lineaires Si on a plusieurs systemes ( par exemple p) a resoudreavec la meme matrice A, il est interessant de calculer une fois pour toute et stocker la factorisationLU de A = LU , puis de resoudre les systemes par descentes-remontees plutot que d’utiliserl’algorithme d’elimination pour chaque systeme. On resout le systeme Ax = b en resolvantd’abord

Ly = b,

soit une descente, puisUx = y,

soit une remontee. Si on a p systemes a resoudre, la complexite est de l’ordre de n3

3 + pn2

adds+mults plutot que pn3

3 .

Remarque 5.3 Comme a la remarque precedente, calculer la solution du systeme lineaire enappliquant les formules de Crammer necessiterait un temps inimaginable des que n vaut quelquesdizaines.

5.0.4 Algorithme

Voici un algorithme realisant la factorisation LU d’une matrice A et stockant cette factori-sation dans la place memoire occuppee par A : (la matrice A est perdue, on dit qu’on ecraseA).

for (int j=1;j<=n-1;j++)

for(int i=j+1;i<=n;i++)

A(i,j)=A(i,j)/A(j,j); //construction de la j eme colonne de L

for(int i=j+1;j<=n;j++)

for(int k:=j+1;k<=n;k++)

A(i,k)=A(i,k)-A(i,j)*A(j,k);

//actualisation des n-j-1 derni\‘eres lignes de A

Remarque 5.4 La diagonale de L (qui ne contient que des 1) n’est pas stockee.

Le programme pour la descente-remontee pour calculer la solution de Ax = b est alors, enecrasant b :

for (int i=1;i<=n;i++) //descente pour calculer y tq Ly=b

sum=0.;

for (int k=1; k<i;k++)

sum += A(i,k)*b(k);

b(i) = b(i) - sum ;

for (int i=n;i>=1;i--) //remontee pour calculer x tq Ux=y

sum=0.;

for (int k=i+1; k<=n;k++)

sum += A(i,k)*b(k);

b(i) = (b(i)-sum)/A(i,i) ;

Page 86: Algebre Lineaire Et Analyse Numerique Matricielle

86 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

5.0.5 Condition necessaire et suffisante d’existence d’une factorisation LU,unicite

Theoreme 5.1 Soit A une matrice de Mn(C). Pour 1 ≤ p ≤ n, on note Ap le bloc

Ap =

a1 1 . . . . . . a1 p

a2 1 . . . . . . a2 p

......

ap 1 . . . . . . ap p

La matrice A admet une factorisation

A = LU

ou L est triangulaire inferieure avec des 1 sur la diagonale et U est triangulaire superieureet inversible si et seulement si tous les blocs Ap, 1 ≤ p ≤ n, sont inversibles. De plus, cettefactorisation est unique. De plus si A est reelle, alors L et U le sont aussi.

Demonstration. Si A admet une factorisation LU avec L et U inversibles, alors les blocs Ap

sont bien inversibles.La demonstration de la reciproque demande un peu plus de travail :ExistenceLa demonstration se fait par recurrence : la propriete est clairement vraie si n = 1. Supposonsla propriete vraie pour p ≤ n − 1, et soit une matrice A ∈ Mn(C) dont tous les blocs Ap sontinversibles. L’hypothese de recurrence implique l’existence d’une factorisation LU pour le blocAn−1 : An−1 = L′U ′. On va chercher une factorisation LU de A sous la forme

A =

(L′ 0xT 1

)(U ′ y0 z

)

ou x, y ∈ Cn−1 et z ∈ C, ou de maniere equivalente

L′y = (a1,n, . . . , an−1,n)T

U ′Tx = (an,1, . . . an,n−1)T

xT y + z = an,n

D’apres l’hypothese de recurrence, L′ et U ′ sont inversibles, donc x et y existent, et z aussi. Deplus, comme det(A) 6= 0, z est non nul. L’existence d’une factorisation LU de A ou L a des 1sur la diagonale est demontree.UniciteSoient deux factorisation LU de A : A = LU = L′U ′ ou L sont triangulaires inferieures avec des1 sur la diagonale, et U sont triangulaires superieures et inversibles. On a donc l’identite

L−1L′ = U ′U−1

Mais L−1L′ est triangulaire inferieure avec des 1 sur la diagonale et U ′U−1 est triangulairesuperieure. On a donc

L−1L′ = U ′U−1 = Id⇒∣∣∣∣L = L′

U = U ′

Page 87: Algebre Lineaire Et Analyse Numerique Matricielle

87

5.0.6 Un deuxieme algorithme

La demonstration precedente fournit un autre algorithme. La encore, on stocke la factorisa-tion LU dans la place memoire occupee par A. L’idee est de faire une boucle sur p pour p allantde 1 a n en construisant a chaque etape la factorisation LU de Ap.

for (int p=1;p<=n;p++)

for(int i=1;i<p;i++) //construction de la p eme colonne de U

//sauf le coeff diagonal

sum = 0;

for (int k=1;k<i;k++)

sum += A(i,k)*A(k,p);

A(i,p) = A(i,p)-sum;

for(int j=1;j<p;j++) //construction de la p eme ligne de L

sum = 0;

for (int k=1; k<j;k++)

sum += A(k,j)*A(p,k);

A(p,j) = (A(p,j) - sum)/A(j,j);

sum=0; //nouveau pivot

for(int i=1;i<p;i++)

sum+=A(p,i)*A(i,p);

A(p,p)-=sum;

5.0.7 Cas de matrices bandes

Definition 5.1 Soit A une matrice de Cn×n. On appelle largeur de bande de A le plus petitentier nb ≤ n tel que pour tout i, 1 ≤ i ≤ n

ai,j = 0 si n ≥ j > i+ nb,aj,i = 0 si 0 < j < i− nb,

Les coefficients non nuls de la matrices A sont contenus dans une bande de largeur 2nb + 1,centree sur la diagonale.

Dans le cas ou la largeur de bande nb de A est tres inferieure a n, on parle de matrice bande. SiA est une matrice bande, sa factorisation LU demande moins d’operations et de place memoire :

Proposition 5.1 Si A, (de largeur de bande nb) admet une factorisation LU, alors les largeursde bandes de L et de U sont inferieures a nb et la complexite necessaire a effectuer la factorisationLU est inferieure a

n∑

k=1

(nb)2 = n(nb)

2 additions+multiplications.

n∑

k=1

nb = nnb divisions.

Page 88: Algebre Lineaire Et Analyse Numerique Matricielle

88 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

Demonstration. Montrons la propriete par recurrence sur les etapes de la factorisation LU deA.La propriete est evidente a l’etape 0 puisque A a la structure bande.

Supposons la propriete vraie jusqu’a k : on a A = L(1) . . . L(k−1)A(k) ou A(k)i,j = 0 si j < i et

i < k ou si |j − i| > nb. Regardons la k eme etape de la factorisation :

– la premiere chose que l’on fait est de construire L(k) avec L(k)ik = A

(k)i,k /A

(k)k,k pour i > k.

Mais on voit que A(k)i,k = 0 si i > k + nb, donc L(k) a elle aussi une largeur de bande

inferieure ou egale a nb.

– on construit alors A(k+1) en ne modifiant que le bloc k + 1 → n de A(k) : A(k+1)i,j =

A(k)i,j − L

(k)i,kA

(k)k,j pour i > k et j > k. Mais on sait que L

(k)i,k = 0 pour i > k + nb et que

A(k)k,j = 0 pour j > k + nb. Les seuls coefficients de A(k) que l’on va modifier sont donc

les coefficients correspondants a k < i ≤ min(k + nb, n) et k < j ≤ min(k + nb, n). Desinegalites k < i ≤ min(k+ nb, n) et k < j ≤ min(k+nb, n), on tire que −nb < j − i < nb :les seuls coefficients de A(k) modifies seront compris dans la bande |j− i| ≤ nb : la matriceA(k+1) herite donc de la structure bande de la matrice A(k).

Exercice. Ecrire l’algorithme de factorisation LU pour une matrice bande de largeur de bandenb.

5.1 Methode de Cholesky

Dans le cas ou A est hermitienne et definie positive, on peut toujours efectuer la factorisationdecrite ci-dessus. De plus, on peut trouver une factorisation du type A = LL∗ moins gourmandeen place memoire.

5.1.1 Existence de la factorisation de Cholesky

Theoreme 5.2 Si A est hermitienne et definie positive, alors A admet une unique factorisationLU, ou L est triangulaire inferieure avec des 1 sur la diagonale et U est triangulaire superieureet inversible.

Demonstration. SiA est hermitienne definie positive, ses blocsAp 1 ≤ p ≤ n, voir Theoreme 5.1,le sont aussi, et on peut appliquer le Theoreme 5.1.

Theoreme 5.3 Si A est hermitienne et definie positive, alors il existe une unique matrice Ltriangulaire inferieure et inversible, avec des coefficients reels positifs sur la diagonale, telle que

A = LL∗

Cette factorisation porte le nom de factorisation de Cholesky (qui etait un colonel de l’armee deNapoleon). Si A est reelle symetrique definie positive, L est reelle.

Demonstration.

On part de la factorisation LU de A. Il existe une unique factorisation A = L′U ′ ou lamatrice L′ est triangulaire inferieure avec des 1 sur la diagonale et U ′ est triangulaire superieureinversible. Appelons D la diagonale de U ′. Comme pour tout p, 1 ≤ p ≤ n, det(Dp) = det(Ap) >

Page 89: Algebre Lineaire Et Analyse Numerique Matricielle

5.1. METHODE DE CHOLESKY 89

0, tous les coefficients de D sont strictement positifs. Notons U = D− 12U ′ et L = L′D

12 . On a

A = LU . Montrons que U = L∗. Comme A est hermitienne, U∗L∗ = A∗ = A = LU . On a doncL−1U∗ = U(L∗)−1. Mais L−1U∗ est triangulaire inferieure, avec des 1 sur la diagonale tandis queU(L∗)−1 est triangulaire superieure, avec des 1 sur la diagonale. Donc U = L∗, et on a A = LL∗.Pour l’unicite, on procede comme dans la demonstation de l’unicite pour la factorisation LU.

Remarque 5.5 Il est important de comprendre que les matrices L dans les factorisation LU etde Cholesky sont differentes.

5.1.2 Algorithme

Considerons la k ieme etape de la methode de Cholesky : A ce point, on suppose que l’on adeja construit la matrice L(k−1) et A(k) telles que

L(k−1) =

√π1 0 . . . 0∗ √

π2 0 . . . 0. . .

∗ . . . ∗ √πk−1 0 . . . 0

∗ . . . ∗ ∗ 1 . . . 0

∗ . . . ∗ ... 0. . . 0

∗ . . . ∗ ∗ 0 . . . 1

et

A(k) =

∗ ∗ . . . ∗0 ∗ . . . ∗0 0 ∗ . . . ∗

. . .

0 0 . . . 0 a(k)kk . . . a

(k)kn

.... . .

0 0 . . . 0 a(k)nk . . . a

(k)nn

et πk = a(k)k,k.

Remarque 5.6 Le bloc carre k → n de A(k) est hermitien et defini positif.

Pour effectuer la kieme etape, on construit d’abord L(k) en remplacant la kieme colonne de

L(k−1) par le vecteur lk = (0, . . . , 0,√πk,

a(k)k+1 k√

πk, . . .

a(k)n k√πk

)T .

Observation 5.1 D’apres la Remarque 5.6, (0, . . . , 0, a(k)kk , . . . , a

(k)kn ) =

√πkl

∗k.

On construit maintenant A(k+1) en effectuant les eliminations de Gauss et d’apres l’Observation5.1, on a

A(k+1) = A(k) − lkl∗k. (5.1)

On voit en fait que l’on peut ne construire que la partie triangulaire inferieure de la matricesA(k+1), ce qui economise la moitie des operations. On aboutit a l’algorithme suivant dans le casd’une matrice reelle symetrique definie positive :

Page 90: Algebre Lineaire Et Analyse Numerique Matricielle

90 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

for (k = 1; k <= n; k++)

A(k,k)=sqrt(A(k,k) );

for (i = k+1; i <= n ; i++)

A(i,k)= A(i,k) / A(k,k);

for (i = k + 1; i <=n; i++)

for (j = k+1 ; j <= i; j++)

A(i,j)=A(i,j) - A(i,k)*A(j,k);

5.1.3 Complexite de la factorisation de Cholesky

∼ n3

6additions+multiplications.

1

2n(n− 1) divisions.

n evaluations de racines carrees.

Exercice Montrer l’evaluation precedente.

Remarque 5.7 L’interet de la factorisation de Cholesky est qu’elle demande une place memoiredeux fois inferieure a celles de la factorisation LU ci-dessus, car on ne doit stocker que L et quesa complexite arithmetique est deux fois moindre.

5.2 Programmes Scilab pour les factorisation LU et de Cholesky

5.2.1 Factorisation LU

Construction de la factorisation LU

//LU factorization

function [A]= LUfact(A)

[m,n]=size(A);

for i=1:n,

if (A(i,i)==0) then

print(%io(2)," zero pivot")

else

A(i+1:m,i)=A(i+1:m,i)/A(i,i);

for j=i+1:n,

A(i+1:m,j)=A(i+1:m,j)-A(i+1:m,i)*A(i,j);

end ;

end ;

end;

Descente-Remontee pour la factorisation LU

// upward sweep : solves an upper triangular system

function [y]=up_sweep_LU(A,x)

[m,n]=size(A);

if (m~=n) then

Page 91: Algebre Lineaire Et Analyse Numerique Matricielle

5.2. PROGRAMMES SCILAB POUR LES FACTORISATION LU ET DE CHOLESKY 91

print(%io(2), "error, not a square matrix");

else

y=x;

y(n)=y(n)/A(n,n);

for i=n-1:-1:1,

y(i)=(y(i)-A(i,i+1:n)*y(i+1:n))/A(i,i);

end;

end;

// downward sweep : solves a lower triangular system with ones on the diagonal

function [y]=down_sweep_LU(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=x;

for i=2:n

y(i)=y(i)-A(i,1:i-1)*y(1:i-1);

end;

end;

//assumes A contains the LU-factorization

function [y]=SolveLU(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=down_sweep_LU(A,x);

y=up_sweep_LU(A,y);

end;

5.2.2 Factorisation de Cholesky

Construction de la factorisation de Cholesky

//Cholesky factorization

//the matrix is stored in the lower part

function [A]= Cholesky_fact(A)

[m,n]=size(A);

for i=1:n,

if (A(i,i)<=0) then

print(%io(2)," non positive pivot")

else

A(i,i)=sqrt(A(i,i));

A(i+1:m,i)=A(i+1:m,i)/A(i,i);

for j=i+1:n,

A(j:m,j)=A(j:m,j)-A(j:m,i)*A(j,i);

end ;

end ;

Page 92: Algebre Lineaire Et Analyse Numerique Matricielle

92 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

end ;

Descente-Remontee pour une factorisation de Cholesky

// up sweep : solves the upper triangular system

function [y]=up_sweep_Cholesky(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=x;

y(n)=y(n)/A(n,n);

for i=n-1:-1:1,

y(i)=(y(i)-(A(i+1:n,i))’*y(i+1:n))/A(i,i);

end;

end;

// down sweep : solves the lower triangular system

function [y]=down_sweep_Cholesky(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=x;

y(1)=y(1)/A(1,1);

for i=2:n

y(i)=y(i)-A(i,1:i-1)*y(1:i-1);

y(i)=y(i)/A(i,i)

end;

end;

function [y]=SolveCholesky(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=down_sweep_Cholesky(A,x);

y=up_sweep_Cholesky(A,y);

end;

5.3 Methode de Gauss avec pivot partiel

La methode de Gauss sans pivotage peut etre bloquee si on tombe sur un pivot nul. Pourpallier cet inconvenient, on introduit une methode qui permet d’eviter ce blocage en echangeantles lignes du systeme considere. On obtient alors une methode qui fonctionne pour toute matriceinversible : la methode de Gauss avec pivot partiel.On definit quelques notions utiles :

Page 93: Algebre Lineaire Et Analyse Numerique Matricielle

5.3. METHODE DE GAUSS AVEC PIVOT PARTIEL 93

Definition 5.2 On appelle permutation de 1, . . . , n une bijection de 1, . . . , nsur 1, . . . , n.

Definition 5.3 Soit σ une permutation de 1, . . . , n, on associe a σ une matrice P dite depermutation d’ordre n par

Pij = δσ(i)j ,

c’est a direPij = 1 si j = σ(i),Pij = 0 si j 6= σ(i),

Lemme 5.1 Soit P et Q deux matrices de permutation d’ordre n, alors PQ est une matrice depermutation d’ordre n.

Definition 5.4 Soient 1 ≤ k < l ≤ n, on dit que la matrice de permutation P (kl) definie par

P(kl)ij = δij si i 6= k et i 6= l

P(kl)kj = δlj ∀1 ≤ j ≤ n

P(kl)lj = δkj ∀1 ≤ j ≤ n

est appelee matrice de permutation elementaire.

Observation 5.2 Le produit a gauche de A par P (kl) conduit a echanger les lignes k et l de A,en laissant les autres lignes inchangees, c’est a dire si

B = P (kl)A

Bij = Aij si i 6= k et i 6= lBkj = Alj ∀1 ≤ j ≤ nBlj = Akj ∀1 ≤ j ≤ n

Observation 5.3 Le determinant d’une matrice de permutation elementaire est ±1. En effet,

P (kl)P (kl) = In.

Lemme 5.2 Toute matrice de permutation peut se decomposer en un produit de matrices elementaires.

Corollaire 5.1 Le determinant d’une matrice de permutation est ±1.

La methode du pivot partiel est un algorithme dont l’application permet de prouver le theoremesuivant. La methode du pivot partiel a ete presentee en cours sur un exemple et revue dans lapreuve du theoreme :

Theoreme 5.4 Soit A ∈ Mn(C), inversible. Alors il existe

– une matrice de permutation P ,– une matrice triangulaire inferieure L, avec des 1 sur la diagonale,– une matrice triangulaire superieure U , et inversible,

telles que

PA = LU

Page 94: Algebre Lineaire Et Analyse Numerique Matricielle

94 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

Demonstration. Par recurrence sur les eliminations de Gauss : a la kieme etape, supposonsque l’on ait prouve l’egalite :

Q(k−1)A = L(1) . . . L(k−1)A(k),

ou Q(k−1) est une matrice de permutation et ∀i < k,

L(i) =

1 . . . i n︷ ︸︸ ︷

1 0 . . . . . . . . . . . . . . . 0

0. . .

. . ....

.... . .

. . .. . .

...... 0 1

. . ....

...... ∗ . . .

. . ....

......

... 0. . .

. . ....

......

......

. . .. . . 0

0 . . . 0 ∗ 0 . . . 0 1

et

A(k) =

a(k)11 . . . . . . . . . . . . a

(k)1n

0. . .

......

. . .. . .

......

. . .. . .

...... 0 a

(k)kk . . . a

(k)kn

......

......

0 . . . . . . 0 a(k)nk . . . a

(k)nn

On effectue la kieme elimination de Gauss avec pivotage partiel : avant d’eliminer l’inconnue xk,on echange les lignes k et rk > k. On peut choisir rk ≥ k tel que

|a(k)rk k| = max

k≤j≤n|a(k)

j k |.

L’inversibilite de A assure que a(k)rk k 6= 0. On peut donc s’en servir de pivot pour la prochaine

elimination de Gauss.Le pivotage puis l’elimination de Gauss s’ecrivent matriciellement

P (krk)A(k) = L(k)A(k+1),

Page 95: Algebre Lineaire Et Analyse Numerique Matricielle

5.3. METHODE DE GAUSS AVEC PIVOT PARTIEL 95

avec P (krk) matrice de permutation elementaire entre les lignes k et r, L(k) triangulaire inferieureL, avec des 1 sur la diagonale, et

A(k+1) =

a(k+1)11 . . . . . . . . . . . . a

(k+1)1n

0. . .

......

. . .. . .

......

. . .. . .

...... 0 a

(k+1)k+1k+1 . . . a

(k+1)k+1n

......

......

0 . . . . . . 0 a(k+1)nk+1 . . . a

(k+1)nn

.

Comme(P (krk))−1 = P (krk),

A(k) = P (krk)L(k)A(k+1),

ce qui impliqueQ(k−1)A = L(1) . . . L(k−1)P (krk)L(k)A(k+1).

A ce point, on utilise le lemme :

Lemme 5.3 Soit P (krk) la matrice de permutation elementaire entre les lignes k et rk > k,alors ∀i < k, si L(i) s’ecrit

L(i) =

1 0 . . . . . . . . . . . . . . . 0

0. . .

. . ....

.... . .

. . .. . .

...... 0 1

. . ....

......

. . .. . .

......

... Ci 0. . .

. . ....

......

.... . .

. . . 00 . . . 0 0 . . . 0 1

et Ci =

...α...β...

alorsL(i)P (krk) = P (krk)L′(i),

ou

L′(i) =

1 0 . . . . . . . . . . . . . . . 0

0. . .

. . ....

.... . .

. . .. . .

...... 0 1

. . ....

......

. . .. . .

......

... C ′i 0

. . .. . .

......

......

. . .. . . 0

0 . . . 0 0 . . . 0 1

et C ′i =

...β...α...

.

Page 96: Algebre Lineaire Et Analyse Numerique Matricielle

96 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

Donc,

Q(k−1)A = L(1) . . . L(k−2)P (krk)L′(k−1)L(k)A(k+1)

= P (krk)L′(1) . . . L′(k−1)L(k)A(k+1).

Par suite,

P (krk)Q(k−1)A = L′(1) . . . L′(k−1)L(k)A(k+1),

ou

– Q(k) = P (krk)Q(k−1) est une matrice de permutation,– L′(1) . . . L′(k−1)L(k) est triangulaire inferieure avec des 1 sur la diagonale.

On a montre que la propriete est vraie pour k + 1.

Remarque 5.8 Dans la methode de Gauss avec pivotage partiel, on ne doit pas stocker lamatrice P mais seulement les rk. Le cout memoire et la complexite sont du meme ordre que ceuxde la factorisation LU . La resolution du systeme lineaire Ax = b connaissant P L et U se faitde la maniere suivante :

y = PbLz = yUx = z

Remarque 5.9 La methode de Gauss avec pivotage partiel ne conserve pas l’aspect bande : siA est une matrice bande dont la largeur de bande est nb, les matrices L et U n’ont pas en generalcete propriete. La complexite et le cout memoire de la methode de Gauss avec pivotage partieldeviennent alors largement superieurs a ceux de la factorisation LU .

Remarque 5.10 La methode du pivot total consiste a echanger non seulement les lignes maisaussi les colonnes de maniere a choisir comme pivot le plus grand coefficient en module du bloccarre restant a factoriser. Cette methode conduit a l’existence de deux matrices de permutationsP et Q telles que PAQ = LU .

Influence du pivotage sur la precision Le pivotage partiel ne sert pas seulement a garantirl’obtention d’une factorisation, il garantit aussi une bien meilleure stabilite que la factorisationLU, pour des matrices A mal conditionnees : prenons le systeme Ax = b ou

A =

(10−9 1

1 1

)et b =

(12

)

dont la solution est x = ( 11−10−9 ,

1−2 10−9

1−10−9 )T ∼ (1, 1)T . Supposons que la machine utilisee pourresoudre ce systeme ne garde que 8 chiffres significatifs : la factorisation LU calculee par lamachine est

U =

(10−9 1

0 −109

)et L =

(1 0

109 1

)

En utilisant cette factorisation, la machine retourne x = (0, 1)T !Si on utilise le pivotage partiel, on obtient :

U =

(1 10 1

)et L =

(1 0

10−9 1

)

La machine retourne x = (1, 1)T .

Page 97: Algebre Lineaire Et Analyse Numerique Matricielle

5.4. FACTORISATIONS QR 97

5.4 Factorisations QR

5.4.1 Les reflexions de Householder

Definition 5.5 Soit v un vecteur non nul de Cn. On appelle reflexion de Householder ou matricede Householder relative au vecteur v la matrice

Hv = I − 2vv∗

v∗v. (5.2)

Les reflexions de Householder ont les proprietes suivantes :

1. Hv est une matrice hermitienne.

2. Hv est une matrice unitaire.

3. Hv − I est une matrice de rang un.

4. Hλv = Hv, pour tout λ 6= 0.

Proposition 5.2 Soit e un vecteur unitaire de Cn et x un vecteur non nul de Cn. Il existe unvecteur non nul v ∈ Cn tel que Hvx soit colineaire a e.

Demonstration. On cherche v sous la forme v = x+ λe. Dans le cas reel, (x ∈ Rn et e ∈ Rn),les vecteurs v = x±‖x‖2e ( au moins l’un des deux est non nul) sont les seuls vecteurs de cetteforme ayant la propriete demandee et on a Hvx = ∓‖x‖2e. Dans le cas general, on trouve aussideux vecteurs v sous cette forme, et au moins l’un d’entre eux est non nul.

Remarque 5.11 Si x est presque colineaire a e, on a interet en pratique a choisir le vecteur vpour que v∗v, qui est au denominateur de (5.2), ne soit pas petit. En effet, en precision finie, ilfaut eviter les divisions par des nombres petits. En particulier si v ∈ Rn, on preferera le vecteurv+ = x+ signe(x∗e)‖x‖2e au vecteur v− = x− signe(x∗e)‖x‖2e, car ‖v−‖2 est petit.

5.4.2 Factorisations QR a l’aide des reflexions de Householder

Theoreme 5.5 Soit A une matrice de Mm,n(C) avec m ≥ n. Il existe une matrice unitaireQ ∈ Mm,m(C)et une matrice triangulaire superieure R ∈ Mm,n(C), telles que

A = QR.

Demonstration. On demontre ce resultat par recurrence : supposons qu’a l’aide de deuxreflexions de Householder H1 et H2, on ait obtenu

H2H1A =

∗ ∗ ∗ . . . ∗0 ∗ ∗ . . . ∗0 0 ∗ . . . ∗...

... ∗ . . . ∗0 0 ∗ . . . ∗

On appelle x le vecteur de Cm−2 obtenu en prenant les m−2 derniers coefficients de la troisiemecolonne de H2H1A. Si x est non nul, on sait trouver v3 ∈ Cm−2, tel que

Hv3 x soit colineaire a

10...0

Page 98: Algebre Lineaire Et Analyse Numerique Matricielle

98 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

On prend alors H3

H3 =

(I2 00 Hv3

).

Si x = 0 on prend H3 = I. Dans les deux cas H3 est hermitienne et unitaire. On a

H3H2H1A =

∗ ∗ ∗ . . . ∗0 ∗ ∗ . . . ∗0 0 ∗ . . . ∗0 0 0 ∗ . . . ∗...

...... ∗ . . . ∗

0 0 0 ∗ . . . ∗

Comme m ≥ n, on peut iterer ce procede et construire n matrices Hi hermitiennes et unitaires,telles que Hn . . . H1A soit une matrice triangulaire superieure R. On note Q la matrice unitaire(mais pas forcement hermitienne) Q = H1 . . . Hn, on a

A = QR.

Les elements fondamentaux de l’algorithme de la factorisation QR a l’aide de reflexions deHouseholder sont

1. Le choix des vecteurs vi, de maniere a ce que ‖vi‖ ne soit pas petit, cf. Remarque 5.11.

2. Le produit a gauche d’une matrice M par la matrice Hm : HmM , doit etre programmeintelligemment : on ne doit surtout pas stocker la matriceHm. Il suffit de garder en memoirele vecteur vm, et d’operer les reflexions de Householder a chaque colonne de M .

3. On ne calcule donc pas Q en general, mais on garde en memoire les vecteurs v1, . . . , vn.

4. On peut ecraser la matrice A que l’on factorise en stockant les vecteurs vi dans la partietriangulaire inferieure stricte, et la matrice R dans la partie triangulaire superieure acondition de normaliser les vecteurs vi de maniere a ce que leur premier coefficient soit 1 :ainsi on n’a pas besoin de stocker le premier coefficient des vecteurs vi.

5. Si la matrice A est reelle, alors la matrice Q l’est aussi.

La factorisation QR a de nombreuses proprietes interessantes :

1. Resoudre le systeme Qy = b est facile car

Q−1 = Q∗ = Hn . . . H1.

La complexite de la resolution du systeme Qy = b est donc 3∑n

i (m − i) adds+mults. Sim = n, la complexite est de l’ordre de 3

2n2. Si la matrice A est carree d’ordre n inversible,

pour resoudre Ax = b, on resout d’abord Qy = b comme ci-dessus, puis Rx = y par uneremontee. La complexite totale est de l’ordre de 2n2.

2. Si A ∈ Mn(C) est inversible, alors

cond2(A) = cond2(R),

car Q est unitaire.

Page 99: Algebre Lineaire Et Analyse Numerique Matricielle

5.4. FACTORISATIONS QR 99

3. la methode de Householder permet de calculer |det(A)|. En effet,

|det(R)| = |produit des coefficients diagonaux de R| = |det(A)|.

4. Si A ∈ Mm,n(C), m ≥ n, est factorisee sous la forme A = QR, alors resoudre une systemede la forme A∗Ax = b est facile si rang(A)= n, car A∗A = R∗R et rang(R) = n, et onpeut resoudre A∗Ax = b par une descente(de R∗)-remontee (de R). La factorisation QRd’une matrice se prete donc bien aux problemes de moindres carres (voir §6).

Theoreme 5.6 Soit A ∈ Mm(C). On peut trouver une factorisation QR telle que tous lescoefficients diagonaux de R sont reels positifs. Si A est inversible, cette factorisation est unique.

Demonstration. On part de la factorisation QR de A obtenue par la methode de Householderci dessus : A = Q′R′ ou la matrice Q′ est unitaire et R′ est triangulaire superieure. Appelons Dla matrice diagonale D = diag(d1, . . . dm) ou

di =

ri i

|ri i| si ri i 6= 0,

1 si ri i = 0,

La matrice D est clairement unitaire. Posons Q = Q′D−1 et R = DR′. Ces matrices ont lesproprietes desirees.Supposons que A soit inversible et soient deux factorisation QR de A,

A = Q1R1 = Q2R2

telles que tous les coefficients diagonaux de R1 et R2 sont reels positifs. Ils sont strictementpositifs car A est inversible. On a alors Q∗

2Q1 = R2R−11 . Mais Q∗

2Q1 est unitaire tandis queR2R−11

est triangulaire superieure avec des coefficients diagonaux reels positifs strictement. On peutverifier que l’Identite est la seule matrice unitaire et triangulaire superieure avec des coefficientsdiagonaux reels positifs. Donc Q2 = Q1 et R2 = R1.

5.4.3 Algorithme de factorisation QR avec des symetries de Householder

Recherche du Vecteur pour la Reflexion de Householder

// householder reflexion : find Householder vector

//normalized so that v(1)=1

function [v]= householder_vector(x)

delta=1;

if (x(1)<0) then

delta=-1;

end;

v=x;

beta=v(1)+delta* sqrt(x’*x);

v=v/beta;

v(1)=1;

Page 100: Algebre Lineaire Et Analyse Numerique Matricielle

100 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

Reflexion de Householder

// performs Householder reflexion of vector v on a vector x

function [y]= householder_reflexion(v,x)

beta=2*(v’*x)/(v’*v);

y=x-beta*v;

Factorisation QR

//performs QR factorisation of a matrix

//the R part is stored in the upper part of A

//the Q part (normalized so that the upper line is one)

//is stored in the strict lower part of A

function[A]=QRfactorization(A)

[m,n]=size(A);

for i=1:n,

v=householder_vector(A(i:m,i))

delta=2/(v’*v);

A(i,i)=A(i,i)-delta* (v’* A(i:m,i));

for j=i+1:n,

c=v’*A(i:m,j);

A(i:m,j)=A(i:m,j)-c*delta*v;

end ;

if (i<m) then

A(i+1:m,i)=v(2:m-i+1);

end ;

end;

Resolution du systeme

function [y]=up_sweep(A,x) //solves Ry=x

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

else

y=x;

y(n)=y(n)/A(n,n);

for i=n-1:-1:1,

y(i)=(y(i)-A(i,i+1:n)*y(i+1:n))/A(i,i);

end;

end;

//assumes A contains a QR-factorization of A

function [y]=SolveQR(A,x)

[m,n]=size(A);

if (m~=n) then

print(%io(2), "error, not a square matrix");

Page 101: Algebre Lineaire Et Analyse Numerique Matricielle

5.5. PROBLEMES AUX MOINDRES CARRES 101

else

y=x;

for i=1:n-1,

y(i:n)= householder_reflexion( [1;A(i+1:n,i)] , y(i:n));

end ;

y(n)=-y(n);

y=up_sweep(A,y);

// print(%io(2), y);

end;

5.4.4 Les rotations de Givens

Les reflexions de Householder sont tres utiles quand il s’agit d’annuler tous les coefficientsd’une colonne sous la diagonale. En revanche, pour annuler selectivement certains coefficients (sila matrice a deja beaucoup de coefficients nuls par exemple), les rotations de Givens constituentun outil important.Soit A une matrice de Mn(R) : il existe deux reels c = cos(θ) et s = sin(θ) tels que si

Q =

i j

1 0 . . . . . . . . . . . . . . . . . . . . . . . . 0

0. . .

. . ....

.... . . 1 0 . . . . . . . . . . . . . . . . . . 0

... 0 c 0 . . . 0 s 0 . . . 0

...... 0 1 0 . . . 0

......

......

.... . .

. . .. . .

......

......

... 0 . . . 0 1 0...

......

... −s 0 . . . 0 c 0...

...... 0 . . . . . . . . . 0 1

. . ....

......

......

. . .. . . 0

0 . . . 0 0 . . . . . . . . . 0 . . . 0 1

i

j

alors les lignes de QA d’indices differents de i et j sont identiques a celles de A, et (QA)j,i = 0.On definit θ ∈] − π

2 ,π2 [ tel tan(θ) = t =

aj,i

ai,iet c = cos(θ) = 1√

t2+1et s = sin(θ) = t√

t2+1. On a

−sai,i + caj,i = 0.

5.5 Problemes aux moindres carres

On va travailler avec des systemes reels mais toute la suite serait valable avec des systemesdans Cn, a condition de changer AT en A∗.On considere le probleme de trouver x ∈ Rn tel que Ax = b ou A ∈ Mm,n(R) et ou b ∈ Rm,avec m ≥ n. Il y a plus d’equations que d’inconnues, on dit que le systeme est sur-determine.Un systeme sur-determine n’a generalement pas de solution, sauf si b ∈ Im(A).L’idee est alors de chercher a minimiser ‖Ax− b‖ plutot que de chercher a resoudre exactementle systeme. La solution du probleme si elle existe depend de la norme choisie. La methode des

Page 102: Algebre Lineaire Et Analyse Numerique Matricielle

102 CHAPITRE 5. METHODES DIRECTES POUR LES SYSTEMES LINEAIRES

moindres carres consiste a minimiser ‖Ax − b‖2 ou ‖f‖22 =

∑mi=1 f

2i . On choisit cette norme

car la fonction J(x) = ‖Ax − b‖22 est convexe et differentiable dans Rn, et son gradient est

gradJ(x) = 2(ATAx − AT b). On verra que minimiser J revient a resoudre le systeme lineaireATAx = AT b, qui a toujours une solution, et dont la solution est unique si rang(A) = n.

Lemme 5.4 Soit A ∈ Mm,n(R) avec m ≥ n : le probleme de trouver x ∈ Rn minimisant lafonction J : Rn → R, J(y) = ‖Ay − b‖2

2 a au moins une solution. Le probleme de trouverx ∈ Rn minimisant J est equivalent a trouver x tel que

ATAx−AT b = 0. (5.3)

L’equation (5.3) est appelee equation normale.

Demonstration. Le probleme de minimiser J revient a trouver z ∈ Im(A) minimisant ladistance ‖z − b‖2. On sait que Im(A)⊥ = ker(AT ), et donc que Im(A) ⊕ ker(AT ) = Rn. Prendrepour z la projection de b sur Im(A) parallelement a ker(AT ) repond donc a la question, et apreson prend x tel que Ax = z (qui existe car z ∈ Im(A) mais qui n’est pas unique si ker(A) 6= 0).On a donc trouve x solution du probleme au sens des moindres carres.La fonction J est differentiable sur Rn et son gradient vaut

grad(J)(x) = 2(ATAx−AT b).

En effet, on verifie facilement que

J(x+ y) − J(x) = 2yT (ATAx−AT b) + ‖Ay‖22. (5.4)

Si x minimise J , on a grad(J)(x) = 0 et x verifie (5.3). Reciproquement, si x verifie (5.3), onvoit d’apres (5.4) que J(x+ y) − J(x) = ‖Ay‖2

2 ≥ 0, ∀y ∈ Rn, ce qui montre qye x minimise J .

Proposition 5.3 Si rang(A) = n, le probleme aux moindres carres a une solution unique x =(ATA)−1AT b. Sinon, les solutions du probleme aux moindres carres forment un espace affineparallele a ker(A).

Demonstration. On a

y ∈ ker(ATA) ⇒ ATAy = 0 ⇒ yTATAy = 0 ⇔ ‖Ay‖2 = 0 ⇔ y ∈ ker(A)

et ker(A) ⊂ ker(ATA). Donc ker(A) = ker(ATA).Si rang(A) = n, ker(A) = 0 et l’equation normale (5.3) a une solution unique x = (ATA)−1AT bet il en va de meme pour le probleme aux moindres carres par le Lemme 5.4. Sinon, les solutionsde (5.3) forment un espace affine.

On peut trouver une matrice orthogonale Q ∈ Mm(R) et une matrice triangulaire superieureR ∈ Mm,n(R) telles que A = QR. Le systeme ATAx = AT b est equivalent a RTRx = RTQT b,qui est facile a resoudre (une descente et une remontee), si rang(R) = n. De plus cond2(R

TR) =cond2(A

TA).

Remarque 5.12 Il n’est pas recommande d’utiliser une methode des moindres carres pourresoudre un systeme carre car cond2(A

TA) = (cond2(A))2 (exercice, le verifier), et on a vuqu’il fallait eviter les grands nombres de conditionnement pour des raisons de precision.

Exercice. Trouver la droite du plan la plus proche au sens des moindres carres des points (0, 1)(1, 0) (2, 3).

Page 103: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 6

Methodes Iteratives Stationnairespour resoudre des systemes lineaires

Pour des systemes lineaires de grande taille, les methodes directes (du type elimination deGauss ou Cholesky), peuvent s’averer trop couteuses en temps de calcul ou en place memoire.L’idee est alors de ne plus chercher a resoudre exactement le systeme lineaire mais d’approchersa solution par une suite de vecteurs, construite a l’aide d’une formule de recurrence simple.

6.1 Principe et resultats generaux

6.1.1 Principe general

Soit un systeme lineaireAx = b, (6.1)

ou A ∈ Md(C) est inversible, x, b ∈ Cd. Le principe des methodes iteratives presentees ici estd’ecrire A comme la difference de deux matrices :

A = M −N, (6.2)

ou

1. M est inversible

2. le systeme lineaire My = c peut etre resolu simplement, avec un cout de calcul faible :typiquementM sera diagonale ou triangulaire, mais on verra aussi le cas ouM est diagonaleou triangulaire par blocs.

On va alors approcher la solution de (6.1) par la suite (x(n)) definie par recurrence a partir dex(0) qu’on choisit, et de la formule

x(n+1) = M−1(b+Nx(n)) (6.3)

Remarque 6.1 On n’a pas besoin de calculer M−1, mais juste de savoir calculer la solution deMx(n+1) = b+Nx(n).

Observation 6.1 Si la suite converge vers y alors y = x. En effet, si la suite converge, on aa la limite, My = b + Ny ou de maniere equivalente Ay = b. Comme la solution de (6.1) estunique, x = y.

103

Page 104: Algebre Lineaire Et Analyse Numerique Matricielle

104 CHAPITRE 6. METHODES ITERATIVES STATIONNAIRES

Considerons l’erreur a l’etape n,

e(n) = x− x(n).

On a

Mx(n+1) = b+Nx(n)

Mx = b+Nx

⇒ e(n+1) = M−1Ne(n) ⇒ e(n+1) = (M−1N)n+1e(0)

On appelle M−1N la matrice d’iteration de la methode. On a demontre le resultat

Proposition 6.1 La suite donnee par x(0) et (6.3) converge vers x pour tout choix de x(0) si etseulement si la matrice d’iteration verifie

ρ(M−1N) < 1. (6.4)

Demonstration. La suite donnee par x(0) et (6.3) converge vers x pour tout choix de x(0) siet seulement si (M−1N)ne(0) → 0 pour tout e(0), ce qui equivaut a dire que (M−1N)n → 0.D’apres le Theoreme 4.1, ceci a lieu si et seulement si ρ(M−1N) < 1.

6.1.2 Une condition suffisante dans le cas ou A est hermitienne, definie po-sitive

Theoreme 6.1 Soit A une matrice hermitienne, definie positive, et M,N deux matrices tellesque A = M −N , M soit inversible et M∗ +N soit elle aussi hermitienne definie positive. Alorsρ(M−1N) < 1.

Demonstration. Comme A est symetrique definie positive, on peut considerer la norme vecto-rielle definie par

‖v‖2A = v∗Av,

et la norme matricielle subordonnee encore notee ‖.‖A. On a pour tout vecteur v,

‖M−1Nv‖2A = v∗(M −A)∗(M∗)−1AM−1(M −A)v

= v∗Av + v∗A∗(M∗)−1AM−1Av − v∗AM−1Av − v∗A∗(M∗)−1Av

Montrons que v∗A∗(M∗)−1AM−1Av − v∗AM−1Av − v∗A∗(M∗)−1Av < 0 si v 6= 0. En effet

v∗A∗(M∗)−1AM−1Av − v∗AM−1Av − v∗A∗(M∗)−1Av= v∗A∗(M∗)−1AM−1Av − v∗A∗(M∗)−1MM−1Av − v∗A∗(M∗)−1M∗M−1Av= v∗A∗(M∗)−1(A−M −M∗)M−1Av= −v∗A∗(M∗)−1(M∗ +N)M−1Av

qui est strictement negatif des que M−1Av 6= 0 → v 6= 0, car (M∗ + N) est symetrique definiepositive et A et M sont inversibles. Donc si v 6= 0, ‖M−1Nv‖A < ‖v‖A. On en deduit que‖M−1N‖A < 1, ce qui acheve la demonstration.

Page 105: Algebre Lineaire Et Analyse Numerique Matricielle

6.2. LA METHODE DE JACOBI 105

6.2 La methode de Jacobi

On considere une matrice inversible A dont la diagonale D est inversible. La methode deJacobi consiste a choisir M = D et N = D − A. La matrice d’iteration LJ de la methode deJacobi s’ecrit LJ = I −D−1A. On a les resultats suivants

Proposition 6.2 Si A est a diagonale strictement dominante, i.e.

∀i, |aii| >∑

j 6=i

|aij|.

alors ρ(LJ) < 1, et la methode de Jacobi converge pour tout choix de x(0).

Demonstration. Si A est a diagonale strictement dominante, on a ‖M−1N‖∞ = ‖D−1(D −A)‖∞ < 1.

Proposition 6.3 Si A et 2D − A sont hermitiennes definies positives, alors ρ(LJ) < 1 et lamethode de Jacobi converge pour tout choix de x(0).

Demonstration. Si A est hermitienne definie positive, alors D l’est aussi, et on peut utiliser lamethode de Jacobi. De plus, M +N = 2D − A est aussi hermitienne definie positive. On peutappliquer le Theoreme 6.1.

Algorithme La ieme coordonnee de x(n+1) est donnee par

x(n+1)i =

bi −∑

j 6=i ai jx(n)j

ai i.

Voici la boucle de la methode de Jacobi : le test d’arret est ici du type ‖x(n+1) −x(n)‖ ≤ ǫ, maisd’autres tests sont evidemment possibles.

while( err>eps)

w=x;

x=b;

for(int i=0; i<x.size();i++)

for(int j=0; j<i;j++)

x(i)-=a(i,j)*w(j);

for(int j=i+1; j<x.size();j++)

x(i)-=a(i,j)*w(j);

x(i)=x(i)/a(i,i);

e=w-x;

err=norm(e);

Remarque 6.2 Remarquons que l’algorithme ci-dessus peut etre aisement parallelise : si ondispose d’une machine parallele (comportant P processeurs (P > 1)), on peut facilement repartirle calcul sur les P processeurs : le k eme processeur mettant a jour les coordonnees d’indices

Page 106: Algebre Lineaire Et Analyse Numerique Matricielle

106 CHAPITRE 6. METHODES ITERATIVES STATIONNAIRES

d(k−1)P

, . . . , dkP

− 1, et les processeurs travaillant en meme temps. Si la memoire est de plusdistribuee, il faut ensuite que les processeurs communiquent leur donnees actualisees aux autresprocesseurs : cette etape de transmission de l’information prend evidemment du temps, mais cetemps est souvent petit par rapport au temps de calcul.

Quand la matrice admet une decomposition par bloc :

A =

A11 . . . A1P

......

Ai1 . . . AiP

......

AP1 . . . APP

ou les blocs diagonaux Aii sont des matrices carrees (les blocs non diagonaux ne doivent pasnecessairement l’etre), et si les blocs diagonaux sont tous inversibles, une methode dite de Jacobipar blocs consiste a prendre D = Block − Diag(A11, . . . , APP ). Elle necessite de savoir resoudreles systemes avec les blocs Aii avec une complexite algorithmique raisonnable :Exemple Si on considere la discretisation du probleme de Poisson dans un carre unite

−∆u = f dans Ωu = 0 sur ∂Ω

par differences finies sur une grille uniforme de pas h = 1N+1 , on obtient apres numerotation

lexicographique des inconnues le systeme lineaire

Ax = b

ou A est une matrice de MN2(R) tridiagonale par blocs, les blocs etant tous des matrices deMN (R), et

Aii = D = (N +1)2

4 −1 0 . . . . . . . . . 0

−1. . .

. . .. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . .. . .

......

. . .. . .

. . .. . . 0

.... . .

. . .. . . −1

0 . . . . . . . . . 0 −1 4

Ai,i+1 = Ai+1,i = −(N +1)2IN

(6.5)Il est facile de calculer la factorisation de Cholesky des blocs diagonaux de A Aii = LLT , caron sait que L n’a que deux diagonales non nulles. On peut donc resoudre les systemes avec lesblocs Aii avec une complexite arithmetique de l’ordre de 2N pour chaque blocs ; la methode deJacobi par blocs s’ecrit, en designant par xi (respectivement wi) le vecteur de RN contenant lescoordonnees d’indices (i− 1)N, . . . , iN − 1 de x (resp.w).

while( err>eps)

w=x;

Page 107: Algebre Lineaire Et Analyse Numerique Matricielle

6.3. LA METHODE DE GAUSS-SEIDEL 107

x=b;

for(int i=0; i<N-1;i++)

x(i)+=(N+1)^2 * w(i+1);

for(int i=1; i<N;i++)

x(i)+=(N+1)^2 * w(i-1);

for(int i=0; i<N;i++)

solve (D,x(i)); //r\’esout le syst\‘eme D y=x(i)

// et range la solution dans x(i)

e=w-x;

err=norm(e);

6.3 La methode de Gauss-Seidel

On considere une matrice inversible A dont la diagonaleD est inversible. On note A = D−E−F , ou −E (respectivement −F ) est la partie triangulaire inferieure strictement (respectivementsuperieure) de A. La methode de Gauss-Seidel consiste a choisir M = D − E et N = F . Lamatrice d’iteration LGS de la methode de Gauss-Seidel s’ecrit LGS = I − (D−E)−1A. On a lesresultats suivants :

Proposition 6.4 Si A est a diagonale strictement dominante, alors ρ(LGS) < 1 et la methodede Gauss-Seidel converge pour tout choix de x(0).

Demonstration. On s’interesse a la solution de My = Nx pour x donne : on a

ai iyi =∑

j<i

ai jxj +∑

j>i

ai jyj .

On considere i0 tel que |yi0| = ‖y‖∞ : on a

|ai0 i0 ||yi0 | ≤∑

j<i0

|ai0 j|‖y‖∞ +∑

j>i0

|ai0 j|‖x‖∞.

Si A est a diagonale strictement dominante,

|ai0 i0| −∑

j<i0

|ai0 j | >∑

j>i0

|ai0 j |,

donc

supx 6= 0My = Nx

‖y‖∞‖x‖∞

< 1,

ce qui veut dire que ‖M−1N‖∞ < 1.

Proposition 6.5 Si A est hermitienne definie positive, alors ρ(LGS) < 1 et la methode deGauss-Seidel converge pour tout choix de x(0).

Demonstration. Si A est hermitienne definie positive, alors D l’est aussi, et E = F ∗.DoncM∗ + N = D − E∗ + F = D est hermitienne definie positive. On peut appliquer le Theoreme

Page 108: Algebre Lineaire Et Analyse Numerique Matricielle

108 CHAPITRE 6. METHODES ITERATIVES STATIONNAIRES

6.1.

Algorithme La ieme coordonnee de x(n+1) est donnee par

x(n+1)i =

bi −∑

j<i ai jx(n+1)j −∑j>i ai jx

(n)j

ai i

Dans la methode de Gauss-Seidel, des que la ieme coordonnee de x(n+1) est calculee, la iemecoordonnee de x(n) devient inutile : on peut ecraser la ieme coordonnee de x(n) et la remplacerpar la ieme coordonnee de x(n+1) des que celle ci est calculee.Voici la boucle de la methode de Gauss Seidel : le test d’arret est encore du type ‖x(n+1)−x(n)‖ ≤ǫ.

while( err<eps)

e=x;

for(int i=0; i<x.size();i++)

x(i)=b(i);

for(int j=0; j<i;j++)

x(i)-=a(i,j)*x(j);

for(int j=i+1; j<x.size();j++)

x(i)-=a(i,j)*x(j);

x(i)=x(i)/a(i,i);

e=e-x;

err=norm(e);

Remarque 6.3 La methode de Gauss-Seidel necessite de calculer x(n+1)k avant de calculer

x(n+1)k+1 . Pour cette raison, il est beaucoup moins facile de paralleliser la methode de Gauss-Seidel

que la methode de Jacobi.

Remarque 6.4 Comme pour la methode de Jacobi, on peut generaliser la methode de Gauss-Seidel a une matrice par blocs, dont les blocs diagonaux sont tous carres et inversibles.

Exercice. Proposer un programme pour resoudre le systeme de l’exemple ci dessus par unemethode de Gauss Seidel par blocs.

6.4 Methodes SOR (successive over relaxation)

La methode de Gauss-Seidel est tres facile a programmer mais sa convergence peut etre treslente pour certains systemes : on la modifie en introduisant un parametre ω 6= 0 dit parametrede relaxation et en choisissant M = 1

ωD−E et N = F + (1− 1

ω)D. La matrice M est inversible

si la diagonale D est inversible. Pour ω = 1, on retrouve la methode de Gauss-Seidel. Pour ω < 1on parle de sous-relaxation. Pour ω > 1 on parle de sur-relaxation. Un calcul facile montre quela matrice d’iteration de cette methode est

Lω = (I − ωD−1E)−1((1 − ω)I + ωD−1F ). (6.6)

Page 109: Algebre Lineaire Et Analyse Numerique Matricielle

6.4. METHODES SOR (SUCCESSIVE OVER RELAXATION) 109

Proposition 6.6 Si A est a diagonale strictement dominante, la methode de relaxation avecparametre ω converge pour tout x(0) si

0 < ω ≤ 1. (6.7)

Demonstration. On prend 0 < ω ≤ 1, et on s’interesse a la solution de My = Nx pour xdonne : on a

ai iyi = ω∑

j<i

ai jyj + ω∑

j>i

ai jxj + (1 − ω)ai ixi

On considere i0 tel que |yi0| = ‖y‖∞ : on a

|ai0 i0 ||yi0 | ≤ ω(∑

j<i0

|ai0 j |‖y‖∞ +∑

j>i0

|ai0 j |‖x‖∞) + (1 − ω)|ai0 i0 ||xi0 |.

Si A est a diagonale strictement dominante,

|ai0 i0| −∑

j<i0

|ai0 j | >∑

j>i0

|ai0 j |,

donc

(1 − ω)|ai0 i0 | + ω(|ai0 i0 | −

j<i0

|ai0 j |)

|yi0| ≤

(1 − ω)|ai0 i0 | + ω

j>i0

|ai0 j |

‖x‖∞

ce qui implique

supx 6= 0My = Nx

‖y‖∞‖x‖∞

< 1,

ce qui veut dire que ‖M−1N‖∞ < 1.

Proposition 6.7 Si A est hermitienne definie positive, la methode de relaxation avec parametreω converge pour tout x0 si

0 < ω < 2. (6.8)

Demonstration. Si A est hermitienne definie positive, alors D l’est aussi, et E = F ∗. DoncM∗ +N = ( 2

ω− 1)D − E∗ + F = ( 2

ω− 1)D est hermitienne definie positive des que 0 < ω < 2.

On peut appliquer le Theoreme 6.1.

Remarque 6.5 On peut aussi relaxer la methode de Jacobi en prenant M = 1ωD et N =

1ωD − A. Si A est hermitienne definie positive, sous quelles conditions sur ω M∗ + N est elle

definie positive ?

Theoreme 6.2 Si 0 ≤ ω ou si ω ≥ 2, La methode SOR ne converge pas vers la solution xpour tout choix initial x(0). Si les inegalites sont strictes, on peut trouver des x(0) pour lesquelslimn→∞ ‖x(n)‖ = +∞.

Page 110: Algebre Lineaire Et Analyse Numerique Matricielle

110 CHAPITRE 6. METHODES ITERATIVES STATIONNAIRES

Demonstration. D’apres (6.6), le determinant de Lω est (1 − ω)d. Mais

|ρ(Lω)| < 1 ⇒ |det(Lω)| < 1

car le determinant est le produit des valeurs propres. Donc,

ω ≥ 2 ou ω ≤ 0 ⇒ |(1 − ω)d| ≥ 1 ⇒ ρ(Lω)| ≥ 1

implique que la methode SOR ne converge pas vers la solution pour tout choix initial.

Remarque 6.6 La proposition 6.7 donne donc en fait une condition necessaire et suffisantepour que la methode SOR converge pour tout choix de x(0).

AlgorithmeVoici la boucle de la methode SOR

while( err<eps)

e=x;

for(int i=0; i<x.size();i++)

x(i)=b(i)-(1-1/omega)*a(i,i)*x(i);

for(int j=0; j<i;j++)

x(i)-=a(i,j)*x(j);

for(int j=i+1; j<x.size();j++)

x(i)-=a(i,j)*x(j);

x(i)=omega*x(i)/a(i,i);

e=e-x;

err=norm(e);

6.5 Comparaisons des methodes pour des matrices tridiagonales

Theoreme 6.3 Si A est tridiagonale, on a

ρ(LGS) = ρ(LJ)2 (6.9)

Demonstration. Soit A une matrice de Md(C) tridiagonale :

A =

a1 b1 0 . . . . . . 0

c1 a2 b2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . cd−2 ad−1 bd−1

0 . . . . . . 0 cd−1 ad

(6.10)

Page 111: Algebre Lineaire Et Analyse Numerique Matricielle

6.5. COMPARAISONS DES METHODES POUR DES MATRICES TRIDIAGONALES 111

Le nombre complexe λ est valeur propre de LJ si et seulement si det(D−1(D−A)− λI) = 0 ouencore si det((1 − λ)D −A) = 0, c’est a dire

det

λa1 b1 0 . . . . . . 0

c1 λa2 b2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . cd−2 λad−1 bd−1

0 . . . . . . 0 cd−1 λad

= 0 (6.11)

D’autre part µ est valeur propre de LGS si et seulement si det((D−E)−1(D−E−A)−µI) = 0ou encore si det((1 − µ)(D − E) −A) = 0, c’est a dire

det

µa1 b1 0 . . . . . . 0

µc1 µa2 b2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . µcd−2 µad−1 bd−1

0 . . . . . . 0 µcd−1 µad

= 0 (6.12)

Supposons λ 6= 0, (6.11) est equivalente a

det

Diag(λ, λ2, . . . , λd)

λa1 b1 0 . . . . . . 0

c1 λa2 b2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . cd−2 λad−1 bd−1

0 . . . . . . 0 cd−1 λad

Diag(λ−1, λ−2, . . . , λ−d)

= 0

(6.13)Ce produit de trois matrices vaut :

λ−1

λ2a1 b1 0 . . . . . . 0

λ2c1 λ2a2 b2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . λ2cd−2 λ2ad−1 bd−1

0 . . . . . . 0 λ2cd−1 λ2ad

ce qui veut dire d’apres (6.12) que λ2 est valeur propre de EGS . Donc si λ 6= 0, λ est valeurpropre de EJ si et seulement si λ2 est valeur propre de EGS, ce qui montre (6.9).

On a enfin un theoreme plus precis dans le cas ou A est de plus definie positive :

Page 112: Algebre Lineaire Et Analyse Numerique Matricielle

112 CHAPITRE 6. METHODES ITERATIVES STATIONNAIRES

Theoreme 6.4 Si A est tridiagonale et hermitienne definie positive, les methodes de Jacobiet de Gauss-Seidel convergent, et la methode SOR converge si et seulement si 0 < ω < 2. Leparametre optimal est

ωopt =2

1 +√

1 − ρ2(LJ)> 1, (6.14)

et

ρ(Lωopt) =1

ωopt. (6.15)

Demonstration. voir [2].

6.6 Autres methodes

Faute de temps, nous ne traitons pas les methodes– de Gauss-Seidel symetrise– des directions alternees

qui rentrent pourtant exactement dans le cadre decrit ci-dessous. Elles sont decrites dans [5],[3].Les methodes semi iteratives de Chebyshev [3] permettent d’accelerer la convergence des methodesci-dessus. Nous ne les traitons pas non plus.Les methodes iteratives que nous venons de decrire sont l’un des ingredients des methodes mul-tigrilles, qui sont des methodes souvent optimales pour resoudre certains systemes lineaires issusde la simulation par elements finis ou differences finies d’equations aux derivees partielles, voir[1].

Page 113: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 7

Methodes de Descente pour desSystemes Lineaires

7.1 Principe des methodes de descente

7.1.1 Minimisation de fonctions quadratiques

Soit A ∈ Md(R) une matrice symetrique definie positive. Le but est de construire desmethodes iteratives pour resoudre un systeme lineaire

Ax = b, (7.1)

en lui associant un probleme de minimisation equivalent et en construisant une suite minimi-sante : on va travailler avec des matrices reelles symetriques et definies positives, mais on pourraittout generaliser au cas de matrices hermitiennes definies positives. Considerons la forme qua-dratique F sur Rd definie par

F (x) =1

2xTAx− xT b. (7.2)

La fonction F est continue et lim‖x‖→∞ F (x) = +∞. La fonction admet donc un minimum dans

Rd. La fonction F est de plus differentiable, et son gradient vaut

∀y ∈ Rn, DF (y) = Ay − b. (7.3)

Exercice Demontrer l’assertion precedente.Comme la solution de (7.1) est unique car A est inversible, le gradient de F ne s’annule qu’en

un seul point qui realise le minimum de F .Exercice Montrer que F est strictement convexe, c’est a dire que

F (αx+ (1 − α)y) − αF (x) − (1 − α)F (y) ≤ −1

2α(1 − α)λmin(A)

ou λmin(A) est la plus petite valeur propre de A.On voit donc que le probleme (7.1) est equivalent a la minimisation de F . L’idee va donc deconstruire des suites minimisantes de F pour approcher la solution de (7.1).

7.1.2 Methodes de descente

Une methode de descente consiste a construire une suite minimisante sous la forme

xn+1 = xn + αnpn, (7.4)

113

Page 114: Algebre Lineaire Et Analyse Numerique Matricielle

114 CHAPITRE 7. METHODES DE DESCENTE

ou pn ∈ Rd, pn 6= 0 et ou le scalaire αn est choisi pour que F (xn+1) < F (xn). La convergencede la methode depend bien sur des choix des pn et αn.

Definition 7.1 L’erreur a l’etape n est le vecteur

en = x− xn. (7.5)

On appelle residu a l’etape n le vecteur

rn = b−Axn = Aen. (7.6)

Remarque 7.1 Le residu a la nieme etape verifie rn = −DF (xn).

7.1.3 Choix optimal de αn pour pn fixe

Supposons choisie la direction pn : on peut choisir αn de maniere a minimiser la fonction φde R+ dans R donnee par

φ(t) = F (xn + tpn).

Cette fonction admet un minimum unique pour

αopt =rTn pn

pTnApn

, (7.7)

et on a

xn+1 = xn +rTn pn

pTnApn

pn

Proposition 7.1 Pour tout pn, et si on choisit αn = αopt, on a

rTn+1pn = 0. (7.8)

7.2 Methodes de gradient

7.2.1 Principe des methodes de gradient

L’idee des methodes de gradient va etre de choisir comme direction de descente le gradientde F en xn, ou (voir Remarque 7.1), de maniere equivalente, le residu rn :

xn+1 = xn − αnDF (xn)= xn + αnrn.

(7.9)

Pour tout x ∈ Rd, il existe un nombre reel αmax(x) > 0, tel que

ρ ∈]0, αmax(x)[⇔ F (x− ρDF (x)) < F (x).

Exercice Demontrer cette assertion.Le pas αn doit donc etre un reel positif choisi tel que F (xn+1) < F (xn).

Remarque 7.2 On peut generaliser ces methodes a des fonctions strictement convexes et differentiables.

Page 115: Algebre Lineaire Et Analyse Numerique Matricielle

7.2. METHODES DE GRADIENT 115

7.2.2 Interpretation geometrique en dimension deux

Soit A une matrice d’ordre deux symetrique et definie positive. On sait que A est diagona-lisable dans une base orthonormale. Quitte a changer les coordonnees on peut supposer que Aest diagonale et que b = 0 :

A =

(λ1 00 λ2

). (7.10)

La fonction F s’ecrit alors F (x) = λ1x21 + λ2x

22, et les lignes de niveaux de F : F (x) = r2 sont

les ellipses concentriquesλ1x

21 + λ2x

22 = r2. (7.11)

Le gradient de F au point x est orthogonal a l’ellipse d’equation (7.11) passant par x. La Figure7.1 donne un exemple des premiers iteres d’une methode de gradient.

x

xx

0

1

2

Fig. 7.1 – deux iteres d’une methode de gradient

7.2.3 Methodes du gradient a pas fixe

Si A est defini positif, on peut obtenir une methode convergente en fixant αn a une valeurbien choisie : la methode du gradient a pas fixe consiste a construire la suite recurrente

xn+1 = xn − α(Axn − b).

L’erreur verifieen+1 = (I − αA)en = (I − αA)n+1e0,

ce qui montre que la methode du gradient a pas fixe converge si et seulement si

ρ(I − αA) < 1

et on note τ(α) = ρ(I−αA) le rayon spectral de I−αA. On appelle τ(α) le taux de convergencede la methode. On a donc

Theoreme 7.1 Si A est symetrique definie positive, la methode du gradient a pas fixe convergevers la solution x de (7.1) si et seulement si

α <2

λmax(A). (7.12)

De plus la valeur de α minimisant le taux de convergence τ(α) est

αopt =2

λmin(A) + λmax(A).

Page 116: Algebre Lineaire Et Analyse Numerique Matricielle

116 CHAPITRE 7. METHODES DE DESCENTE

et le taux de convergence vaut alors

τopt =cond2(A) − 1

cond2(A) + 1

Demonstration. La matrice d’iterations (I−αA) est diagonalisable et ses valeurs propres sont1−αλ ou λ est valeur propre de A. La condition necessaire et suffisante s’obtient facilement enecrivant la condition ρ(I − αA) < 1.On a pour toute valeur propre λ de A,

1 − αλmax ≤ 1 − αλmax ≤ 1 − αλmin

Donc ρ(I−αA) = max(|1−αλmax(A)|, |1−αλmin(A)|). En tracant le graphe des deux fonctions

0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0

0

0.2

0.4

0.6

0.8

1.0

1.2

1.4

1.6

1.8

2.0

Fig. 7.2 – graphes des fonctions α→ |1 − αλmax(A)| et α→ |1 − αλmin(A)|

α→ |1 − αλmax(A)| et α→ |1 − αλmin(A)|, (voir Figure 7.2), on voit que

ρ(I − αA) =

1 − αλmin(A) pour α ≤ 2

λmin(A)+λmax(A) ,

αλmax(A) − 1 pour α ≥ 2λmin(A)+λmax(A) ,

On voit aussi que le minimum de ρ(I −αA) est atteint pour αopt = 2λmin(A)+λmax(A) et qu’il vaut

τopt =λmax(A) − λmin(A)

λmax(A) + λmin(A)=

cond2(A) − 1

cond2(A) + 1

Remarque 7.3 On voit donc que la methode du gradient a pas fixe converge d’autant pluslentement que le conditionnement de A est grand. En effet, avec le choix optimal pour ρ, il fautde l’ordre de

| log(ǫ)|| log( cond2(A)−1

cond2(A)+1 )|

iterations pour reduire l’erreur d’un facteur ǫ ; quand cond2(A) ≫ 1, le nombre d’ iterations estdonc de l’ordre de

| log(ǫ)|cond2(A)

2.

Page 117: Algebre Lineaire Et Analyse Numerique Matricielle

7.2. METHODES DE GRADIENT 117

7.2.4 Methode du gradient a pas optimal

Comme dans § 7.1.3, on peut construire

xn+1 = xn − αn(Axn − b),

en choisissant αn de maniere a minimiser la fonction φ de R+ dans R donnee par

φ(t) = F (xn − t(Axn − b)).

Cette fonction a un minimum unique pour

αopt =‖Axn − b‖2

2

‖Axn − b‖2A

=‖rn‖2

2

‖rn‖2A

, (7.13)

ou

‖y‖2A = yTAy.

Il est important de noter que dans la methode du gradient a pas optimal, d’apres (7.8), lesresidus successifs sont orthogonaux :

rTn+1rn = 0. (7.14)

Theoreme 7.2 Si A est symetrique et definie positive, la methode du gradient a pas optimalconverge vers la solution x de (7.1).

Demonstration. La suite des J(xn) est decroissante par construction, et bornee inferieurementpar J(x), donc converge. On en deduit que

J(xn+1) − J(xn) → 0,

ce qui implique que

−αn‖rn‖22 +

1

2α2

nrTnArn → 0,

et comme αn =‖rn‖2

2

rTn Arn

, on trouve finalement que

‖rn‖42

rTnArn

→ 0.

Comme A est definie positive, ceci implique que rn → 0. Toujours grace au caractere definipositif de A, on en deduit que en → 0.

Remarque 7.4 Cette demonstration se generalise a la methode du gradient a pas optimal ap-plique a la minimisation d’une fonction F fortement convexe et de gradient Lipchitzien.

Pour determiner la vitesse de convergence de la methode de gradient a pas optimal, on utilisel’inegalite de Kantorovitch

Page 118: Algebre Lineaire Et Analyse Numerique Matricielle

118 CHAPITRE 7. METHODES DE DESCENTE

Lemme 7.1 Soient d reels strictement positifs,

0 < ℓ1 < · · · < ℓi < · · · < ℓd

et d reels positifs βi tels que∑d

1 βi = 1. On note ℓ =∑d

1 βiℓi. On a

d∑

1

βi

ℓi≤ ℓ1 + ℓd − ℓ

ℓ1ℓd, (7.15)

et1

ℓ∑d

1βi

ℓi

≥ 4ℓ1ℓd(ℓ1 + ℓd)2

. (7.16)

Demonstration. Pour prouver (7.15), on doit montrer que

d∑

1

βi(1

ℓ i+

ℓiℓ1ℓd

) ≤ ℓ1 + ℓdℓ1ℓd

Pour cela, on voit que la fonction qui a x ∈ [ℓ1, ℓd] associe 1x

+ xℓ1ℓd

atteint son maximum en

x = ℓ1 et en x = ℓd et le maximum vaut 1ℓ1

+ 1ℓd

. On conclut en utilisant le fait que∑d

i=1 βi = 1.

Apres, (7.16) s’obtient facilement en cherchant le minimum de ℓ ℓ1+ℓd−ℓℓ1ℓd

sur l’intervalle [ℓ1, ℓd].

Proposition 7.2 (Kantorovitch) Soit A ∈ Md(R) symetrique definie positive dont les valeurspropres verifient 0 < λmin = λ1 < · · · < λi < · · · < λd = λmax. On a

infy 6=0

‖y‖42

(yTAy) (yTA−1y)=

4λminλmax

(λmin + λmax)2.

Demonstration. On note λ1 ≤ λ2 ≤ · · · ≤ λd les valeurs propres de A et (vi)1≤i≤d une base

orthonormale de vecteurs propres : Avi = λivi. Pour y ∈ Rd, on note βi = (yT vi)2

‖y‖22

:

d∑

i=1

βi = 1.

On a aussi

(Ay, y)

‖y‖22

=

d∑

i=1

βiλi et(A−1y, y)

‖y‖22

=

d∑

i=1

1

λiβi.

et on applique le lemme precedent, et on obtient

infy 6=0

‖y‖42

(yTAy) (yTA−1y)≥ 4λminλmax

(λmin + λmax)2.

Enfin, cet infimum est atteint par y = v1 + vd.

Theoreme 7.3 Pour la methode du gradient a pas optimal, on a l’estimation

‖en‖A ≤(

cond2(A) − 1

cond2(A) + 1

)n

‖e0‖A

Page 119: Algebre Lineaire Et Analyse Numerique Matricielle

7.3. LA METHODE DU GRADIENT CONJUGUE 119

Demonstration. On a αn =‖rn‖2

2

rTn Arn

, en+1 = en − ‖rn‖22

rTn Arn

rn, et rn+1 = rn − ‖rn‖22

rTn Arn

Arn. Donc

‖en+1‖2A = eTn+1Aen+1 = eTn+1rn+1

= eTnrn − ‖rn‖42

rTn Arn

= (1 − ‖rn‖42

(rTnArn)(rT

nA−1rn)

)eTnAen

≤ (λmax − λmin)2

(λmax + λmin)2eTnAen

=

(cond2(A) − 1

cond2(A) + 1

)2

‖en‖2A

Interpretation geometrique en dimension deux

On reprend la matrice A donnee par (7.10). D’apres (7.14), on peut construire graphiquementla suite des iteres, car le point xn+1 est a la fois sur la droite de direction rn passant par xn,et sur l’ellipse d’equation (7.11) tangentee par cette droite. La Figure 7.3 donne un exempledes premiers iteres d’une methode de gradient a pas optimal. Dire que la matrice A est mal

x

x

x

xx

0

1

2

3

4

Fig. 7.3 – methode de gradient a pas optimal

conditionnee, c’est dire que les lignes de niveaux de F sont des ellipses tres allongees, ou encorea fort rapport d’aspect. Dans ce cas, on voit que la suite des xn se rapproche de sa limite x enzigzaguant beaucoup, et on comprend que la convergence est lente.

7.3 La methode du Gradient Conjugue

Soit A ∈ Md(R) une matrice symetrique definie positive. Pour v ∈ Rd, on note ‖v‖2 la normeeuclidienne de v : ‖v‖2

2 = vT v et ‖v‖A la norme definie par

‖v‖2A = vTAv.

On veut resoudre le systeme

Au = b (7.17)

Page 120: Algebre Lineaire Et Analyse Numerique Matricielle

120 CHAPITRE 7. METHODES DE DESCENTE

par une methode de descente a pas optimal.On a vu precedemment que la methode du gradient a pas optimal conduit a des trajectoirestres oscillantes lorsque le conditionnement de la matrice est grand. Afin d’eviter ces phenomenesd’oscillations, l’idee est de chercher une methode a pas optimal ou la direction de descente n’estplus le gradient mais est construite en fonction des directions precedentes.On rappelle que resoudre (7.17) est equivalent a minimiser la fonction J(v) = 1

2vTAv, v − vT b,

et que le gradient de J en v est donne par

gradJ(v) = Av − b

On construit une suite minimisante pour J de la facon suivante :L’initialisation de la methode se fait en choisissant u0 et en prenant p−1 = 0.Connaissant uk et pk−1, k > 0, (on note le residu rk = b − Auk = −gradJ(uk)), on choisit enmeme temps la nouvelle direction de descente pk et le pas αk > 0. La direction de descente pk

est cherchee sous la forme

pk = −gradJ(uk) + βkpk−1 = rk + βkpk−1 (7.18)

On cherche βk et αk de maniere a minimiser la fonction

f(βk, αk) = J(uk+αkpk) = J(uk+αk(−gradJ(uk)+βkpk−1)) = J(uk+αk(rk+βkpk−1)). (7.19)

Soulignons qu’il s’agit d’un probleme d’optimisation a deux variables βk et αk.On prend alors

uk+1 = uk + αkpk.

Cette methode qui s’appelle l’algorithme du gradient conjugue, a ete inventee en 1952 par Hes-tenes et Stieffel.

On ecrit les conditions d’optimalite pour ce probleme d’optimisation

∂f

∂αk= 0 ⇔ pT

k gradJ(uk + αkpk) = 0 (7.20)

∂f

∂βk= 0 ⇔ pT

k−1gradJ(uk + αkpk) = 0, (7.21)

ou pk est donnee par (7.18). L’equation (7.20) est equivalente a pk)T (b− Auk − αkApk) = 0 ou

encore a pk)T (rk − αkApk) = 0 et on a donc

αk =pT

k rk

pTkApk

. (7.22)

qui est la formule deja trouvee pour toute methode de descente a pas optimal. Comme le pasest optimal, on a la relation d’orthogonalite entre la direction de descente pk−1 et le residu rk :

pTk−1rk = 0, k ≥ 0. (7.23)

On deduit alors immediatement de (7.18) et de (7.23) que pk donne par (7.18) n’est pas nul sirk 6= 0.De la relation (7.18), on tire que αk s’ecrit aussi

αk =rTk rk

pTkApk

=‖rk‖2

2

‖pk‖2A

. (7.24)

Page 121: Algebre Lineaire Et Analyse Numerique Matricielle

7.3. LA METHODE DU GRADIENT CONJUGUE 121

La condition d’optimalite verifiee par βk s’ecrit

pTk−1(rk − αkApk) = 0 (7.25)

ce qui montre quepT

k−1rk − αkpTk−1A(rk + βkpk−1) = 0 (7.26)

On deduit de (7.26),(7.23)

βk = − pTk−1Ark

pTk−1Apk−1

(7.27)

ce qui implique que

pk = rk − pTk−1Ark

pTk−1Apk−1

pk−1, (7.28)

et quepT

k−1Apk = 0. (7.29)

Il reste a montrer que les valeurs de αk et βk correspondent a un minimum local de f : pourcela, on doit montrer que D2f(αk, βk) est symetrique definie positive : on a

D2f(αk, βk) =

(2pT

kApk 00 2α2

kpTk−1Apk−1

),

qui est semi-definie positive, et definie positive si pk−1 6= 0,pk 6= 0 et rk 6= 0.Les formules (7.24) et (7.27) suffisent a definir completement cet algorithme, mais il s’avere qu’onpeut prouver un grand nombre de proprietes qui expliquent pourquoi cet algorithme convergesi bien, en particulier des proprietes de conjugaison entre les directions de descente :

Theoreme 7.4 L’algorithme defini ci-dessus a les proprietes suivantes

pTl Apk = 0, ∀l, k, l 6= k (7.30)

On dit que les directions de descentes sont deux a deux conjuguees.

rTl rk = 0, ∀l, k, l 6= k (7.31)

rTl pk = 0, ∀l, k, k < l (7.32)

pk ∈ V ect(r0, . . . , rk) (7.33)

Le sous-espace V ect(r0, . . . , rk) est appele keme espace de Krylov.

Demonstration. La propriete (7.33) est une consequence immediate de (7.18) et de p−1 = 0(se demontre par recurrence).La relation de conjugaison

pTk−1Apk = 0, k ≥ 0. (7.34)

est une consequence directe de (7.28). On deduit alors que pTkApk = rT

kApk et on tire de (7.24)que

αk =rTk rk

rTk Apk

Page 122: Algebre Lineaire Et Analyse Numerique Matricielle

122 CHAPITRE 7. METHODES DE DESCENTE

Comme rk+1 = rk − αkApk, on voit que

rTk rk+1 = 0. (7.35)

On va maintenant demontrer par recurrence les relations (7.30), (7.31), (7.32). On sait quepT0 r1 = 0 cf. (7.23), et on vient de demontrer que pT

0Ap1 = 0 et que rT0 r1 = 0.

supposons que la propriete de recurrence est vraie jusqu’a l− 1. i.e. ∀k1, k2, 0 ≤ k1 < k2 < l,

pTk1rk2 = 0,

rTk1rk2 = 0,

pTk1Apk2 = 0.

(7.36)

1. On tire de (7.23) que pTl−1rl = 0. Il reste a montrer que pT

k rl = 0, pour k < l − 1. Mais

rl = rl−1 − αl−1Apl−1 et (7.36) implique que pTk rl−1 = pT

kApl−1 = 0. On a donc bien quepT

k rl = 0, pour k < l − 1.

2. On tire de (7.35) que rTl−1rl = 0. Il reste a montrer que rT

k rl = 0, pour k < l − 1. Mais

rk = pk − βkpk−1 : rTk rl = (pk − βkpk−1)

T rl = 0 d’apres le point 1.

3. On tire de (7.34) que pTl−1Apl = 0. Il reste a montrer que pT

kApl = 0, pour k < l −1. On utilise alors que pl = rl + βlpl−1, donc pT

kApl = pTkArl + βlp

TkApl−1 = pT

kArl,d’apres (7.36). Mais pT

kArl = rTl Apk et pk ∈ V ect(r0, . . . , rk) d’apres (7.33), et Apk ∈

V ect(r0, . . . , rk, rk+1) ⊂ V ect(r0, . . . , rl−1). Du point 2, on deduit le resultat desire.

On a montre (7.30), (7.31), (7.32) par recurrence.

Corollaire 7.1 L’algorithme du gradient conjugue dans Rd converge en au plus d iterations.

Demonstration. Les residus sont deux a deux orthogonaux. Si pour tout k < d, rk 6= 0,(r0, . . . , rd) est une famille orthogonale de vecteurs de Rd avec d+1 vecteurs : ceci ne peut avoirlieu que si rd = 0.

Remarque 7.5 On vient de voir que la methode du gradient conjuguee qui est une methodeiterative peut aussi etre vue comme une methode directe, puisque qu’elle donne le resultat exact(en arithmetique exacte) en au plus n iterations. Le gradient conjugue, implemente sur un or-dinateur, ne peut pas etre considere comme une methode directe, car l’arithmetique n’est pasexacte, et les directions de descentes ne sont pas exactement conjuguees.

Corollaire 7.2 L’itere uk+1 minimise la fonction J sur l’espace de Krylov V ect(r0, . . . , rk).

Demonstration. En effet, (7.33) implique que uk+1 ∈ V ect(r0, . . . , rk) (par recurrence) pourl ≤ k, rT

l gradJ(uk+1) = rTl rk+1 = 0.

Remarque 7.6 L’algorithme du gradient conjugue appartient donc a la classe des methodesdites de Krylov, ou l’on minimise a chaque iteration une norme du residu dans l’espace deKrylov. Pour en savoir plus sur les methodes de Krylov, on pourra lire Y. Saad [8].

Remarque 7.7 Pour en savoir plus sur la methode du gradient conjugue, on pourra lire [3].

Page 123: Algebre Lineaire Et Analyse Numerique Matricielle

7.3. LA METHODE DU GRADIENT CONJUGUE 123

L’algorithme du gradient conjugue s’ecrit

αk =pT

krk

pTk

Apk

xk+1 = xk + αkpk

rk+1 = rk − αkApk

βk+1 = − rTk+1Apk

pTk

Apk

pk+1 = rk+1 + βk+1pk

L’algorithme du gradient conjugue a d’autres proprietes tres interessantes qui en font lameilleure methode iterative pour des systemes ou A est symetrique et definie positive. On peutdemontrer en particulier le resultat, voir [4, 5].

Theoreme 7.5 Soit A ∈ Md(R) une matrice symetrique definie positive. On a

‖ek‖A ≤ 2

(√cond2(A) − 1√cond2(A) + 1

)k

‖e0‖A (7.37)

Demonstration. On voit que dans la methode du gradient conjugue, l’erreur a l’etape k est dela forme

e(k) = (I +

k∑

ℓ=1

γℓAk)e(0)

ou les (γℓ)1≤ℓ≤k sont choisis pour minimiser ‖e(k)‖A. On peut donc ecrire l’erreur

e(k) = P (k)(A)e(0),

ou P (k) est le polynome de degre k realisant le minimum de la fonctionnelle

Q 7→ ‖Q(A)e(0)‖A

sur l’ensemble des polynomes de degre k prenant la valeur 1 en 0.Soit tk le k ieme le polynome de Chebyshev de premiere espece :

tk(x) = cos(k arccos(x)), x ∈ [−1, 1]

tk(x) = cosh(k arg cosh(x)) =1

2

((x+

√x2 − 1)k + (x+

√x2 − 1)−k

), x > 1

tk(x) = tk(−x) x < 1.

On peut montrer par recurrence que tk est un polynome de degre k et que son coefficient directeurest 2k−1

Soient λmin la plus petite valeur propre de A et λmax la plus grande valeur propre de A. Onprend

Q(x) =tk(

2x−λmin−λmaxλmax−λmin

)

tk(−λmin−λmaxλmax−λmin

).

On voit que Q(0) = 1 et que

maxx∈[λmin,λmax]

|Q(x)| =1

tk(−λmin−λmax

λmax−λmin)

=1

tk(cond2(A)+1cond2(A)−1)

Page 124: Algebre Lineaire Et Analyse Numerique Matricielle

124 CHAPITRE 7. METHODES DE DESCENTE

Un calcul facile montre que

tk(cond2(A) + 1

cond2(A) − 1) =

1

2

(√

cond2(A) − 1√cond2(A) + 1

)k

+

(√cond2(A) − 1√cond2(A) + 1

)−k ≥ 1

2

(√cond2(A) − 1√cond2(A) + 1

)−k

On deduit que

‖e(k)‖A = ‖P (k)(A)e(0)‖A ≤ ‖Q(A)e(0)‖A ≤ maxλ∈σ(A)

|Q(λ)|‖e(0)‖A ≤ 2

(√cond2(A) − 1√cond2(A) + 1

)k

‖e(0)‖A,

ce qui est bien le resultat desire.Si on a des informations supplementaires sur le spectre de A, on peut obtenir une meilleureestimation : supposons par exemple que les valeurs propres de A soient

λ1 ≪ λ2 ≤ · · · ≤ . . . λd.

On a doncλd

λ2≪ cond2(A).

On introduit alors le polynome Q de degre k, prenant la valeur 1 en 0 :

Q(x) =tk−1(

2x−λ2−λd

λd−λ2)

tk−1(−λ2−λd

λd−λ2)

λ1 − x

λ1.

On voit que

maxλ∈σ(A)

|Q(λ)| = maxλ∈λ2,...,λk

|Q(λ)| ≤ maxλ∈[λ2,Λd]

∣∣∣∣∣tk−1(

2λ−λ2−λd

λd−λ2)

tk−1(−λ2−λd

λd−λ2)

∣∣∣∣∣λd − λ1

λ1≤ 2

√λd

λ2− 1

√λd

λ2+ 1

k−1

(cond2(A)−1)

qui est asymptotiquement beaucoup plus petit que 2

(√cond2(A)−1√cond2(A)+1

)k

.

De meme, si le spectre de A a ses ℓ plus petites valeurs propres isolees dur reste du spectre, pourℓ≪ d :

λ1 ≤ λ2 ≤ · · · ≤ λℓ ≪ λℓ+1 · · · ≤ . . . λd.

λd

λℓ+1≪ cond2(A).

On suppose que ℓ≪ d et pour k ≥ ℓ, on introduit le polynome Q de degre k, prenant la valeur1 en 0 :

Q(λ) =

ℓ∏

i=1

λi − λ

λi

tk−ℓ(2x−λd−λℓ+1

λd−λℓ+1)

t k−ℓ(−λd − λℓ+1

λd − λℓ+1)

On voit que

maxλ∈σ(A)

|Q(λ)| ≤ 2

√λd

λℓ+1− 1

√λd

λℓ+1+ 1

k−ℓℓ∏

i=1

λd − λi

λi≤ 2

√λd

λℓ+1− 1

√λd

λℓ+1+ 1

k−ℓ

(cond2(A))ℓ

qui est asymptotiquement beaucoup plus petit que 2

(√cond2(A)−1√cond2(A)+1

)k

.

Page 125: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 8

Recherche de valeurs propres

Les notes ci-dessous s’inspirent de deux livres sur le calcul matriciel : le livre de P.G. Ciarlet[2] est une introduction a la fois tres abordable et tres complete. Le livre de G. Golub et al [3]est la reference dans le domaine de l’analyse numerique matricielle.

Trouver les valeurs propres d’une matrice carree d’ordre n en factorisant son polynomecaracteristique devient impossible en general quand n > 4. Il faut donc utiliser des methodesiteratives. Il existe deux types de methodes de recherche de valeurs propres :

– Les methodes partielles qui visent a rechercher la plus grande ou la plus petite valeur propreou encore la valeur propre la plus proche d’une valeur donnee. Ces methodes marchent si lavaleur propre recherchee est separee des autres valeurs propres en module. Ces methodespermettent de trouver le vecteur propre correspondant.

– Les methodes globales qui donnent le spectre entier mais qui en general ne permettent pasd’obtenir directement les vecteurs propres.

8.1 Generalites

8.1.1 Decomposition de Schur

voir § 2.10.

8.1.2 Sensibilite d’un probleme aux valeurs propres

On considere la matrice de Mn(R)

0 . . . ǫ1 0 . . . 0

0. . .

. . ....0 . . . 1 0

Son polynome caracteristique est xn ± ǫ : les valeurs propres sont nulles si ǫ = 0 et ce sont lesracines n iemes de ±ǫ si ǫ 6= 0. Si n = 10 et si ǫ = 10−10, les valeurs propres ont pour module 0.1.On voit donc qu’une perturbation de 10−10 d’un coefficient de la matrice entraıne des variationsimportantes des valeurs propres.Pour tenter de comprendre la sensibilite des valeurs propres aux perturbations d’une matrice,on a le resultat

125

Page 126: Algebre Lineaire Et Analyse Numerique Matricielle

126 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

Theoreme 8.1 Soit A ∈ Mn(C) diagonalisable, et P une matrice de changement de base telleque P−1AP = Diag(λ1, . . . λn). Soit ‖‖ une norme sur Mn(C) telle que

‖MN‖ ≤ ‖M‖‖N‖ et ‖Diag(µ1 . . . µn)‖ = maxi=1...n

|µi|

alors pour toute perturbation δA de A, on a

sp(A+ δA) ⊂ ∪ni=1Di (8.1)

et

Di = µ ∈ C; |µ− λi| ≤ cond‖ ‖(P )‖δA‖. (8.2)

Demonstration.

On sait que µ est valeur propre de A+ δA si et seulement si A+ δA−µI n’est pas inversible.En multipliant a droite par P et a gauche par P−1, ceci est equivalent a dire que Diag(λ1 −µ, . . . , λn − µ) + P−1δAP est singuliere. Deux cas se presentent :

1. si Diag(λ1 − µ, . . . , λn − µ) est singuliere, alors µ ∈ Di pour un indice i ∈ 1, . . . , n.2. sinon, I + Diag((λ1 − µ)−1, . . . , (λn − µ)−1)P−1δAP est singuliere. Ceci implique que

‖Diag((λ1 − µ)−1, . . . , (λn − µ)−1)P−1δAP‖ ≥ 1, autrement on pourrait construire uninverse avec une serie. Les proprietes de la norme impliquent alors que ‖Diag((λ1 −µ)−1, . . . , (λn−µ)−1)‖‖P−1‖‖δA‖‖P‖ ≥ 1, soit encore maxi |λi−µ|−1cond‖ ‖(P )‖δA‖ ≥ 1.On en deduit que

mini

|λi − µ| ≤ cond‖ ‖(P )‖δA‖

Remarque 8.1 La sensibilite d’un probleme aux valeurs propres d’une matrice A diagonalisablepar rapport aux perturbations depend donc du conditionnement de la matrice de passage P etnon pas de celui de A.

Remarque 8.2 Si A est normale, on sait que A est diagonalisable avec P unitaire. On acond2(P ) = 1. Dans ce cas les valeurs propres de δA sont contenues dans des cercles centresaux valeurs propres de A et de rayon ‖δA‖2.

Remarque 8.3 On a un resultat plus precis si A et δA sont hermitiennes. Dans ce cas, cf.[2], le theoreme du min-max permet de dire que si on ordonne les valeurs propres par valeurcroissante, les k iemes valeurs propres de A et A+ δA sont distantes d’au plus ‖δA‖2.

8.1.3 Valeurs singulieres d’une matrice

Voir §2.11.

8.1.4 Norme de Frobenius

Voir §4.1.3

Page 127: Algebre Lineaire Et Analyse Numerique Matricielle

8.2. METHODES PARTIELLES DE RECHERCHE DE VALEURS PROPRES 127

8.2 Methodes partielles de recherche de valeurs propres

8.2.1 La methode de la puissance

Soit A ∈ Mn(C) diagonalisable. On note λ1, . . . , λn les valeurs propres de A et x1, . . . xn desvecteurs propres unitaires associes. Dans la suite on va supposer que |λ1| > |λ2| ≥ |λ3| ≥ · · · ≥|λn|.On veut construire une methode pour approcher numeriquement λ1. Pour cela, on se donne unvecteur q(0) tel que ‖q(0)‖2 = 1 et on construit la suite λ(k−1), q(k) pour k ≥ 1, par la recurrencesuivante

z(k) = Aq(k−1),

q(k) =z(k)

‖z(k)‖2,

λ(k−1) = q(k−1)∗z(k),

Cette methode iterative s’appelle methode de la puissance, car q(k) et z(k) sont proportionnelsa Akq(0). On a le resultat de convergence

Theoreme 8.2 (convergence de la methode de la puissance) Soit A ∈ Mn(C) diagona-lisable, λ1, . . . , λn ses valeurs propres, et x1, . . . xn des vecteurs propres unitaires associes. Si

|λ1| > |λ2| ≥ |λ3| ≥ · · · ≥ |λn| (8.3)

et si q(0) = a1x1+. . . anxn avec a1 6= 0, alors λ(k) converge vers λ1 et il existe C ≥ 0 independantde k et pour tout k, ǫ(k) ∈ C, |ǫ(k)| = 1 tels que

|λ(k) − λ1| ≤ C

( |λ2||λ1|

)k

,

‖ǫ(k)q(k) − x1‖ ≤ C

( |λ2||λ1|

)k

,

(8.4)

Demonstration. On verifie facilement que

Akq(0) = λk1

(a1x1 + a2

(λ2

λ1

)k

x2 + · · · + an

(λn

λ1

)k

xn

).

Comme q(k) est colineaire a Akq(0)

q(k) = α(k)

(a1x1 + a2

(λ2

λ1

)k

x2 + · · · + an

(λn

λ1

)k

xn

)(8.5)

et en utilisant (8.3) et ‖q(k)‖2 = 1, on voit que∣∣∣∣|α(k)| − 1

|a1|

∣∣∣∣ ≤ C

∣∣∣∣λ2

λ1

∣∣∣∣k

. (8.6)

Comme λ(k) = q(k)∗Aq(k), on voit facilement en utilisant (8.5) et (8.6) que

|λ(k+1) − λ1| ≤ C

∣∣∣∣λ2

λ1

∣∣∣∣k

.

Le resultat est demontre.

Page 128: Algebre Lineaire Et Analyse Numerique Matricielle

128 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

Remarque 8.4 Un des interets de cette methode est qu’elle necessite juste de savoir effectuerle produit matrice-vecteur par A.

8.2.2 Test d’arret pour la methode de la puissance

Un probleme qui se pose est de choisir le test-d’arret de la methode : pour cela, on introduitle residu a l’etape k (qui tend vers 0 d’apres le Theoreme 1) :

r(k) = Aq(k) − λ(k)q(k), (8.7)

et la matrice E(k) de rang un definie par ‖r(k)‖2E(k) = −r(k)q(k)∗. On a clairement ‖E(k)‖2 = 1

et E(k)q(k) = − r(k)

‖r(k)‖2car q(k) est un vecteur unitaire. Donc d’apres (8.7), (A+‖r(k)‖2E

(k))q(k) =

λ(k)q(k), ce qui montre que q(k) est un vecteur propre de la matrice perturbee A+ ‖r(k)‖2E(k),

de valeur propre λ(k). On utilise alors le resultat suivant

Theoreme 8.3 Soit A ∈ Mn(C) une matrice diagonalisable et λ une valeur propre simple deA. Il existe donc deux vecteurs unitaires x et y tels que Ax = λx et A∗y = λ∗y. Pour ǫ > 0, ondefinit A(ǫ) = A+ ǫE ou E ∈ Mn(C) est une matrice telle que ‖E‖2 = 1. Il existe une fonctionde classe C1 : ǫ 7→ (λ(ǫ), x(ǫ)) d’un voisinage de 0 dans C × Cn telle que λ(0) = λ, x(0) = x,A(ǫ)x(ǫ) = λ(ǫ)x(ǫ) et ∣∣∣∣

∂λ

∂ǫ(0)

∣∣∣∣ ≤1

|y∗x| . (8.8)

Avec ce theoreme, on voit que |λ(k) − λ1| ≤ 1|y∗

1x1|‖r(k)‖2, ce qui donnerait un test d’arret si on

connaissait x1 et y1.On ne connaıt pas x1 et y1, mais on sait que q(k) converge vers un vecteur qui est colineaire

a x1. En modifiant legerement la methode de la puissance, on peut approcher le produit scalairey∗1x1 : on obtient le nouvel algorithme : On se donne deux vecteurs z(0) et w(0), et on construit

la suite λ(k), q(k),p(k)pour k ≥ 1, par la recurrence suivante

q(k−1) =z(k−1)

‖z(k−1)‖2, p(k−1) =

w(k−1)

‖w(k−1)‖2,

z(k) = Aq(k−1), w(k) = A∗p(k−1),

λ(k−1) = q(k−1)∗z(k),

e(k) = ‖z(k)−λ(k−1)q(k−1)‖2

|p(k−1)∗q(k−1)|

Le reel e(k) fournit alors une estimation de |λ1 − λ(k−1)|.Demonstration du Theoreme 8.3 On peut trouver une base (x, e1, . . . en−1) de vecteurspropres de A. L’existence des fonctions (x(.), λ(.)) vient du theoreme des fonctions implicitesapplique dans l’espace engendre par les vecteurs propres C × Vect(e1, . . . , en−1) , et du fait queλ est une valeur propre simple : exercice.On peut deriver par rapport a ǫ l’equation (A+ ǫE)x(ǫ) = λ(ǫ)x(ǫ), ce qui donne Ex(ǫ) + (A+ǫE − λ(ǫ)I)∂x

∂ǫ(ǫ) = ∂λ

∂ǫ(ǫ)x(ǫ). En ǫ = 0, on a : Ex + (A − λI)∂x

∂ǫ(0) = ∂λ

∂ǫ(0)x. On multiplie a

gauche par y∗ : on obtient y∗Ex = ∂λ∂ǫ

(0)y∗x.On doit montrer que y∗x 6= 0. Pour cela, si on note X la matrice dont les colonnes sont lesvecteurs propres (a droite) de A, on a AX = XD ou D est une matrice diagonale. On en deduit

Page 129: Algebre Lineaire Et Analyse Numerique Matricielle

8.2. METHODES PARTIELLES DE RECHERCHE DE VALEURS PROPRES 129

X−1A = DX−1 ou encore A∗(X∗)−1 = (X∗)−1D∗. Pour i 6= j, la i eme colonne de (X∗)−1 estorthogonale a la j eme colonne de X. On construit Y en divisant chaque colonne de (X∗)−1 parsa norme. La i eme colonne de Y est un vecteur propre unitaire de A∗ de valeur propre λi. Siλk est une valeur propre simple, alors y∗kxk 6= 0.On conclut en majorant |y∗Ex| par 1 d’apres les hypotheses sur E, x et y. ⊓⊔

8.2.3 Methode de la puissance inverse

Supposons que A est inversible et diagonalisable. On note λ1, . . . , λn les valeurs propres de Aet x1, . . . xn des vecteurs propres normaux associes. On suppose cette fois que les valeurs propresde A verifient

0 < |λ1| < |λ2| ≤ |λ3| ≤ · · · ≤ |λn|. (8.9)

On voit que A−1 est diagonalisable et que ses valeurs propres verifient :

|λ−11 | > |λ−1

2 | ≥ |λ−13 | ≥ · · · ≥ |λ−1

n |.

On peut donc appliquer la methode de la puissance a A−1 pour approcher λ−11 : on se donne un

vecteur q(0) tel que ‖q(0)‖2 = 1 et on construit la suite µ(k−1), q(k) pour k ≥ 1, par la recurrencesuivante

trouver z(k) t.q. Az(k) = q(k−1),

q(k) =z(k)

‖z(k)‖2,

µ(k−1) = q(k−1)∗z(k),

Cet algorithme est appele methode de la puissance inverse : on a le resultat suivant

Theoreme 8.4 (convergence de la methode de la puissance inverse) Soit A ∈ Mn(C)diagonalisable et inversible verifiant (8.9). Si q(0) = a1x1 + . . . anxn avec a1 6= 0, alors µ(k)

converge vers λ−11 et il existe C ≥ 0 independant de k et pour tout k, ǫ(k) ∈ C, |ǫ(k)| = 1 tels que

|µ(k) − λ−11 | ≤ C

( |λ1||λ2|

)k

,

‖ǫ(k)q(k) − x1‖ ≤ C

( |λ1||λ2|

)k

,

(8.10)

Remarque 8.5 Comme λ1 6= 0, on a aussi

|λ1 −1

µ(k)| ≤ C

( |λ1||λ2|

)k

,

ou C est une constante independante de k.

Remarque 8.6 La methode de la puissance inverse necessite de savoir resoudre des systemeslineaires du type Ax = b. Elle est donc plus complexe et plus couteuse en temps que la methodede la puissance. Elle ne necessite cependant pas la connaissance explicite de la matrice A−1.

Page 130: Algebre Lineaire Et Analyse Numerique Matricielle

130 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

8.2.4 Methode de la puissance inverse avec translation

Pour une matrice diagonalisable A, une modification de la methode de la methode de lapuissance inverse permet d’approcher numeriquement la valeur propre λi la plus proche d’unnombre complexe η donne, a condition qu’il n’y ait pas d’autre valeur propre sur le cercle dansle plan complexe centre en η et passant par λi : on suppose que

0 < |λi − η| < |λj − η| ≤ |λl − η|, ∀l 6= i, j, 1 ≤ l ≤ n. (8.11)

On applique alors la methode de la puissance inverse a la matrice diagonalisable et inversibleA − ηI : on se donne un vecteur q(0) tel que ‖q(0)‖2 = 1 et on construit la suite µ(k), q(k) pourk ≥ 1, par la recurrence suivante

trouver z(k) t.q. (A− ηI)z(k) = q(k−1),

q(k) =z(k)

‖z(k)‖2,

µ(k−1) = q(k−1)∗z(k),

La suite (µ(k)) converge vers (λi − η)−1 comme∣∣∣ λi−ηλj−η

∣∣∣k

, et on a une convergence similaire vers

un vecteur propre xi.

8.3 Une methode globale pour des matrices symetriques : la

methode de Jacobi

On va se concentrer sur les matrices symetriques de Mn(R). La methode de Jacobi permet deconstruire a l’aide des rotations de Givens une suite de matrices A(k) orthogonalement semblablesa A qui converge vers une matrice diagonale : les coefficients diagonaux de cette matrice limitesont les valeurs propres de A. L’idee de la methode est simple : pour tout couple (k, l), 0 ≤ k <l ≤ n, et pour θ ∈ [0, 2π[, on definit la matrice de rotation de Givens Qk,l(θ) par

Qk,l(θ) =

k l

1. . .

c 0 . . . s0 1 0 . . .... 1

.... . .

−s 0 . . . c1

. . .

k

l

c = cos(θ), s = sin(θ)

(8.12)Pour une matrice symetrique B ∈ Mn(R), pour k < l, on peut trouver une valeur de θ dans] − π

4 ,π4 ] telle que M = Qk,l(θ)

TBQk,l(θ) verifie mk,l = 0 et ml,k = 0. Si bkl 6= 0 cette valeur estunique. En effet,

Page 131: Algebre Lineaire Et Analyse Numerique Matricielle

8.3. LA METHODE DE JACOBI 131

– si bl,k = 0, on prend θ = 0.– sinon, on voit que c 6= 0, et que si t = s

c, t doit verifier

t2 + 2ηt− 1 = 0, η =bll − bkk

2bkl(8.13)

qui a deux racines −η ±√η2 + 1. Pour que θ ∈] − π

4 ,π4 ], on doit choisir pour t la racine

de plus petit module : (−1 < t = −η−√η2 + 1 < 0 si η < 0 et 0 < t = −η+

√η2 + 1 ≤ 1

si η ≥ 0) puis c = 1√1+t2

et s = t√1+t2

. On remarque qu’on a aussi 1tan(2θ) = η.

Des calculs elementaires montrent que la diagonale de B est transformee de la maniere suivante :les coefficients d’indices differents de p, p et de q, q ne sont pas changes ; le coefficient d’indicep, p est transforme en bpp−bpq tan(θ) et le coefficient d’indice q, q est transforme en bqq+bpq tan(θ).

Les methodes de Jacobi consistent a construire une suite de matrices symetriques A(k), avecA(0) = A, en choisissant pour tout k un couple (p, q) 1 ≤ p < q ≤ n et en construisant A(k+1)

par la relation A(k+1) = Qpq(θ)TA(k)Qpq(θ), ou θ ∈]− π

4 ,π4 ] est choisi comme ci dessus de maniere

a annuler a(k+1)pq = a

(k+1)qp .

Il y a plusieurs facon de choisir quels coefficients annuler a l’iteration k :

1. dans la methode de Jacobi classique, on choisit (p, q) tel que a(k)pq soit le coefficient extra-

diagonal de A(k) de plus grand module.

|a(k)pq | ≥ |a(k)

ij | ∀i, j : i < j (i, j) 6= (p, q)

Cette methode a de bonnes proprietes de convergence mais exige une recherche du plusgrand coefficient extra-diagonal. Ceci necessite de l’ordre de n2

2 tests, et peut devenircouteux pour n grand.

2. dans la methode de Jacobi cyclique, on annule successivement tous les coefficients extra-diagonaux par un balayage cyclique : par exemple on choisira les couples (p, q) dans l’ordrelexicographique suivant

(1, 2) (1, 3) . . . (1, n) (2, 3) . . . (2, n) . . . (n− 1, n)

On annulera a(1)12 pour construire A(1), a

(2)23 pour construire A(2), etc... Chaque cycle

necessite donc de l’ordre de n(n−1)2 transformations de jacobi.

3. On peut modifier legerement l’algorithme ci-dessus en ne cherchant pas annuler les coeffi-cients qui sont deja tres petits.

On va donner un resultat de convergence pour la methode de Jacobi classique :

Theoreme 8.5 (convergence de la methode de Jacobi classique) La suite A(k) construitepar la methode de Jacobi classique converge vers une matrice diagonale Diag(λ1, . . . λn) et(λi)i=1...n est la famille des valeurs propres de A, (les valeurs propres multiples sont repeteesavec leur multiplicite).

Demonstration. i) On montre que la partie extradiagonale de A(k) converge vers 0.On note |M |E la norme de Frobenius de la partie extradiagonale de M :

|M |2E = 2∑

1≤p<q≤n

m2p,q. (8.14)

Page 132: Algebre Lineaire Et Analyse Numerique Matricielle

132 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

On a l’inegalite :

maxi<j

|mi,j| ≥√

1

n(n− 1)|M |E . (8.15)

Si p, q est tel que |a(k)p,q | = maxi<j |a(k)

i,j |, on a donc

1. |a(k)p,q | ≥

√1

n(n−1) |A(k)|E .

2. |a(k)p,p|2 + 2|a(k)

p,q |2 + |a(k)q,q |2 = |a(k+1)

p,p |2 + |a(k+1)q,q |2. car les matrices

(a

(k)p,p a

(k)p,q

a(k)p,q a

(k)q,q

)et

(a

(k+1)p,p 0

0 a(k+1)q,q

)

sont orthogonalement semblables.

Comme on a pour i 6= p, q, a(k+1)i,i = a

(k)i,i , on en deduit

‖Diag(A(k+1))‖2F ≥ ‖Diag(A(k))‖2

F +2

n(n− 1)|A(k)|2E . (8.16)

On sait aussi que la norme de Frobenius est invariante par transformation orthogonale :

‖A(k+1)‖2F = ‖A(k)‖2

F . (8.17)

De (8.16) et (8.17), on deduit que

|A(k+1)|2E ≤ (1 − 2

n(n− 1))|A(k)|2E , (8.18)

ce qui montre que A(k) tend vers une matrice diagonale.

ii) En notant D(k) la diagonale de A(k), montrons que D(k+1) −D(k) tend vers 0. On a |a(k+1)ii −

a(k)ii | = |a(k)

pq || tan(θ)| ( (| tan(θ)| ≤ 1) si i = p ou i = q et |a(k+1)ii − a

(k)ii | = 0 sinon. Comme a

(k)pq

tend vers 0 et | tan(θ)| ≤ 1, on en deduit le resultat.

iii) Soit D une valeur d’adherence de la suite A(k) : pour tout reel λ, det(D − λI) est unevaleur d’adherence de det(A(k)−λI). D’autre part, toute les matrices A(k) sont semblables a A :donc, det(D−λI) = det(A−λI), ce qui implique que D a le meme polynome caracteristique etles memes valeurs propres que A (repetees avec leur multiplicite). De la, on deduit aussi que lasuite A(k) a un nombre fini de valeurs d’adherence.

iv) Il faut montrer que toute la suite A(k) converge. C’est une consequence de ii) et iii).

1. On montre dans un premier temps par l’absurde que si (L1, . . . Lp) sont les valeurs d’adherencede la suite A(k),(on sait qu’il y en a un nombre fini) alors pour tout ǫ, il existe k(ǫ) tel quepour tout k > k(ǫ), il existe i ∈ 1, . . . , p tel que ‖A(k) − Li‖F ≤ ǫ : exercice.

2. Apres on prend ǫ = 13 mini6=j ‖Li − Lj‖. On sait qu’il existe K tel que pour tout k > K,

‖A(k+1) − A(k)‖F ≤ ǫ, et il existe i ∈ 1, . . . , p tel que ‖A(k) − Li‖F ≤ ǫ. On conclut enmontrant qu’il existe i0 tel que pour tout k > K, ‖A(k) − Li0‖F ≤ ǫ : exercice.

Page 133: Algebre Lineaire Et Analyse Numerique Matricielle

8.4. LA METHODE QR 133

Remarque 8.7 La methode de Jacobi construit A(k) orthogonalement semblable a A : on aA(k) = (Q(k))TAQ(k), ou Q(k) est le produit de k matrices de Givens. On peut alors montrer quesi toutes les valeurs propres de A sont simples, alors Q(k) converge vers Q et les colonnes de Qconstituent une base orthonormale de vecteurs propres de A. La demonstration est semblable acelle du Theoreme 8.5, cf. [2].

8.4 Une methode globale : la methode QR

La methode QR est une methode permettant d’obtenir tout le spectre d’une matrice. C’estune methode tres populaire. On la decrit et on analyse ses proprietes. L’analyse de la methodeest difficile et n’est pas au programme de l’examen.

8.4.1 Factorisations QR d’une matrice

Les reflexions de Householder

Definition 8.1 Soit v un vecteur non nul de Cn. On appelle reflexion de Householder ou matricede Householder relative au vecteur v la matrice

Hv = I − 2vv∗

v∗v. (8.19)

Les reflexions de Householder ont les proprietes suivantes :

1. Hv est une matrice hermitienne.

2. Hv est une matrice unitaire.

3. Hv − I est une matrice de rang un.

4. Hλv = Hv, pour tout λ 6= 0.

Proposition 8.1 Soit e un vecteur unitaire de CN et x un vecteur non nul de CN . Il existe unvecteur non nul v ∈ CN tel que Hvx soit colineaire a e.

Demonstration. On cherche v sous la forme v = x+λe. Dans le cas reel, (x ∈ RN et e ∈ RN),les vecteurs v = x±‖x‖2e ( au moins l’un des deux est non nul) sont les seuls vecteurs de cetteforme ayant la propriete demandee et on a Hvx = ∓‖x‖2e. Dans le cas general, on trouve aussideux vecteurs v sous cette forme, et au moins l’un d’entre eux est non nul.

Remarque 8.8 Si x est presque colineaire a e, on a interet en pratique a choisir le vecteur vpour que v∗v, qui est au denominateur de (8.19), ne soit pas petit. En effet, en precision finie, ilfaut eviter les divisions par des nombres petits. En particulier si v ∈ Rn, on preferera le vecteurv+ = x+ signe(x∗e)‖x‖2e au vecteur v− = x− signe(x∗e)‖x‖2e, car ‖v−‖2 est petit.

Factorisations QR a l’aide des reflexions de Householder

Theoreme 8.6 Soit A une matrice de Mm,n(C) avec m ≥ n. Il existe une matrice unitaireQ ∈ Mm(C) et une matrice triangulaire superieure R ∈ Mm,n(C), telles que

A = QR.

Page 134: Algebre Lineaire Et Analyse Numerique Matricielle

134 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

Demonstration. On demontre ce resultat par recurrence : supposons qu’a l’aide de deuxreflexions de Householder H1 et H2, on ait obtenu

H2H1A =

∗ ∗ ∗ . . . ∗0 ∗ ∗ . . . ∗0 0 ∗ . . . ∗...

... ∗ . . . ∗0 0 ∗ . . . ∗

On appelle x le vecteur de Cm−2 obtenu en prenant les m−2 derniers coefficients de la troisiemecolonne de H2H1A. Si x est non nul, on sait trouver v3 ∈ Cm−2, tel que

Hv3 x soit colineaire a

10...0

On prend alors H3

H3 =

1 0 01 1 00 0 Hv3

.

Si x = 0 on prend H3 = I. Dans les deux cas H3 est hermitienne et unitaire. On a

H3H2H1A =

∗ ∗ ∗ . . . ∗0 ∗ ∗ . . . ∗0 0 ∗ . . . ∗0 0 0 ∗ . . . ∗...

...... ∗ . . . ∗

0 0 0 ∗ . . . ∗

Comme m ≥ n, on peut iterer ce procede et construire n matrices Hi hermitiennes et unitaires,telles que Hn . . . H1A soit une matrice triangulaire superieure R. On note Q la matrice unitaire(mais pas forcement hermitienne) Q = H1 . . . Hn, on a

A = QR.

Les elements fondamentaux de l’algorithme de la factorisation QR a l’aide de reflexions deHouseholder sont

1. Le choix des vecteurs vi, de maniere a ce que ‖vi‖ ne soit pas petit, cf. Remarque 8.8.

2. Le produit a gauche d’une matrice M par la matrice Hm : HmM , doit etre programmeintelligemment : on ne doit surtout pas stocker la matriceHm. Il suffit de garder en memoirele vecteur vm, et d’operer les reflexions de Householder a chaque colonne de M .

3. On ne calcule donc pas Q en general, mais on garde en memoire les vecteurs v1, . . . , vn.

4. On peut ecraser la matrice A que l’on factorise en stockant les vecteurs vi dans la partietriangulaire inferieure stricte, et la matrice R dans la partie triangulaire superieure acondition de normaliser les vecteurs vi de maniere a ce que leur premier coefficient soit 1.

Page 135: Algebre Lineaire Et Analyse Numerique Matricielle

8.4. LA METHODE QR 135

5. Si la matrice A est reelle, alors la matrice Q l’est aussi.

La factorisation QR a de nombreuses proprietes interessantes :

1. Resoudre le systeme Qy = b est facile car

Q−1 = Q∗ = Hn . . . H1.

La complexite de la resolution du systeme Qy = b est donc 3∑n

i (m − i) adds+mults. Sim = n, la complexite est de l’ordre de 3

2n2. Si la matrice A est carree d’ordre n inversible,

pour resoudre Ax = b, on resout d’abord Qy = b comme ci-dessus, puis Rx = y par uneremontee. La complexite totale est de l’ordre de 2n2.

2. Si A ∈ Mn(C) est inversible, alors

cond2(A) = cond2(R),

car Q est unitaire.

3. la methode de Householder permet de calculer |det(A)|. En effet,

|det(R)| = |produit des coefficients diagonaux de R| = |det(A)|.

4. Si A ∈ Mm,n(C), m ≥ n, est factorisee sous la forme A = QR, alors resoudre une systemede la forme A∗Ax = b est facile si rang(A) = n, car A∗A = R∗R et rang(R) = n, et onpeut resoudre A∗Ax = b par une descente(de R∗)-remontee (de R). La factorisation QRd’une matrice se prete donc bien aux problemes de moindres carres.

Theoreme 8.7 Soit A ∈ Cm×m. On peut trouver une factorisation QR telle que tous les coef-ficients diagonaux de R sont reels positifs. Si A est inversible, cette factorisation est unique.

Demonstration. On part de la factorisation QR de A obtenue par la methode de Householderci dessus : A = Q′R′ ou la matrice Q′ est unitaire et R′ est triangulaire superieure. Appelons Dla matrice diagonale D = Diag(d1, . . . dm) ou

di =

ri i

|ri i| si ri i 6= 0,

1 si ri i = 0,

La matrice D est clairement unitaire. Posons Q = Q′D−1 et R = DR′. Ces matrices ont lesproprietes desirees.

Supposons que A soit inversible et soient deux factorisation QR de A,

A = Q1R1 = Q2R2

telles que tous les coefficients diagonaux de R1 et R2 sont reels positifs. Ils sont strictement po-sitifs car A est inversible. On a alors Q∗

2Q1 = R2R−11 . Mais Q∗

2Q1 est unitaire tandis que R2R−11

est triangulaire superieure avec des coefficients diagonaux reels positifs strictement. On peutverifier que l’Identite est la seule matrice unitaire et triangulaire superieure avec des coefficientsdiagonaux reels positifs. Donc Q2 = Q1 et R2 = R1.

Page 136: Algebre Lineaire Et Analyse Numerique Matricielle

136 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

Les rotations de Givens

Les reflexions de Householder sont tres utiles quand il s’agit d’annuler tous les coefficientsd’une colonne sous la diagonale. En revanche, pour annuler selectivement certains coefficients (sila matrice a deja beaucoup de coefficients nuls par exemple), les rotations de Givens constituentun outil important.Soit A une matrice de Mn(R) : il existe deux reels c = cos(θ) et s = sin(θ) tels que si

Q =

i j

1. . .

c 0 . . . s0 1 0 . . .... 1

.... . .

−s 0 . . . c1

. . .

i

j

alors les lignes de QA d’indices differents de i et j sont identiques a celles de A, et (QA)j,i = 0.On definit θ ∈] − π

2 ,π2 [ tel tan(θ) = t =

aj,i

ai,iet c = cos(θ) = 1√

t2+1et s = sin(θ) = t√

t2+1. On a

−sai,i + caj,i = 0.

8.4.2 Generalisation de la methode de la puissance

Soit A ∈ Mn(C). On note λ1, . . . , λn les valeurs propres de A et x1, . . . xn les vecteurs propresassocies. Dans la suite on va supposer que pour p, p < n,

|λ1| ≥ |λ2| ≥ . . . |λp| > |λp+1| ≥ · · · ≥ |λn|. (8.20)

Soit T = Q∗AQ une decomposition de Schur de A telle que D = Diag(T ) = (λ1, . . . , λn),verifiant (8.20). On note N = T −D et

T =

(T11 T12

0 T22

)et N =

(N11 N12

0 N22

)(8.21)

ou T11 et N11 sont d’ordre p.On notera

Q = (Q1, Q2) (8.22)

ou Q1 est la matrice de Cp×n obtenue en prenant les p premieres colonnes de Q. On note Dp(A)le sous-espace engendre par les colonnes de Q1. On va chercher a approcher le sous-espace Dp(A).Pour cela, on generalise la methode de la puissance de la maniere suivante : on se donne unematrice Q(0) ∈ Cn×p dont les colonnes sont orthonormales et on construit la suite R(k), Q(k)

pour k ≥ 1, par la recurrence suivante

Z(k) = AQ(k−1),

Z(k) = Q(k)R(k), (factorisation QR de Z(k))

Page 137: Algebre Lineaire Et Analyse Numerique Matricielle

8.4. LA METHODE QR 137

Ici Q(k) ∈ Cn×p a ses colonnes orthonormales et R(k) ∈ Cp×p est une matrice triangulairesuperieure.

Remarque 8.9 Pour p = 1, c’est exactement la methode de la puissance et R(k) = λ(k).

On veut montrer que le sous-espace engendre par les colonnes de Q(k), note note Im(Q(k)),converge vers le sous-espace Dp(A).

Theoreme 8.8 (Convergence vers Dp(A) ) Sous l’hypothese (8.20) et si de plus

dist(Dp(A∗), Im(Q(0))) < 1, (8.23)

alors

dist(Dp(A), Im(Q(k))) = O

( |λp+1|k|λp|k

). (8.24)

Demonstration. La preuve est assez complexe. Elle est donnee dans la section 8.4.5.

Remarque 8.10 L’hypothese (8.23) est de la meme nature que l’hypothese sur le choix initialdans la methode de la puissance, cf. Theoreme 8.2.

8.4.3 La methode QR

Si on prend p = n dans l’algorithme precedent, et si on suppose de plus que les valeurspropres de A verifient |λ1| < |λ2| < · · · < |λn| (ceci implique d’ailleurs que A est diago-nalisable), on voit que l’algorithme calcule une decomposition de Schur de A. En effet, pour

tout i < n et si dist(Di(A∗), vect(q(0)1 , . . . q

(0)i )) < 1, on voit d’apres le Theoreme 8.11 que

dist(Di(A), vect(q(k)1 , . . . q

(k)i )) tend vers 0. Ceci implique que T (k) = (Q(k))∗AQ(k) converge vers

une decomposition de Schur de A, (la limite de T (k) est triangulaire superieure avec les valeurspropres sur la diagonale).

Remarque 8.11 Si A est diagonalisable, les colonnes de Q(k) ne convergent pas en general versles vecteurs propres de A, qui ne sont pas necessairement orthogonaux.

Remarque 8.12 Cette methode ne donne donc pas directement les vecteurs propres, mais unefois les valeurs propres approchees precisement, on peut utiliser une methode de la puissanceinverse translatee pour calculer les vecteurs propres.

Dans le cas general, si plusieurs valeurs propres ont meme module, T (k) ne converge plus versune matrice triangulaire superieure mais vers une matrice triangulaire superieure par blocs, lesblocs diagonaux correspondant aux valeurs propres d’un meme module. On retrouve les valeurspropres de A en prenant les valeurs propres des blocs diagonaux.En notant T (k) = (Q(k))∗AQ(k), on voit que T (k−1) = (Q(k−1))∗Q(k)R(k) = U (k)R(k) si on noteU (k) = (Q(k−1))∗Q(k). De meme, T (k) = (Q(k))∗AQ(k) = (Q(k))∗AQ(k−1)U (k) = (Q(k))∗Q(k)R(k)U (k) =R(k)U (k). On peut donc reecrire l’algorithme precedent sous sa forme la plus connue : on se donneune matrice Q(0) ∈ Cn×p dont les colonnes sont orthonormales, on pose T (0) = (Q(0))∗AQ(0) eton construit la suite T (k), R(k), U (k) pour k ≥ 1, par la recurrence suivante

T (k−1) = U (k)R(k), (factorisation QR de T (k−1))

T (k) = R(k)U (k),

Page 138: Algebre Lineaire Et Analyse Numerique Matricielle

138 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

8.4.4 Acceleration de la methode QR pour A ∈ Mn(R)

On voit qu’une etape de la methode QR ci-dessus demande de l’ordre de n3 operations, donccette methode est couteuse si n est grand.On peut grandement accelerer la methode QR en transformant au prealable A en une matrice

orthogonalement semblable T (0) de type Hessenberg superieure (t(0)i,j = 0 si i > j + 1) a l’aide de

symetries de Householder. Apres, on applique l’algorithme decrit ci-dessus a T (0) en effectuantles factorisations QR par des rotations de Givens. L’interet de mettre T (0) sous la forme d’unematrice Hessenberg superieure vient du fait que tous les T (k), k > 0 sont alors aussi de la formeHessenberg superieure et les factorisations QR des matrices Hessenberg (T (k−1) = U (k)R(k)) parune succession de rotations de Givens demandent de l’ordre de n2 operations au lieu de n3. Dememe le calcul de T (k) = R(k)U (k) demande de l’ordre de n2 operations.Pour justifier cette modification de l’algorithme, on donne les resultats suivants :

Theoreme 8.9 Soit A une matrice de Mn(R). Il existe une matrice orthogonale Q ∈ Mn(R)et une matrice de type Hessenberg superieure H ∈ Mn(R) (hi,j = 0 si i > j + 1), telles que

QTAQ = H.

Idee de la Demonstration On demontre ce resultat par recurrence : a l’aide de d’une reflexionde Householder H1 , on peut obtenir

HT1 A =

∗ ∗ ∗ . . . ∗∗ ∗ ∗ . . . ∗0 ∗ ∗ . . . ∗...

... ∗ . . . ∗0 ∗ ∗ . . . ∗

Si on note c1 le vecteur c1 = (a21, . . . an1)T , H1 s’ecrit Diag(1, H1) ou H1 est une matrice de

Householder d’ordre n − 1 telle que H1c1 = (1, 0, . . . , 0)T Alors on verifie que HT1 AH1 est du

meme type que HT1 A, i.e. ses coefficients d’indices i, 1 sont nuls pour i > 2.

Si apres k − 1 iterations, on a construit k − 1 matrices Hk telles que

(H1 . . . Hk−1)TA(H1 . . . Hk−1) =

k − 1 1 n− k

B11 B12 B13

B21 B22 B23

0 B32 B33

k − 11n− k

soit de type Hessenberg pour ses k − 1 premieres colonnes, on choisit alors Hk une matriceHouseholder telle que HT

k B32 soit colineaire a (1, 0, . . . 0)T ∈ Rn−k. On prendHk = Diag(Ik, Hk),et on voit que

(H1 . . . Hk−1Hk)TA(H1 . . . Hk−1Hk) =

B11 B12 B13Hk

B21 B22 B23Hk

0 HTk B32 HT

k B33Hk

est de type Hessenberg sur ses k premieres colonnes.Le resultat est demontre. ⊓⊔Theoreme 8.10 Soit H une matrice de Mn(R) de type Hessenberg superieure. Il existe n− 1matrices de rotations de Givens et une matrice triangulaire superieure R telles que GT

n−1 . . . GT1 H =

R. De plus RG1 . . . Gn−1 est de type Hessenberg superieure.

Page 139: Algebre Lineaire Et Analyse Numerique Matricielle

8.4. LA METHODE QR 139

Demonstration. Exercice

Remarque 8.13 Si A est symetrique, alors le Theoreme 8.9 dit qu’on peut construire a l’aidede symetries de Householder une matrice orthogonale Q ∈ Mn(R) telle que QTAQ soit tridiago-nale. On est alors ramene au probleme de trouver les valeurs propres d’une matrice tridiagonalesymetrique a coefficients reels : pour cela, on peut remplacer la methode QR par la methode dessuites de Sturm encore appelee methode de Givens, cf. [2].

8.4.5 Demonstration du Theoreme 8.8

En premiere lecture, on pourra lire le paragraphe § 8.4.5 et sauter les paragraphes § 8.4.5 et§ 8.4.5.

Le lemme fondamental

Lemme 8.1 Pour tout k > 0, θ ≥ 0, on a

‖T k22‖2 ≤ (1 + θ)n−p−1

(|λp+1| +

‖N‖F

1 + θ

)k

(8.25)

et

‖T−k11 ‖2 ≤ (1 + θ)p−1

(|λp| −

‖N‖F

1 + θ

)−k

(8.26)

Demonstration. Soit ∆ = Diag(1, 1+θ, . . . (1+θ)n−p−1). On verifie facilement que ‖∆N∆−1‖F ≤‖N‖F

1+θ. On a

‖T k22‖2 = ‖∆−1(∆N22∆

−1 +D22)k∆‖2 ≤ ‖∆−1‖2(‖∆N22∆

−1‖2 + ‖D22‖2)k‖∆‖2

≤ cond2(∆)(|λp+1| +‖N‖F

1 + θ)k

= (1 + θ)n−p−1(|λp+1| +‖N‖F

1 + θ)k

et

‖T−k11 ‖2 = ‖∆−1D−k

11 (∆D−111 N11∆

−1 + I)−k∆‖2 ≤ ‖∆−1‖2‖D−k11 ‖2‖(∆D−1

11 N11∆−1 + I)−k‖2‖∆‖2

≤ cond2(∆)|λp|−k 1

(1 − ‖∆D−111 N11∆−1‖2)k

≤ (1 + θ)p−1 |λp|−k

(1 − |λp|−1‖N‖F

1+θ)k

≤ (1 + θ)p−1 1

(|λp| − ‖N‖F

1+θ)k

Un resultat preliminaire de changement de bases

Theoreme 8.11 Soit T une matrice triangulaire par blocs :

T =

(T11 T12

0 T22

)

Page 140: Algebre Lineaire Et Analyse Numerique Matricielle

140 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

et T11 ∈ Cp×p T22 ∈ C(n−p)×(n−p). la transformation lineaire Φ : C(p)×(n−p) → C(p)×(n−p) :Φ(X) = T11X −XT22 est non singuliere si et seulement si sp(T11) ∩ sp(T22) = ∅. Dans ce cas,il existe une unique matrice X ∈ C(p)×(n−p) telle que

(Ip X0 In−p

)−1

T

(Ip X0 In−p

)=

(T11 00 T22

)(8.27)

Demonstration. Supposons qu’il existe X tel que Φ(X) = 0. On sait qu’il existe deux matricesunitaires U ∈ Cp×p et V ∈ C(n−p)×(n−p) telles que

U∗XV =

(Σr 00 0

)

ou Σr est une matrice diagonale d’ordre r, sans zero sur la diagonale. On a

T11U

(Σr 00 0

)V ∗ = U

(Σr 00 0

)V ∗T22 ⇔ U∗T11U

(Σr 00 0

)=

(Σr 00 0

)V ∗T22V.

(8.28)On note M = U∗T11U et N = V ∗T22V ,

M =

(M11 M12

M21 M22

)N =

(N11 N12

N21 N22

)

avec M11 et N11 d’ordre r. D’apres (8.28), on a M11Σr = ΣrN11 et M21 = N21 = 0. Les matricesM11 et N11 sont semblables, et ont donc les memes valeurs propres. Comme M = U∗T11U etN = V ∗T22V , T11 et T22 ont des valeurs propres communes.Reciproquement si il existe λ x 6= 0 et y 6= 0 tels que T11x = λx et T22y = λy. On verifie queΦ(xy∗) = 0.Le dernier point du Theoreme est facile.

Demonstration du Theoreme 8.8

Avec les notations de § 8.4.2, on verifie aisement par recurrence que

Q(k)R(k) . . . R(1) = AkQ(0) (8.29)

On multiplie (8.29) a gauche par Q∗ : Q∗Q(k)R(k) . . . R(1) = T kQ∗Q(0) En notant

Q∗Q(k) =

(V (k)

W (k)

), on a

(V (k)

W (k)

)R(k) . . . R(1) = T k

(V (0)

W (0)

)(8.30)

D’autre part, comme |λp| > |λp+1|, et d’apres le Theoreme 8.11, il existe X ∈ Cp×(n−p)

verifiant (8.27). De (8.30), on deduit

(Ip X0 In−p

)(T k

11 00 T k

22

)(Ip −X0 In−p

)(V (0)

W (0)

)=

(T11 00 T22

)k (V (0)

W (0)

)=

(V (k)

W (k)

)R(k) . . . R(1)

(8.31)ou encore

(T11 00 T22

)(V (0) −XW (0)

W (0)

)=

(V (k) −XW (k)

W (k)

)R(k) . . . R(1) (8.32)

Page 141: Algebre Lineaire Et Analyse Numerique Matricielle

8.5. ANNEXE : DISTANCE ENTRE DEUX SOUS-ESPACES DE CN 141

On suppose que V (0)−XW (0) est inversible, ce qu’on demontrera plus tard. Alors (8.32) impliqueque

(V (0) −XW (0))−1T−k11 (V (k) −XW (k)) = (R(k) . . . R(1))−1

W (k) = T k22W

(0)(V (0) −XW (0))−1T−k11 (V (k) −XW (k))

Du Theoreme 8.12, on deduit que

dist(Dp(A), Im(Q(k))) = ‖Q∗2Q

(k)‖2 = ‖W (k)‖2

≤ ‖T k22‖2‖W (0)‖2‖(V (0) −XW (0))−1‖2‖T−k

11 ‖2‖V (k) −XW (k)‖2

≤ ‖T k22‖2‖W (0)‖2‖(V (0) −XW (0))−1‖2‖T−k

11 ‖2(1 + ‖X‖F )(8.33)

Le resultat (8.24) vient alors du Lemme 8.1, en prenant θ assez grand.

Il ne reste plus qu’a demontrer que V (0)−XW (0) est inversible. On utilise l’equation A∗Q = QT ∗

ainsi que (8.27), qui s’ecrit encore

T ∗ =

(Ip 0−X∗ In−p

)(T ∗

11 00 T ∗

22

)(Ip 0X∗ In−p

)(8.34)

On en deduit que

A∗(Q1, Q2)

(Ip 0−X∗ In−p

)= (Q1, Q2)

(Ip 0−X∗ In−p

)(T ∗

11 00 T ∗

22

)

⇒ A∗(Q1 −Q2X∗) = (Q1 −Q2X

∗)T ∗11.

Ceci montre que les colonnes de (Q1 −Q2X∗) engendrent l’espace vectoriel Dp(A

∗). En posant

Z = (Q1 −Q2X∗)(Ip +XX∗)−

12 , on voit facilement que les colonnes de Z sont orthonormales

(en effet, Z∗Z = Ip). Les colonnes de Z forment donc une base orthonormale de Dp(A∗).

D’autre part, V (0) − XW (0) = (Q∗1 − XQ∗

2)Q(0) = (Ip + XX∗)

12Z∗Q(0), ce qui implique que

σmin(V(0) −XW (0)) ≥ σmin(Z

∗Q(0)).D’apres le Theoreme 8.12,

σmin(Z∗Q(0)) =

√1 − dist2(Dp(A∗), Im(Q(0)))

qui est strictement positive d’apres l’hypothese du Theoreme 8.8. Donc V (0) −XW (0) est bieninversible. ⊓⊔

8.5 Annexe : Distance entre deux sous-espaces de Cn

Dans l’analyse de la methode QR ci-dessus, on a besoin de la notion de distance entre sous-espaces. Ce paragraphe peut etre saute en premiere lecture.

Definition 8.2 Soient V1 et V2 deux sous-espaces de Cn. On definit

dist(V1, V2) = ‖PV1 − PV2‖2, (8.35)

ou PV est la projection orthogonale sur V .

Remarque 8.14 On peut definir de meme la distance de deux sous-espaces de Rn.

Page 142: Algebre Lineaire Et Analyse Numerique Matricielle

142 CHAPITRE 8. RECHERCHE DE VALEURS PROPRES

Remarque 8.15dist(V1, V2) = dist(V ⊥

1 , V ⊥2 ). (8.36)

Remarque 8.16 Que vaut la distance dans R2 de deux droites vectorielles engendrees respec-tivement par x = (cos θ1, sin θ1)

T et y = (cos θ2, sin θ2)T ? on a

dist(V1, V2) = ‖xxT − yyT‖2 =

∥∥∥∥(

cos2 θ1 − cos2 θ2 cos θ1 sin θ1 − sin θ2 cos θ2cos θ1 sin θ1 − sin θ2 cos θ2 sin2 θ1 − sin2 θ2

)∥∥∥∥2

= | sin(θ2 − θ1)|∥∥∥∥(

− sin(θ2 + θ1) cos(θ2 + θ1)cos(θ2 + θ1) sin(θ2 + θ1)

)∥∥∥∥2

= | sin(θ2 − θ1)|

En dimension superieure, on le resultat

Theoreme 8.12 Soient W et Z deux matrices unitaires de Mn(C). On a W = (W1,W2) etZ = (Z1, Z2), avec W1, Z1 ∈ Cn×p et W2, Z2 ∈ Cn×(n−p). On appelle S le sous-espace engendrepar les colonnes de W1 et S′ le sous-espace engendre par les colonnes de Z1. On a

dist(S, S′) =√

1 − σ2min(W

∗1Z1) =

√1 − σ2

min(W∗2Z2) (8.37)

ou σmin(M) est la plus petite valeur singuliere de M .

Demonstration.

dist(S, S′) = ‖W1W∗1 − Z1Z

∗1‖2 = ‖W ∗(W1W

∗1 − Z1Z

∗1 )Z‖2 =

∥∥∥∥(

0 W ∗1Z2

−W ∗2Z1 0

)∥∥∥∥2

=

∥∥∥∥(

0 W ∗1Z2

−W ∗2Z1 0

)∗(0 W ∗

1Z2

−W ∗2Z1 0

)∥∥∥∥

12

2

=

∥∥∥∥(Z∗

1W2W∗2Z1 0

0 Z∗2W1W

∗1Z2

)∥∥∥∥12

2

Mais W2W∗2 = I −W1W

∗1 ,(car pour tout sous-espace V , PV ⊥ = I − PV ). Donc Z∗

1W2W∗2Z1 =

Z∗1Z1 − Z∗

1W1W∗1Z1 = I − Z∗

1W1W∗1Z1. Mais ‖I − Z∗

1W1W∗1Z1‖2 = 1 − σ2

min(W∗1Z1).

Si on note B = W ∗1Z2, on sait que ‖B∗B‖2 = ‖BB∗‖2, ce qui implique que ‖Z∗

2W1W∗1Z2‖2 =

‖W ∗1Z2Z

∗2W1‖2 = ‖I −W ∗

1Z1Z∗1W1‖2 = 1 − σ2

min(W∗1Z1).

On a demontre le resultat.

Page 143: Algebre Lineaire Et Analyse Numerique Matricielle

Chapitre 9

Problemes

9.1 Partiel du 25 Novembre 2002

Exercice 1

1) a) Calculer une reduction de Jordan de la matrice (et la matrice de passage correspondante)

A =

2 −√

10

25

√10

500 −3

√2

10

−2

√10

252 +

√10

250 −3

√2

5

−3√

2

5

3√

2

102

1√10

0 0 0 2

en calculant d’abord les valeurs propres de A puis son polynome minimal.b) En deduire la decomposition de Dunford-Jordan de A.Indication On peut obtenir cette decomposition de maniere simple, sans effectuer de produitsmatriciels.c) Calculer A10.

2) Calculer une reduction de Schur de la matrice

M =

1 2 −10 4 30 −4 −3

3) a) Expliquer comment on construit une decomposition en valeurs singulieres d’une B ∈Mn,m(R).b) On choisit pour B la matrice

B =

1√2

1 1

− 1√2

1 1

0 − 3√2

3√2

143

Page 144: Algebre Lineaire Et Analyse Numerique Matricielle

144 CHAPITRE 9. PROBLEMES

Calculer une decomposition en valeurs singulieres de la matrice B.c) Donner ‖B‖1,‖B‖2, ‖B‖∞ et ‖B‖F .

4) Calculer une reduction de Gauss et la signature de la forme quadratique q sur R4

q(x) = 4x21 + 4x1x2 + 4x1x3 + 8x1x4 + x2

2 + x23 + 4x2

418x3x4 + 4x24

Exercice 2

1) a) Montrer que pour tout matrice A de Mn(R) symetrique et definie positive, il existe unematrice B de Mn(R) symetrique et definie positive, telle que

B2 = A. (9.1)

Indication On diagonalisera A en justifiant que c’est possible.

2) Soient B une matrice symetrique definie positive et ν1, . . . , νn ses valeurs propres.a) Montrer qu’il existe un polynome P de degre ≤ n− 1 tel que P (ν2

i ) = νi pour 1 ≤ i ≤ n.b) Montrer que P (B2) = B.c) En deduire que B symetrique et definie positive verifiant (9.1) est unique.

3) Soit A ∈ Mn(C) une matrice inversible. Montrer que A peut s’ecrire sous la forme

A = UB, (9.2)

ou U est unitaire et B est hermitienne definie positive.Indication Pour montrer l’existence d’une telle decomposition, on partira d’une decompositionSVD de A.

4) Soient B1 et B2 deux matrices hermitiennes definies positives et U1 et U2 deux matricesunitaires telles que A = U1B1 = U2B2.a) Montrer que B2

1 = B22 .

b) En deduire que B1 = B2 puis que U1 = U2.c) Que peut-on dire de B et U satisfaisant (9.2) ?

Exercice 3

Soit A une matrice de Mn(R) antisymetrique, c’est a dire telle que

AT = −A.

a) Montrer que A (vue comme une matrice de Mn(C)) est diagonalisable.b) Montrer que toutes ses valeurs propres sont imaginaires pures.c) En deduire que pour tout reel α, In + αA est inversible.d) Montrer que les matrices (In −A)−1 et (In +A) commutent, puis que (In −A)−1(In +A) estorthogonale.

Page 145: Algebre Lineaire Et Analyse Numerique Matricielle

9.1. PARTIEL DU 25 NOVEMBRE 2002 145

Exercice 4

Soit Q une matrice orthogonale de M3(R)a) Montrer que

det(Q) = ±1

b)Expliquer pourquoi Q (vue comme matrice de M3(C)) est diagonalisable et pourquoi sesvaleurs propres sont de module 1.c) En deduire qu’il existe p ∈ 0, 1 et θ ∈ [0, 2π[ tel que Q est semblable a la matrice

(−1)p 0 00 cos θ sin θ0 − sin θ cos θ

Exercice 5

Montrer que A ∈ Cn×n est normale si et seulement si

∀x ∈ Cn, ‖Ax‖2 = ‖A∗x‖2.

Page 146: Algebre Lineaire Et Analyse Numerique Matricielle

146 CHAPITRE 9. PROBLEMES

9.2 Partiel du 25 Novembre 2003.

Exercice 1 : Formes Quadratiques

1) Calculer la decomposition de Gauss de la forme quadratique sur R4.

q(x) = 2(x1x2 − 4x1x3 + x2x4 + 4x3x4) (9.3)

Calculer la signature de q.

2) Donner une base orthogonale pour q.

3) (question independante des precedentes) On considere un entier n > 4. Demontrer que laforme quadratique sur Rn :

q(x) = 6n∑

i=1

x2i − 8

n−1∑

i=1

xixi+1 + 2n−2∑

i=1

xixi+2

est definie positive.Suggestion On pourra calculer (xi − 2xi+1 + xi+2)

2 et sommer de i = 1 a n− 2.

Exercice 2 : Decomposition en Valeurs Singulieres

1) Donner une decomposition en valeurs singulieres P TAQ = D de la matrice

A =1

5

(3√

3 −12 3

4√

3 9 4

), (9.4)

on calculera D, P et Q, et on donnera les valeurs singulieres de A.

Exercice 3 : Decomposition de Jordan

1) Donner le polynome minimal et une decomposition de Jordan de la matrice

A =

2 35 0

−45 2 3

50 4

5 2

. (9.5)

2) Resoudre l’equation differentielle dans R3 :

dUdt

(t) = AU(t) t > 0,U(0) = (1, 1, 1)T .

(9.6)

Exercice 4 : Inverses Generalises

Soit A une matrice de Mm,n(C), le but de ce probleme est l’etude des “inverses generalises”de A.

Page 147: Algebre Lineaire Et Analyse Numerique Matricielle

9.2. PARTIEL DU 25 NOVEMBRE 2003. 147

1. (a) On designe par rang(A) le rang de A, montrer que

ker (A∗A) = ker (A), rang(A∗A) = rang(A), et Im(A∗A) = Im(A∗).

(b) Montrer que A∗A est inversible lorsque rang(A) = n. Montrer que dans ce cas, lamatrice AL = (A∗A)−1A∗ verifie ALA = In, matrice identite de Mn(C). On dit queAL est une inverse a gauche de A. Montrer que pour toute matrice V ∈ Mm,n(C)telle que rang(A∗V A) = n, la matrice AV,L = (A∗V A)−1A∗V est aussi une inverse agauche de A.

(c) Formuler et demontrer une proposition analogue quand rang(A) = m.

2. On se place maintenant dans le cas general ou rang(A) ≤ min(m,n). Montrer que pourtoute matrice B ∈ Mn,m(C), les proprietes suivantes sont equivalentes :

(a) Pour tout c ∈ Im(A), x = Bc est une solution de Ax = c.

(b) ABA = A.

(c) La matrice C = BA est idempotente (i.e. C2 = C) et rang(C) = rang(A). Sugges-tions. On rappelle qu’une matrice C ∈ Mn(C) idempotente verifie Im(C)⊕ker (C) =Cn. On pourra comparer ker (BA) a ker (A) pour A verifiant 2b.

(d) La matrice D = AB est idempotente et rang(D) = rang(A). Suggestions. On pourrautiliser le fait que ABA = A⇔ A∗B∗A∗ = A∗ et utiliser le point 2c.

Une matrice qui verifie une de ces proprietes est appelee inverse generalise de A.

3. Soit B une inverse generalisee de A, montrer que

(a) rang(B) ≥ rang(A).

(b) Les solutions x de l’equation Ax = 0 sont les vecteurs x = (In − BA)z avec z ∈Cn. Suggestions. On pourra montrer que Im(In − BA) ⊕ ker (In − BA) = Cn,Im(In −BA) ⊂ ker (A), et que ker (In −BA) ⊂ Im(BA).Quel est le rang de In −BA ?

(c) Une condition necessaire et suffisante pour que l’equation Ax = c admette une solu-tion x est que ABc = c. Trouver alors toutes les solutions x de Ax = c.

4. On pose rang(A) = r. On sait que A a r valeurs singulieres non nulles, donc on peuttrouver une decomposition SVD de A : V ∗AU = Σ, telle que

Σ =

S 0

0 0

l r

l m− r↔ ↔r n− r

(9.7)

ou S ∈ Mr,r(R) est diagonale inversible. Soit Σ+ la matrice

Σ+ =

S−1 0

0 0

l r

l n− r↔ ↔r m− r

Montrer que UΣ+V ∗ est un inverse generalise de A.

Page 148: Algebre Lineaire Et Analyse Numerique Matricielle

148 CHAPITRE 9. PROBLEMES

9.3 Partiel 2004

Exercice 1 : Decomposition en Valeurs Singulieres

Donner une decomposition en valeurs singulieres QTAP = D de la matrice

A =

12

5

12

5

9

5

9

5

−5 5

; (9.8)

on calculera D, P et Q, et on donnera les valeurs singulieres de A.

Exercice 2 : Reduction de Schur

Donner une decomposition de Schur de la matrice

A =

54 15 −30 50 0−28 20 71

. (9.9)

Exercice 3 : Theoreme de Hamilton-Cayley

Soit p matrices Ai ∈ Mn(R), i = 1, . . . , p telles que

p∑

i=1

Ai = In, (9.10)

etAiAj = 0 si i 6= j. (9.11)

a) Montrer que le polynome X2 −X annule les matrices Ai , i = 1, . . . , p.b) En deduire que les matrices Ai sont diagonalisables dans une meme base.

Page 149: Algebre Lineaire Et Analyse Numerique Matricielle

9.3. PARTIEL 2004 149

Exercice 4

Soit deux reels λ et µ non tous nuls. Soit A ∈ Mn(R) telle qu’il existe B ∈ Mn(R),C ∈ Mn(R) telles que

A = λB + µC, (9.12)

A2 = λ2B + µ2C, (9.13)

A3 = λ3B + µ3C, (9.14)

1) Soit P un polynome de degre inferieur ou egal a 3 et tel que P (0) = 0. Montrer que

P (A) = P (λ)B + P (µ)C.

2) En deduire un polynome scinde avec des racines simples qui annule A. On distinguera lescas

– 0, λ, µ sont deux a deux distincts– deux des trois reels 0, λ, µ coincident.

3) En deduire que A est diagonalisable.

4) En supposant que λµ(λ− µ) 6= 0,a) Exprimer A3 en fonction de A2 et A (on pourra utiliser la question 2)), puis A4 en fonctionde A et A2.b) Exprimer B et C en fonction de A et A2.c) En deduire que B2 = B et C2 = C, puis que BC = CB = 0.d) Montrer que ker(B) ⊕ Im(B) = Rn et que ker(C) ⊕ Im(C) = Rn.e) Montrer que Im(B) ⊕ Im(C) ⊕ (ker(B) ∩ ker(C)) = Rn.

Exercice 5 : Scilab

1) M etant une matrice, ecrire une intruction scilab permettant de construire la matrice dia-gonale D dont la diagonale est celle de M .

2) On considere les lignes suivantes en langage scilab

for i=1:5

for j=1:10

t(i,j)=i/j;

end

end

a) Modifier ces lignes en utilisant une operation vectorielle de maniere a supprimer la boucleinterne.b) Obtenir la meme matrice en utilisant uniquement des operations vectorielles et la multiplica-tion matricielle.

3) Ecrire un programme scilab pour trouver la decomposition en valeurs singulieres de lamatrice A donnee par (9.8). Indication En annexe, on donne le resultat de la commande

help svd

Page 150: Algebre Lineaire Et Analyse Numerique Matricielle

150 CHAPITRE 9. PROBLEMES

Annexe

Scilab Function

svd - singular value decomposition

Calling Sequence

s=svd(X)

[U,S,V]=svd(X)

[U,S,V]=svd(X,0) (obsolete)

[U,S,V]=svd(X,"e")

[U,S,V,rk]=svd(X [,tol])

Parameters

O X : a real or complex matrix

O s : real vector (singular values)

O S : real diagonal matrix (singular values)

O U,V : orthogonal or unitary square matrices (singular vectors).

O tol : real number

Description

[U,S,V] = svd(X) produces a diagonal matrix S , of the same dimension as X and

with nonnegative diagonal elements in decreasing order,

and unitary matrices U and V so that X = U*S*V’ .

[U,S,V] = svd(X,0) produces the "economy size" decomposition.

If X is m-by-n with m > n, then only the first n columns of U are computed

and S is n-by-n.

s = svd(X) by itself, returns a vector s containing the singular values.

[U,S,V,rk]=svd(X,tol) gives in addition rk , the numerical rank of X

i.e. the number of singular values larger than tol .

The default value of tol is the same as in rank .

Page 151: Algebre Lineaire Et Analyse Numerique Matricielle

9.4. PARTIEL DU 18 NOVEMBRE 2005 151

9.4 Partiel du 18 Novembre 2005

Exercice 1 : Valeurs singulieres d’une matrice

1) Trouver la decomposition en valeurs singulieres de la matrice A :

A =

(12 −60 169 80 12

)

On donnera la decomposition complete, c’est-a-dire deux matrices unitaire et une matrice dia-gonale. On indiquera les valeurs singulieres de A.Indication Les valeurs propres de la matrice

(32 −36

−36 53

)

sont 5 et 80. Pour travailler avec les plus petits entiers possibles, on aura le plus souvent intereta factoriser au maximum les expressions (en facteurs premiers).

2) On note

B =

(11 −2−5 10

).

Calculer ‖B‖1, ‖B‖2, ‖B‖∞, ‖B‖F .

Exercice 2 : Programmation en Scilab

Ecrire en langage Scilab une fonction effectuant l’orthonormalisation au moyen de l’algo-rithme de Gram-Schmidt d’un ensemble de n vecteurs de Rn. La fonction prendra comme argu-ment la matrice formee par les n vecteurs mis en colonnes et renverra la matrice formee par lesn vecteurs orthonormalises mis en colonnes. On veillera a afficher a l’ecran un message dans lecas ou l’orthonormalisation est impossible.

Exercice 3 : Rang numerique d’une matrice

Soit A ∈ Md(C). Le rang numerique de A est l’ensemble des nombres complexes

R(A) =

x∗Axx∗x

, x ∈ Cd\0.

1)a) Montrer que R(A) contient les valeurs propres de A.b) Montrer que pour tout α ∈ C

R(A+ αId) = µ+ α, µ ∈ R(A),

et queR(αA) = αR(A).

c) Montrer que pour toute matrice unitaire U ,

R(U∗AU) = R(A).

Page 152: Algebre Lineaire Et Analyse Numerique Matricielle

152 CHAPITRE 9. PROBLEMES

2) On suppose que le rang numerique de la matrice A est inclus dans le disque de centre c etde rayon r, i.e.

R(A) ⊂ z ∈ C; |z − c| ≤ r,avec 0 < r < |c|.a) Montrer en utilisant les resultats de 1.b) que

R(Id −

1

cA

)⊂z ∈ C, |z| ≤ r

|c|

b )En deduire que

limn→∞

(Id −

1

cA

)n

= 0.

3) On suppose que A est une matrice normale. Soient λ1, . . . , λd les valeurs propres de A, (lesλi ne sont pas forcement deux a deux distincts).Montrer que

R(A) =

d∑

i=1

miλi;

∣∣∣∣∣∣

mi ∈ [0, 1] ∀i, 1 ≤ i ≤ d,

∑di=1mi = 1.

.

Exercice 4 : Localisation des valeurs propres d’une matrice

Soit A ∈ Md(C), A = (ai,j)1≤i,j≤d.

1) Soit λ une valeur propre de A et v ∈ Cd, v 6= 0, un vecteur propre associe : Av = λv. Soiti0 tel que |vi0 | = ‖v‖∞.Montrer que

|λ− ai0,i0| ≤d∑

j=1,j 6=i0

|ai0,j|.

2) En deduire que le spectre de A (i.e. l’ensemble des valeurs propres de A) est contenu dansl’ensemble

d⋃

i=1

z ∈ C, |z − ai,i| ≤

d∑

j=1,j 6=i

|ai,j|

.

Quelle est la nature geometrique de cet ensemble ?

3)a) En utilisant la definition du polynome caracteristique et le fait que pour toute matrice B ∈Md(C), det(B∗) = det(B), montrer que λ est valeur propre de A si et seulement si λ est valeurpropre de A∗.b) En deduire que le spectre de A est contenu dans l’ensemble

d⋃

i=1

z ∈ C, |z − ai,i| ≤

d∑

j=1,j 6=i

|aj,i|

.

Page 153: Algebre Lineaire Et Analyse Numerique Matricielle

9.5. EXAMEN DU 30 JANVIER 2003. 153

9.5 Examen du 30 Janvier 2003.

Exercice 1

Soit B la matrice

B =

1√2

1 1

− 1√2

1 1

0 − 3√2

3√2

Calculer une decomposition en valeurs singulieres de la matrice B.c) Donner ‖B‖1,‖B‖2, ‖B‖∞ et ‖B‖F .

Exercice 2

On veut resoudre au sens des moindres carres le systeme d’equations lineaires

A

(xy

)=

√3

01

ou A =

0√

32

35 −145 −1

2

(9.15)

a) Donner la factorisation de Cholesky de ATA.b) Ecrire et resoudre l’equation normale associee au probleme aux moindres carres.

Exercice 3

Soit λ ∈ R et soit A la matrice

A =

2 λ 0λ 2 λ0 λ 2

(9.16)

a) Ecrire les matrices d’iterations LJ et LGS des methodes de Jacobi et de Gauss-Seidel pourresoudre un systeme Ax = b.b) Discuter la convergence de ces deux methodes en fonction de λ.

Exercice 4

Soit A une matrice de Mn(R) a diagonale strictement dominante et dont les coefficientsextra-diagonaux sont negatifs ou nuls. On dit que A est une M-matrice.Soit D la matrice diagonale construite a partir de la diagonale de A. On appelle −L la matricetriangulaire inferieure stricte obtenue a partir de A en annulant les coefficients de A au dessus dela diagonale (diagonale comprise), et U la matrice triangulaire superieure telle queA = D−L−U .Soient deux matrices L1 et L2 triangulaires inferieures strictes a coefficients positifs ou nuls tellesque L = L1 + L2. De meme, soient deux matrices U1 et U2 triangulaires superieures strictes acoefficients positifs ou nuls telles que U = U1 + U2.On pourra appeler l1,i,j les coefficients de L1 et l2,i,j les coefficients de L2. De meme, on pourraappeler u1,i,j les coefficients de U1 et u2,i,j les coefficients de U2. On a ai,j = −l1,i,j − l2,i,j si

Page 154: Algebre Lineaire Et Analyse Numerique Matricielle

154 CHAPITRE 9. PROBLEMES

i > j et ai,j = −u1,i,j − u2,i,j si i < j.a) Montrer que

‖(D − L1 − U1)−1(L2 + U2)‖∞ < 1

Pour montrer l’inegalite ci-dessus, on montrera qu’il existe une constante c ∈ R, 0 < c < 1 telleque pour tout x ∈ Rn, x 6= 0, on a ‖y‖∞ ≤ c‖x‖∞ ou y est defini par

(D − L1 − U1)y = (L2 + U2)x,

en ecrivant les equations de ce systeme lineaire.On a de la meme maniere

‖(D − L2 − U2)−1(L1 + U1)‖∞ < 1

b) En deduire que pour resoudre le systeme AX = F , la methode iterative

(D − L1 − U1)Xn+ 1

2 = F + (L2 + U2)Xn

(D − L2 − U2)Xn+1 = F + (L1 + U1)X

n+ 12

converge.

Exercice 5

On considere une matrice A ∈ Mn(R), symetrique definie positive. Soient λ1 ≤ · · · ≤ λn lesvaleurs propres de A. Pour x ∈ Rn, on note r(x) le quotient de Rayleigh

r(x) =xTAx

xTx. (9.17)

1) Montrer queλ1 = min

x∈Rn,x 6=0r(x), et λn = max

x∈Rn,x 6=0r(x). (9.18)

2) Soit x 6= 0. Montrer que r(x+w)− r(x) = 2wT AxxT x

−2r(x)wT xxT x

+ o(w), ou ‖o(w)‖2

‖w‖2→ 0 quand

w → 0. En deduire que

grad r(x) =2

xTx(Ax− r(x)x). (9.19)

Remarque 9.1 On remarque que grad r(x) ∈ Vect(x,Ax).

3) Soient (q1, . . . , qj) une famille orthonormee de vecteurs de Rn et Hj = Vect(q1, . . . , qj). Onnote Mj et mj les reels

Mj = maxy∈Hj ,y 6=0

r(y) et mj = miny∈Hj ,y 6=0

r(y) (9.20)

Expliquer pourquoi on peut parler de max et de min dans (9.20) et montrer que

Mj ≤ λn et que mj ≥ λ1. (9.21)

On notera uj et vj des vecteurs uj , vj ∈ Hj pour lesquels le maximum et le minimum dans (9.20)sont respectivement atteints : r(uj) = Mj , r(vj) = mj.

Page 155: Algebre Lineaire Et Analyse Numerique Matricielle

9.5. EXAMEN DU 30 JANVIER 2003. 155

4) Montrer que si grad r(uj) 6= 0 et si qj+1 est tel que

grad r(uj) ∈ Hj+1 = Vect(q1, . . . , qj, qj+1), (9.22)

alors on a l’inegalite stricte

Mj+1 > Mj . (9.23)

De meme, on peut verifier que si grad r(vj) 6= 0 et si qj+1 est tel que

grad r(vj) ∈ Hj+1, (9.24)

alors

mj+1 < mj. (9.25)

On va donc chercher a construire le vecteur qj+1 tel que la famille (q1, . . . , qj+1) soit orthonormeeet tel que les conditions (9.22) et (9.24) soient verifiees : si on y arrive, on a

λ1 ≤ mj+1 < mj < . . .m1 = M1 < · · · < Mj < Mj+1 ≤ λn

Il est alors raisonnable de penser que la suite Mj (respectivement mj) converge vers λn (respec-tivement λ1).A priori, les conditions (9.22) et (9.24) semblent trop fortes pour definir le vecteur qj+1, maison va voir qu’il n’en est rien.

5) On choisit un vecteur norme q1 et on appelle Kj l’espace Kj = Vect(q1, Aq1, . . . , Aj−1q1)

pour 1 ≤ j ≤ n.a) On va commencer par construire q2 en fonction de q1 : en supposant que Aq1 n’est pascolineaire a q1, montrer que pour que les conditions (9.22) et (9.24) soient verifiees pour j = 1,il faut que q2 ∈ K2. En deduire les choix possibles pour q2 si dim (K2) = 2 et montrer qu’on aalors H2 = K2.b) On suppose que pour tout j ≤ k, on a Hj = Kj et que dim (Hj) = j. En supposant queAkq1 6∈ Hk, montrer que pour que les conditions (9.22) et (9.24) soient verifiees pour j = k, ilfaut que

Hk+1 = Kk+1. (9.26)

6) On suppose que pour 1 ≤ j ≤ n, les sous-espaces Kj verifient dim (Kj) = j.a) Montrer par recurrence que l’on peut choisir deux familles (α1, . . . , αn−1) et (β1, . . . , βn−1),les βi etant pris strictement positifs, telles que les vecteurs definis par

Aqj = βj−1qj−1 + αjqj + βjqj+1, j < n (9.27)

(en posant q0 = 0 et β0 = 0) forment une famille orthonormale. Il est clair qu’on obtient ainsiqj+1 ∈ Kj+1 pour que

Aqn = βn−1qn−1 + αnqn, (9.28)

c) Montrer que si Q ∈ Mn(R) est la matrice unitaire

Q = (q1, q2, . . . , qn)

Page 156: Algebre Lineaire Et Analyse Numerique Matricielle

156 CHAPITRE 9. PROBLEMES

et si T ∈ Mn(R) est la matrice tridiagonale

T =

α1 β1 0 . . . . . . 0

β1 α2 β2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . .. . .

. . . βn−1

0 . . . . . . 0 βn−1 αn

alors T = QTAQ. En deduire que A et T ont les memes valeurs propres.L’interet de l’algorithme ci-dessus, appele algorithme de Lanczos, est qu’on se ramene a trouverles valeurs propres d’une matrice tridiagonale symetrique definie positive, ce qui peut etre faitfacilement a l’aide d’une methode QR.

Page 157: Algebre Lineaire Et Analyse Numerique Matricielle

9.6. EXAMEN DU 28 JANVIER 2004. 157

9.6 Examen du 28 Janvier 2004.

Exercice 1

a) Montrer que la matrice

A =

4 2 22 10 72 7 21

est symetrique definie positive.b) Calculer la factorisation de Cholesky de A.c) Resoudre Ax = b avec b = (0, 0, 96)T en utilisant b).

Exercice 2

Soit A une matrice de Mn(R) inversible. On utilise la notation A = D − E − F ou D estla matrice diagonale construite a partir de la diagonale de A, −E est la matrice triangulaireinferieure stricte obtenue a partir de A en annulant les coefficients de A au dessus de la diagonale(diagonale comprise), et −F la matrice triangulaire superieure obtenue a partir de A en annulantles coefficients de A au dessous de la diagonale (diagonale comprise).Soit ω un nombre reel non nul.Pour resoudre le systeme Ax = b, on considere la methode iterative

1

ωDx(k+1) = b+ (

1 − ω

ωD + E + F )x(k). (9.29)

1) En quoi s’agit-il d’une generalisation de la methode de Jacobi ? Quelle condition doit verifierA pour que cette methode puisse etre appliquee ?

2) Etablir une relation entre la matrice d’iteration Lω de cette methode et la matrice d’iterationde la methode de Jacobi LJ . En deduire une relation entre les valeurs propres de Lω et celles deLJ .

3) Soit µ un reel non nul et M(µ) la matrice tridiagonale de Mn(R)

M(µ) =

b1 µ−1c1 0 . . . . . . 0

µa2 b2 µ−1c2. . .

...

0. . .

. . .. . .

. . ....

.... . .

. . .. . .

. . . 0...

. . . µan−1 bn−1 µ−1cn−1

0 . . . . . . 0 µan bn

3.a) Montrer qu’il existe une matrice diagonale inversibleQ(µ) telle queM(µ)Q(µ) = Q(µ)M(1).3.b) En deduire que le determinant de M(µ) ne depend pas de µ.

4) Dans toute la suite de l’exercice, la matrice A est tridiagonale et symetrique definie positive.Montrer en utilisant la question precedente que 2D − A est symetrique definie positive. Indi-cation On pourra montrer que toutes les valeurs propres de 2D −A sont positives. En deduireque la methode de Jacobi converge, et donc que ρ(LJ) < 1.

Page 158: Algebre Lineaire Et Analyse Numerique Matricielle

158 CHAPITRE 9. PROBLEMES

5) Deduire aussi de la question 3) que si λ est valeur propre de LJ alors −λ l’est aussi.

6) Montrer alors que la methode (9.29) converge si et seulement si ω appartient a l’intervalle]0, 2

1+ρ(LJ ) [.

Exercice 3 : Methode de residu minimum generalise

On considere une matrice inversible A ∈ Mn(R) (sans symetrie particuliere), et on veutetudier une methode iterative appelee methode de residu minimum generalise (ou GMRES dansla litterature anglo-saxonne) pour resoudre le systeme lineaire Ax = b, ou b ∈ Rn. On approchedonc la solution x par une suite (x(k))k∈N. L’utilisateur choisit le vecteur x(0).

1) Principe de la methode

On appelle residu a la keme iteration, le vecteur

r(k) = b−Ax(k).

On note K(k) l’espace de Krylov

K(k) = Vect(r(0), . . . , Ak−1r(0)). (9.30)

On cherche le vecteur x(k) sous la forme x(k) = x(0) +z(k) ou z(k) resout le probleme de moindrescarres

z(k) ∈ K(k) realise le minimum sur K(k) de z 7→ ‖r(0) −Az‖22. (9.31)

1.a) Montrer que si z(k) verifie Az(k) = r(0), alors x(k) = x.1.b) Si dim(K(k)) = k, soit (v(1), . . . , v(k)) une base de K(k). On peut chercher z(k) sous la formez(k) =

∑kj=1 yjv

(j). Montrer qu’une condition necessaire et suffisante pour que z(k) soit solutionde (9.31) est que

k∑

j=1

yj(v(i))TATAv(j) = (v(i))TAT r(0), ∀i = 1, . . . , k (9.32)

1.c) Ecrire (9.32) sous la forme d’un systeme (equations normales)

MY = F, (9.33)

ou Y = (y1, . . . , yk)T , en precisant la matrice M et le second membre F .

1.d) Montrer que la matrice M est inversible.

2. Methode d’Arnoldi Si la base (v(j))1≤j≤k de K(K) ci-dessus est quelconque, la matriceM dans (9.33) n’a pas de structure particuliere, et la complexite algorithmique de la resolutiondu systeme (9.33) rend la methode inefficace. L’idee est de construire une base orthonormee(v(j))1≤j≤k de K(k) par une methode de Gram-Schmidt.

Si r(0) 6= 0, on pose v(1) = r(0)

‖r(0)‖2, et on utilise la relation de recurrence

v(i+1) =Av(i) −∑i

j=1

((v(i))TAT v(j)

)v(j)

‖Av(i) −∑ij=1

((v(i))TAT v(j)

)v(j)‖2

, (9.34)

Page 159: Algebre Lineaire Et Analyse Numerique Matricielle

9.6. EXAMEN DU 28 JANVIER 2004. 159

quand la division est possible. Nous allons montrer qu’une division par zero dans (9.34) signifieque la solution x de Ax = b appartient a K(i), et qu’on a donc pas a calculer v(i+1).2.a) Soit k ≥ 1 un entier tel que v(1, . . . , v(k) sont definis. Montrer par recurrence que (v(1, . . . , v(j))est une base orthonormee de K(j), pour tout j, 1 ≤ j ≤ k. En deduire qu’il existe un (unique)entier p ≤ n tel que v(1, . . . , v(p) sont definis et Av(p) −∑p

j=1

((v(p))TAT v(j)

)v(j) = 0.

2.b) Montrer queAK(p) ⊂ K(p). (9.35)

2.c) Pour j = 1, . . . , p, soit V (j) ∈ Mn,j(R) la matrice dont les colonnes sont les vecteursv(1), . . . , v(j). Deduire de 2.a) et de (9.35) qu’il existe une matrice H ∈ Mp(R) telle que

AV (p) = V (p)H. (9.36)

2.d) Montrer que H est inversible, en utilisant l’inversibilite de A.2.e) Montrer que pour 1 ≤ j ≤ p, V (j) verifie

(V (j))TV (j) = Ij . (9.37)

2.f) Deduire des questions precedentes et de (9.31) que r(p) = 0. On a donc montre queAv(p) −∑p

j=1

((v(p))TAT v(j)

)v(j) = 0 implique r(p) = 0, et il est alors inutile de construire

K(p+1).2.g) Conclure que la methode iterative donne la solution x en au plus n iterations.

3. Methode des moindres carres dans K(k)

3.a) Soit k < p, ou p est defini dans 2.a). Montrer que

AV (k) = V (k+1)H(k), (9.38)

en donnant la matrice H(k) ∈ Mk+1,k(R). On notera qu’on a en particulier

H(k)l,m = 0 si l > m+ 1. (9.39)

3.b) Soit β ∈ R tel que r(0) = βv(1) = βV (k+1)e1, ou (ej)j=1,...,k+1 est la base canonique de Rk+1.Montrer en utilisant (9.37) que le probleme aux moindres carres (9.31) est equivalent a trouverun vecteur Y ∈ Rk tel que

(Hk)TH(k)Y = β(H(k))T e1. (9.40)

4. Conclusion (cette partie ne contient pas de question)A partir de l’observation (9.39), on peut tres facilement factoriser H(k) sous la forme

H(k) = Q(k)R(k)

ou– Q(k) ∈ Mk+1(R) est une matrice unitaire (produit de k + 1 rotations planes)– R(k) ∈ Mk+1,k(R) est une matrice triangulaire superieure.

On peut alors resoudre le systeme (9.40) avec une complexite algorithmique de l’ordre de k2.

Page 160: Algebre Lineaire Et Analyse Numerique Matricielle

160 CHAPITRE 9. PROBLEMES

9.7 Examen du 3 Septembre 2003.

Exercice 1

Soit B la matrice

B =

3

5−32

25−24

25

4

5

24

25

18

25

0 −3

5

4

5

1) Calculer les valeurs singulieres de la matrice B. Indication On admettra que le noyau deBTB − I a pour base ((1, 0, 0)T ; (0, 3,−4)T ).

2) Donner ‖B‖1, ‖B‖2, ‖B‖∞ et ‖B‖F .

Exercice 2

1) Montrer comment obtenir une factorisation

A = UL

d’une matrice A ∈ MN (R) ou U est triangulaire superieure avec des 1 sur la diagonale et L esttriangulaire inferieure. On pourra proceder en N − 1 etapes en annulant les coefficients de Acolonne par colonne en commencant par la derniere colonne.

2) Donner une condition necessaire et suffisante pour qu’une matrice A ∈ MN (R) inversiblepossede une factorisation UL avec U est triangulaire superieure avec des 1 sur la diagonale et Lest triangulaire inferieure inversible.

3) Calculer la factorisation UL de la matrice

4 4 34 2 41 0 1

.

Exercice 3

Etant donnee une matrice A ∈ MN (R) symetrique definie positive decomposee sous laforme A = D−L−U , (D diagonale, L strictement triangulaire inferieure, et U = LT ), on etudiela methode iterative de resolution du systeme lineaire Ax = b : etant donne x(0) arbitraire, ondefinit la suite x(k) par :

(D − L)x(k+ 12) = Ux(k) + b,

(D − U)x(k+1) = Lx(k+ 12) + b,

Page 161: Algebre Lineaire Et Analyse Numerique Matricielle

9.7. EXAMEN DU 3 SEPTEMBRE 2003. 161

1) Ecrire le vecteur x(k+1) sous la forme

x(k+1) = Bx(k) + c,

en donnant la matrice B et le vecteur c.

2) Soit λ une valeur propre de B : il existe p ∈ Cn, p 6= 0 tel que Bp = λp.a) Montrer que

L(D − L)−1Up = λ(A+ L)p (9.41)

b) En deduire queLD−1Up+ LD−1L(D − L)−1Up = λ(A+ L)p, (9.42)

c) De (9.41) et (9.42), deduire que

LD−1Up+ λLD−1(A+ L)p = λ(A+ L)p, (9.43)

puis que(1 − λ)LD−1Up = λAp, (9.44)

3)a) En multipliant (9.44) a gauche par p∗, montrer que λ est un reel et que 0 < λ < 1.b) En deduire la convergence de la methode. Cette methode est une version symetrisee de lamethode de Gauss-Seidel.

Exercice 4

Soit β un reel strictement positif.On considere la suite de vecteurs de RN construite par la recurrence

E(m) = (I − βA)E(m−1), m > 0,

ou E(0) est donne et A est la matrice tridiagonale dont les coefficients sont

Aj,j = 2a+ c, j = 1, . . . ,N,Aj,j+1 = −a− b, j = 1, . . . ,N − 1,Aj,j−1 = −a+ b, j = 2, . . . ,N,

ou a > 0, c ≥ 0 et b est un reel tel que a2 > b2.

1) Verifier que pour l = 1, . . . , N , si Wl est le vecteur de RN :

Wl =

((a− b

a+ b

) 12

sin(lπ

N + 1), . . . ,

(a− b

a+ b

) k2

sin(lkπ

N + 1), . . . ,

(a− b

a+ b

)N2

sin(Nlπ

N + 1)

)T

alors on aAWl = λlWl, λl = c+ 2a− 2

√a2 − b2 cos( lπ

N+1 ). (9.45)

2) En deduire que si β > 2(c + 2a + 2√a2 − b2)−1, alors pour N assez grand, la suite E(m)

diverge en general.

Page 162: Algebre Lineaire Et Analyse Numerique Matricielle

162 CHAPITRE 9. PROBLEMES

3) a) Montrer que pour tout U ∈ RN , UTAU ≥ 0.b) Montrer que pour tout reel positif β, I + βA est inversible.c) Montrer qu’il existe λ > 0 tel que pour tout U ∈ RN , UTAU ≥ λ‖U‖2

2.d) En deduire que que pour tout reel positif β,

‖(I + βA)−1‖2 < 1

e) Que peut on dire de la suite de vecteurs de RN construite par la recurrence

F (m) = (I + βA)−1F (m−1), m > 0,

ou F (0) est donne ?

Page 163: Algebre Lineaire Et Analyse Numerique Matricielle

9.8. EXAMEN JANVIER 2005 163

9.8 Examen Janvier 2005

Exercice 1

On considere le systeme d’equations lineaire :

3x− 13y = 6,

4√

53 y = 3

√5,

4x+ 4y = 112

Resoudre ce systeme au sens des moindres carres. On devra utiliser la methode de Choleski pourresoudre l’equation normale.

Exercice 2

Soit n,m deux entiers tels que n ≥ m > 0. Soient– C1 ∈ Mn,n(R) une matrice symetrique definie positive,– C2 ∈ Mm,m(R) une matrice symetrique semi-definie positive,– D ∈ Mn,m(R) une matrice de rang m.

Montrer qu’il existe– une unique matrice L11 ∈ Mn,n(R) triangulaire inferieure avec des coefficients strictement

positifs sur sa diagonale,– une unique matrice L21 ∈ Mm,n(R)– une unique matrice L22 ∈ Mm,m(R) triangulaire inferieure avec des coefficients strictement

positifs sur sa diagonale,telles que (

L11 0L21 −L22

)(LT

11 LT21

0 LT22

)=

(C1 DDT −C2

).

L’unicite devra etre soigneusement demontree.

Exercice 3

On considere la matrice inversible A ∈ Md(R) et on veut resoudre le systeme Au = b par lamethode semi-iterative decrite ci-dessous.On considere la decomposition A = M−N ou M est inversible. Pour resoudre le systeme Au = b,on part de la methode iterative

Mu(n+1) = Nu(n) + b, (9.46)

qui est equivalente, en posant L = M−1N , a

u(n+1) = Lu(n) + (Id − L)u. (9.47)

On se donne des parametres reels αn,j, n ∈ N, j = 0, . . . , n, et on construit la suite (y(n))n∈N

par

y(n) =

n∑

j=0

αn,ju(j). (9.48)

On veut choisir les coefficients reels αn,j, n ∈ N, j = 0, . . . , n pour que la suite (y(n))n∈N convergevers la solution u du systeme si possible plus vite que la suite (u(n))n∈N.

Page 164: Algebre Lineaire Et Analyse Numerique Matricielle

164 CHAPITRE 9. PROBLEMES

1) On dit que la methode est consistante si pour tous vecteurs u, b tels que Au = b, pour lasuite u(n) construite par (9.47) et la suite y(n) construite par (9.48), on a, pour tout n ∈ N,

(∀i, 0 ≤ i ≤ n, u(i) = u

)⇒ y(n) = u.

Montrer que la methode est consistante si et seulement si

∀n ∈ N,n∑

i=0

αn,i = 1. (9.49)

2) a) On supposera desormais que la condition (9.49) est verifiee. Montrer que la methodesemi-iterative (9.48) s’ecrit

y(n) = pn(L)u(0) + (Id − pn(L))u, (9.50)

ou (pn)n∈N est une suite de polynomes tels que

degre(pn) ≤ n, et pn(1) = 1. (9.51)

On donnera pn en fonction des coefficients αn,j, 0 ≤ j ≤ n.b) Exprimer l’erreur e(n) = u− y(n) en fonction de pn, de L et de e(0).c) En deduire qu’une condition necessaire et suffisante pour que la methode semi-iterative (9.48)(supposee consistante) converge vers la solution u quelle que soit l’initialisation u(0) est que

limn→∞

pn(L) = 0.

d) Soit ‖.‖ une norme vectorielle sur Rd. On note aussi ‖.‖ la norme matricielle subordonnee.Que dire de la convergence de y(n) vers u si

limn→∞

‖pn(L)‖ 1n = r < 1?

e) On appelle ρ(pn(L)) le rayon spectral de pn(L). Montrer que si L est normale, alors pn(L)

l’est aussi. Montrer alors que si la suite (ρ(pn(L)))1n admet une limite quand n tend vers +∞,

alors

limn→∞

‖pn(L)‖ 1n = lim

n→∞(ρ(pn(L)))

1n . (9.52)

Indication : on pourra utiliser une norme particuliere et utiliser la relation d’equivalence avec‖.‖.f) Supposons que 1 n’est pas une valeur propre de L. Montrer que pour n ≥ d, le polynome

pn(x) =det(xId − L)

det(Id − L)

verifie (9.51) et pn(L) = 0.On ne peut cependant pas utiliser ce polynome car son calcul est plus couteux que la resolutionapprochee du probleme de depart et car on souhaite utiliser moins de d iterations de (9.48).

Page 165: Algebre Lineaire Et Analyse Numerique Matricielle

9.8. EXAMEN JANVIER 2005 165

4) a) Montrer qu’a toute suite de reels non nuls (µn)n≥1 et a toute suite de reels (νn)n≥1, onpeut associer une suite de polynomes pn par la recurrence

p0(x) = 1, p1(x) = (1− 1

2ν1)x+

1

2ν1, pn(x) = (µnx+νn)pn−1(x)+(1−µn−νn)pn−2(x), n ≥ 2

qui verifie (9.51).b) Montrer que la suite y(n) correspondante verifie la relation de recurrence

y(0) = u(0), y(1) = (1 − 1

2ν1)(Lu

(0) +M−1b) +1

2ν1u

(0),

y(n) = µn(Ly(n−1) +M−1b− y(n−2)) + νn(y(n−1) − y(n−2)) + y(n−2).(9.53)

c) Expliquer pourquoi (9.53) est plus utilisable en pratique que (9.48).

5) Jusqu’a la fin du probleme, on suppose que L est normale et que les valeurs propres de Lsont reelles. Soient a ≤ b deux reels tels que, pour toute valeur propre λ de L, on a a ≤ λ ≤ b.On rappelle que la methode iterative (9.46) converge si et seulement si chaque valeur propre λverifie −1 < λ < 1. Jusqu’a la fin du probleme, on supposera donc que −1 < a ≤ b < 1.a) Demontrer que les fonctions tn : R 7→ R definies par

tn(z) = cos (n arccos(z)) si |z| ≤ 1,tn(z) = cosh (n arg cosh(z)) si z ≥ 1,tn(z) = (−1)ntn(|z|) si z < −1,

(9.54)

sont telles que ∀z ∈ R,

t0(z) = 1, t1(z) = z, ∀n > 1, tn(z) + tn−2(z) = 2ztn−1(z). (9.55)

En deduire que tn est un polynome de degre n, dont le coefficient de degre n est 2n−1 si n ≥ 1.Ces polynomes sont appeles polynomes de Chebyshev.b) On rappelle que arg cosh(z) = ln(z +

√z2 − 1) si z > 1. Montrer que si z > 1,

tn(z) =1

2

((z +

√z2 − 1)n + (z +

√z2 − 1)−n

). (9.56)

c) On definit le polynome

pn(x) =1

tn

(2−(a+b)

b−a

) tn(

2x− (a+ b)

b− a

). (9.57)

Montrer que pn verifie (9.51) et que

maxx∈[a,b]

|pn(x)| =1

tn

(2−(a+b)

b−a

) =2

(√1−a+

√1−b√

b−a

)2n

+(√

1−a+√

1−b√b−a

)−2n. (9.58)

6) La methode semi-iterative (9.48) ou de maniere equivalente (9.50) ou pn est donne par(9.57) est appelee methode semi-iterative de Chebyshev. On va etudier ses proprietes :a) Calculer en fonction de b

limn→∞

‖pn(L)‖ 1n (9.59)

dans le cas ou a = 0, b = ρ(L) < 1.b) Dans le cas precedent avec l’hypothese supplementaire b = ρ(L) = 1−h avec h≪ 1, comparerles convergences de la methode semi-iterative de Chebyshev et de la methode (9.46).

Page 166: Algebre Lineaire Et Analyse Numerique Matricielle

166 CHAPITRE 9. PROBLEMES

Page 167: Algebre Lineaire Et Analyse Numerique Matricielle

Bibliographie

[1] William L. Briggs, Van Emden Henson, and Steve F. McCormick. A multigrid tutorial.Society for Industrial and Applied Mathematics (SIAM), Philadelphia, PA, second edition,2000.

[2] P.G. Ciarlet. Introduction a l’analyse numerique matricielle et a l’optimisation. Masson,1988.

[3] G. Golub and C. Van Loan. Matrix computations (second edition). John Hopkins, 1989.

[4] D. Luenberger. Introduction to Linear and Nonlinear Programming. Addison Wesley, 1973.

[5] G. Meurant. Computer solution of large linear systems, volume 28 of Studies in Mathematicsand its Applications. North-Holland Publishing Co., Amsterdam, 1999.

[6] Alfio Quarteroni. Methodes Numeriques pour le Calcul Scientifique. collection IRIS. Springer-Verlag France, 2000.

[7] Jacques Rappaz and Marco Picasso. Introduction a l’analyse numerique. Presses Polytech-niques et Universitaires Romandes, Lausanne, 1998.

[8] Saad Y. Iterative Methods for Sparse Linear Systems. PWS Publishing company, 1996.

167