10.7 Diagonalisation en base orthonormée
Une matrice carrée \(\mathbf{A}\in\mathbb{R}^{n\times n}\) est dite diagonalisable en base orthonormée s’il existe une matrice orthogonale \(\mathbf{U} \in \mathbb{R}^{n\times n}\) et une matrice diagonale \(\mathbf{D} \in \mathbb{R}^{n\times n}\) telles que \(\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\). Ce genre de diagonalisation est utilisée dans plusieurs analyses statistiques.
Une matrice diagonalisable en base orthonormée est nécessairement une matrice symétrique. En effet, \[(\mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T})^\mathsf{T}= (\mathbf{U}^\mathsf{T})^\mathsf{T}\mathbf{D}^\mathsf{T}\mathbf{U}^\mathsf{T}= \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\] puisque les matrices diagonales sont invariantes sous la transposée.
Ce qui est vraiment incroyable est que l’inverse est aussi vrai : toute matrice symétrique réelle est diagonalisable en base orthonormée. Ce résultat peut être démontré par induction sur l’ordre des matrices.
Théorème 10.5 (Théorème des axes principaux) Soit \(\mathbf{A} \in \mathbb{R}^{n\times n}\), où \(n\) est un entier positif. Alors il existe \(\mathbf{U}, \mathbf{D} \in \mathbb{R}^{n\times n}\), \(\mathbf{U}\) orthogonale et \(\mathbf{D}\) diagonale, telles que \(\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\).
Démonstration. Si \(n = 1\), on fixe simplement \(\mathbf{U} = [1]\) et \(\mathbf{D}= \mathbf{A}\).
Pour l’hypothèse d’induction, supposons que \(n > 1\) et que chaque matrice symétrique de \(\mathbb{R}^{(n-1)\times (n-1)}\) soit diagonalisable en base orthonormée.
Soient \(\mathbf{A} \in \mathbb{R}^{n\times n}\) une matrice symétrique et \(\lambda\) une valeur propre de \(\mathbf{A}.\) D’après le corollaire 7.1, \(\lambda \in \mathbb{R}.\) Ainsi, il exist un vecteur propre \(\mathbf{v} \in \mathbb{R}^n\) associé à \(\lambda\).
Posons \(\mathbf{q}^{(1)} = \frac{1}{\|\mathbf{v}\|}\mathbf{v}\) et construisons en une base orthonormée \(\{\mathbf{q}^{(1)},\mathbf{q}^{(2)},\ldots,\mathbf{q}^{(n)}\}\) de \(\mathbb{R}^n\). Si \(\mathbf{Q}\) est la matrice \(\begin{bmatrix} \mathbf{q}^{(1)} & \cdots & \mathbf{q}^{(n)}\end{bmatrix},\) alors \[\mathbf{A}\mathbf{Q} = \begin{bmatrix} \lambda \mathbf{q}^{(1)} & \mathbf{p}^{(2)} & \cdots& \mathbf{p}^{(n)} \end{bmatrix},\] où \(\mathbf{p}^{(i)} = \mathbf{A}\mathbf{q}^{(i)}\) pour chaque \(i = 2,\ldots, n-1.\) Puisque \(\operatorname{Vect}\left ({\{\mathbf{q}^{(1)},\mathbf{q}^{(2)},\ldots,\mathbf{q}^{(n)}\}} \right)= \mathbb{R}^n,\) il existe \(\mathbf{C} \in \mathbb{R}^{n \times (n-1)}\) telle que \[\begin{bmatrix} \mathbf{p}^{(2)} & \cdots& \mathbf{p}^{(n)} \end{bmatrix} = \mathbf{Q} \mathbf{C}.\] Ainsi, \[\mathbf{A}\mathbf{Q} = \mathbf{Q}\begin{bmatrix} \lambda & \mathbf{d} \\ 0 & \mathbf{A}' \end{bmatrix}\] pour \(\mathbf{d} \in \mathbb{R}^{1\times (n-1)}\) et \(\mathbf{A}' \in \mathbb{R}^{(n-1)\times (n-1)}\) tels que \(\mathbf{C} = \begin{bmatrix} \mathbf{d} \\ \mathbf{A}'\end{bmatrix}.\)
Puisque \(\mathbf{Q}\) est orthonormée par construction, nous obtenons \[\mathbf{Q}^\mathsf{T}\mathbf{A} \mathbf{Q} = \mathbf{Q}^\mathsf{T}\mathbf{Q} \begin{bmatrix} \lambda & \mathbf{d} \\ 0 & \mathbf{A}' \end{bmatrix} = \begin{bmatrix} \lambda & \mathbf{d} \\ 0 & \mathbf{A}' \end{bmatrix}.\] En prenant la transposée de chaque côté, nous obtenons \[\mathbf{Q}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{Q} = \begin{bmatrix} \lambda & 0 \\ \mathbf{d}^\mathsf{T}& {\mathbf{A}'}^\mathsf{T} \end{bmatrix}.\] Mais \(\mathbf{A} = \mathbf{A}^\mathsf{T},\) d’où \(\mathbf{Q}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{Q} = \mathbf{Q}^\mathsf{T}\mathbf{A} \mathbf{Q}.\) On en conclut que \(\mathbf{d} = \mathbf{0}\) et \(\mathbf{A}' = {\mathbf{A}'}^\mathsf{T}\). D’après l’hypothèse d’induction, il existe \(\mathbf{Q}', \mathbf{D}' \in \mathbb{R}^{(n-1)\times (n-1)},\) \(\mathbf{Q}'\) orthogonale et \(\mathbf{D}'\) diagonale, telles que \(\mathbf{A}' = \mathbf{Q}'\mathbf{D}'\mathbf{Q}'^\mathsf{T}.\) Ainsi, \[\begin{align*} \mathbf{Q}^\mathsf{T}\mathbf{A} \mathbf{Q} & = \begin{bmatrix} \lambda & 0 \\ 0 & \mathbf{Q}'\mathbf{D}'{\mathbf{Q}'}^\mathsf{T} \end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \begin{bmatrix} \lambda & 0 \\ 0 & \mathbf{D}' \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & {\mathbf{Q}'}^\mathsf{T}\end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \begin{bmatrix} \lambda & 0 \\ 0 & \mathbf{D}' \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix}^\mathsf{T}. \end{align*}\]
Il s’ensuit alors que \[ \mathbf{A} = \mathbf{Q} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \begin{bmatrix} \lambda & 0 \\ 0 & \mathbf{D}' \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix}^\mathsf{T}\mathbf{Q}^\mathsf{T}.\] En posant \(\mathbf{U} = \mathbf{Q} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix}\) et \(\mathbf{D} = \begin{bmatrix} \lambda & 0 \\ 0 & \mathbf{D}' \end{bmatrix}\), nous obtenons \(\mathbf{A} = \mathbf{U} \mathbf{D} \mathbf{U}^\mathsf{T}\). Il ne reste plus qu’à démontrer que \(\mathbf{U}^\mathsf{T}\mathbf{U} = \mathbf{I}\). C’est effectivement le cas puisque \[\begin{align*} \mathbf{U}^\mathsf{T}\mathbf{U} & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix}^\mathsf{T}\mathbf{Q}^\mathsf{T} \mathbf{Q} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix}^\mathsf{T} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'^\mathsf{T}\end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'\end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{Q}'^\mathsf{T}\mathbf{Q}'\end{bmatrix} \\ & = \begin{bmatrix} 1 & 0 \\ 0 & \mathbf{I}_{n-1} \end{bmatrix} = \mathbf{I}_n. \end{align*}\]
La démonstration du théorème 10.5 suggère un algorithme permettant d’obtenir une diagonalisation en base orthonormée de matrices symétriques réelles. Cependant, le procédé s’avère extrêmement inefficace. Nous allons présenter une méthode bien plus pratique. Nous avons auparavant besoin d’un résultat intermédiaire très important.
Proposition 10.2 Soit \(\mathbf{A} \in \mathbb{R}^{n\times n}\), où \(n\) est un entier positif. Soient \(\mathbf{u},\mathbf{v}\in\mathbb{R}^n\) deux vecteurs propres de \(\mathbf{A}\) associés aux valeurs propres \(\lambda\) et \(\gamma\), respectivement. Si \(\mathbf{A}\) est symétrique et \(\lambda \neq \gamma\), alors \(\mathbf{u}\) et \(\mathbf{v}\) sont orthogonaux.
Démonstration. Notons que \[\begin{align*} (\lambda - \gamma) \mathbf{u} \cdot \mathbf{v} & = (\lambda - \gamma) \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = \lambda \mathbf{u}^\mathsf{T}\mathbf{v} - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = (\lambda \mathbf{u})^\mathsf{T}\mathbf{v} - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = (\mathbf{A} \mathbf{u})^\mathsf{T}\mathbf{v} - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = \mathbf{u}^\mathsf{T}(\mathbf{A}^\mathsf{T}\mathbf{v}) - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = \mathbf{u}^\mathsf{T}(\mathbf{A} \mathbf{v}) - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = \mathbf{u}^\mathsf{T}(\gamma \mathbf{v}) - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} \\ & = \gamma \mathbf{u}^\mathsf{T}\mathbf{v} - \gamma \mathbf{u}^\mathsf{T}\mathbf{v} = 0. \end{align*}\] Puisque \(\lambda \neq \gamma\), ceci implique que \(\mathbf{u} \cdot \mathbf{v} = 0\).
Ainsi, il est possible d’obtenir une base orthonormée de l’espace propre associé à chaque valeur propre d’une matrice carrée. Il suffit simplement de combiner tous ces vecteurs pour former la matrice orthogonale \(\mathbf{U}.\)
Exemple 10.8 Soit \(\mathbf{A} = \begin{bmatrix} 3 & -6 & 0\\ -6 & 0 & 6 \\ 0 & 6 & -3\end{bmatrix}\). Montrons tout d’abord que \(\mathbf{A}\) est diagonalisable en base orthonormée en présentant une matrice orthogonale \(\mathbf{U}\) et une matrice diagonalisable \(\mathbf{D}\) telles que \(\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\).
Le polynôme charactéristique de \(\mathbf{A}\) est \[\begin{align*} \chi_{\mathbf{A}}(\lambda) & = \begin{vmatrix} 3-\lambda & -6 & 0 \\ -6 & -\lambda & 6 \\ 0 & 6 & -3 -\lambda \end{vmatrix} \\ & = -\lambda^3 + 81\lambda = -\lambda(\lambda - 9)(\lambda + 9). \end{align*}\] Les valeurs propres de \(\mathbf{A}\) sont donc \(0\), \(9\), et \(-9\).
La forme échelonnée réduite de \(\mathbf{A}-0\mathbf{I}\) est \(\begin{bmatrix} 1 & 0 & -1\\ 0 & 1 & -\frac{1}{2} \\ 0 & 0 & 0\end{bmatrix},\) d’où \({\operatorname{Ker}({\mathbf{A}})}\) est engendré par le vecteur \(\mathbf{v}^{(1)} = \begin{bmatrix} 1 \\ \frac{1}{2} \\ 1\end{bmatrix}\). Mais \(\mathbf{v}^{(1)}\) n’est pas unitaire (en effet, \(\mathbf{v}^{(1)}\cdot \mathbf{v}^{(1)} = \frac{9}{4}\)). Posons \[\mathbf{u}^{(1)} = \frac{1}{\|\mathbf{v}^{(1)}\|}\mathbf{v}^{(1)} = \frac{2}{3} \mathbf{v}^{(1)} =\begin{bmatrix} \frac{2}{3} \\ \frac{1}{3} \\ \frac{2}{3}\end{bmatrix}.\]
La forme échelonnée réduite de \(\mathbf{A}-9 \mathbf{I}\) est \(\begin{bmatrix} 1 & 0 & 2\\ 0 & 1 & -2 \\ 0 & 0 & 0\end{bmatrix},\) d’où \({\operatorname{Ker}({\mathbf{A}-9 \mathbf{I}})}\) est engendré par le vecteur \(\mathbf{v}^{(2)} = \begin{bmatrix} -2 \\ 2 \\ 1\end{bmatrix}\). Mais \(\mathbf{v}^{(2)}\) n’est pas unitaire (en effet, \(\mathbf{v}^{(2)}\cdot \mathbf{v}^{(2)} = 9\)). Posons \[\mathbf{u}^{(2)} = \frac{1}{\|\mathbf{v}^{(2)}\|}\mathbf{v}^{(2)} = \frac{1}{3} \mathbf{v}^{(2)} =\begin{bmatrix} -\frac{2}{3} \\ \frac{2}{3} \\ \frac{1}{3}\end{bmatrix}.\]
Finalement, la forme échelonnée réduite de \(\mathbf{A}-(-9) \mathbf{I}\) est \(\begin{bmatrix} 1 & 0 & \frac{1}{2}\\ 0 & 1 & 1 \\ 0 & 0 & 0\end{bmatrix},\) d’où \({\operatorname{Ker}({\mathbf{A}-(-9) I})}\) est engendré par \(\mathbf{v}^{(3)} = \begin{bmatrix} -\frac{1}{2} \\ -1 \\ 1\end{bmatrix}\). Mais \(\mathbf{v}^{(2)}\) n’est pas unitaire (en effet, \(\mathbf{v}^{(3)}\cdot \mathbf{v}^{(3)} = \frac{9}{4}\)). Posons \[\mathbf{u}^{(3)} = \frac{1}{\|\mathbf{v}^{(3)}\|}\mathbf{v}^{(3)} = \frac{2}{3} \mathbf{v}^{(3)} =\begin{bmatrix} -\frac{1}{3} \\ -\frac{2}{3} \\ \frac{2}{3}\end{bmatrix}.\]
Ainsi, en prenant \(\mathbf{U} = \frac{1}{3} \begin{bmatrix} 2 & -2 & -1 \\ 1 & 2 & -2 \\ 2 & 1 & 2 \end{bmatrix}\) et \(\mathbf{D} = \begin{bmatrix} 0 & 0 & 0\\0 & 9 & 0\\ 0& 0& -9 \end{bmatrix}\), nous obtenons \(\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\).
Exercices
Soit \(\mathbf{A} = \begin{bmatrix} 1 & 2 \\ 2 & 1 \end{bmatrix}.\)
Déterminez les valeurs propres de \(\mathbf{A}.\)
Trouvez une diagonalisation en base orthonormée de \(\mathbf{A}.\)
Solutions
Le polynôme caractéristique de \(\mathbf{A}\) est \[\begin{align*} p_{\mathbf{A}} & = \begin{vmatrix} 1-\lambda & 2 \\ 2 & 1-\lambda \end{vmatrix}\\ & = (1-\lambda)^2 - 4 \\ & = \lambda^2 -2\lambda - 3\\ & = (\lambda + 1)(\lambda - 3) \end{align*}\] et les valeurs propres de \(\mathbf{A}\) sont \(-1\) et \(3\).
La forme échelonnée réduite de \(\mathbf{A}-(-1) \mathbf{I}\) est \(\begin{bmatrix} 1 & 1 \\ 0 & 0 \end{bmatrix},\) d’où \({\operatorname{Ker}({\mathbf{A}-(-1) \mathbf{I}})}\) est engendré par le vecteur \(\mathbf{v}^{(1)} = \begin{bmatrix} -1 \\ 1 \end{bmatrix}\). Puisque \(\mathbf{v}^{(1)}\cdot \mathbf{v}^{(1)} = 2,\) on prend \(\mathbf{u}^{(1)} = \begin{bmatrix} -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix}\).
La forme échelonnée réduite de \(\mathbf{A}-3 \mathbf{I}\) est \(\begin{bmatrix} 1 & -1 \\ 0 & 0 \end{bmatrix},\) d’où \({\operatorname{Ker}({\mathbf{A}-3 \mathbf{I}})}\) est engendré par le vecteur \(\mathbf{v}^{(2)} = \begin{bmatrix} 1 \\ 1 \end{bmatrix}\). Puisque \(\mathbf{v}^{(2)}\cdot \mathbf{v}^{(2)} = 2,\) on prend \(\mathbf{u}^{(2)} = \begin{bmatrix} \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} \end{bmatrix}\).
Ainsi, \(\mathbf{U} = \begin{bmatrix} -\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}} \end{bmatrix}\) et \(\mathbf{D} = \begin{bmatrix} -1 & 0 \\0 & 3 \end{bmatrix}\) forment la décomposition \(\mathbf{A} = \mathbf{U}\mathbf{D}\mathbf{U}^\mathsf{T}\) recherchée.