13.1 Motivation
Dans ce manuel, nous avons abordé plusieurs façons de décomposer une matrice, différentes décompositions étant utiles dans différentes situations.
Par exemple, considérons \(\mathbf{A} \in \mathbb{K}^{m \times n}\), où \(\mathbb{K}\) est un corps. Alors \(\mathbf{A}\) peut se décomposer selon \(\mathbf{M}\mathbf{R}\), où \(\mathbf{M} \in \mathbb{K}^{m\times m}\) et \(\mathbf{R} \in \mathbb{K}^{m \times n}\) est de forme échelonnée réduite. Une telle décomposition permet d’identifier immédiatement le rang de \(\mathbf{A}\), tout comme un ensemble de colonnes de \(\mathbf{A}\) formant une base de \({\operatorname{Col}({\mathbf{A}})}\).
Supposons de plus que \(m = n\) et \(\mathbb{K}= \mathbb{C}\). Si \(\mathbf{A}\) est diagonalisable, alors \(\mathbf{A} = \mathbf{P}\mathbf{D} \mathbf{P}^{-1}\) pour \(\mathbf{P},\mathbf{D} \in \mathbb{C}^{n\times n}\) telles que \(\mathbf{P}\) soit inversible et \(\mathbf{D}\) soit diagonale. Nous avons vu comment une telle décomposition permet de calculer aisément les puissances \(\mathbf{A}^k\) pour tout entier positif \(k.\)
Nous avons aussi exploré le cas où \(\mathbf{A} \in \mathbb{R}^{n\times n}\) est symétrique. Dans ce case, \(\mathbf{A} = \mathbf{Q}\mathbf{D} \mathbf{Q}^\mathsf{T}\) pour \(\mathbf{Q},\mathbf{D} \in \mathbb{R}^{n\times n}\) telles que \(\mathbf{Q}\) soit orthogonale et \(\mathbf{D}\) soit diagonale. Examinons de plus près cette décomposition.
Rappelons que si \(\mathbf{Q} \in \mathbb{R}^{n\times n}\) est orthogonale, alors \(\mathbf{Q}^\mathsf{T}= \mathbf{Q}^{-1}\). Soit \(\mathbf{x} \in \mathbb{R}^{n}\). Alors, \[\begin{align*} \| \mathbf{Q} \mathbf{x} \| & = \sqrt{ (\mathbf{Q} \mathbf{x})^\mathsf{T}(\mathbf{Q} \mathbf{x} )} \\ & = \sqrt{ \mathbf{x}^\mathsf{T}\mathbf{Q}^\mathsf{T}\mathbf{Q} \mathbf{x} } \\ & = \sqrt{ \mathbf{x}^\mathsf{T}\mathbf{I} \mathbf{x}} \\ & = \sqrt{ \mathbf{x}^\mathsf{T}\mathbf{x} } \\ & = \|\mathbf{x} \|. \end{align*}\] Ainsi, l’application \(T:\mathbb{R}^n \rightarrow \mathbb{R}^n\) définie par \(T(\mathbf{x}) = \mathbf{Q}\mathbf{x}\) est une application linéaire préservant les longueurs; on dit qu’elle est une isométrie. Or, si \(S:\mathbb{R}^n \rightarrow \mathbb{R}^n\) est définie par \(S(\mathbf{x}) = \mathbf{A}\mathbf{x}\), alors \(S(x) = \mathbf{Q}\mathbf{D}\mathbf{Q}^\mathsf{T}\mathbf{x}\) commence par appliquer une isométrie, pour ensuite mettre à l’échelle les composantes résultantes, et finalement appliquer l’inverse de l’isométrie. Lorsque \(n = 2\), on peut visualiser une telle suite de transformations comme une rotation/réflexion suivie d’une mise à l’échelle, suivie de la rotation/réflexion inverse.
Que se passer-t-il si nous remplaçons la dernière transformation par une autre isométrie? Autrement dit, quelles matrices peut-on décomposer sous la forme \[\mathbf{P} \mathbf{D} \mathbf{Q}^\mathsf{T},\] où \(\mathbf{P}\) et \(\mathbf{Q}\) sont orthogonales et \(\mathbf{D}\) est diagonale? Il s’avère que toutes les matrices de \(\mathbb{R}^{n \times n}\) ont une telle décomposition!
Théorème 13.1 Pour chaque \(\mathbf{A} \in \mathbb{R}^{n\times n}\), il existe une matrice diagonale \(\mathbf{\Sigma} \in \mathbb{R}^{n\times n}\) et des matrices orthogonales \(\mathbf{U}, \mathbf{V} \in \mathbb{R}^{n\times n}\) telles que \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}.\]
On démontrer un résultat plus général dans une section ultérieure. Entre temps, nous allons étudier certains concepts importants.
Si \(\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}\), où \(\mathbf{U}\) et \(\mathbf{V}\) sont orthogonales et \(\mathbf{\Sigma}\) diagonale, alors \[\begin{align*} \mathbf{A}^\mathsf{T}\mathbf{A} & = \mathbf{V} \mathbf{\Sigma}^\mathsf{T}\mathbf{U}^\mathsf{T}\mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}\\ & = \mathbf{V} \mathbf{\Sigma}^2 \mathbf{V}^\mathsf{T}, \end{align*}\] qui est une diagonalisation orthogonale de la matrice symétrique \(\mathbf{A}^\mathsf{T}\mathbf{A}\). Si on choisit une matrice \(\mathbf{A} \in \mathbb{R}^{n\times n}\) arbitrairement, peut-on utiliser une diagonalisation orthogonale de \(\mathbf{A}^\mathsf{T}\mathbf{A}\) pour obtenir \(\mathbf{\Sigma}\) et \(\mathbf{V}\)?
Rappelons que les valeurs propres de \(\mathbf{A}^\mathsf{T}\mathbf{A}\) sont réelles d’après le corollaire 7.1. De plus, les valeurs propres de \(\mathbf{A}^\mathsf{T}\mathbf{A}\) sont non négatives. On déduit ce fait en considérant un vecteur propre \(\mathbf{v}\in\mathbb{R}^n\) associé à une valeur propre \(\lambda\) de \(\mathbf{A}^\mathsf{T}\mathbf{A}\). Alors, \[\begin{align*} 0 & \leq \| \mathbf{A}\mathbf{v} \|^2 \\ & = \mathbf{v}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{A}\mathbf{v} \\ & = \mathbf{v}^\mathsf{T}(\mathbf{A}^\mathsf{T}\mathbf{A}\mathbf{v}) \\ & = \mathbf{v}^\mathsf{T}(\lambda \mathbf{v}) \\ & = \lambda \| \mathbf{v} \|^2 \\ \end{align*}\] Puisque \(\mathbf{v} \neq \mathbf{0}\), on doit avoir \(\lambda \geq 0\). Ainsi, si on considère une décomposition orthogonale de \(\mathbf{A}^\mathsf{T}\mathbf{A}\) donnée par \(\mathbf{Q}\mathbf{D}\mathbf{Q}^\mathsf{T}\), on peut construire la matrice diagonale \(\mathbf{\Sigma}\) de sorte que tous les éléments de la diagonale soient non négatifs. En fait, ce sont précisément les racines carrés des éléments de la diagonale de \(\mathbf{D}\). De plus, on pose \(\mathbf{V} = \mathbf{Q}\). La prochaine étape est l’obtention d’une matrice orthogonale \(\mathbf{U}\) telle que \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}.\] Supposons, pour simplifier le problème, que toutes les valeurs propres soient positives. Alors, \(\mathbf{\Sigma}\) est inversible et \(\mathbf{U}\) se doit d’être \(\mathbf{A}\mathbf{V}\mathbf{\Sigma}^{-1}\). Est-ce que \(\mathbf{U}\) est orthogonale? Puisque \[\begin{align*} \mathbf{U}^\mathsf{T}\mathbf{U} & = \left(\mathbf{A}\mathbf{V}\mathbf{\Sigma}^{-1}\right)^\mathsf{T}\mathbf{A}\mathbf{V}\mathbf{\Sigma}^{-1} \\ & = \mathbf{\Sigma}^{-1}(\mathbf{V}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{A}\mathbf{V})\mathbf{\Sigma}^{-1} \\ & = \mathbf{\Sigma}^{-1}(\mathbf{Q}^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{A}\mathbf{Q})\mathbf{\Sigma}^{-1} \\ & = \mathbf{\Sigma}^{-1}\mathbf{D}\mathbf{\Sigma}^{-1} \\ & = \mathbf{D}\mathbf{\Sigma}^{-2} \\ & = \mathbf{D}\mathbf{D}^{-1} \\ & = \mathbf{I}, \end{align*}\] c’est bien le cas et \(\mathbf{U}\) est orthogonale.
Si, au contraire, au moins une des valeurs propres est nulle, la situation est plus compliquée, mais conceptuellement semblable au cas précédent. On obtient alors le résultat suivant.
Théorème 13.2 Pour chaque \(\mathbf{A} \in \mathbb{R}^{m\times n}\), il existe une matrice orthogonale \(\mathbf{U} \in \mathbb{R}^{m\times m}\), une matrice orthogonale \(\mathbf{V} \in \mathbb{R}^{n\times n}\), et une matrice diagonale \(\mathbf{\Sigma} \in \mathbb{R}^{m\times n}\) dont les éléments sont non négatifs, telles que \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}.\]
On en fera la démonstration dans les deux prochaines sections.
Précisons qu’une matrice de dimension \(m \times n\) (c’est-à-dire qu’elle n’est pas nécessairement carrée) est dite diagonale si tous ses éléments \((i,j)\) sont nuls lorsque \(i \neq j\).
Le produit \[\mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}\] porte le nom de décomposition en valeurs singulières de \(\mathbf{A}\).
Une version existe aussi pour les matrices complexes :
Théorème 13.3 Pour chaque \(\mathbf{A} \in \mathbb{C}^{m\times n}\), il existe une matrice unitaire \(\mathbf{U} \in \mathbb{C}^{m\times m}\), une matrice unitaire \(\mathbf{V} \in \mathbb{C}^{n\times n}\), et une matrice diagonale \(\mathbf{\Sigma} \in \mathbb{R}^{m\times n}\) dont les éléments sont non négatifs, telles que \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^*.\]
Exercice
- Soit \(\mathbf{A} = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix}.\) Utilisez les idées présentées dans cette section pour obtenir des matrices orthogonales \(\mathbf{U}, \mathbf{V} \in \mathbb{R}^{2\times 2}\) et une matrice diagonale \(\mathbf{\Sigma} \in \mathbb{R}^{2\times 2}\) dont les éléments sont non négatifs, telles que \[\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}.\]
Solution
- Notons que \(\mathbf{A}^\mathsf{T}\mathbf{A} = \begin{bmatrix} 2 & 0 \\ 0 & 2\end{bmatrix}.\) On peut choisir \[\mathbf{\Sigma} = \begin{bmatrix} \sqrt{2} & 0 \\ 0 & \sqrt{2} \end{bmatrix}\] et \[\mathbf{V} = \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix}.\] Ainsi, \[\begin{align*} \mathbf{U} & = \mathbf{A} \mathbf{V} \mathbf{\Sigma}^{-1} \\ & = \begin{bmatrix} 1 & -1 \\ 1 & 1 \end{bmatrix} \begin{bmatrix} 1 & 0 \\ 0 & 1 \end{bmatrix} \begin{bmatrix} \frac{1}{\sqrt{2}} & 0 \\ 0 & \frac{1}{\sqrt{2}} \end{bmatrix} \\ & = \begin{bmatrix} \frac{1}{\sqrt{2}} & -\frac{1}{\sqrt{2}} \\ \frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\end{bmatrix}. \end{align*}\] On peut aisément vérifier que \(\mathbf{A} = \mathbf{U} \mathbf{\Sigma} \mathbf{V}^\mathsf{T}.\)