11.2 Pseudo-inverse
Dans la section précédente, nous avons vu que si la projection orthogonale de \(\mathbf{u}\) dans \({\operatorname{Col}({\mathbf{A}})}\) est donnée par \(\mathbf{A}\mathbf{w}\) pour un quelconque \(\mathbf{w} \in \mathbb{R}^n\), alors \[\mathbf{A}^\mathsf{T}\mathbf{u} = \mathbf{A}^\mathsf{T}\mathbf{A} \mathbf{w}.\] Si \(\mathbf{A}\) est de plein rang, alors \(\mathbf{w} = (\mathbf{A}^\mathsf{T}\mathbf{A})^{-1}\mathbf{A}^\mathsf{T}\mathbf{u}\). Sinon, \(\mathbf{A}^\mathsf{T}\mathbf{A}\) n’est pas inversible et il n’y a pas d’expression simple permettant le calcul de \(\mathbf{w}\). Existe-t-il une notion plus générale de l’inverse d’une matrice que l’on pourrait utiliser?
Pour répondre à cette question, il est important de préciser ce que l’on entend par l’inverse d’une matrice. Considérons pour l’instant l’inverse d’une matrice inversible carré \(\mathbf{A}\). On peut considérer \(\mathbf{A}\) comme une fonction associant \(\mathbf{y}\) à \(\mathbf{x}\) via \(\mathbf{A}\mathbf{x},\) tout comme \(\mathbf{A}^{-1}\) est une fonction associant \(\mathbf{y}\) à \(\mathbf{x}\) via \(\mathbf{A}^{-1}\mathbf{y}\).
Dans le cas général, où \(\mathbf{A}\) n’est pas nécessairement inversible, il peut y avoir plusieurs \(\mathbf{x'}\) tels que \(\mathbf{y} = \mathbf{A}\mathbf{x'}.\) Dans le meilleur des cas, on peut espérer qu’il existe une matrice \(\mathbf{G}\) associant \(\mathbf{y}\) à un \(\mathbf{x'}\) quelconque via \(\mathbf{y} = \mathbf{A}\mathbf{x'}\). Autrement dit, on cherche une matrice \(\mathbf{G}\mathbf{y}\) telle que \[\mathbf{A}\mathbf{G}\mathbf{y} = \mathbf{y},\] ou, de façon équivalente, \[\mathbf{A}\mathbf{G}\mathbf{A}\mathbf{x} = \mathbf{y} = \mathbf{A}\mathbf{x}.\] Comme le choix de \(\mathbf{x}\) est arbitraire, on doit avoir \[\mathbf{A}\mathbf{G}\mathbf{A} = \mathbf{A}.\] Une telle matrice \(\mathbf{G}\) porte le nom de pseudo-inverse de \(\mathbf{A},\) dénoté par \(\mathbf{A}^{-}\).
Une telle matrice existe toujours, mais elle n’est pas nécessairement unique. On donnera une construction dans un chapitre ultérieur.
Exemple 11.2 Soit \(\mathbf{A} = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix}\). Alors \(\mathbf{G} = \begin{bmatrix} \frac{2}{5} & -1 \\ \frac{1}{5} & 2 \end{bmatrix}\) et \(\mathbf{G'} = \begin{bmatrix} \frac{2}{5} & 1 \\ \frac{1}{5} & -2 \end{bmatrix}\) sont toutes deux des pseudo-inverses de \(\mathbf{A}\).
En effet, \[\begin{align*} \mathbf{A}\mathbf{G}\mathbf{A} & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \begin{bmatrix} \frac{2}{5} & -1 \\ \frac{1}{5} & 2 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \\ & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \begin{bmatrix} \frac{4}{5} & \frac{2}{5} \\ \frac{2}{5} & \frac{1}{5} \end{bmatrix} \\ & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} = \mathbf{A} \end{align*}\] et \[\begin{align*} \mathbf{A}\mathbf{G'}\mathbf{A} & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \begin{bmatrix} \frac{2}{5} & 1 \\ \frac{1}{5} & -2 \end{bmatrix} \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \\ & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} \begin{bmatrix} \frac{4}{5} & \frac{2}{5} \\ \frac{2}{5} & \frac{1}{5} \end{bmatrix} \\ & = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix} = \mathbf{A} \end{align*}\]
Mentionnons ici que dans certaines applications, il est commun d’exiger que \(\mathbf{G}\) satisfasse aux conditions de Penrose :
- \(\mathbf{A}\mathbf{G} \mathbf{A} = \mathbf{A}\)
- \(\mathbf{G}\mathbf{A} \mathbf{G} = \mathbf{A}\)
- \((\mathbf{A}\mathbf{G})^\mathsf{T}= \mathbf{A}\mathbf{G}\)
- \((\mathbf{G}\mathbf{A})^\mathsf{T}= \mathbf{G}\mathbf{A}\)
Dans ce cas, \(\mathbf{G}\) est appelé le pseudo-inverse de Moore-Penrose et, contrairement à une matrice pseudo-inverse générique, est unique pour une matrice \(\mathbf{A}\) donnée. On le dénote par \(\mathbf{A}^+\).
11.2.1 Solutions de \(\mathbf{A}\mathbf{x} = \mathbf{b}\)
L’existence d’un pseudo-inverse a une conséquence importante pour les systèmes d’équations linéaires.
Théorème 11.1 Soient \(\mathbf{A} \in \mathbb{R}^{m\times n}\) et \(\mathbf{b} \in {\operatorname{Col}({\mathbf{A}})}\). Alors \(\mathbf{x} \in \mathbb{R}^n\) est une solution du système \(\mathbf{A}\mathbf{x} = \mathbf{b}\) si et seulement si \[\mathbf{x} = \mathbf{A}^{-}\mathbf{b} + (\mathbf{I}_n - \mathbf{A}^{-}\mathbf{A})\mathbf{u}\] pour un \(\mathbf{u} \in \mathbb{R}^n\) particulier.
Autrement dit, le théorème 11.1 donne une formule qui permet d’obtenir toutes les solutions du système \(\mathbf{A}\mathbf{x} = \mathbf{b}\). Les détails de la démonstration sont laissés en exercice.
Exemple 11.3 Soit \(\mathbf{A} = \begin{bmatrix} 2 & 1 \\ 0 & 0\end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 3 \\ 0\end{bmatrix}\). Nous avons vu à l’exemple 11.2 que \(\mathbf{G} = \begin{bmatrix} \frac{2}{5} & -1 \\ \frac{1}{5} & 2 \end{bmatrix}\) est un pseudo-inverse de \(\mathbf{A}\).
Ainsi, toutes les solutions de \(\mathbf{A}\mathbf{x} = \mathbf{b}\) sont données par \(\mathbf{x} = \begin{bmatrix} \frac{6}{5} \\ \frac{3}{5} \end{bmatrix} + \begin{bmatrix} \frac{1}{5} & -\frac{2}{5} \\ -\frac{2}{5} & \frac{4}{5} \end{bmatrix} \begin{bmatrix} u_1 \\ u_2 \end{bmatrix}\) pour tous \(u_1, u_2 \in \mathbb{R}\).
Remarque. Une discussion plus détaillée au sujet des pseudo-inverses et des systèmes d’équations linéaires se retrouve dans James (1978).
Exercices
Soit \(\mathbf{A} = \begin{bmatrix} 3 & 2 & 1 \\ 0 & -1 & 1\end{bmatrix}\). Vérifiez que \(\mathbf{G} = \begin{bmatrix} \frac{2}{9} & \frac{1}{9} \\ \frac{1}{9} & -\frac{4}{9} \\ \frac{1}{9} & \frac{5}{9} \\ \end{bmatrix}\) est le pseudo-inverse de Moore-Penrose de \(\mathbf{A}\).
Démontrez le théorème 11.1.
Solutions
Il suffit d’effectuer les calculs nécessaires pour vérifier les conditions :
- \(\mathbf{A}\mathbf{G} \mathbf{A} = \mathbf{A}\)
- \(\mathbf{G}\mathbf{A} \mathbf{G} = \mathbf{A}\)
- \((\mathbf{A}\mathbf{G})^\mathsf{T}= \mathbf{A}\mathbf{G}\)
- \((\mathbf{G}\mathbf{A})^\mathsf{T}= \mathbf{G}\mathbf{A}\)
On montre d’abord que \(\mathbf{x} = \mathbf{A}^{-}\mathbf{b} + (\mathbf{I}_n - \mathbf{A}^{-1}\mathbf{A})\mathbf{u}\) est une solution de \(\mathbf{A}\mathbf{x} = \mathbf{b}\) pour tout \(\mathbf{u} \in \mathbb{R}^n\). Puisque \(\mathbf{b} \in {\operatorname{Col}({\mathbf{A}})}\), il existe \(\mathbf{y} \in \mathbb{R}^n\) tel que \(\mathbf{b} = \mathbf{A}\mathbf{y}\). Soit \(\mathbf{u} \in \mathbb{R}^n\). Alors, \[\begin{align*} \mathbf{A}\mathbf{x} & = \mathbf{A}(\mathbf{A}^{-}\mathbf{A}\mathbf{y} +(\mathbf{I} - \mathbf{A}^{-}\mathbf{A})\mathbf{u}) \\ & = \mathbf{A}\mathbf{A}^{-}\mathbf{A}\mathbf{y} + \mathbf{A}\mathbf{u} - \mathbf{A}\mathbf{A}^{-}\mathbf{A}\mathbf{u}) \\ & = \mathbf{A}\mathbf{y} + \mathbf{A}\mathbf{u} - \mathbf{A}\mathbf{u} \\ & = \mathbf{b}. \end{align*}\] En particulier, notons que \(\mathbf{x} = \mathbf{A}^{-} \mathbf{b}\) est une solution.
Réciproquement, notons que puisque \(\mathbf{x} = \mathbf{A}^{-}\mathbf{b}\) est une solution particulière de \(\mathbf{A}\mathbf{x} = \mathbf{b}\), il suffit de démontrer que \(\mathbf{y} \in {\operatorname{Ker}({\mathbf{A}})}\) si et seulement si \(\mathbf{y} = (\mathbf{I} - \mathbf{A}^{-}\mathbf{A})\mathbf{u}\) pour un \(\mathbf{u} \in \mathbb{R}^n\) particulier.
Si \(\mathbf{y} = (\mathbf{I} - \mathbf{A}^{-}\mathbf{A})\mathbf{u}\), où \(\mathbf{u} \in \mathbb{R}^n\), alors \[\mathbf{A}\mathbf{y} = \mathbf{A}(\mathbf{I} - \mathbf{A}^{-}\mathbf{A})\mathbf{u} = \mathbf{A}\mathbf{u} - \mathbf{A}\mathbf{A}^{-}\mathbf{A}\mathbf{u} = \mathbf{A}\mathbf{u} - \mathbf{A}\mathbf{u} = \mathbf{0}_m.\]
Si \(\mathbf{y} \in {\operatorname{Ker}({\mathbf{A}})}\), alors \(\mathbf{A}\mathbf{y} = \mathbf{0}_m\). Ainsi, \[\begin{align*} \mathbf{y} & = \mathbf{I}_n \mathbf{y} - \mathbf{0}_n \\ & = \mathbf{I}_n \mathbf{y} - \mathbf{A}^{-}\mathbf{0}_m \\ & = \mathbf{I}_n \mathbf{y} - \mathbf{A}^{-} \mathbf{A}\mathbf{y} \\ & = (\mathbf{I}_n - \mathbf{A}^{-} \mathbf{A})\mathbf{y}, \end{align*}\] ce qui implique que \(\mathbf{y}\) est de la forme \((\mathbf{I}_n - \mathbf{A}^{-} \mathbf{A})\mathbf{u}\) pour un \(\mathbf{u} \in \mathbb{R}^n\) particulier.
Bibliographie
James, M. 1978. « The Generalised Inverse ». Mathematical Gazette 62. Amsterdam, The Netherlands, The Netherlands: The Mathematical Association:109‑14. https://doi.org/10.2307/3617665.