12.4 Équation normale
Soient \(\mathbf{A}\in \mathbb{R}^{m\times n}\) et \(\mathbf{b}\in \mathbb{R}^m\). On obtient une solution des moindres carré de \(\mathbf{A}\mathbf{x} = \mathbf{b}\) en trouvant \(\hat{\mathbf{x}} \in \mathbb{R}^n\) tel que \(\mathbf{b} = \mathbf{A}\hat{\mathbf{x}} + \mathbf{d}\) pour un vecteur \(\mathbf{d} \in {\operatorname{Col}({\mathbf{A}})}^\perp\).
Ainsi, il est nécessaire que \(\hat{\mathbf{x}} \in \mathbb{R}^n\) satisfasse à \[\mathbf{A}^\mathsf{T}\mathbf{b} = \mathbf{A}^\mathsf{T}(\mathbf{A}\hat{\mathbf{x}} + \mathbf{d}) = \mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}} + \mathbf{A}^\mathsf{T}\mathbf{d}.\] Puisque \(\mathbf{d} \in {\operatorname{Col}({\mathbf{A}})}^\perp\), \(\mathbf{A}^\mathsf{T}\mathbf{d} = \mathbf{0},\) d’où \[\mathbf{A}^\mathsf{T}\mathbf{b} = \mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}}.\]
Autrement dit, \(\hat{\mathbf{x}}\) doit être une solution de \[\mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}} = \mathbf{A}^\mathsf{T}\mathbf{b},\] que l’on nomme l’équation normale associée à \(\mathbf{A}\mathbf{x} = \mathbf{b}.\)
On montre maintenant que chaque solution de l’équation normale est une solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\).
Si \(\hat{\mathbf{x}}\) satisfait à \[\mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}} = \mathbf{A}^\mathsf{T}\mathbf{b},\] alors \(\mathbf{A}^\mathsf{T}(\mathbf{b}-\mathbf{A}\hat{\mathbf{x}}) = \mathbf{0},\) ce qui implique que \(\mathbf{b}-\mathbf{A}\hat{\mathbf{x}} \in {\operatorname{Col}({\mathbf{A}^\mathsf{T}})}.\) Posons \(\mathbf{d} = \mathbf{b}-\mathbf{A}\hat{\mathbf{x}}\). Alors \(\mathbf{b} = \mathbf{u} + \mathbf{d}\), où \(\mathbf{u} = \mathbf{A}\hat{\mathbf{x}}\). Nous avons vu précédemment que le choix \(\mathbf{x} = \hat{\mathbf{x}}\) minimise la distance \(\| \mathbf{A} \mathbf{x} -\mathbf{b} \|\). Ainsi, \(\hat{\mathbf{x}}\) est une solution des moindres carrés.
En résumé, on obtient une solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\) en trouvant une solution de \[\mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}} = \mathbf{A}^\mathsf{T}\mathbf{b}.\]
Si \(\mathbf{A}\) est de plein rang, alors \(\mathbf{A}^\mathsf{T}\mathbf{A}\) est inversible. Dans ce cas, la solution des moindres carrés unique est donnée par \[\hat{\mathbf{x}} = (\mathbf{A}^\mathsf{T}\mathbf{A})^{-1}\mathbf{A}^\mathsf{T}\mathbf{b}.\]
Exemple 12.4 Trouvons une solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\), où \(\mathbf{A} = \begin{bmatrix} 1 & 2 \\ 0 & -1 \\ 1 & 1 \\ -2 & 0 \end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 1 \\ -2 \\ 2 \\ -3 \end{bmatrix}\) en utilisant l’équation normale associée.
On note que \(\mathbf{A}^\mathsf{T}\mathbf{A} = \begin{bmatrix} 6 & 3 \\ 3 & 6\end{bmatrix}\) et que \(\mathbf{A}^\mathsf{T}\mathbf{b} = \begin{bmatrix} 9 \\ 6 \end{bmatrix}\).
La solution des moindres carrés est alors \[\hat{\mathbf{x}}=\begin{bmatrix} 6 & 3 \\ 3 & 6 \end{bmatrix}^{-1} \begin{bmatrix} 9 \\ 6\end{bmatrix} = \begin{bmatrix} \frac{4}{3} \\ \frac{1}{3}\end{bmatrix}.\]
Pour vérifier que c’est bien la bonne, il suffit de vérifier que \(\mathbf{A}\hat{\mathbf{x}}\) et \(\mathbf{b}-\mathbf{A}\hat{\mathbf{x}}\) sont orthogonaux. En effet, \[\begin{align*} (\mathbf{A}\hat{\mathbf{x}}) \cdot (\mathbf{b}-\mathbf{A}\hat{\mathbf{x}}) & = \begin{bmatrix} 2 \\ -\frac{1}{3} \\ \frac{5}{3} \\ -\frac{8}{3} \end{bmatrix} \cdot \begin{bmatrix} -1 \\ -\frac{5}{3} \\ \frac{1}{3} \\ -\frac{1}{3}\end{bmatrix} \\ & = -2 + \frac{5}{9} + \frac{5}{9} + \frac{8}{9} \\ & = 0. \end{align*}\]
Exercices
Déterminez une solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\), où \(\mathbf{A} = \begin{bmatrix} 1 & 1 \\ 1 & -1 \\ 2 & 1 \end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 1 \\ 2 \\ 3 \end{bmatrix},\) en résolvant l’équation normale associée.
Déterminez une solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\), où \(\mathbf{A} = \begin{bmatrix} 1 & 0 & 1 \\ 1 & -1 & 0 \\ 2 & 1 & 3\end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 1 \\ 0 \\ 0 \end{bmatrix},\) en résolvant l’équation normale associée.
Montrez que la solution des moindres carrés de \(\mathbf{A}\mathbf{x} = \mathbf{b}\) est donnée par \[\mathbf{x} = (\mathbf{A}^\mathsf{T}\mathbf{A})^- \mathbf{A}^\mathsf{T}\mathbf{b},\] où \((\mathbf{A}^\mathsf{T}\mathbf{A})^-\) dénote un pseudo-inverse de \(\mathbf{A}^\mathsf{T}\mathbf{A}.\)
Solutions
Notons que \(\mathbf{A}^\mathsf{T}\mathbf{A} = \begin{bmatrix} 6 & 2 \\ 2 & 3\end{bmatrix}\) et \(\mathbf{A}^\mathsf{T}\mathbf{b} = \begin{bmatrix} 9 \\ 2 \end{bmatrix}\).
Ainsi, la solution des moindres carrés est \[\hat{\mathbf{x}}=\begin{bmatrix} 6 & 2 \\ 2 & 3 \end{bmatrix}^{-1} \begin{bmatrix} 9 \\ 2\end{bmatrix} = \begin{bmatrix} \frac{23}{14} \\ -\frac{3}{7}\end{bmatrix}.\]
Notons que \[\mathbf{A}^\mathsf{T}\mathbf{A} = \begin{bmatrix} 6 & 1 & 7 \\ 1 & 2 & 3 \\ 7 & 3 & 10 \end{bmatrix}\] et \[\mathbf{A}^\mathsf{T}\mathbf{b} = \begin{bmatrix} 1 \\ 0 \\ 1\end{bmatrix}.\]
Mais \(\mathbf{A}^\mathsf{T}\mathbf{A}\) n’est pas inversible puisque la troisième colonne est la somme des deux premières colonnes. On résout \(\mathbf{A}^\mathsf{T}\mathbf{A}\hat{\mathbf{x}} = \mathbf{A}^\mathsf{T}\mathbf{b}\) en réduisant \(\begin{bmatrix} \mathbf{A}^\mathsf{T}\mathbf{A} & \mathbf{A}^\mathsf{T}\mathbf{b} \end{bmatrix}\) à la forme échelonnée réduite, qui devient \[\begin{bmatrix} 1 & 0 & 1 & \frac{2}{11} \\ 0 & 1 & 1 & -\frac{1}{11} \\ 0 & 0 & 0 & 0\end{bmatrix}.\] Il y a plusieurs solutions des moindres carrés; en voici une : \[\hat{\mathbf{x}}=\begin{bmatrix} \frac{2}{11} \\ -\frac{1}{11} \\ 0 \end{bmatrix}.\]
D’après le théorème 11.1, toutes les solutions de l’équation normale sont données par \[(\mathbf{A}^\mathsf{T}\mathbf{A})^-\mathbf{A}^\mathsf{T}\mathbf{b} + (\mathbf{I}_n - (\mathbf{A}^\mathsf{T}\mathbf{A})^-(\mathbf{A}^\mathsf{T}\mathbf{A}))\mathbf{u},\] \(\mathbf{u} \in \mathbb{R}^n.\) En prenant \(\mathbf{u} = \mathbf{0},\) on obtient le résultat désiré.