12.3 Cas général

Soient \(\mathbf{A}\in \mathbb{R}^{m\times n}\) et \(\mathbf{b}\in \mathbb{R}^m\). Dans le cas général, il est plus difficile de trouver la solution des moindres carrés du système \(\mathbf{A}\mathbf{x} = \mathbf{b}.\)

Bien qu’il soit toujours possible de minimiser \(\| \mathbf{A}\mathbf{x} - \mathbf{b}\|^2\) en utilisant le calcul à plusieurs variables, nous allons suivre un chemin algébrique.

Rappelons que l’on cherche un vecteur dans \({\operatorname{Col}({\mathbf{A}})}\) qui est le plus près de \(\mathbf{b}\). En tenant compte de cela, on écrit \(\mathbf{b} = \mathbf{u} + \mathbf{d}\), où \(\mathbf{u} \in {\operatorname{Col}({\mathbf{A}})}\) et \(\mathbf{d} \in {\operatorname{Col}({\mathbf{A}})}^\perp.\) Cette décomposition est possible en raison du théorème 10.3 et le choix de \(\mathbf{u}\) et \(\mathbf{d}\) est unique. En outre, \(\mathbf{u}\) est la projection orthogonale de \(\mathbf{b}\) dans \({\operatorname{Col}({\mathbf{A}})}.\)

Soit \(\hat{\mathbf{x}} \in \mathbb{R}^n\) tel que \(\mathbf{u} = \mathbf{A}\hat{\mathbf{x}}.\) Alors, \[\begin{align*} \| \mathbf{A}\mathbf{x} - \mathbf{b}\|^2 & = \| \mathbf{A}\mathbf{x} - (\mathbf{A}\hat{\mathbf{x}} + \mathbf{d})\|^2 \\ & = \| \mathbf{A}(\mathbf{x} - \hat{\mathbf{x}}) + \mathbf{d})\|^2 \\ & = (\mathbf{A}(\mathbf{x}-\hat{\mathbf{x}}) - \mathbf{d})^\mathsf{T} (\mathbf{A}(\mathbf{x}-\hat{\mathbf{x}}) - \mathbf{d}) \\ & = (\mathbf{x}-\hat{\mathbf{x}})^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{A}(\mathbf{x}-\hat{\mathbf{x}}) -(\mathbf{x}-\hat{\mathbf{x}})^\mathsf{T}\mathbf{A}^\mathsf{T}\mathbf{d} -\mathbf{d}^\mathsf{T}\mathbf{A}(\mathbf{x}-\hat{\mathbf{x}}) + \mathbf{d}^\mathsf{T}\mathbf{d} \end{align*}\] Mais \(\mathbf{d}^\mathsf{T}\mathbf{A} = \mathbf{A}^\mathsf{T}\mathbf{d} = \mathbf{0}\) puisque \(\mathbf{d}\) est dans le complément orthogonal de \({\operatorname{Col}({\mathbf{A}})}.\) Ainsi, \[\begin{align*} \| \mathbf{A}\mathbf{x} - \mathbf{b}\|^2 & = \|\mathbf{A}(\mathbf{x}-\hat{\mathbf{x}})\|^2 + \|\mathbf{d}\|^2 \\ & = \|\mathbf{A}\mathbf{x}-\mathbf{u}\|^2 + \|\mathbf{d}\|^2 \geq \|\mathbf{d}\|^2, \end{align*}\] avec égalité lorsque \(\mathbf{A}\mathbf{x} = \mathbf{u}.\)

On peut effectuer deux observations importantes suite à ce que nous venons d’obtenir.

  1. La distance minimale entre \(\mathbf{b}\) et tout autre vecteur de \({\operatorname{Col}({\mathbf{A}})}\) est donnée par \(\|\mathbf{d}\|\).

  2. Toute solution de \(\mathbf{A} \mathbf{x} = \mathbf{u}\) donne lieu à une solution des moindres carrés si \(\mathbf{u}\) est la projection orthogonale de \(\mathbf{b}\) dans \({\operatorname{Col}({\mathbf{A}})}.\)

Exemple 12.3 Trouvez une solution des moindres carrés de \[\begin{align*} x_1 + x_2 & = 1 \\ -x_1 + x_2 & = 2 \\ x_2 & = 0. \end{align*}\]

Notons que le système peut être réécrit comme sous la forme \(\mathbf{A} \mathbf{x} = \mathbf{b}\), où \(\mathbf{A} = \begin{bmatrix} 1 & 1 \\ -1 & 1 \\ 0 & 1 \end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 1 \\ 2 \\ 0\end{bmatrix}\).

Obtenons maintenant la projection de \(\mathbf{b}\) dans \({\operatorname{Col}({\mathbf{A}})}\). On nomme ce vecteur \(\mathbf{u}\).

Puisque \(\mathbf{A}\) est de plein rang, la matrice de projection peut être utilisée afin d’obtenir \(\mathbf{u}\) : \[\begin{align*} \mathbf{A}(\mathbf{A}^\mathsf{T}\mathbf{A})^{-1}\mathbf{A}^\mathsf{T}\mathbf{b} = \begin{bmatrix} \frac{1}{2} \\ \frac{3}{2} \\ 1 \end{bmatrix} \end{align*}\]

Alternativement, on peut d’abord obtenir une base orthonormée \(\{\mathbf{u}^{(1)},\mathbf{u}^{(2)}\}\) de \({\operatorname{Col}({\mathbf{A}})}\). Ainsi, \(\mathbf{u}\) est donné par \[\left(\mathbf{b} \cdot \mathbf{u}^{(1)} \right) \mathbf{u}^{(1)} + \left(\mathbf{b} \cdot \mathbf{u}^{(2)} \right) \mathbf{u}^{(2)},\] d’après le théorème 10.4.

Notons que les deux colonnes de \(\mathbf{A}\) sont déjà orthogonales. On choisit \(\mathbf{u}^{(1)} = \frac{1}{\sqrt{2}} \begin{bmatrix} 1 \\ -1 \\ 0 \end{bmatrix}\) et \(\mathbf{u}^{(2)} = \frac{1}{\sqrt{3}} \begin{bmatrix} 1 \\ 1 \\ 1 \end{bmatrix},\) d’où \(\mathbf{u} = \left(\mathbf{b} \cdot \mathbf{u}^{(1)} \right) \mathbf{u}^{(1)} + \left(\mathbf{b} \cdot \mathbf{u}^{(2)} \right) \mathbf{u}^{(2)} = -\frac{1}{2}\begin{bmatrix} 1 \\ -1 \\ 0\end{bmatrix} + \frac{3}{3}\begin{bmatrix} 1 \\ 1 \\ 1\end{bmatrix} = \begin{bmatrix} \frac{1}{2} \\ \frac{3}{2} \\ 1 \end{bmatrix},\) ce qui correspond à la réponse obtenue précédemment en utilisant la matrice de projection.

Il suffit ensuite de résoudre le système \(\mathbf{A}\mathbf{x} = \mathbf{u},\) ce qu’on peut faire de la manière suivante : \[\begin{align*} & \left[ \begin{array}{cc|c} 1 & 1 & \frac{1}{2} \\ -1 & 1 & \frac{3}{2} \\ 0 & 1 & 1 \end{array} \right] \\ \xrightarrow{L_2 \leftarrow L_2 + L_1} & \left[ \begin{array}{cc|c} 1 & 1 & \frac{1}{2} \\ 0 & 2 & 2 \\ 0 & 1 & 1 \end{array} \right] \\ \xrightarrow{L_2 \leftarrow L_2 - 2L_3} & \left[ \begin{array}{cc|c} 1 & 1 & \frac{1}{2} \\ 0 & 0 & 0 \\ 0 & 1 & 1 \end{array} \right] \\ \xrightarrow{L_1 \leftarrow L_1 - L_1} & \left[ \begin{array}{cc|c} 1 & 0 & -\frac{1}{2} \\ 0 & 0 & 0 \\ 0 & 1 & 1 \end{array} \right] \\ \xrightarrow{L_2 \leftrightarrow L_3} & \left[ \begin{array}{cc|c} 1 & 0 & -\frac{1}{2} \\ 0 & 1 & 1 \\ 0 & 0 & 0 \end{array} \right] \end{align*}\] On peut en conclure que la solution des moindres carrés du système original est donnée par \[\begin{bmatrix} x_1 \\ x_2 \end{bmatrix} = \begin{bmatrix} -\frac{1}{2} \\ 1 \end{bmatrix}.\]

Exercice

  1. Obtenez une solution des moindres carrés de \[\begin{align*} 2x_1 + x_2 & = 3 \\ -x_1 + 3x_2 & = 3 \\ x_1 - x_2 & = 1 \\ \end{align*}\]

Solution

  1. Le système se réécrit sous la forme \(\mathbf{A} \mathbf{x} = \mathbf{b}\), où \(\mathbf{A} = \begin{bmatrix} 2 & 1 \\ -1 & 1 \\ 1 & -1 \end{bmatrix}\) et \(\mathbf{b} = \begin{bmatrix} 3 \\ 3 \\ 1\end{bmatrix}\).

    Puisque \(\mathbf{A}\) est de plein rang, la projection orthogonale de \(\mathbf{b}\) dans \({\operatorname{Col}({\mathbf{A}})}\) est donnée par \[\begin{align*} \mathbf{u} & = \mathbf{P}_{\mathbf{A}} \mathbf{b} \\ & = \mathbf{A}(\mathbf{A}^\mathsf{T}\mathbf{A})^{-1}\mathbf{A}^\mathsf{T}\mathbf{b} \\ & = \begin{bmatrix} 2 & 1 \\ -1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} 6 & 0 \\ 0 & 3 \end{bmatrix}^{-1} \begin{bmatrix} 2 & -1 & 1 \\ 1 & 1 & -1 \end{bmatrix} \begin{bmatrix} 3 \\ 3 \\ 1\end{bmatrix}\\ & = \begin{bmatrix} 2 & 1 \\ -1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} \frac{1}{6} & 0 \\ 0 & \frac{1}{3} \end{bmatrix} \begin{bmatrix} 4 \\ 5 \end{bmatrix}\\ & = \begin{bmatrix} 2 & 1 \\ -1 & 1 \\ 1 & -1 \end{bmatrix} \begin{bmatrix} \frac{2}{3} \\ \frac{5}{3} \end{bmatrix} = \begin{bmatrix} 3 \\ 1 \\ -1\end{bmatrix}. \end{align*}\] On obtient une solution des moindres carrés en résolvant \(\mathbf{A} \mathbf{x} = \mathbf{u},\) ici \(\mathbf{x} = \begin{bmatrix} \frac{2}{3} \\ \frac{5}{3}\end{bmatrix}.\)

    Remarque. Comme vous l’avez peut-être constaté lors la dérivation précédante, une solution des moindres carrés est donnée par \((\mathbf{A}^\mathsf{T}\mathbf{A})^{-1}\mathbf{A}^\mathsf{T}\mathbf{b}.\) Nous allons étudier cette observation en détail dans la section suivante.