Método de los mínimos cuadrados
El método consiste en minimizar la sumatoria de los residuos dn al cuadrado, que se muestran en la siguiente figura:
Método del trapecio.
Figura 4. Mínimos cuadrados. En la gráfica se ve una aproximación por medio de mínimos cuadrados a una recta de regresión.
(Para ampliar la imagen haga clic sobre ella)
Estos residuos dn se definen como:
{{d}_{1}}={{y}_{1}}-{{y}_{1}}'
{{d}_{n}}={{y}_{n}}-{{y}_{n}}'
Donde cada elemento yn' se define como:
y_{1}^{'}=m{{x}_{1}}+b
y_{n}^{'}=m{{x}_{n}}+b~
Así, redefiniendo los residuos, se obtiene:
{{d}_{1}}={{y}_{1}}-\left( m{{x}_{1}}+b \right)
{{d}_{n}}={{y}_{n}}-\left( m{{x}_{n}}+b \right)
Y la sumatoria de estos al cuadrado será:
\underset{i=1}{\overset{n}{\mathop \sum }}\,d_{i}^{2}=\underset{i=1}{\overset{n}{\mathop \sum }}\,{{\left( {{y}_{i}}-y_{i}^{'} \right)}^{2}}=\underset{i=1}{\overset{n}{\mathop \sum }}\,{{\left( {{y}_{i}}-\left( m{{x}_{i}}+b \right) \right)}^{2}}
Donde n es la cantidad de puntos que se tienen como datos.
Este problema se resume a calcular los valores de m y b que minimizan la función. Por lo tanto, se trata de un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de m y b, ahora, en ese orden de ideas, se denomina F a la función a minimizar. Cabe anotar que en adelante se omitirán los límites de la sumatoria, pues estos se heredan para todas las demás.
F=\sum {{\left( {{y}_{i}}-m{{x}_{i}}-b \right)}^{2}}
Derivando la función respecto a b y respecto a m, se tiene:
\frac{dF}{db}=2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right)\left( -1 \right)=-2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right) ( 1 )
\frac{dF}{dm}=2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right)\left( -{{x}_{i}} \right)=-2\sum \left( {{y}_{i}}{{x}_{i}}-mx_{i}^{2}-b{{x}_{i}} \right) ( 2 )
Igualando cada una de las nuevas ecuaciones a cero, con el fin de minimizar la función, se comienza con ( 1 ):
0=2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right)\left( -1 \right)=-2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right)
0=~\sum {{y}_{i}}-\sum m{{x}_{i}}-\sum b
\sum {{y}_{i}}=m\sum {{x}_{i}}-\sum b
Y al dividir todo entre n se obtiene:
\frac{\sum {{y}_{i}}}{n}=m\frac{\sum {{x}_{i}}}{n}-b\frac{\sum 1}{n}
En este caso, se tiene:
\frac{\sum {{y}_{i}}}{n}=\bar{y}, \frac{\sum {{x}_{i}}}{n}=\bar{x} y \sum 1=n
Así, finalmente se obtiene la siguiente ecuación, que recibe el nombre de ecuación normal:
\bar{y}=m\bar{x}+b ( 3 )
Ahora se realiza el mismo procedimiento para la ecuación ( 2 ):
0=2\sum \left( {{y}_{i}}-m{{x}_{i}}-b \right)\left( {{x}_{i}} \right)=2\sum \left( {{y}_{i}}{{x}_{i}}-mx_{i}^{2}-b{{x}_{i}} \right)
0=\sum {{y}_{i}}{{x}_{i}}-\sum mx_{i}^{2}-\sum b{{x}_{i}}
\sum {{x}_{i}}{{y}_{i}}=m\sum x_{i}^{2}+b\sum {{x}_{i}}
Al igual que en el caso anterior, se divide todo entre n y se obtiene:
\frac{\sum {{x}_{i}}{{y}_{i}}}{n}=m\frac{\sum x_{i}^{2}}{n}+b\frac{\sum {{x}_{i}}}{n}~
De manera similar que el caso anterior, se tiene:
\frac{\sum {{x}_{i}}{{y}_{i}}}{n}=\overline{xy},~\frac{\sum x_{i}^{2}}{n}=\overline{{{x}^{2}}} y \frac{\sum {{x}_{i}}}{n}=\bar{x}
Así, finalmente se obtiene la siguiente ecuación, que también recibe el nombre de ecuación normal:
\overline{xy}=m\overline{{{x}^{2}}}+b\bar{x} ( 4 )
Por medio de estas ecuaciones normales se pueden calcular los valores de m y b resolviendo un sistema de ecuaciones 2×2.
Sistema:
\left\{ \begin{matrix} \bar{y}=m\bar{x}+b \\ \overline{xy}=m\overline{{{x}^{2}}}+b\bar{x} \\ \end{matrix} \right.
Para resolver este sistema de ecuaciones se deben obtener los valores de m y de b:
m=\frac{\overline{xy}-\bar{x}~\bar{y}}{\overline{{{x}^{2}}}-{{{\bar{x}}}^{2}}}
b=\frac{\overline{{{x}^{2}}}~\bar{y}-\bar{x}~\overline{xy}}{\overline{{{x}^{2}}}-{{{\bar{x}}}^{2}}}
Así, la fórmula de la recta de regresión que aproxima los puntos es la siguiente:
y=\left( \frac{\overline{xy}-\bar{x}~\bar{y}}{\overline{{{x}^{2}}}-{{{\bar{x}}}^{2}}} \right)x+\left( \frac{\overline{{{x}^{2}}}~\bar{y}-\bar{x}~\overline{xy}}{\overline{{{x}^{2}}}-{{{\bar{x}}}^{2}}} \right)
