Modelo lineal
En el modelo nulo, la variable aleatoria \(Y\) tiene un valor entorno a \(\mu\); en este caso, la media es un buen modelo para estimar \(Y\) si se tiene en cuenta el error aleatorio:
\[ Y = \mu + \epsilon \]
Si Y varía en función de distintas situaciones experimentales, podemos representarlo con los parámetros \(\beta\):
\[ Y = f(X_{1} + X_{2} + X_{3}) + \epsilon \]
o
\[ Y = \beta_{0} + \beta_{1}X_{1} + \beta_{2}X_{2} + \epsilon \]
donde \(\beta_{i}\) es un parámetro y \(\epsilon\) es el error.
De forma general, hablamos de
\[ y = X\beta +\epsilon \]
Representación matricial
Cada valor de \(Y\) puede obtenerse en relación con los parámetros que estudiamos, y representarlo en forma de tabla.
\[\begin{matrix} Y & X_{1} & X_{2} & X_{3} \\ y_{1} & x_{11} & x_{12} & x_{13} \\ y_{2} & x_{21} & x_{22} & x_{23} \\ y_{n} & x_{n1} & x_{n2} & x_{n3} \\ \end{matrix} \]
\[ y_{i} = \beta_{0} + \beta_{1x_{i1}} + \beta_{2x_{i2}} + \beta_{3x_{i3}} + \epsilon_{i} // i = 1, ..., n \]
\(\beta_{0}\) es el Intercept, todos los demás valores son los parámetros.
Para estimar los parámetros de un modelo utilizamos el álgebra matricial (ver el capítulo 2 de los libros de Faraway [1], Irizarry [irizarry_data_2017?] y Carmona [2]).
\[ Y = X\beta + \epsilon \]
$$ \[\begin{pmatrix} y_{1} \\ y_{2} \\ y_{n} \end{pmatrix}\]=
\[\begin{pmatrix} x_{11} & x_{12} & x_{1m} \\ x_{21} & x_{22} & x_{2m} \\ x_{n1} & x_{n2} & x_{nm} \end{pmatrix}\] \[\begin{pmatrix} \beta_{1} \\ \beta_{2} \\ \beta_{n} \end{pmatrix}\]$$
Condiciones de Gauss-Markov
El modelo lineal solamente es válido cuando pera dentro de los siguientes supuestos
- Los errores suman cero
- No están correlacionados
- Tienen la misma varianza
Descomposición QR
Mirar en el libro de Faraway [1].