Tests estadísticos
Índice
Matemáticas básicas (recuerdo)
Orden de operaciones 1. () 2. / 3. * 4. - 5. +
Un número es divisible entre - 3 si la suma de sus cifras es múltiplo 3 - 9 si la suma de sus cifras es múltiplo 9 - 4 si sus últimas dos cifras son múltiplo de 4 - 11 si la diferencia entre la suma de sus números pares e impares es múltiple de 11
Factorizar consiste en dividir un número entre el número primo más pequeño las veces que sea posible, y después continuar desde ahí.
El máximo común divisor (MCD) entre dos números utiliza la factorización para obtener el mayor cociente común entre los dos.
- Números reales ( \(\mathbb R\) )
- racionales ( \(\mathbb Q\) )se pueden expresar en forma de ratio
- naturales ( \(\mathbb N\) ): \(\{1, 2, 3, ..., \infty\}\) (no incluye \(0\) )
- enteros ( \(\mathbb Z\) ): \(\{-\infty, ..., \infty\}\)
- irracionales ( \(\mathbb R/\mathbb Q\) ): no se pueden expresar en forma de ratio
- racionales ( \(\mathbb Q\) )se pueden expresar en forma de ratio
\(\mathbb N \subset \mathbb Z \subset \mathbb Q \subset \mathbb R\)
Variables aleatorias
Los resultados posible dentro de un espacio muestral no suelen ser numéricos; para poder operar con ellos hay que convertirlos en números.
En el caso de un experimento que consista tirar dos monedas al aire y obtener sus resultados, los eventos posibles serían \(\{XX, CX, CC\}\) pero podrían expresarse como número de caras obtenidas \(\{0, 1, 2\}\) .
De forma general, la variable \(X\) recoge el espacio muestral codificado como elementos dentro de los números reales.
\[ \begin{aligned} X :\space & \Omega \rightarrow \mathbb R\\ & \omega \rightarrow X(\omega) \end{aligned} \]
Función de distribución
La función de distribución \(F\) de una variable aleatoria \(X\) recoge los sucesos de un experimento, los traslada a la recta real y les asigna una probabilidad a cada valor - la probabilidad es para valores iguales o menores al punto:
\[ \begin{aligned} F : \mathbb R & \rightarrow [0,1] \\ x & \rightarrow F(x) = P(X \le x) = P\{\omega \in \Omega \mid X(\omega) \le x\} \end{aligned} \]
Función de densidad de probabilidad
La función de densidad de probabilidad \(f\) recoge la probabilidad para un valor en las variables discretas (también se llama función de masa de probabilidad en este caso).
\[ \begin{aligned} f : \Omega & \rightarrow \mathbb R \\ x & \rightarrow f(x) = P(X = x) = P\{\omega \in \Omega \mid X(\omega) = x\} \end{aligned} \]
Solamente devuelve una probabilidad en valores de \(x\) definidos dentro del rango.
En las variables continuas, para un valor concreto la probabilidad sería 0 - se calcula para el intervalo entre dos valores. La función de densidad de probabilidad en las variables continuas se relaciona directamente con \(F(x)\) porque si coges todos los números posibles estás calculando lo mismo:
\[ F(x) = \int_{-\infty}^{\infty}f(x)dx \]
En las variables aleatorias, obtener la probabilidad de todos los valores es comparable a obtener la función de distribución:
\[ \begin{cases} f(x) \ge 0 \\ \\ \int_{-\infty}^{+\infty} f(x)dx =1 \end{cases} \]
La función de distribución define la probabilidad de todos los valores del experimento, sea la variable en la que se convierte contínua o discreta. Devuelve la probabilidad acumulada para cada punto.
La función de densidad de probabilidad (o función de masa de probabilidad en las variables discretas) devuelve la probabilidad aislada para cada valor - en el caso de las continuas un valor aislado tiene probabilidad 0. Podemos obtener valores comprendidos entre dos límites:
\[ P(a \le X \le b) = \int^{b}_{a}f(x)dx \]
Variables continuas
Las variables continuas son aquellas en las que hay infinitos valores que puede adquirir un evento. Esto también significa que un valor aislado tiene probabilidad \(0\) (si tuviesen probabilidad \(gt\) 0, la suma total de probabilidad excedería \(1\)).
La función de densidad de probabilidad nos permite obtener la probabilidad de un rango de valores:
\[ P(a \le X \le b) = \int^{b}_{a}f(x)dx \]
Variables discretas
Las variables discretas son aquellas en las que los valores son finitos (o infinitos numerables); esto es el recorrido de la variable, los valores que puede adoptar.
En el caso del experimento con la moneda número de caras en dos tiradas consecutivas sería \([0 \rightarrow 2]\).
En el caso de las variables descritas, la el equivalente a la función de densidad se denomina función de masa de probabilidad, aunque se pueden utilizar los dos términos.
Variable indicadora
La variable discreta más sencilla es la variable indicadora (en esencia una variable booleana):
\[ \begin{aligned} I_{fumar} : \Omega & \rightarrow \mathbb R \\ \omega & \rightarrow I_{fumar}(\omega) = \begin{cases} 1 & \omega \in fumar \\ 0 & no\space fumar \end{cases} \end{aligned} \]
Si el suceso \(A\) es si el paciente es fumador y el único evento es \(w =\) fumador, la variable \(I_{A}\) servería para clasificar los casos en fumadores o no fumadores
Distribuciones
Generalidades
Las letras griegas describen distribuciones teóricas o poblaciones; las letras latinas se refieren a descriptivos muestrales:
| Población | Muestra | |
|---|---|---|
| Media | \(\mu\) | \(\bar{X}\) |
| Varianza | \(\sigma^{2}\) | \(s^{2}\) |
| S.D | \(\sigma\) | \(s\) o \(SD\) |
Media
\[ \mu = \dfrac{\sum_{i=1}^N x_{i}}{N} \]
Varianza
\[ \sigma^2 = \dfrac{\sum_{i=1}^N (x_{i} - \mu)^{2}}{N} \]
Distribuciones discretas
| Distribución | Uso |
|---|---|
| Bernoulli | Variable aleatoria binaria |
| Binomial | \(n\) ensayos de variables aleatorias binarias que siguen la distribución de Bernoulli (número de pacientes que sobreviven) |
| Poisson | Múltiples variables aleatorias binarias sin límite superior definido - el rango de estas variables es \(\gt 0\), \(\mathbb{R}\) (número de clicks a un anuncio) |
La función de masa de probabilidad (probability mass function) describe la distribución posible de valores dentro de una variable discreta.
Distribución de Bernoulli
En una variable aleatoria binaria, \(1\) suele ser el evento de interés y \(0\) la ausencia de ese evento. Como todas las variables aleatorias, la probabilidad de cada valor va del 0 al 1.
\[ P(X = 0) + P(X = 1) = 1 \]
La distribución de Bernoulli describe valores aleatorios binarios. Se define con el parámetro \(\theta\),
- \(P(X = 1) = \theta\)
- \(P(X = 0) = 1-\theta\)
El valor de \(\theta\) está comprendido entre \(0\) y \(1\). Se expresa como
\[ X \mathtt{\sim}Bernoulli(\theta) \]
\[ P(X = x)= \begin{cases} 1 - \theta & \text{for x = 0,} \\ \theta & \text{for x = 1.} \end{cases} \]
La media:
\(\mu = \theta\); indica dónde se acumula la probabilidad.
\[ X \mathtt{\sim}Bernoulli(0.8) = P(X=x) = \begin{cases} 0.2 & \text{for x = 0,} \\ 0.8 & \text{for x = 1.} \end{cases} \]
La varianza:
\[ \sigma^{2} = \mu(1-\mu) \]
La desviación estándar:
\[ \sigma = \sqrt{\mu(1-\mu)} \]
Distribución binomial
La distribución binomial describe una colección de variables binarias aleatorias que siguen la misma distribución de Bernoulli (por ejemplo, 50 pacientes en los que se mide la supervivencia a 5 años, definida para todos como \(\theta\)).
La distribución binomial resultante es la suma de todas las variables anteriores:
\[ Y = \sum_{i}^{n}X_{i} \]
La distribución binomial se define, por tanto, como
\[ Y \mathtt{\sim}Binomial(n,\theta) \]
donde \(n\) es el número de observaciones, y \(\theta\) es el parámetro de la distribución de Bernoulli que sigue cada variable.
Distribución de Poisson
\[ X\mathtt{\sim}Poisson(\lambda) \]
En esta distribución, \(\lambda \gt 0\); otra particularidad de esta distribución es que la varianza y la media son también \(\lambda\)
\[ \mu = \sigma^2 = \lambda \]
Por ejemplo, si el número de visitas anuales a Ikea es 2,5 (donde no hay un tope definidio de visitas anuales, aunque probablemente no sean infinitas), se puede definir como
\[ X \mathtt{\sim}Poisson(2.5) \]
El número de visitas a Ikea al año es potencialmente \(\infty\), aunque su media esté en 2.5 con una desviación estándar \(\sqrt{\lambda} = 1.581139\).
Distribuciones continuas
En este caso se utilizan probability density functions, que traza una curva de densidad de probabilidad - se pueden obtener todos los valores de esa curva. El área bajo esta curva es \(1\) (comprende la probabilidad total de un evento).
Como solamente se pueden medir áreas bajo la curva, la probabilidad de un solo número siempre es 0; solo podemos obtener probabilidades de un intervalo (por pequeño que sea), porque hay que definir un polígono bajo la curva para calcular la probabilidad.
La probabilidad acumulada es \(P(X \le x)\), es decir, la probabilidad de sucesos (la cola negativa de la distribución normal) hasta \(x\).
Distribución normal
La distribución normal se presenta con frecuencia en variables aleatorias naturales; es unimodal y simétrica. La distribución normal se define por su media (\(\mu\)) y su varianza (\(\sigma^2\)).
\[ X \mathtt{\sim}N(\mu,\sigma^2) \]
En la distribución normal, la desviación estándar (\(\sigma\)) marca probabilidades concretas:
| \(\sigma\) | Probabilidad |
|---|---|
| SD | \(0.68 = P(\mu - \sigma \lt X \le \mu + \sigma)\) |
| 2SD | \(0.95 = P(\mu - 2\sigma \lt X \le \mu + 2\sigma)\) |
| 3SD | \(0.997 = P(\mu - 3\sigma \lt X \le \mu + 3\sigma)\) |
Distribución en t de Student
Se utiliza en relación con las medias poblacionales, y se define por un solo parámetro, los grados de libertad (\(df\)). La media siempre es 0 (\(\mu = 0\)). Los grados de libertad siempre tienen que ser mayores de 0 (\(df\gt0\)), y la varianza solo puede definirse con \(df \gt 2\) porque \(\sigma^2 = df/(df-2)\).
A medida que los grados de libertad aumentan la distribución se aproxima a la normal.
\[ t(df) \]
Distribución F
La distribución F tiene dos grados de libertad; \(df_{1} = k-1\) es el numerador, y \(df_{2} = n-1\) el denominador. Se presupone que las observaciones provienen de una distribución normal y son independientes. También presupone que \(\sigma^{2}\) es igual en todos los grupos, e igual a la de la población.
Modificación de variables
Cuando se modifican los valores de una variable aleatoria, los parámetros estadísticos también se modifican.
En caso de una multiplicación, \(\mu\), \(\sigma\) y \(\sigma^2\) se multiplican por su equivalente. Si es una suma, solamente se modifica \(\mu\).
Este fenómeno también ocurre con los valores poblacionales (teóricos), por ejemplo, dado \(Y = aX + b\):
| Est. | Multiplicar (\(a\)) | Sumar (\(b\)) | Población (\(a\), \(b\)) |
|---|---|---|---|
| \(\mu\) | \(a\mu\) | \(\mu + b\) | \(\mu_{y}^{2} = a\mu_{x}+b\) |
| \(\sigma^2\) | \(a^{2}\sigma^2\) | \(\sigma^2\) | \(\sigma_{y}^{2} = a^{2}\sigma_{x}^{2}\) |
| \(\sigma\) | \(\mid a\mid \sigma\) | \(\sigma\) | \(\sigma_{y} = \mid a \mid \sigma_{x}\) |
Estandarización
Esto permite estandarizar una variable; convertirla en una variable de \(\mu = 0\) y \(\sigma^{2} = 1\). Esto permite compararla con otras variables.
Teniendo en cuenta \(Y = aX + b\), podemos
- restarle a \(X\) su propia media, de manera que \(\mu_{Y} = 0\)
\[ Y = X - \mu_{x} \]
- multiplicar \(Y\) por su propia varianza, de manera que \(\sigma\) y \(\sigma^{2}\) pasan a ser 1. \(\mu_{y}\) porque ya es 0:
\[ \begin{gather} Z = Y / \sigma_{Y} \\ \sigma_{z} = \sigma_{Y}/\sigma_{Y} = 1 \\ \sigma_{z}^{2} = \sigma_{Y}^{2}/\sigma_{Y}^{2} = 1 \end{gather} \]
De esta manera se convierte en la distribución normal estándar, \(N(0,1)\),
Suma de variables
Si hay dos variables independientes y se suman, la media resultante será la suma de sus medias; y si además son independientes, lo mismo se aplica a su varianza.
\[ X1 + X2 \mathtt{\sim}N(\mu + \mu, \sigma^{2} + \sigma^{2}) = N(2\mu, 2\sigma^{2}) \]
por tanto
\[ \sum^{n}_{i=1}X_{i}\mathtt{\sim}N(n\mu, n\sigma^{2}) \]
z-score
El z-score se calcula de una distribución normal \(N(\mu, \sigma^{2})\) de media 0 y varianza 1:
\[ N(0,1) \]
Proporciones poblacionales
La proporción de una población sigue una distribución binomial.
El z-score se calcula teniendo en cuenta que \(\sigma^{2} = \mu_{0}(1-\mu_{0})\):
\[ z = \dfrac{p - \mu_{0}}{\sqrt{\mu_{0}(1-\mu_{0})}} \]
donde \(p\) es la media muestral.
Tests estadísticos
Los tests estadísticos confrontan la hipótesis nula con la evidencia disponible.para poder aplicarlos hay que conocer la distribución de la muestra
A través de variables aleatorias se intentan estimar los parámetros poblacionales desconocidos, como \(\mu\) y \(\sigma^{2}\), a través de aproximaciones.
Los estadísticos son estimadores que dependen exclusivamente de los datos observados para inferir los parámetros poblacionales.
La estimación puede puntual, denotada con ^ (\(\hat{\mu}\) o \(\hat{\sigma}^{2}\)), o con un intervalo de valores que refleja el grado de incertidumbre al que está sujeto el cálculo.
\(X_{n}\) representa una muestra aleatoria extraía de la población; cada una de estas muestras se consideran independientes e idénticas en su distribución (IID); generalmente hablamos de \(x\) porque solo tenemos acceso a una muestra concreta.
Estimación puntual
La media poblacional \(\mu\) se define como
\[ \mu = \dfrac{\sum_{i=1}^{N}x_{i}}{N} \]
donde \(x_{i}\) es el valor de la variable aleatoria para el individuo \(i\). En la práctica, utilizamos el estimador \(\hat{X}\), una aproximación a \(\mu\):
\[ \hat{X}_{n} = \dfrac{\sum_{i=1}^{n}X_{i}}{n} \]
Se utiliza una letra mayúscula (\(X\)) porque a medida que cambia la \(n\), \(X\) también lo hace, y por tanto se convierte en una variable aleatoria.
Puesto que solamente tenemos acceso a una muestra en la mayor parte de los casos, la fórmula queda así:
\[ \hat{x}_{n} = \dfrac{\sum_{i=1}^{n}x_{i}}{n} \]
La ley de los grandes números nos dice que a medida que \(n \to \infty\), la media estimada se aproxima a la media poblacional, o \(\hat{X}_{n} \to \mu\).
En el caso de la varianza poblacional, aunque el cálculo se haría con
\[ \sigma^{2} = \dfrac{\sum^{N}_{i=1}(x_{i} - \mu)^{2}}{N} \]
en el estimador se utiliza \(n-1\) para no infraestimar el valor real:
\[ s^{2} = \dfrac{\sum^{n}_{i=1}(x_{i} - \hat{x})^{2}}{n-1} \]
Distribución muestral
Los estimadores dependen de la muestra que se tome de la población, y por tanto son variables aleatorias dentro de una distribución muestral.
De acuerdo con la suma de variables
\[ \sum^{n}_{i=1}X_{i}\mathtt{\sim}N(n\mu, n\sigma^{2}) \]
si después dividimos entre \(n\), \(X_{i}\) se convierte en \(\hat{X}\) y obtenemos la distribución muestra de \(\hat{X}\):
\[ \hat{X} \mathtt{\sim}N(\mu,\sigma^{2}/n) \]
Intervalos de confianza para la media poblacional
La desviación estándar en esta distribución es \(\sigma/\sqrt{n}\); a medida que \(n\) aumenta, también lo hace la precisión de la estimación de \(\hat{X}\).
En el caso de las variables binomiales, la desviación estándar se calcula de la siguiente manera:
\[ \sigma = p\times(1-p) \]
Los valores z identifican otros intervalos de confianza distintos a los definidos por múltiplos de \(\sigma\) (68%, 95% y 99,7%), y se obtienen a través de los cuantiles (con qnorm o lo que corresponda).
\[ [x - z_{crit}\times\sigma/\sqrt(n), x + z_{crit}\times\sigma/\sqrt(n)] \]
Varianza poblacional desconocida
Cuando no conocemos la varianza de la población (la mayor parte de los casos), en lugar de la desviación estándar utilizamos el error estándar
\[ SE = s/\sqrt(n) \]
y en lugar de los valores z utilizamos los valores t de una distribución en t con \(n-1\) grados de liberado, con qt para calcular \(t_{crit}\)
\[ [x - t_{crit}\times\sigma/\sqrt(n), x + t_{crit}\times\sigma/\sqrt(n)] \]
Teorema del límite central
Cuando se extraen múltiples muestras de una población, la distribución que forma la media de las distintas muestras se aproxima a la media de la población; esto es el teorema del límite central. Esto es válido para muestras grandes (\(n \ge 30\) - las muestras menores siguen una distribucion en \(t\)).
\(e\) representa el margen de error o error estándar de la media:
\[ SE = \dfrac{\sigma}{\sqrt{n}} \]
Hipótesis
Una hipótesis es la conjetura que se pretende demostrar; la hipótesis nula (\(H_{0}\)) refleja el status quo. Los métodos estadísticos convencionales intentan rechazar \(H_{0}\), demostrando así su alternativa.
Hipótesis nula
Puesto que es más fácil definir \(H_{0}\) que la hipótesis alternativa, podemos definir la media poblacional _condicionada a que \(H_{0}\) no haya sido falseada:
\[ \bar{X}|H_{0} = N(\mu, \sigma^{2}/n) \]
Si \(H_{0}\) es cierta, los valores de \(\bar{X}\) deberían estar todos cerca del valor de la distribución nula (la distribución que se produce sin \(H_{0}\) es cierta).
Error estadístico
Exigir un alto grado de evidencia para rechazar \(H_{0}\) implica aumentar la posibilidad de no rechazarla cuando esta no se sostiene, y al revés (error \(\beta\)) - exigir un bajo grado de evidencia para detectar pequeñas diferencias puede suponer que se rechace la hipótesis sin que exista un motivo para ello (error \(\alpha\)).
Error tipo I
También llamado \(\alpha\); rechazamos \(H_{0}\) sin motivo.
Error tipo II
También llamado \(\beta\); no rechazamos \(H_{0}\) cuando teníamos motivos para hacerlo (el error más benigno).
Significación estadística
La significación estadística indica con qué grado de certeza rechazamos la hipótesis nula.
p-valor
El p-valor define la probabilidad de obtener la media muestral en la distribución de probabilidad poblacional de la media si \(H_{0}\) es cierta. Una p <0.05 quiere decir que la media obtenida en la muestra se encuentra por debajo del cuantil 5 de la distribución poblacional de la media.
Correlación de Pearson
\(H_{0}\) en la correlación de Pearson se define como
\[ H_{0} : \rho = 0 \]
En este ejemplo, birthwt tiene 189 observaciones:
> cor.test(birthwt$age, birthwt$low)
Pearson's product-moment correlation
data: birthwt$age and birthwt$low
t = -1.6381, df = 187, p-value = 0.1031
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.25730155 0.02420185
sample estimates:
cor
-0.1189393
t-tests
El t-score es el valor que se obtiene cuando queremos calcular z-score pero desconocemos la varianza de la población.
\[ t = \dfrac{\bar{x} - \mu_{0}}{s/\sqrt{n}} \]
\(\bar{x}\) y \(s\) provienen de la muestra; \(\mu_{0}\) es la media poblacional estimada. \(n\) realmente es \(n-1\) para corresponderse con los grados de libertad.
Los grados de libertad tienen que ver con el número de parámetros que intentamos estimar de la muestra
One sample t-test
Para calcular el t-score, podemos utilizar esta fórmula. La probabilidad puede calcularse utilizando pt():
pt(
t - score,
df = n-1,
lower.tail = FALSE
)pero la forma más fácil es utilizar t.test() sobre la muestra:
t.test(
x = db$variable,
mu = population mean,
alternative = ["two.sided", "greater", "less"],
conf.level = 0.95
)En este ejemplo, Pima.tr$bmi tiene 200 observaciones:
> t.test(Pima.tr$bmi, mu=30, alternative="two.sided")
One Sample t-test
data: Pima.tr$bmi
t = 5.3291, df = 199, p-value = 2.661e-07
alternative hypothesis: true mean is not equal to 30
95 percent confidence interval:
31.45521 33.16479
sample estimates:
mean of x
32.31
Two sample t-test
Utilizando t-test se pueden comparar dos medias; en este caso mu=0 porque \(H_{0}\) es que las dos medias son iguales (\(\mu_{1} - \mu_{2} = 0\)):
\[ H_{0} : \mu_{12} = 0 \]
t.test (x ~ y,
mu = 0,
alternative = "two.sided",
data = data-source)Se pueden definir las variables a comparar como x, y; x ~ y separa x por los valores de y.
MASS::birthwt
> t.test(bwt ~ smoke, mu = 0, alternative = "two.sided", data = birthwt)
Welch Two Sample t-test
data: bwt by smoke
t = 2.7299, df = 170.1, p-value = 0.007003
alternative hypothesis: true difference in means between group 0 and group 1 is not equal to 0
95 percent confidence interval:
78.57486 488.97860
sample estimates:
mean in group 0 mean in group 1
3055.696 2771.919
Observaciones pareadas
Se añade paired=TRUE a t.test:
> platelet <- read.csv('~/Desktop/Platelet.txt', sep="")
> t.test(platelet$Before, platelet$After,
+ mu = 0,
+ alternative="less",
+ paired=TRUE)
Paired t-test
data: platelet$Before and platelet$After
t = -4.2716, df = 10, p-value = 0.0008164
alternative hypothesis: true mean difference is less than 0
95 percent confidence interval:
-Inf -5.913967
sample estimates:
mean difference
-10.27273
ANOVA
El análisis de la varianza (ANalysis Of VAriance) es una generalización de los t-test cuando la variable categórica no es binaria - el factor tiene más de dos categorías.
One-way ANOVA
D_One-way_ se refiere a un único factor (una única variable categórica). \(H_{0}\) es que no hay diferencias entre ninguna de las medias:
\[ H_{0}:\mu_{1} = \mu_{2} = \mu_{3} = \mu_{4} = \mu \]
Si en la variable categórica \(X\) hay tres grupos, las observaciones de la variable \(Y\) se marcan con el subíndice \(i\) para el grupo y \(j\) para el número de observación ( \(y_{ij}\) ).
\[ \bar{y}_{i} = \dfrac{y_{i1}+y_{i2}+...+y_{in}}{n_{i}} \]
La media de la variable respuesta \(\bar{y}\) es la suma de las medias de los subgrupos de \(Y\).
La variación entre grupos ( \(SS_{factor}\) ) es la diferencia entre la media del grupo y la media general, al cuadrado. Es la parte de la variación asociada al factor. Se multiplica por \(n\) de cada grupo para ponderar el tamaño muestral:
\[ SS_{B} = \sum^{k}_{i=1}n_{i}(\bar{y_{i}-\bar{y}})^{2} \]
( \(k\) es el número de grupos)
La variación intragrupo ( \(SS_{random}\) ) calcula la desviación de cada elemento de la media de su grupo. Es la variación aleatoria, no explicada por el la variable factor.
\[ SS_{W} = \sum^{k}_{i=1}\sum^{n_{1}}_{j=1}(\bar{y}_{ij}-\bar{y})^{2} \]
La variación total es \(SS = SS_{factor} + SS_{random}\).
El calculo de la ANOVA en R se hace utilizando aov(); pero los resultados se tienen que guardar en un objeto (aov.output) para poder ser valorados con summary(aov.output):
One-way ANOVA
-------------
> aov1.out <- aov(Tetrahydrocortisone ~ Type, data=Cushings)
> summary(aov1.out)
Df Sum Sq Mean Sq F value Pr(>F)
Type 3 893.5 297.84 3.226 0.0412 *
Residuals 23 2123.6 92.33
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Valor F
El test estadístico ANOVA sigue la distribución F devuelve \(F\); es una medida que compara la variación intergrupo (relevante) entre la intragrupo - valores altos sugieren diferencias entre ambos grupos, y 0 que no las hay.
El valor observado de \(F\) se denota con \(f\); ( \(k\) es el número de grupos, \(n\) el tamaño muestral):
\[ F = \dfrac{SS_{factor}/(k-1)}{SS_{random}/(n-1)} \]
Two-way ANOVA
Two-way ANOVA se utiliza cuando existen varios factores que influyen en la variable respuesta. Los factores también pueden interactuar entre sí. Esta variabilidad compone la variabilidad total:
\[ SS = SS_{A} + SS_{B} + SS_{A \times B} + SS_{random} \]
Para hacer two-way ANOVA, + sirve para añadir factores extra; si además queremos extraer las interacciones entre los factores esto se denota con *:
Two-way ANOVA
-------------
> aov2.out <- aov(Wt ~ Mother * Litter, data=genotype)
> summary(aov2.out)
Df Sum Sq Mean Sq F value Pr(>F)
Mother 3 771.6 257.20 4.742 0.00587 **
Litter 3 63.6 21.21 0.391 0.76000
Mother:Litter 9 824.1 91.56 1.688 0.12005
Residuals 45 2440.8 54.24
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Regresión
Regresión lineal
Los modelos de regresión lineal permiten definir la relación entre dos variables - la variable explicativa \(X\) y la variable respuesta \(Y\). También se pueden utilizar como para predecir el valor de una variable tomando dado el valor de una variable predictiva:
\[ y_{i} = a + bx_{i} + e_{i} \]
donde \(a\) es el valor \(y\) sin tener en cuenta \(x\), y \(b\) es el factor por el que se modifica \(y\) en función de \(x\). \(e\) es el residuo, la desviación de \(y\) respecto a la media.
A nivel poblacional se expresa con
\[ Y = \alpha + \beta X + \varepsilon \]
donde \(\beta\) es el coeficiente de regresión; \(\varepsilon\) es la diferencia entre la estimación y los valores reales de \(Y\).
lm() es la función que se utiliza ajustar un modelo de regresión linear de mínimos cuadrados:
> library(mfp)
> fit <- lm(siri ~ hight, data=bodyfat)para explorar el modelo se utiliza summary() y names()
Cluster
library(MASS)
# Subset de Pima.tr
pima <- Pima.tr[,c("bmi", "age")]
# "Centrar" cada columna restando su media a cada valor
# "Escalar" dividiendo cada valor por la desviación estándar
pima_s <- scale(pima)
# Divide los datos en tres clusters
clus <- kmeans(pima_s, centers=3)
# 'clus$cluster' devuelve a qué cluster pertenece cada observación
pima$cluster <- clus$cluster
png("estadistica.cluster.png")
plot(pima$bmi, pima$age,
type = "n",
xlab = "BMI",
ylab = "Age")
points( pima$bmi[pima$cluster == 1],
pima$age[pima$cluster == 1],
pch = 15, cex = 1.5, col = "cadetblue")
points( pima$bmi[pima$cluster == 2],
pima$age[pima$cluster == 2],
pch = 16, cex = 1.5, col = "coral3")
points( pima$bmi[pima$cluster == 3],
pima$age[pima$cluster == 3],
pch = 17, cex = 1.5, col = "limegreen")
legend( "topright",
legend = c("Cluster 1", "Cluster 2", "Cluster 3"),
pch = c(15,16,17), col = c("cadetblue", "coral3", "limegreen"))
dev.off() 