Supuesto de normalidad

El test de Kolmogorov-Smirnov sirve para determinar si una muestra es normal, pero requiere que la distribución poblacional esté completamente definida (hay que aportarle la media y la desviación estándar).

El test de Lilliefors (o el de Wilk-Shapiro) no requiere conocer la población original. Wilk-Shapiro funciona mejor en muestras grandes (\(n > 60\))1

birthwt <- MASS::birthwt
smoketable <- aggregate(birthwt$bwt ~ birthwt$smoke, FUN  = mean)
kable(smoketable, col.names = c("smoke", "bwt"))
smoke bwt
0 3055.696
1 2771.919

La representación gráfica de las variables ayuda a estimar la normalidad

hist(sample, freq = FALSE)
lines(density(sample), col = "red", lwd = 2)

Normalidad

Los tests de normalidad comparan la muestra con una distribución normal teórica de idéntica media y desviación estándar. Un resultado no significativo indica que no existen diferencias entre las dos muestras (pero con muestras muy grandes es posible obtener un resultado significativo que no sea relevante) [1]; por eso es importante representar gráficamente los datos.

Lilliefors

by(birthwt$bwt, birthwt$smoke, nortest::lillie.test)
birthwt$smoke: 0

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  dd[x, ]
D = 0.059863, p-value = 0.3967

------------------------------------------------------------ 
birthwt$smoke: 1

    Lilliefors (Kolmogorov-Smirnov) normality test

data:  dd[x, ]
D = 0.068092, p-value = 0.5396

Shapiro-Wilk

by(birthwt$bwt, birthwt$smoke, shapiro.test)
birthwt$smoke: 0

    Shapiro-Wilk normality test

data:  dd[x, ]
W = 0.98694, p-value = 0.3337

------------------------------------------------------------ 
birthwt$smoke: 1

    Shapiro-Wilk normality test

data:  dd[x, ]
W = 0.98296, p-value = 0.4195
Cómo reportar el test de Shapiro-Wilk

The percentage on the R exam, W = 0.96, p = .005, and the numeracy scores, W = 0.92, p < .001, were both significantly non-normal. [1]

Q-Q plot

qqnorm(data) compara los cuantiles de la muestra a estudio con los cuantiles de una distribución normal

qqnorm(muestra)
qqline(muestra)     # dibuja una línea de referencia

Homogeneidad de la varianza (homocedasticidad)

La varianza debería ser constante a lo largo de la variable y entre grupos; si es más alta con valores altos y más baja con valores bajos, o si difiere significativamente entre grupos, no se pueden comparar las varianzas.

Test de la homogeneidad de varianzas de Fligner-Killeen

fligner.test(birthwt$bwt, birthwt$smoke)

    Fligner-Killeen test of homogeneity of variances

data:  birthwt$bwt and birthwt$smoke
Fligner-Killeen:med chi-squared = 1.5788, df = 1, p-value = 0.2089

  1. https://stats.stackexchange.com/questions/362/what-is-the-difference-between-the-shapiro-wilk-test-of-normality-and-the-kolmog↩︎