<- MASS::birthwt
birthwt <- aggregate(birthwt$bwt ~ birthwt$smoke, FUN = mean)
smoketable kable(smoketable, col.names = c("smoke", "bwt"))
smoke | bwt |
---|---|
0 | 3055.696 |
1 | 2771.919 |
El test de Kolmogorov-Smirnov sirve para determinar si una muestra es normal, pero requiere que la distribución poblacional esté completamente definida (hay que aportarle la media y la desviación estándar).
El test de Lilliefors (o el de Wilk-Shapiro) no requiere conocer la población original. Wilk-Shapiro funciona mejor en muestras grandes (\(n > 60\))1
<- MASS::birthwt
birthwt <- aggregate(birthwt$bwt ~ birthwt$smoke, FUN = mean)
smoketable kable(smoketable, col.names = c("smoke", "bwt"))
smoke | bwt |
---|---|
0 | 3055.696 |
1 | 2771.919 |
La representación gráfica de las variables ayuda a estimar la normalidad
hist(sample, freq = FALSE)
lines(density(sample), col = "red", lwd = 2)
Los tests de normalidad comparan la muestra con una distribución normal teórica de idéntica media y desviación estándar. Un resultado no significativo indica que no existen diferencias entre las dos muestras (pero con muestras muy grandes es posible obtener un resultado significativo que no sea relevante) [1]; por eso es importante representar gráficamente los datos.
by(birthwt$bwt, birthwt$smoke, nortest::lillie.test)
birthwt$smoke: 0
Lilliefors (Kolmogorov-Smirnov) normality test
data: dd[x, ]
D = 0.059863, p-value = 0.3967
------------------------------------------------------------
birthwt$smoke: 1
Lilliefors (Kolmogorov-Smirnov) normality test
data: dd[x, ]
D = 0.068092, p-value = 0.5396
by(birthwt$bwt, birthwt$smoke, shapiro.test)
birthwt$smoke: 0
Shapiro-Wilk normality test
data: dd[x, ]
W = 0.98694, p-value = 0.3337
------------------------------------------------------------
birthwt$smoke: 1
Shapiro-Wilk normality test
data: dd[x, ]
W = 0.98296, p-value = 0.4195
The percentage on the R exam, W = 0.96, p = .005, and the numeracy scores, W = 0.92, p < .001, were both significantly non-normal. [1]
qqnorm(data)
compara los cuantiles de la muestra a estudio con los cuantiles de una distribución normal
qqnorm(muestra)
qqline(muestra) # dibuja una línea de referencia
La varianza debería ser constante a lo largo de la variable y entre grupos; si es más alta con valores altos y más baja con valores bajos, o si difiere significativamente entre grupos, no se pueden comparar las varianzas.
fligner.test(birthwt$bwt, birthwt$smoke)
Fligner-Killeen test of homogeneity of variances
data: birthwt$bwt and birthwt$smoke
Fligner-Killeen:med chi-squared = 1.5788, df = 1, p-value = 0.2089
https://stats.stackexchange.com/questions/362/what-is-the-difference-between-the-shapiro-wilk-test-of-normality-and-the-kolmog↩︎