ANOVA

El análisis de la varianza es útil para comparar las diferencias entre las medias de tres o más grupos; solamente devuelve si existen diferencias entre los grupos, pero no especifica entre qué grupos ocurre esto.

iris_aov <- aov(Sepal.Length ~ Species, data = iris)
summary(iris_aov)
             Df Sum Sq Mean Sq F value Pr(>F)    
Species       2  63.21  31.606   119.3 <2e-16 ***
Residuals   147  38.96   0.265                   
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Para esto utilizamos el procedimiento de Tukey, que compara cada grupo entre sí

TukeyHSD(iris_aov)
  Tukey multiple comparisons of means
    95% family-wise confidence level

Fit: aov(formula = Sepal.Length ~ Species, data = iris)

$Species
                      diff       lwr       upr p adj
versicolor-setosa    0.930 0.6862273 1.1737727     0
virginica-setosa     1.582 1.3382273 1.8257727     0
virginica-versicolor 0.652 0.4082273 0.8957727     0

Condiciones para ANOVA

  • los grupos son independientes entre sí
  • la variable a estudiar sigue una distribución normal en cada grupo; es fundamental comprobar los supuestos de normalidad antes del análisis

El plot del modelo de ANOVA devuelve parámetros útiles para estudiar las condiciones:

plot(iris_aov)