Correlación

Generalidades

Covarianza

La covarianza estudia la relación entre dos variables examinando cómo se comportan sus varianzas. En lugar de utilizar la desviación (de la media) al cuadrado se utiliza el producto de las desviaciones de las dos variables (cross-product deviations):

$$ \[\begin{aligned} Var (s^2) &= \dfrac{\sum({x_{i} - \overline{x})}^2}{n - 1} \\ &= \dfrac{\sum({x_{i} - \overline{x})(x_{i} - \overline{x})}}{n - 1} \\ \\ cov(x,y) &= \dfrac{\sum({x_{i} - \overline{x})(y_{i} - \overline{y})}}{n - 1} \end{aligned}\]

$$

Correlación bivariada

Coeficiente de correlación de Pearson

La covarianza estandarizada se llama coeficiente de correlación \(r\), y tiene el mismo significado que la desviación estándar. Se calcula dividiendo entre la desviación estándar de cada una de las variables (\(_{x}\) y \(s_{y}\)):

\[ r = \dfrac{cov_{xy}}{s_{x}s_{y}} = \dfrac{\sum({x_{i} - \overline{x})(y_{i} - \overline{y})}}{(n - 1)s_{x}s_{y}} \]

Intepretación de \(r\)

\(r\) puede adquirir valores entre \(-1\) y \(1\), donde \(1\) indica una correlación perfecta y \(0\) ausencia de correlación:

\(r\) Efecto
\(\pm 0.1\) pequeño
\(\pm 0.3\) mediano
\(\pm 0.5\) grande

La correlación de Pearson se puede hacer siempre que se respeten los supuestos de normalidad de las dos variables (o se trate de una muestra grande); o se trate de una variable normal y otra dicotómica.

Cuando no se cumplen estos supuestos se puede utilizar la \(\rho\) de Spearman o la \(\tau\) de Kendall

Para comparar la correlación con 0 y decidir si es estadísticamente significativa utilizamos \(t\):

\[ t_{r} = \dfrac{r \sqrt{N-2}}{\sqrt{1-r^{2}}} \]

Correlación en R

Las funciones cor y cor.test de base:: sirven para hacer correlaciones: cor permite hacer correlaciones múltiples, y cor.test devuelve el p-valor.

cor(x, y
    use = c("everything", "all.obs", "complete.obs",
            "pairwise.complete.obs"),
    method = c("pearson", "spearman", "kendall"))

Ejemplos

Correlaciones múltiples

cor(iris[-5])
             Sepal.Length Sepal.Width Petal.Length Petal.Width
Sepal.Length    1.0000000  -0.1175698    0.8717538   0.8179411
Sepal.Width    -0.1175698   1.0000000   -0.4284401  -0.3661259
Petal.Length    0.8717538  -0.4284401    1.0000000   0.9628654
Petal.Width     0.8179411  -0.3661259    0.9628654   1.0000000

Correlación entre dos variables

cor.test(iris$Sepal.Length, iris$Petal.Length)

    Pearson's product-moment correlation

data:  iris$Sepal.Length and iris$Petal.Length
t = 21.646, df = 148, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
 0.8270363 0.9055080
sample estimates:
      cor 
0.8717538 

cor, es \(r\); arriba muestra el intervalo de confianza al 95%. t es el estadístico \(t\), df los grados de libertad y p-value la p.