Correlación NO implica causalidad

Correlacion bivariada

Correlación no implica causalidad. Sí, es importante resaltarlo una y otra vez, machaconamente. Ya sea porque no se comprende o porque, haciéndolo, se ignora para lograr confundir a otros. En esta entrada de Gaussianos lo desgranan con sencillez.

Esta confusión se desliza a lo largo de muchos estudios, sobre todo en ciencias sociales, por lo que hay que ser especialmente cuidadosos con las interpretaciones de datos estadísticos para no dar a entender relaciones de causalidad donde podría ser nada más que una correlación espuria o meramente casual.

Prácticamente a diario nos encontramos en medios de comunicación noticias cuyo titular tiene una estructura parecida a algunos de los siguientes:

Un estudio afirma que cuanto más A más B.
Un estudio afirma que quienes son A tienen menos B.
Un estudio afirma que dado que A es así entonces B es de esta otra forma.

En principio, todos esos titulares indican básicamente que lo que dice A es lo que provoca que ocurra B, o, lo que es lo mismo, que B es consecuencia de A. Normalmente, cuando uno se lee esas noticias, acaba dándose cuenta de que lo que hay es una correlación entre A y B (vamos, una relación entre esos dos sucesos), pero, en principio, sin ningún indicio de que sea uno de ellos, A en este caso, el que provoca el otro, B.

El estudio de la correlación entre dos variables es uno de los temas que se trata en Estadística. Resumiendo un poco, la cuestión sería algo como lo siguiente:

– A partir de ciertos datos obtenidos de cada una de esas variables uno estima si hay alguna relación entre ellas. La que se estudia con mayor frecuencia es la llamada regresión lineal (mediante la que buscamos si hay relación lineal hay entre las variables), pero hay muchos más tipos posibles: cuadrática, exponencial, logarítmica…

– Con esos datos se calcula una función (que, por ejemplo, en regresión lineal es una recta) que nos determina exactamente qué relación hay entre esas variables.

– Se estudia la correlación real entre ellas (es decir, cómo de fuerte es la relación que habíamos estimado a partir de los datos iniciales) mediante un coeficiente de correlación.

correlacin-2-638.jpg

Este coeficiente suele tomar valores entre -1 y 1, y se interpreta de la siguiente forma:

  • Cuanto más cerca de 1 esté, mayor correlación positiva (es decir, que cuando aumenta una también lo hace la otra) hay entre las variables.
  • Cuanto más cerca de -1 esté, mayor correlación negativa (es decir, que cuando aumenta una disminuye la otra) hay entre las variables.
  • Cuanto más cerca de 0 esté, menor correlación hay entre las variables.

Ahora, que la relación entre las variables sea muy fuerte (esto es, que sea casi 1 o casi -1) no significa que una de ellas sea la causa de la otra. En ningún sitio esta teoría nos deja asegurar con tanta ligereza que el hecho de que haya una correlación muy fuerte entre A y B significa que la variable A es la que está provocado que se presente la variable B. La teoría habla de relación entre las variables, no de que una sea la causa de la otra. Por cierto, buenísima esta tira de XKCD sobre el tema:

Hasta aquí bien, ¿no? Vale, sigamos.

Todo esto de la mala interpretación de la correlación también se encuentra, y en demasiadas ocasiones, en estudios científicos supuestamente serios. No son pocos los estudios que al encontrar una cierta relación entre dos variables presentes en los sujetos estudiados se tiran a la piscina afirmando que por tanto una de ellas es la causa de la otra, cuando en realidad en dichos estudios no hay ninguna evidencia de que esto sea verdad (simplemente hay correlación).

Supongo que más de uno se estará preguntando lo siguiente: ¿entonces es mentira que correlación implique causalidad? Pues no, no es mentira, y verdad tampoco. Me explico:

Cuando se dice que la frase correlación no implica causalidad (en latín, Cum hoc ergo procter hoc) es cierta lo que se quiere decir es que el hecho de que haya correlación entre dos variables no significa que una provoque a la otra, pero eso no significa que si encontramos correlación entre dos variables automáticamente podamos descartar que una sea causa de la otra. Hay casos en los que A es la causa de que ocurra B, en otros es al revés, en otros hay alguna variable adicional la que hace que se produzca esa correlación…y a veces todo es fruto de la casualidad (sí, casualidad, no “causalidad”).

El problema de creerse que una fuerte correlación implica una cierta relación causal entre las variables es que esa creencia se puede usar (malintencionadamente o no) para engañarnos, ya que no es demasiado difícil encontrar correlación entre dos variables que en principio ni están relacionadas a poco que queramos “forzarla”.

Por ejemplo, si os digo que el descenso de piratas en el mundo está provocando una subida de la temperatura media global de nuestro planeta, ¿qué pensaríais? Posiblemente que estoy muy mal de la cabeza, ¿no? Bien, echadle un ojo a esta gráfica:

Fuente: Wikimedia Commons.

En ella se ve claramente que desde 1860 se ha producido un descenso del número de piratas y a la vez un aumento de la temperatura media de la Tierra, y que hay correlación lineal (la gráfica se acerca bastante a una recta) entre las dos variables. ¿Es el descenso de piratas la causa de la subida de temperatura? Pues no parece que sea así. ¿Y al revés? ¿Es la subida de la temperatura media global la causa del descenso de piratas? Pues tampoco parece que sea así. Es muy posible que esta relación sea pura casualidad.

En la siguiente imagen (que vi en este post del blog de Francis) podéis ver algunos otros ejemplos como el anterior:

Tremendo que la mayor actividad en Facebook sea la causa de la crisis de deuda griega, ¿verdad?

Y para terminar os recomiendo ver esta charla de Tim Minchin (comediante, actor y músico australiano), que me pasó @antlarr en este tuit (después de subtitular él mismo el vídeo), que trata sobre el tema. Muy graciosa a la vez que reveladora para quienes todavía no están convencidos:

Y hay muchos más ejemplos. Algunos se comentan en este post de “Antonio S.” en Naukas, y seguro que vosotros conocéis muchos más.


Ejemplo de correlación espuria

  • Edad
  • Sexo
  • Estatura
  • Partido que gobierna en España
  • Nombre del presidente de España
  • Nombre del candidato del PP
  • Nombre del Ministro de Economía

RESULTADOS:

Preguntas acertadas
ESTATURA 1 2 3 4
Menos de 1,5 m 70% 15% 10% 5%
1,50 m a 1,60 m 65% 20% 15% 10%
1,61 m a 1, 70 m 45% 25% 18% 12%
Más de 1,7 m 25% 25% 25% 25%

RELACIÓN ENTRE VARIABLES: SÍ

A mayor estatura -> Mayor conocimiento de política española

¿PUEDE SER UNA RELACIÓN CAUSAL? NO

Es una relación, pero no es una relación causal. Es una correlación espuria.

La causa de tener más conocimiento de política española no puede ser el tener más estatura.

¿CUÁL PUEDE SER LA VARIABLE QUE MEDIA ENTRE LAS DOS? ES DECIR ¿CUÁL ES LA VARIABLE QUE PUEDE INFLUIR EN TENER MÁS CONOCIMIENTO DE POLÍTICA ESPAÑOLA Y TENER MÁS ESTATURA?

La edad

¿CÓMO SE COMPRUEBA?

A través del control de las relaciones entre las dos variables anteriores con la variable edad (variable de control)

1º Se observa la relación entre la variable control y las demás variables.

EDAD -> ESTATURA relación positiva

EDAD -> CONOCIMIENTO POLÍTICO relación positiva

2º Se observa la relación entre las mismas variables según las diferentes edades:

edad PREGUNTAS ACERTADAS
10 años ESTATURA 1 2 3 4
Menos de 1,5 cm 69% 15% 10% 6%
1,50 cm a 1,60 cm 80% 7% 7% 6%
1,61 cm a 1, 70 cm 75% 11% 10% 4%
Más de 1,7 cm 70% 13% 13% 4%
11 años ESTATURA
Menos de 1,5 cm 60% 20% 15% 5%
1,50 cm a 1,60 cm 65% 19% 13% 3%
1,61 cm a 1, 70 cm 66% 21% 10% 3%
Más de 1,7 cm 66% 20% 11% 3%
……. …… ….. ….

 


Gracias por su comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Cerrar sesión /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión /  Cambiar )

Conectando a %s

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios .