El equipo del Observatorio de Datos del Periodismo y la Comunicación de la UAI (ODA) acaba de lanzar el libro digital y multimedia Reportero de Datos , donde se realiza una aproximación del periodismo con el análisis de datos, las estadísticas y el lenguaje de programación.
El manual está dirigido a profesionales de la información, estudiantes de periodismo y, en general, a todo quien se desempeñe en las comunicaciones. La obra es el resultado del trabajo conjunto entre la Escuela de Comunicaciones y Periodismo de la Universidad Adolfo Ibáñez y la Facultad de Ingeniería y Ciencias de la misma casa de estudios.
La siguiente columna es el extracto del capítulo que trata sobre correlaciones estadísticas y que escribió la profesora de la Facultad de Ingeniería y Ciencias y especialista en el tema, Florencia Darrigrandi. En este espacio, se revisan ejemplos de correlaciones de variables que tienen relevancia noticiosa o que incitan a diversos debates temáticos:
Correlación no es causalidad
El 21 de mayo de 2019 un sitio web publicó el siguiente título:
“Disminuye la correlación entre bitcoin y el resto de las criptomonedas en 2019”
Y el cuerpo agregaba:
“En el transcurso del 2018 se observó que los niveles de correlación entre las principales criptomonedas y bitcoin fueron especialmente altas. El 75% de las principales 200 criptomonedas por capitalización de mercado, tuvieron una correlación promedio de 0,89. (según) un informe publicado a comienzo de abril, 150 de las 200 primeras monedas por capitalización de mercado tuvieron una correlación de al menos 0,87 o más en todo el 2018”.
¿A qué se refiere el artículo cuando habla de correlación? ¿Qué significará que esta sea de 0,89?
El coeficiente de correlación lineal ayuda a responder la siguiente pregunta acerca da la relación entre dos variables. Si conozco el valor de la primera variable, ¿con qué precisión puedo predecir el valor de la segunda variable?
En estadística, a la primera variable se le llama variable independiente, pronosticadora o explicativa. Mientras que a la segunda variable se le llama variable dependiente o de respuesta.
Volviendo al ejemplo del inicio, en este caso se tiene que la variable dependiente es el precio del bitcoin, en tanto que la variable independiente sería el precio de otras criptomonedas. En otras palabras, el artículo de alguna manera apunta a, si es posible predecir el valor del bitcoin en base al precio de otras criptomonedas.
El coeficiente de correlación mide la fuerza y sentido que tiene la relación lineal entre dos variables. Esta puede ser directa o inversamente proporcional. Por ejemplo, directamente proporcional sería que, a mayor cantidad de horas trabajadas, más dinero se recibe a fin de mes, en tanto, inversamente proporcional sería que, a mayor cantidad de horas trabajadas, se tiene un menor nivel de felicidad. Algunos ejemplos recurrentes en los medios de comunicación son la correlación entre la bolsa chilena y la de Estados Unidos, precio del dólar y precio del cobre, horas de trabajo y productividad.
Existen distintos tipos de relaciones, como, por ejemplo, cuadráticas, exponenciales, etc. En este contexto, resulta valioso el uso del diagrama de dispersión. Este nos permite tener una primera aproximación del tipo de relación que hay entre dos variables… si es que la hay. Para construir un diagrama de dispersión, en el eje X se pone la variable independiente y en el eje Y la variable dependiente.
Veamos algunos ejemplos de diagramas de dispersión:
Antes de seguir profundizando acerca del coeficiente de correlación lineal nos detendremos para explicar la diferencia entre lo que son las relaciones determinísticas y no determinísticas.
(…)
Revisa este y otros capítulos completos en https://reporterodedatos.com/