Estos cuatro conjuntos de datos son distintos, pero resulta que tienen la misma media aritmética y varianza de los valores x e y, la misma correlación, el mismo coeficiente de correlación y la misma recta de regresión. algunos con 2 ó 3 decimales. Son el Cuarteto de Anscombe, llamado así por F.J. Anscombe, un matemático estadista que los publicó en 1973. Se suelen utilizara para enseñar que además de calcular las propiedades estadística de los datos, conviene visualizarlos.
En todos los casos las representaciones nos dicen algo más sobre los datos: los primeros parecen un tanto aleatorios pero relacionados, los segundos muestran un patrón claro pero notablemente diferente; en el tercero y el cuarto hay otros patrones enturbiados por algunos valores anómalos. Estos valores pueden ser errores, datos reales que simplemente están fuera de lo normal o incluso datos producidos artificialmente para que todo encaje.
Moraleja: no te fíes ciegamente de los datos y tampoco de las estadísticas que obtenga de ellos; procura montar además una visualización para entenderlos.
Actualización (9 de septiembre de 2020) – Muy interesante también al respecto Same Stats, Different Graphs en Autodesk Research con la aparición estelar del Datosaurio. (¡Gracias Zerjillo!)
Relacionado:
- Estadísticas mal entendidas
- Probabilidad y estadística explicadas con visualizaciones y simulaciones
- Obtener una buena muestra estadística es complicado (y acertar ya no veas)
- Estadísticamente hablando
{Imagen (CC) Wikimedia}