Resumen del libro El Arte de la Estadística (The Art of Statistics) por David Spiegelhalter
Resumen corto: El arte de la estadistica es una introducción no técnica a los conceptos básicos de la ciencia estadística. Dejando de lado los análisis matemáticos abstractos en favor de un enfoque más orientado a los humanos, explica cómo la ciencia estadística nos está ayudando a responder preguntas y contar historias más informativas. El libro considera el papel que juegan los medios de comunicación y el sesgo psicológico en la distorsión de las afirmaciones estadísticas.
¿Quién es David Spiegelhalter?
David Spiegelhalter es un estadístico y comunicador de estadísticas británico. Uno de los investigadores más citados e influyentes en su campo, trabaja como Profesor Winton para la Comprensión Pública del Riesgo en el Laboratorio de Estadística de la Universidad de Cambridge. Fue presidente de la Royal Statistical Society durante 2017 y 2018.
Colección de Los mejores libros de Productividad y Aprendizaje(PDF)


La estadística en la actualidad
Podríamos pensar que con la creciente disponibilidad de datos y software estadístico que hace el trabajo matemático más pesado por nosotros, hay menos necesidad de aprender estadística.
Hoy en día, no son los científicos los que utilizan las estadísticas como evidencia, sino las campañas de marketing, los anuncios y los medios de comunicación. A medida que las estadísticas se separan de su base científica, su función está cambiando para persuadir más que para informar.
Y las personas que generan afirmaciones estadísticas no están necesariamente capacitadas para hacerlo. Un número cada vez más diverso de fuentes producen y distribuyen estadísticas de poca fiabilidad. Incluso cuando los datos son producidos por científicos que realizan investigaciones, pueden ocurrir errores y distorsiones en las afirmaciones estadísticas en cualquier punto del ciclo.
Desde errores en la investigación hasta tergiversar la información por parte de los medios y el público, el resultado es que cada vez tenemos que ir con más cuidado antes de creernos algo.
Por lo tanto, en el mundo actual, la alfabetización estadística se ha vuelto cada vez más importante para evaluar con precisión la credibilidad de las noticias, publicaciones en redes sociales y argumentos que usan estadísticas como evidencia.
El proceso estadístico
La estadística se ocupa de todo el ciclo de vida de los datos. Según el autor este ciclo se puede dividir en cinco etapas que se pueden resumir con el acrónimo PPDAC: Problema, Plan, Datos, Análisis y Conclusión. El trabajo de un estadístico es identificar un problema, diseñar un plan para resolverlo, recopilar los datos relevantes, analizarlos y llegar a una conclusión adecuada.
Ilustremos cómo funciona este proceso considerando un caso en el que estuvo involucrado el autor: el asesino en serie Harold Shipman.
Con 215 víctimas confirmadas y 45 por confirmar, Harold Shipman fue uno de los mayores asesinos en serie del Reino Unido. Antes de su arresto, utilizó su posición de autoridad como médico para asesinar a muchos de sus pacientes. Su modus operandi consistía en inyectar a sus pacientes una dosis letal de morfina y luego alterar sus registros médicos para que sus muertes parecieran naturales.
El autor estaba en el grupo de trabajo creado por una investigación pública para determinar si los asesinatos de Shipman podrían haberse detectado antes. Esta constituye la primera etapa del ciclo de investigación, el problema.
La siguiente etapa, el plan, era recopilar información sobre la muerte de los pacientes de Shipman y compararla con la información sobre la muerte de otros pacientes en el área para ver si había incongruencias en los datos.
La tercera etapa del ciclo, los datos, implica el proceso real de recopilación de datos. En este caso, eso significó examinar cientos de certificados físicos de defunción desde 1977 en adelante.
En la cuarta etapa, los datos se analizaron, se introdujeron en el software y se compararon mediante gráficos. El análisis sacó a la luz dos cosas: en primer lugar, la consulta de Shipman registró un número mayor de muertes que el promedio de su área. En segundo lugar, las muertes de pacientes por otras prácticas generales se dispersaron a lo largo del día, las víctimas de Shipman tendían a morir entre las 13:00 horas. y 05:00 p.m. , precisamente cuando Shipman realizaba sus visitas a domicilio.
La etapa final es la conclusión. El informe del autor concluyó que si alguien hubiera estado monitoreando los datos, las actividades durante sus visitas podrían haberse descubierto ya en 1984, varios años antes, lo que podría haber evitado hasta 175 muertes.
El efecto de los sesgos cognitivos
Los datos están sujetos a juicios humanos y sesgos cognitivos como cualquier otra forma de conocimiento. El juicio humano está involucrado en el primer paso. Antes de que podamos recopilar datos, tenemos que tomar decisiones arbitrarias sobre lo que estamos midiendo. Si nuestro problema es contar cuántos árboles hay en el planeta, entonces necesitamos definir qué es un “árbol”. Los estudios de este tipo incluyen árboles que han alcanzado un diámetro de al menos 4 pulgadas.
En consecuencia, los datos pueden estar sesgados si la definición de lo que se está midiendo cambia a la mitad de la medición. Por ejemplo, el número de delitos sexuales registrados por la policía en el Reino Unido entre 2014 y 2017 se duplicó de 64.000 casos a 121.000 casos.
Puede parecer que se disparó en esos años. Sin embargo, la verdadera razón del aumento fue que los delitos sexuales se tomaron más en serio después de que un informe de 2014 criticara las prácticas policiales.
Por lo tanto, nunca debemos asumir que los datos son una representación precisa de la realidad. Se recopilan muchos datos de encuestas que hacen preguntas a las personas relacionadas con su experiencia.
No se puede esperar que esas preguntas capturen la gama completa de la experiencia humana en una hoja de cálculo. Y los sesgos en la forma en que las personas las interpretan y responden pueden afectar aún más a los datos.
Es por eso que diseñar preguntas adecuadas es uno de los grandes desafíos de la estadística. El lenguaje utilizado puede influir en cómo se siente el encuestado acerca de la pregunta.
Cuando una encuenta del Reino Unido preguntó a los encuestados cómo se sentían acerca de “dar a los jóvenes de 16 y 17 años el derecho al voto”, el 52 por ciento lo apoyó, mientras que el 41 por ciento se opuso. Pero, cuando se les preguntó a los mismos encuestados la pregunta, idéntica, de cómo se sentían acerca de “reducir la edad para votar de 18 a 16”, el apoyo cayó al 37 por ciento con el 56 por ciento en contra.
En otros casos, no es la pregunta la que causa sesgo, sino las respuestas que permite la encuesta. En 2017, Ryanair anunció con orgullo que el 92 por ciento de sus pasajeros estaban satisfechos con su experiencia de vuelo. Sin embargo, resultó que la encuesta de satisfacción sólo permitía las respuestas “excelente, bueno, bueno, justo y aceptable”.
Lo que significa que antes de que los estadísticos toquen los datos, ya están tratando con información engañosa.
