Resumen del libro Cómo Mentir con Estadísticas por Darrell Huff (How to Lie With Statistics)

Resumen del libro Cómo Mentir con Estadísticas por Darrell Huff (How to Lie With Statistics)

Resumen corto: How to Lie With Statistics o en español Cómo Mentir con Estadísticas nos explica los mayores errores a la hora de interpretar estadísticas y como muchas organizaciones las usan a su favor para vender productos. El libro nos da una pincelada de la realidad de las estadísticas y cómo reducir nuestra vulnerabilidad. Por Darrell Huff

¿Quién es Darrell Huff?

Darrell Huff es un escritor conocido por escribir libros en el campo de la estadística, y por haber escrito cientos de artículos en este campo. El libro es tan popular que se usa como una introducción práctica a la estadística tanto en universidades como institutos.

La dificultad de conseguir una muestra aleatoria

Gran parte del poder de la estadística viene de estudiar características comunes entre distintos miembros de una misma población, y deducir la probabilidad de estas dentro de la población general.

El problema, es que para que tenga sentido debemos asegurarnos de que realmente se trate de individuos que representen a toda la población y no solo a ciertos subgrupos. Por ejemplo, no podemos sacar conclusiones sobre la población general si estudiamos únicamente a jugadores de baloncesto, porque estaríamos hablando de una subpoblación dentro de la general.

En el ejemplo parece obvio, pero en la vida real, las diferencias son mucho más sutiles, y a veces el problema es la mente del investigador. Debido a lo que se conoce como sesgos cognitivos, es muy fácil que tomemos decisiones equivocadas sin saberlo. Un ejemplo es el sesgo de disponibilidad, por el cual asumimos que aquello que recordamos es mucho más probable, cuando en realidad no es cierto.

Para hacer estadística, debemos asegurarnos de dos elementos:

  • Elegir una muestra suficientemente grande. Si la muestra es grande, es menos probable que cojamos individuos de una única subpoblación, y más probable que tengamos individuos que puedan ayudar a caracterizar al conjunto
  • Aleatoria. La mejor forma de asegurar que nuestra muestra es útil, es hacer que sea aleatoria.

¿Qué pasa cuando usamos muestras sin randomizar?

Si no nos aseguramos de que nuestra muestra es aleatoria, es muy probable que veamos relaciones y deduzcamos ideas que no son ciertas. Por ejemplo, si cojemos una población de jugadores de baloncesto, y medimos su altura media, podríamos llegar a pensar que la altura media de los seres humanos es de más de 1.85 metros, lo cual no podría estar más lejos de la realidad.

Pero aunque esto parezca ridículo, estadísticamente sigue siendo correcto, porque hemos cogido individuos de una población, los hemos medido y hemos obtenido la media. Por eso no nos podemos fiar siempre de la estadística, porque las fórmulas funcionan, pero no tiene sentido usarlas cuando no tenemos clara y bien definida la hipótesis.

Para evitar caer en estas trampas, podemos usar distintas estrategias:

La primera se basa en dividir todos los individuos según ciertas características, dentro de subgrupos. El problema de esto, es que las formas de dividir los grupos son muchas veces arbitrarias, y es fácil que descubramos relaciones que numéricamente tienen sentido, pero que no lo tienen a nivel de causalidad.

El segundo paso, es elegir una muestra aleatoria de cada una de las subpoblaciones que hemos especificado. Es difícil conseguir una muestra realmente aleatoria si la elegimos nosotros, por lo que siempre será mejor usar un programa para randomizar toda la información que tenemos.

El siguiente paso, es ver cómo limitar el efecto de cuando elijamos a cada miembro de la muestra. Esto es especialmente importante si trabajamos en el mundo de los negocios y el marketing. Si no tenemos muy en cuenta el tipo de persona a la que llegaremos según el canal elegido, es muy probable que saquemos conclusiones equivocadas.

Por ejemplo, si usamos Instagram para llegar a la gente, es probable que tengamos una población de menos de 40. Si usamos Facebook, es probable que la población tenga más de 25. Y si usamos TikTok, es probable que la población tenga menos de 25.

De esta forma, debemos entender muy bien cómo afectará nuestro método a la hora de estudiar la estadística.

La media

Uno de los parámetros más populares en estadística es la media. Es fácil de calcular, la forma más común se basa en sumar todos los valores y dividirlos entre el número de individuos. Pero por desgracia nos puede engañar con gran facilidad.

La media, sobre todo si nuestra muestra es pequeña, se ve afectada enormemente por los valores extremos. Siguiendo con nuestro ejemplo de la altura, si tenemos a alguien con gigantismo o enanismo, o simplemente varios jugadores de baloncesto, dentro de nuestra muestra es muy probable que los números no se adecuen a la realidad.

Esto no significa que no sean correctos, sin duda tienen su utilidad, pero no responden a la pregunta qué hacemos. Otro problema, es que a veces la media nos puede engañar. Porque saber que la altura media mundial, es por ejemplo 1.60, no nos dice mucho, tan solo tendría sentido si la comparamos con la altura media hace años, o si la estudiamos para países concretos 

De esta forma, la media es un factor cómodo, que parece decir mucho, pero la mayoría de las veces dice poco. Y debemos tener cuidado con depender en exceso de este. A veces puede tener mucho más sentido estudiar la mediana, u otros factores que tengan en cuenta el número de individuos que estudiamos, sobre todo si queremos localizar a subgrupos concretos y su comportamiento.

La mediana por ejemplo, se basa en obtener el valor medio a través de ordenar todos los números de menor a mayor y escoger el que está justo en medio, o la media de los dos que ocupan la posición del medio.

Otro valor que se puede usar es el de la moda. La moda es básicamente el valor que más se repite dentro de una muestra.

Nuestras Categorias de Resumenes

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.