Sesgos cognitivos en la ciencia

Sesgos cognitivos en la ciencia

Reproduzco aquí el artículo del mismo título que escribí para la Real Sociedad Española de Física (Revista española de Física, 34(2), 18, 2020) y que ha sido publicado recientemente. Basado en una charla que di sobre el tema, el artículo incluye tres historias con las que aprender sobre el complejo proceso de descubrimiento en la ciencia, en el que nuestra manera de mirar acaba siendo mucho más importante que nuestra manera de medir. Espero que os guste.

El primer principio es que no debes engañarte a ti mismo, y tú eres la persona más fácil de engañar. Richard P. Feynman

Los investigadores estamos sujetos a importantes sesgos cognitivos, pero debido a nuestra profesión estos sesgos pueden ser especialmente peligrosos para la calidad y el rigor de nuestros trabajos. ¿Cuáles son esos sesgos y cómo de graves pueden llegar a ser si no les prestamos atención? ¿Por qué nos afectan y cómo podemos evitarlos?

Introducción

En enero de 2020, numerosos medios de comunicación se hicieron eco de una triste noticia científica: Frances H. Arnold, premio Nobel de Química en 2018, anunciaba que había decidido retractarse de un artículo publicado en la revista Science unos meses antes [1]. La razón era la falta de reproducibilidad de los resultados, acompañada de la ausencia de registros y datos para algunos experimentos clave. Cuatro años antes, la revista Nature había publicado un artículo advirtiendo precisamente de esta crisis de reproducibilidad en la ciencia [2]. En su encuesta, realizada a 1576 investigadores de diversas áreas, un 90% de los científicos declaraban que la ciencia actual adolece de problemas de reproducibilidad. Es más, un 52% declaraba que esos problemas eran significativos. Pero lo más interesante del estudio es que se determinaron también las causas más importantes que producían esto. Algunas de ellas eran esperables: la presión por publicar, el análisis pobre de los datos, una estadística insuficiente, o la baja replicación en el laboratorio. Pero lo más sorprendente es que la primera razón de todas era la elaboración de informes selectivos o sesgados por parte de los científicos. ¿Cómo es posible?

La ciencia es una actividad humana y como tal hereda ineludiblemente nuestros propios defectos. Esto ocurre así pese a nuestros esfuerzos por seguir un método científico, debido a que el verdadero mecanismo de la ciencia es mucho más complejo de lo que se admite generalmente [3]. Muchas decisiones importantes sobre los experimentos que se realizan (y los que no) así como de los resultados que se publican (o se guardan en un cajón), no responden realmente a un método objetivo, sino a fuerzas diversas como la interacción con nuestros pares o la confianza en nuestras intuiciones e interpretaciones.

En la búsqueda por la verdad los científicos olvidamos a menudo un importante hecho sobre nuestras mentes: que no sólo podemos estar ciegos ante lo obvio, sino también a nuestra propia ceguera [4]. Este artículo pretende ayudar a los científicos a reconocer los sesgos cognitivos más peligrosos para nuestras tareas, aprovechando para ello tres ejemplos históricos concretos que dan buena idea de su alcance en investigaciones importantes. Pero antes conviene aclarar qué son y cuál es el origen de esos sesgos.

Los dos sistemas

Un sesgo cognitivo es cualquier proceso que, en algún estado de inferencia, tiende a producir resultados o conclusiones que difieren sistemáticamente de la verdad [5]. Los seres humanos (y no olvidemos que los científicos lo somos) tenemos muchos sesgos, y en la actualidad hay al menos 154 catalogados [6]. Estos sesgos responden a nuestra necesidad de interpretar información y tomar decisiones rápidamente, aun cuando esa información sea excesiva o insuficiente. Los sesgos afectan a capacidades especialmente críticas en el mundo científico: la habilidad para decidir correctamente, para hacer estimaciones justas, para hacer juicios de valor objetivos, para atribuir relaciones causales o para establecer hipótesis.

El origen de muchos de estos efectos psicológicos reside en lo que se conoce como los dos sistemas [4]. Se sabe que nuestro cerebro dispone de un sistema rápido de decisión, que es inconsciente, asociativo y automático, y que usamos el 95% del tiempo. Afortunadamente también disponemos de otro sistema, uno lento y racional, que requiere esfuerzo y que usa la lógica. Puesto que este sistema es más costoso lo usamos raras veces: un 5% del tiempo aproximadamente. El sistema 1 es el que nos permite decidir si confiamos en la persona de la Figura 1(a) o no. Esa decisión te llevará sólo unos milisegundos y muy probablemente la respuesta sea “no” aunque no sepas bien por qué. El sistema 2 es el que nos permite resolver un problema complejo como el de la Figura 1(b), en el que las blancas juegan y ganan. A menos que seas un ajedrecista profesional esto te llevará unos segundos.

Figura 1. (a) ¿Confías en él? (b) Blancas juegan y ganan. Dos problemas diferentes para los que se usan sistemas diferentes en nuestro cerebro.

Por lo general, todas las personas tendemos a utilizar el sistema 1 mientras sea posible, pues requiere menos esfuerzo que el sistema 2. Los científicos, a pesar de que nos jactamos de ser más racionales que la mayoría de la gente, no somos una excepción a este hecho. Ahora bien, ¿qué sesgos cognitivos nos afectan más en nuestro trabajo?

Conoce al enemigo

De todos los sesgos cognitivos que existen se han seleccionado aquí únicamente seis en base al grado de riesgo que entrañan. Esta simplificación no significa que no haya otros sesgos que puedan alterar nuestra percepción de la realidad, pero es preferible centrar nuestra atención en aquellos sobre los que nos sentimos (erróneamente) inmunizados. Es, al mismo tiempo, una elección personal que no pretende ser sistemática, sino más bien sintomática, esto es: pretende ilustrar los síntomas generales de los sesgos para ayudar a reconocerlos. Por orden de importancia, la clasificación de sesgos que deberían alertar a cualquier investigador científico sería la siguiente:

  1. Sesgo de confirmación: tendemos a aceptar los detalles que confirman nuestras propias creencias. Tratamos desproporcionadamente las alternativas que no encajan con nuestras expectativas en lo que es un error sistemático del razonamiento inductivo.
  2. Sesgo de ilusión de la validez: tendemos a encontrar historias y patrones incluso en datos dispersos o aleatorios. Al mismo tiempo tendemos a sobreestimar nuestra capacidad para interpretar datos y predecir su comportamiento.
  3. Sesgo de supervivencia: tendemos a no tener en cuenta los hechos que no ocurrieron. Esto puede llevar a conclusiones falsas porque inconscientemente establecemos relaciones entre los efectos y las posibles causas conocidas sin atender a otras posibles causas aún no determinadas.
  4. Sesgo de retrospectiva: creemos que los hechos eran predecibles, pero sólo después de que ocurrieran. Esto suele modificar nuestros propios recuerdos para crear la ilusión de que nuestra opinión se ve confirmada con los hechos.
  5. Sesgo de anclaje: tendemos a notar únicamente cambios relativos y solemos confiar demasiado en la primera información recibida. En particular somos especialmente malos estimando cantidades absolutas y requerimos de proporciones y comparaciones para hacer juicios críticos.
  6. Sesgo de estereotipo: tendemos a descartar lo específico para formar generalidades. La generalización es quizá una de las cualidades más reconocibles de la ciencia, pero como seres humanos tenemos demasiada facilidad para usarla olvidando o pasando por alto detalles importantes.

Merece la pena mencionar que los sesgos pueden operar de múltiples maneras y a distintas escalas. En particular, muchos sesgos pueden trabajar de manera simultánea, e incluso conjuntamente. Por ejemplo, podría darse el caso de que el sesgo de confirmación y el de supervivencia “cooperen” para llevar al científico hacia una misma conclusión. Pero los sesgos también pueden operar en sentidos opuestos. Por ejemplo, el sesgo de confirmación tiende a rechazar ideas (que no encajan con nuestra manera de pensar), mientras que el sesgo de ilusión de la validez tiende a aceptar ideas (que no están suficientemente probadas). Ambas funciones son importantes en la disciplina científica y juegan un papel importante en la elaboración y aprobación de hipótesis.

Afortunadamente los científicos disponemos de herramientas para luchar contra estos sesgos, pero eso no significa que las usemos a menudo. Así, una manera de acabar con la ilusión de la validez (reconocimiento de patrones inexistentes) es utilizar métodos matemáticos ciegos para el análisis de datos, aumentar el tamaño de la muestra, y considerar todos los datos con el mismo peso. Sin embargo, resulta más fácil eliminar ese punto que no cuadra con la tendencia (al fin y al cabo, todos sabemos que tiene que salir una línea recta, ¿no?). Eso significa que en la práctica la calidad de nuestra investigación está más condicionada por nuestros métodos que por nuestros propios datos [7]. Veamos ahora tres ejemplos concretos de esto en historias científicas que pudieron haber tenido otro final de no ser por los sesgos cognitivos.

Tres historias con mensaje

El agujero de la capa de ozono y el sesgo de confirmación

En 1985 Joseph C. Farman (1930-2013) y su equipo publicaron un breve artículo en el que revelaban pérdidas importantes de ozono en la Antártida [8]. Poco tiempo antes habían decidido reemplazar su equipo experimental de la base Halley porque pensaban que estaba funcionado mal debido a los datos anormalmente bajos. Entre otras cosas los datos de la NASA no mostraban este tipo de anomalía, así que lo más lógico era que su equipo, ya anticuado, estuviera midiendo mal. Calibraron un nuevo equipo y lo llevaron a la base, pero la bajada de ozono seguía estando ahí. Revisaron sus datos y se dieron cuenta de que en realidad esa bajada empezó mucho antes, en 1977. ¿Por qué los científicos de la NASA, con satélites que recogían datos 24 horas al día, no eran capaces de detectarlo? Resulta que precisamente por la gran cantidad de información que tenían que procesar, los científicos de la NASA habían tomado la decisión de diseñar un programa que filtrara los datos, es decir, un programa que establecía un umbral de valores admisibles [3]. Todos aquellos valores que no estaban dentro de los umbrales establecidos eran considerados como fallos de medida y ¡no se analizaban! En un claro caso de sesgo de confirmación los científicos habían decidido ya lo que tenía que salir, perdiendo una valiosa cantidad de información. Gracias a Farman el equipo de la NASA revisó los datos adecuadamente y descubrió que, no sólo había caído el nivel de ozono, sino que había un enorme agujero en el polo sur (Figura 2).

Figura 2. Imágenes de la NASA mostrando la evolución del agujero de ozono en los años 80, un problema que había pasado desapercibido por un sesgo de confirmación. [Fuente: NASA]

La ley de Hubble y la ilusión de la validez

La ley de Hubble-Lemaître es una de las pruebas científicas más importantes de la teoría del Big Bang y es, además, una de las mejores maneras para estimar la edad del Universo. Establece que hay una relación lineal entre el corrimiento al rojo de las galaxias y la distancia a la que están; es decir, que cuanto más lejos se encuentra una galaxia más rápidamente se aleja. Edwin Hubble (1889-1953) utilizó el telescopio más potente del mundo en aquel momento, el del observatorio del Monte Wilson, para hacer observaciones de estrellas variables (cefeidas) en galaxias lejanas y relacionar así su efecto Doppler con su distancia. Combinando sus datos con las medidas de Vesto Slipher (1875-1969), Hubble encontró un valor conflictivo de unos 500 km/s/Mpc, que implicaba una edad para el Universo menor que la de la propia Tierra. La Figura 3a muestra los datos originales de Hubble [9] entre los que cabe destacar algunos con velocidades negativas que, de manera ejemplar, Hubble no eliminó de su lista [10]. Sin embargo, podemos preguntarnos viendo esa nube de puntos: ¿sufría Hubble de una cierta ilusión de la validez? ¿Eran sus datos suficientes para demostrar una ley lineal entre velocidad y distancia?

Figura 3. (a) Datos empleados por Hubble [9] en 1929. (b) Datos de Riess et al. [11] obtenidos con supernovas de tipo Ia en 1996. Nótese la diferente escala en las gráficas y el coeficiente de correlación R de ambos casos.

Hoy es fácil responder a esa pregunta comparando con datos recientes [11], representados en la Figura 3b. Las escalas son tan diferentes que nos resulta casi imposible ver dónde caen los datos de Hubble, que apenas alcanzaban los 2 Mpc de distancia (1 pársec ~ 3.26 años luz). Bajo esta perspectiva, parece claro que Hubble no tenía datos suficientes como para concluir de manera contundente que existía una ley lineal, algo que además se reflejaba en un valor sobreestimado de su constante (actualmente se siguen haciendo esfuerzos por reducir la incertidumbre en su valor, que se sitúa próximo a los 70 km/s/Mpc [12]).

Al evaluar el sesgo de Hubble debemos tener cuidado para no caer en un juicio anacrónico. Es cierto que Hubble no disponía de la estadística suficiente en ese momento para poder enunciar su ley con una garantía absoluta, pero también es cierto que no lo podía hacer mucho mejor en la época en la que se encontraba, y que hizo la suposición más simple posible compatible con sus datos (es decir, se ciñó correctamente al principio de la navaja de Ockham). De hecho, Hubble era consciente de sus limitaciones y menciona que “para tal escasa cantidad de material, tan pobremente distribuido, los resultados están bastante definidos”. Se podría decir, por tanto, que la ley de Hubble es un buen ejemplo de caso de éxito, donde operó un sesgo cognitivo sin consecuencias negativas. En este sentido la historia nos demuestra que la ciencia no sólo avanza a pesar de los sesgos de los científicos, sino que a veces lo hace a través de ellos, y que la intuición y la confianza juegan un papel clave en muchos descubrimientos pioneros.

La contaminación con pesticidas y el sesgo de supervivencia

El sesgo de supervivencia es uno de los más sutiles e indetectables que pueden afectar a las conclusiones científicas. Su origen se remonta a la segunda guerra mundial, cuando se llevó a cabo un análisis de la supervivencia de los aviones en las batallas aéreas recabando información del daño en el fuselaje en los aviones que habían regresado. Los investigadores habían decidido reforzar las partes más dañadas, como se ve en el ejemplo de la Figura 4. Sin embargo, el estadístico Abraham Wald (1902-1950) propuso todo lo contrario: reforzar precisamente las partes no dañadas [13]. Su argumento es que se estaba analizando la información únicamente de los aviones que sobrevivían a los ataques, pero no de los que se habían perdido. Dicho de otra manera, la pregunta que había que resolver no era “¿dónde están dañados los aviones que vuelven?” sino “¿por qué no vuelven los que no vuelven?” Y la respuesta lógica es: porque están dañados en zonas más críticas del avión, que no pueden ser las que tienen los aviones que regresan (o de lo contrario no regresarían). El sesgo de supervivencia muestra de manera excelente que “los errores más serios no se comenten como resultado de respuestas incorrectas, sino como resultado de hacer las preguntas equivocadas” [14].

Figura 4. Las batallas aéreas en la segunda guerra mundial son un buen ejemplo de cómo opera el sesgo de supervivencia en el análisis científico. La imagen muestra daños hipotéticos en un bombardero. [Fuente: Cameron Moll]

Otro gran ejemplo de sesgo de supervivencia es el caso del pesticida aldrín. Este insecticida es un hexacloro extremadamente tóxico que se usó ampliamente entre los años 1950 y 1970 en cosechas de maíz y algodón en Estados Unidos. Produce daño en los riñones y en el hígado, pero durante varios años se creía que no había motivo de preocupación para el consumo humano. La razón es que los investigadores medían contenidos de aldrín muy bajos en los productos cosechados. Sucede, sin embargo, que el aldrín se transforma en dieldrín (otro hexacloro igual de tóxico) en el suelo y en los tejidos vivos, pero puesto que los investigadores sólo analizaban el contenido de aldrín no podían saberlo [15]. De nuevo los investigadores se estaban haciendo la pregunta incorrecta y sólo estaban analizando los datos que sí tenían, pero no los demás. Finalmente, el Departamento de Agricultura de Estados Unidos canceló todos los usos de aldrín y dieldrín en 1970.

Conclusiones

Gran parte del trabajo de un científico reside en tomar decisiones acerca de experimentos, datos, hipótesis y conclusiones. El método científico está influido, en la práctica, por un variado juego de fuerzas que separan a los investigadores de la objetividad requerida para llevar esas tareas. En este artículo hemos visto que a veces esas decisiones están distorsionadas por sesgos cognitivos, muchos de los cuales pasan desapercibidos. Es nuestra misión como investigadores conocer y controlar estos sesgos para que la calidad de nuestros informes aumente, y limitar así los posibles fallos de reproducibilidad en la ciencia. Las historias que hemos revisado nos muestran que, a pesar de algunos casos afortunados como el de la ley de Hubble, estos sesgos pueden entrañar serios riesgos en la interpretación de resultados. Para mejorar la calidad de la ciencia, y en particular su reproducibilidad, los científicos debemos fomentar el uso de métodos de trabajos más lentos, que permitan tomar decisiones de manera más racional y reposada. Puesto que los sesgos que nos acechan son imposibles de eliminar, la manera más eficaz de minimizar sus efectos es por medio de la autocrítica. En este sentido, lo más importante es recordar, como bien indica el principio de Feynman que encabeza este artículo, que eres la persona más fácil de engañar.

Agradecimientos

Me gustaría agradecer a David García González sus valiosas discusiones y recomendaciones literarias sobre este tema. Quiero agradecer también las enriquecedoras sugerencias del revisor de este artículo.

@DayInLab


Referencias

[1] I. Cho, Z.-J. Jia, F. H. Arnold, Site-selective enzymatic C‒H amidation for synthesis of diverse lactams, Science 364, 575 (2019); I. Cho, Z.-J. Jia, F.H. Arnold, Retraction, Science 367, 155 (2020).

[2] M. Baker, Is there a reproducibility crisis?, Nature 533, 452 (2016).

[3] R. Caldwell, D. Lindberg, Understanding Science, University of California Museum of Paleontology (2019). URL: http://www.understandingscience.org

[4] D. Kahneman, Thinking, fast and slow, Penguin (2012).

[5] D.L. Sackett, Bias in analytic research, J. Chron. Dis. 32, 51 (1979).

[6] E. Dimara, S. Franconeri, C. Plaisant, A. Bezerianos, P. Dragicevic, A task-based taxonomy of cognitive biases for information visualization, IEEE Trans. on Visualization and Computer Graphics (2018).

[7] Hay que hacer notar que los sesgos no sólo afectan a la metodología de trabajo científico, sino también al proceso de revisión de dicho trabajo, puesto que son los propios científicos los que juzgan la validez de los artículos. Algunos ejemplos notorios de revisión, como el rechazo en la revista Nature del artículo sobre hipoxia de Peter John Ratcliffe (premio Nobel de Medicina en 2019), podrían entenderse mejor a la luz de algunos sesgos cognitivos.

[8] J.C. Farman, B.G. Gardiner, J.D. Shanklin, Large losses of total ozone in Antarctica reveal seasonal ClOx/NOx interaction, Nature 315, 207 (1985).

[9] E. Hubble, A relation between distance and radial velocity among extra-galactic nebulae, PNAS 15, 168 (1929).

[10] Se sabe que la dispersión de datos tan considerable de Hubble estaba debida, entre otras cosas, al efecto de la velocidad peculiar de las estrellas referida a una galaxia que se usa como sistema de referencia.

[11] A.G. Riess, W.H. Press, R.P. Kirshner, A precise distance indicator: type Ia supernova multicolor light curve shapes, Astrophysical Journal 473, 88 (1996).

[12] A.G. Riess et al., A 2.4% determination of the local value of the Hubble constant, Astrophysical Journal 826, 56 (2016).

[13] A. Wald, A reprint of  “A method of estimating plane vulnerability based on damage of survivors” by Abraham Wald, Statistical Research Group, CRC 432 (1980).

[14] La cita original se atribuye a Peter F. Drucker (1909-2005).

[15] R. Carson, Primavera silenciosa, Ed. Crítica (2010).