La significación estadística y el p-hackeo

La significación estadística y el p-hackeo

Un nuevo artículo del colaborador David García González

La presente entrada es un resumen extraído de los capítulos 5, 6 y 7 del libro Racionalidad (cuyo subtítulo reza ¿Qué es? ¿Por qué escasea? ¿Por qué es importante?) del psicólogo experimental, científico cognitivo, lingüista y escritor, Steven Pinker. Pinker es autor de varios libros entre los que destacan El instinto del lenguaje, Cómo funciona la mente, La tabla rasa, Los ángeles que llevamos dentro, En defensa de la Ilustración y el libro que hoy nos ocupa[1],[2].

Rationality

Dado que se trata de un libro de más de 300 páginas que cubre un número importante de temas, voy a centrarme en un punto concreto del mismo que me parece interesante y que se discute en el capítulo 7. Es el tema de la correcta interpretación del concepto de significación estadística.

Por supuesto, recomiendo en todo caso la lectura completa del libro ya que está repleto de otros muchos conceptos importantes, ejemplos ilustrativos y reflexiones de calado.

La teoría estadística de la decisión

Actuar racionalmente requiere que distingamos entre aquello que es verdadero y aquello que nos gustaría que lo fuera. La tentación de creernos nuestras propias mentiras está siempre ahí puesto que nuestra fortuna depende siempre de un mundo exterior, del que nunca podemos saber nada con absoluta certidumbre.

El caso es que existe una forma racional de reconciliar nuestra ignorancia con nuestros deseos a través de una herramienta de la razón: la teoría de la detección de señales, también conocida como teoría estadística de la decisión. Esta teoría combina dos grandes ideas:

  • la idea de que es posible estimar la probabilidad de que algo sea verdadero (razonamiento bayesiano), y
  • la idea de que, enfrentados a cualquier decisión, se puede decidir qué hacer pesando los costes y beneficios esperados de cada una de las opciones disponibles (decisión racional)

A veces es difícil distinguir entre señal y ruido

El reto al que se enfrenta la detección de señales es el de decidir si debemos tratar un indicador como una señal genuina procedente del mundo real o como ruido en nuestra imperfecta percepción de éste. Se trata éste de un dilema recurrente en la vida. Por ejemplo: Un radiólogo ve una mancha en un escáner: ¿tiene cáncer el paciente o es un quiste inofensivo? Un jurado oye el testimonio del testigo en un juicio: ¿es culpable el acusado o son incorrectos los recuerdos del testigo?

Señal y ruido

Por supuesto, la imagen anterior no se corresponde con la realidad que nosotros vemos, ya que no podemos ver las distribuciones como tales, sino que todo cuanto podemos ver son nuestras observaciones. Una imagen que se aproxima más a la situación real es la siguiente:

¿Cómo afrontar la incertidumbre en las medidas?

De este modo, cuando nos vemos obligados a conjeturar si una observación dada es una señal (que refleja algo real) o ruido (la confusión de nuestras observaciones), la única opción que nos queda es la de aplicar un corte o, utilizando la jerga de la detección de señales, un criterio o sesgo de respuesta ß.

Sesgo de respuesta

Así:

  • Si una observación está por encima del criterio, decimos “sí” y actuamos como si fuese una señal (tanto si lo es como si no lo es, cosa que no podemos saber), mientras que
  • Si una observación está por debajo, decimos “no” y actuamos como si fuese ruido

Se tienen entonces cuatro escenarios posibles:

Posibilidades tras aplicar el criterio de respuesta: acierto (lo que consideramos señal es señal), falsa alarma (lo que consideramos señal es ruido), omisión (lo que consideramos ruido es señal), o rechazos correctos (lo que consideramos ruido es ruido)

Llegados a este punto hay que señalar que el resultado de la teoría estadística de la decisión no es un grado de creencia, sino una decisión ejecutable: someterse o no a cirugía, condenar o absolver. Al diferenciar claramente entre nuestra evaluación del estado del mundo y lo que decidimos hacer al respecto, podemos actuar racionalmente como si algo fuese verdadero sin necesidad de creer necesariamente que lo sea. En definitiva, no estamos decidiendo qué creer acerca del estado del mundo, sino que nos estamos comprometiendo con una acción en espera de sus probables costes y beneficios.

La significación estadística en la investigación científica

Quizás os estéis preguntando qué tiene que ver todo lo anterior con la significación estadística. Pues bien, vamos a ello.

La necesidad de alcanzar un compromiso entre los aciertos y las falsas alarmas es algo inherente a cualquier decisión basada en información incompleta, que es la situación más habitual en la que se toman la mayoría de las decisiones, tanto en el ámbito privado como en el público. Y en particular, en el ámbito de la investigación científica: cada vez que se requiere tomar una decisión acerca de si los resultados deberían conducir a adoptar una conclusión determinada respecto a la veracidad de una hipótesis entramos en los dominios de la teoría de la detección de señales.

En ciencia es esencial poder diferenciar correctamente señal y ruido.

En efecto, supongamos que un científico está analizando un cierto fenómeno y convierte sus mediciones en datos que representan el efecto en el que está interesado, como la diferencia en los síntomas entre el grupo que tomó un medicamento y el grupo que ingirió el placebo. Así:

  • si el número es cero, eso significa que no se produce efecto alguno, mientras que
  • si el número es mayor que cero, hay un posible momento eureka

Ahora bien, los datos son siempre ruidosos y una puntuación media por encima de cero puede significar:

  • que existe una diferencia real en el mundo, o
  • que tenemos un error muestral, una cuestión de suerte (o más bien mala suerte)

Supongamos por un momento que tuviéramos acceso a las distribuciones de datos correspondientes, esto es, acceso tanto la distribución de resultados que obtendría el científico si no hubiera diferencia en la realidad, esto es, la llamada hipótesis nula, como la distribución de resultados que obtendría si ocurriera algo con un efecto de un tamaño determinado. Nótese que las distribuciones se solapan: ¡eso es lo que hace difícil la ciencia!

Hipótesis nula

La hipótesis nula es el ruido; la hipótesis alternativa es la señal. El tamaño del efecto es como la sensibilidad y determina cuán fácil es distinguir la señal del ruido. En esta situación, el científico necesita aplicar algún criterio o sesgo de respuesta, también denominado valor crítico, antes de celebrar su descubrimiento, de modo que:

  • por debajo del valor crítico, no logra rechazar la hipótesis nula y no hay descubrimiento como tal
  • por encima del valor crítico, la rechaza y lo celebra declarando que el efecto es estadísticamente significativo

Por supuesto, la clave es dónde ubicar este valor crítico.

Tipos de errores al establecer un valor umbral como criterio de separación

El científico debe alcanzar un compromiso entre dos clases de errores potenciales:

  • el de rechazar la hipótesis nula cuando esta sea verdadera, esto es, una falsa alarma o, en el argot de la teoría estadística de la decisión, un error de tipo I, o
  • el de no rechazar la hipótesis nula cuando esta sea falsa: una omisión o, en la jerga, un error de tipo II

teniendo en cuenta que ambos tienen un coste:

  • un error de tipo I introduce la falsedad en el registro científico, mientras que
  • un error de tipo II representa un esfuerzo desperdiciado, un derroche de dinero y tiempo

Resulta que, en la noche de los tiempos, alguien decidió que un error de tipo I (proclamar un efecto cuando no existe ninguno) resulta especialmente perjudicial para la empresa científica, que sólo podría tolerar un cierto número de ellos: para ser exactos, a lo sumo, un 5 %. Y de ese modo surgió la convención de que los científicos deberían adoptar un nivel crítico que garantice que la probabilidad de rechazar la hipótesis nula cuando esta sea verdadera es menor del 5 %: la codiciada p <0.05.

Y, en definitiva, esto es lo que quiere decir significación estadística: es una forma de mantener la proporción de falsas declaraciones de descubrimientos por debajo de un límite arbitrario[3]. Ese límite se conoce como p-valor.

Sobre la incorrecta interpretación de la significación estadística

Veamos si lo hemos entendido todo bien. Si has obtenido un resultado estadísticamente significativo con p <0.05, eso quiere decir que podemos concluir:

  • Que la probabilidad de que la hipótesis nula sea verdadera es menor de 0.05
  • Que la probabilidad de que haya un efecto es mayor de 0.95
  • Que, si rechazas la hipótesis nula, hay una probabilidad menor de 0.05 de que tomes la decisión equivocada
  • Que, si replicas el estudio, la probabilidad de que tengas éxito es mayor de 0.95

Interpretación frecuentista de la significación estadística

¿Correcto? Pues lo cierto es que no. Ninguna de las afirmaciones anteriores es correcta. Pero para entender por qué tendremos que hacer una breve incursión en la teoría bayesiana.

La teoría bayesiana

La gran idea de Thomas Bayes fue la de darse cuenta de que el grado de creencia en una hipótesis puede cuantificarse como una probabilidad: prob(Hipótesis). Ahora bien, dado que nuestra creencia en cualquier hipótesis debería depender de la evidencia existente o, hablando en términos de probabilidad, debería ser condicional a la evidencia disponible, lo que nos interesa en realidad es siempre la probabilidad de la hipótesis dados los datos: prob(Hipótesis|Datos). Este número recibe el nombre de probabilidad a posteriori y refleja nuestro grado de creencia en una idea tras examinar la evidencia.

Interpretación bayesiana dela significación estadística

Una vez que hemos dado el paso conceptual anterior, obtener el teorema de Bayes es algo sencillo[4]. Así:

prob(Hipótesis│Datos)=(prob(Hipotesis)·prob(Datos|Hipótesis))/(prob(Datos))

donde:

  • prob(Hipótesis|Datos) es la probabilidad a posteriori, esto es, nuestro grado de creencia en la hipótesis tras mirar la evidencia
  • prob(Hipótesis) es la probabilidad a priori, esto es, nuestro grado de creencia en la hipótesis antes de mirar la evidencia
  • prob(Datos|Hipótesis) es la verosimilitud (likelihood) de los datos, esto es, cómo de probable es que se dieran los datos si la hipótesis fuera cierta
  • prob(Datos), es la probabilidad de los datos en general, independientemente de que la hipótesis sea falsa o verdadera; también se usa para designarla el término probabilidad marginal o habitualidad (commonness) de los datos

Sustituyendo los términos anteriores en la fórmula nos queda que:

Probabilidad a posteriori=(Probabilidad a priori·Verosimilitud de los datos)/(Habitualidad de los datos)

esto es, que nuestra creencia en una hipótesis tras examinar la evidencia debería ser nuestra creencia previa en la hipótesis multiplicada por lo probable que sería la evidencia si la hipótesis fuera cierta y corregida por lo común que es la evidencia en general.

La significación estadística a la luz de la teoría bayesiana

Veamos entonces por qué los cuatro enunciados que veíamos antes son incorrectos. La significación estadística es una verosimilitud bayesiana: es la probabilidad de obtener los datos dada la hipótesis, en este caso, la hipótesis nula. Sin embargo, los cuatro enunciados anteriores son una probabilidad a posteriori bayesiana: la probabilidad de la hipótesis dados los datos. Eso es efectivamente lo que deseamos en última instancia, es la finalidad que persigue un estudio, pero no arroja una prueba de significación.

Estas dos probabilidades condicionales no deben intercambiarse. El científico no puede utilizar una prueba de significación para evaluar si la hipótesis nula es verdadera o falsa, a menos que considere asimismo la probabilidad previa: su mejor estimación de la probabilidad de que la hipótesis nula sea verdadera antes de realizar el experimento. Pero en las matemáticas de las pruebas de significación de la hipótesis nula no se encuentra en ninguna parte una probabilidad previa bayesiana.

Ocurre que, en la mayoría de los casos en los que se comete este error, los involucrados están tan enfrascados en el ritual de las pruebas de significación que han olvidado su auténtica lógica.

Lo cierto es que lo único que demuestran estas pruebas de significación es que, cuando algún efecto no existe, uno de cada veinte científicos que lo busquen afirmará falsamente que sí existe[5]. La pregunta quizás es: ¿cómo puedes estar tan seguro de que no serás tú? Y la respuesta sincera es que no puedes[6].

El malentendido de las pruebas de significación revela un ancestral anhelo humano. Los filósofos desde Hume han advertido que la inducción (extraer una generalización a partir de las observaciones) es una clase de inferencia intrínsecamente incierta ya que, al igual que cabe trazar un número infinito de curvas que pasen por un conjunto finito de puntos, existe un número ilimitado de teorías que son lógicamente consistentes con cualquier cuerpo de datos dado.

Las herramientas de la razón ofrecen diferentes formas de lidiar con esta desgracia cósmica. Así, la teoría estadística de la decisión no puede determinar la verdad, pero puede limitar el daño de las dos clases de error, mientras que el razonamiento bayesiano puede ajustar nuestra creencia en la verdad, pero ha de comenzar con una probabilidad previa, con todo el juicio subjetivo que esta comporta.

Desgraciadamente, ninguna de ambas proporciona lo que todo el mundo desea: un algoritmo preparado para determinar la verdad.


[1] De ellos los tres primeros de temática más técnica y los tres últimos de temática más generalista, puedo deciros algo de En defensa de la Ilustración puesto que es el otro que también me he leído. En él, Steven Pinker hace una defensa de la razón, la ciencia y el humanismo como las únicas herramientas que pueden garantizar el progreso de la humanidad. El libro consta de tres capítulos más introductorios, un cuerpo de capítulos en el que con multitud de datos y gráficos se defiende la tesis de que múltiples variables correlacionadas con el progreso humano han sufrido una mejora innegable a lo largo del tiempo y, finalmente, unos capítulos finales de conclusiones. Es un libro muy recomendable, con una prosa fácil de leer y gran cantidad de información sobre lo mucho que hemos progresado y lo bien que estamos a pesar de lo que oímos en los medios de comunicación. A menudo se acusa a Pinker de ser demasiado optimista (en la terminología de Charles C. Mann, Pinker es claramente un wizard y no un prophet) pero, sin duda, es un punto de vista que hay que leer.

[2] En cierta manera, podría entenderse el libro Racionalidad como un spin-off de En defensa de la Ilustración donde Pinker se centra en la importancia de la primera de las herramientas que garantizan el progreso de la humanidad: la razón. Quién sabe, quizás en algún momento complete la trilogía con otro libro dedicado a segunda, la ciencia, y a la tercera, el humanismo.

[3] Por supuesto, alguien podría pensar que los costes de un error del tipo II también deberían tenerse en cuenta, como sucede en general en la teoría de la detección de señales. Sin embargo, por alguna oscura razón histórica este tipo de error nunca fue tenido en cuenta.

[4] En realidad, es una aplicación de la probabilidad condicionada:

prob(Hipotesis│Datos)=(prob(Hipótesis ∩ Datos))/(prob(Datos))

seguido de uso de la relación entre la probabilidad de la intersección y la probabilidad condicionada:

prob(Hipótesis│Datos)=(prob(Hipotesis)*prob(Datos|Hipótesis))/(prob(Datos))

[5] En una tira cómica de XKCD, un par de científicos comprueban si existe una correlación entre las gominolas y el acné separadamente para cada uno de veinte colores, y se hacen famosos por conectar las gominolas verdes con el acné con p <0.05.

[6] Los científicos, que por fin han entendido el chiste, se están acostumbrando a publicar resultados nulos y han desarrollado técnicas para compensar el sesgo de publicación cuando revisan la literatura en un metaanálisis, los famosos estudios de estudios.