“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Posts tagged p valor
Mala práctica de las pruebas de hipótesis
Jan 26th
Jim Berger ha diseñado un software que demuestra que las interpretaciones usuales acerca de los p-valores pueden ser erradas. La ayuda para manejar el software se encuentra en este documento.
Al respecto, John Cook hace una lista de cinco autores que tienen puntos de vista muy críticos acerca de la práctica e interpretación usual del estadístico con respecto al procedimiento de las pruebas de hipótesis.
- Andrew Gelman: En la realidad, la hipótesis nula es siempre falsa. ¿Es el tratamiento A igual de efectivo al tratamiento B? Seguramente no. Está claro que antes de la realización de un experimento deben existir algunas diferencias que se pueden manifestar con un número suficiente de datos.
- Jim Berger: Un p-valor pequeño implica que los datos recolectados son inverosímiles bajo la hipótesis nula. Sin embargo, también pueden serlo bajo la hipótesis alternativa. Las comparaciones de las hipótesis deberían estar condicionadas a la realización de los datos.
- Stephen Ziliak and Deirdra McCloskey: La significación estadística no es lo mismo que la significación científica. La cuestión más importante para la ciencia es el tamaño de un efecto y no si existe o no tal efecto.
- William Gosset: El error estadístico es sólo uno de los componentes del error real y quizás sea un componente pequeño.
- John Ioannidis: p-valores pequeños no implican una probabilidad pequeña de que la hipótesis nula sea incorrecta. En una revisión de estudios médicos se encontró que el 74% de los estudios con p-valores menores que 0.05 llegaban a conclusiones erróneas.
Algun extremista diría que la herramienta de las pruebas de hipótesis y de sus respectivos p-valores es una mala herramienta. Mi punto de vista es que cuándo se entiende que un p-valor es una variable aleatoria, entonces las conclusiones y por consiguiente la toma de decisiones se hace con más cuidado. Sin embargo existe otra herramienta estadística que puede ser usada como complemento a los p-valores. Se trata de los factores de Bayes que son la razón entre las probabilidades a posteriorí de las dos hipótesis dada la realización de los datos. Según John Cook, los factores de Bayes no tienen las debilidades de las pruebas de hipótesis, especialmente las que señalan los criticismos de Jim Berger y John Ioannidis.
P valores aleatorios
Aug 19th
En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.
La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es
Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.
La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.
Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.
Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis
Ho: mu igual a cero VS. Ha: mu distinto de cero.
Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero
- Bajo la hipótesis nula, el histograma de los p valores toma la forma de una distribución plana y uniforme sobre el intervalo [0, 1]. Para enfatizar el punto de que un p valor no es la probabilidad de que Ho sea cierto, el instructor sólo necesita explicar este histograma, en donde claramente Ho es cierta, sin embargo el p valor está uniformemente distribuido entre cero y uno.
- Bajo la hipótesis alternativa, la distribución de los p valores no es uniforme. Para el estudiante será obvio que el chance de obtener p valores menores al nivel de significación será más alto bajo la hipótesis alterna que bajo la hipótesis nula y ese efecto es más claro a medida que mu incrementa su valor. En este punto, es posible introducir el concepto de potencia.
Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero
- Si mu menor que cero, la distribución de los p sobre el intervalo [0, 1] no será uniforme y tenderá al valor uno. En este punto, el estudiante entenderá que la distribución de los p valores no está determinada por el sistema de hipótesis sino por los parámetros.
Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.
¿De dónde viene el 0.05?
Apr 17th
Erin Leahey, en un reciente artículo, escribe acerca del uso del nivel de significación en pruebas estadísticas, el valor 0.05 y el sistema de tres estrellas que se han convertido en métodos legítimos y dominantes en la mayoría de las investigaciones de tipo social. De acuerdo a Erin, el sistema de hipótesis merece una estrella cuando el p-valor es menor de 0.05, dos estrellas si el p-valor es menor de 0.01 y tres estrellas si el p-valor es menor de 0.001. Erin atribuye el primer uso del nivel de significación 0.05 a Ronald Fisher en su libro publicado en 1935 Diseño de experimentos. También nota que otras formas de pruebas de significación eran muy populares en la década de 1930, cuando cerca del 40% de los artículos publicados en ASR y AJS aplicaban sólo una técnica de prueba de significación.
El famoso 0.05, que nos da de comer a la mayoría de nosotros, fue muy usado desde 1930 hasta 1950, pero declinó hasta 1970. Sin embargo, volvió a revivir hasta nuestra época. Actualmente, cerca del 80% de los artículos publicados en ASR y AJS emplean ambos procedimientos (nivel de significación y estrellas). El sistema de tres estrellas emergió en la década de 1950, pero se volvió muy popular sólo después de 1970. Un porcentaje cercano al 40% de artículos publicados en los anteriores journals utilizan la metodología de las tres estrellas.
¿Qué es lo cuenta en la difusión de tales prácticas? Erin dá vários argumentos para responder a esta pregunta. Por ejemplo, ella concluye que los factores institucionales como inversión en investigación y computadores, entrenamiento a nivel de postgrado y la preferencia del editor del journal pueden ser algunos de los factores más importantes en la difusión de tales prácticas. Interesantemente, ella encontró que los egresados de Harvard tenían un efecto negativo significativo al adoptar tales prácticas estadísticas.
Por supuesto, este estudio está limitado a la muestra que tomó Erin y no puede ser generalizado. Sin embargo, es una lectura divertida. Si alguien está interesado en los elementos históricos de cómo las prácticas estadísticas fueron introducidas y comenzaron a legitimarse en la investigación social, Camic y Xie (1994) es un muy buen punto de partida.
Acerca de la estadística Bayesiana
Apr 8th

En la página web del autor del éxito en ventas “Bayesian Data Analysis” se encuentra un punto de vista acerca de la inferencia realizada por los estadístico Bayesianos.
La inferencia Bayesiana es una teoría matemática coherente pero no brinda la suficiente confianza en usos científicos. Las distribuciones a priori subjetivas no inspiran confianza porque ni siquiera existe algún principio objetivo para elegir una a distribución a priori no informativa (incluso si ese concepto estuviera definido matemáticamente, pues no lo está). ¿De dónde vienen las distribuciones a priori? No confío en ellas y no veo ninguna razón para recomendarlas a otra gente, apenas me siento cómodo acerca de su coherencia filosófica.
La teoría Bayesiana requiere un pensamiento mucho más profundo sobre la situación y recomendar el teorema de Bayes para el uso de los científicos es como darle al hijo del vecino la llave de un F-16. De veras que, yo comenzaría con algo de métodos probados y confiables, y entonces generalizaría la situación utilizando los principios estadísticos y la teoría del minimax, que no dependen de ninguna creencia subjetiva. Especialmente cuando las distribuciones a priori que veo en la práctica toman formas conjugadas. ¡Qué coincidencia!
Dejando de lado las preocupaciones matemáticas: Me gustan las estimaciones insesgadas, los intervalos de confianza con un nivel real de cobertura. Pienso que la manera correcta de inferir es acercarse al parámetro tanto como sea posible y desarrollar métodos robustos que trabajen con supuestos mínimos. El acercamiento Bayesiano intenta aproximar el insesgamiento, mientras asume supuestos más y más fuertes. En los viejos tiempos, los métodos Bayesianos por lo menos tenían la virtud de estar matemáticamente limpios. Hoy en día, cualquier inferencia se realiza mediante el uso de las cadenas de Markov mediante métodos de Monte Carlo (MCMC). Lo anterior significa que, no sólo no se pueden evaluar las características estadísticas del método, sino que tampoco se puede asegurar su convergencia.
La gente tiende a creer los resultados que apoyan sus preconceptos y descreen los resultados que los sorprenden, ésta es una forma errada y sesgada de pensar. Pues bien, los métodos Bayesianos animan este modo indisciplinado de pensamiento. Estoy seguro que muchos estadísticos Bayesianos están actuando de buena fe. Sin embargo; al mismo tiempo, están proporcionando estímulo a científicos descuidados y poco éticos por todas partes, porque el investigador queda estancado al momento de escoger una distribución a priori.
Y para no pasar a temas más críticos, termino la discusión con lo que los Bayesianos piensan acerca de la recolección de los datos. Los cálculos de la teoría Bayesiana de la decisión guían a la idea de que el muestreo probabilístico y la asignación aleatoria de tratamientos son ineficaces, de que los mejores diseños y muestras son los deterministas. No tengo ninguna conflictos con estos cálculos matemáticos — el conflicto es más profundo, en los fundamentos filosóficos, en la idea de que el objetivo de la estadística consiste en tomar una decisión óptima. Un estimador Bayesiano es un estimador estadístico que reduce al mínimo el riesgo promedio. Sin embargo, cuando hacemos estadística, no estamos intentando “reducir al mínimo el riesgo promedio“, estamos intentando hacer estimación y juzgamiento de hipótesis.
No puedo estar al tanto de lo que están haciendo todos esos Bayesianos hoy en día –desafortunadamente, toda clase de personas están siendo seducidas por las promesas de la inferencia automática con la “magia de MCMC “– pero desearía que todos paráramos de una vez y por todas y empezáramos, de nuevo, a hacer estadística de la forma en que debe ser hecha, volviendo a los viejos tiempos en que un p-valor era utilizado para algo, cuando un intervalo de confianza tenía significado, y el sesgo estadístico era algo que se quería eliminar y no algo que se debiera abrazar.
El autor de este blog, comparte algunas ideas de la anterior disertación. Sin embargo, reconoce la magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría estadística sino también en el pensamiento estadístico del autor. La estadística Bayesiana debe ser utilizada con expertise. Al ser utilizada por investigadores neófitos puede ser tergiversada. Sin embargo, el mal uso que se le dé a un método no involucra su credibilidad, sino la ignorancia del investigador.









Comentarios