Historia de la probabilidad (Era moderna)

 

Siglo XX  

El siglo XX se ha caracterizado por los avances de la tecnologíamedicina y ciencia en general; fin de la esclavitud (al menos nominalmente); liberación de la mujer en la mayor parte de los países; pero también por crisis y despotismos humanos, que causaron efectos tales como las Guerras Mundiales; el genocidio y el etnocidio, las políticas de exclusión social y la generalización del desempleo y de la pobreza. Como consecuencia, se profundizaron las inequidades en cuanto al desarrollo social, económico y tecnológico y en cuanto a la distribución de la riqueza entre los países, y las grandes diferencias en la calidad de vida de los habitantes de las distintas regiones del mundo. En los últimos años del siglo, especialmente a partir de 1989-1991 con el derrumbe de los regímenes colectivistas de Europa, comenzó el fenómeno llamado globalización o mundialización.
 

1920-1930

En los años de la gran Guerra (primera guerra mundial entre 1914 y 1918) la probabilidad y la estadística se esparcieron por todos lados. Durante la guerra, la investigación en probabilidad casi se detiene por causa de que la gente se enlistaba en los servicios armados. PearsonLévy y Wiener trabajaron en balística, Jeffreys en meteorología e Yule en administración.

1920-1930

La mayoría de las personas que dominaron la probabilidad y la estadística tuvieron un impacto temprano. De ellos, el individuo que tuvo un mayor impacto fue Fisher en estadística. El alemán era el idioma tradicional en la literatura científica de la época. Sin embargo, Fisher escribía en inglés pues creía que la época de escritura alema había terminado con Gauss.
 

  • Los fundamentos de la probabilidad recibieron mucha atención y ciertas posiciones encontraron expresiones clásicas: la interpretación lógica de la probabilidad (grado de creencia razonable) fue propuesta por los filósofos de Cambridge, W. E. JohnsonJ. M. Keynes y C. D. Broad, y presentada a una audiencia científica por Jeffreys; el punto de vista frecuentista fue desarrollado por von Mises.
     

1930-1940

En contra de una economía en recession y de una política desastrosa, hubo importantes desarrollos en probabilidad, teoría estadística y sus aplicaciones. En la Unión Soviética, a los matemáticos les iba mayor que a los economistas o a los genetistas y pudieron salir de su país y publicar en revistas internacionales; así Kolmogorov y Khinchin publicaron en Alemania, donde precisamente los judíos fueron expulsados de la academia desde 1934.
 

1940-1950

Entre los millones de muertos de la segunda Guerra mundial se contaron algunos matemáticos y estadísticos. Doeblin es el más famoso de los finados; uno de los libros de Neyman está dedicado a la memoria de diez colegas y amigos. Esta guerra incentivó el estudio de la probabilidad y la estadística. Al final de la Guerra, muchas personas se encontraron trabajando como estadísticos, hubo nuevas aplicaciones y la importancia de esta material fue más ampliamente reconocida.
 

1950-1980

Este es un periodo de expansión, más países, más gente, más departamentos, más libros, más revistas. Los computadores empiezan a tener un gran impacto.

1980 + (Los efectos del computador)

 

Este periodo describe el efecto impactante de los ordenadores en el desarrollo de métodos estadísticos desde su advenimiento, en la década de 1950 y el dramático cambio en la historia de la probabilidad y la estadística en las recientes décadas. Al final del siglo 19, las máquinas mecánicas calculadoras proveyeron el material para la investigación de Pearson y Fisher y la construcción de sus tablas estadísticas. Con la disponibilidad de los computadores, las viejas actividades tomaron menos tiempo y nuevas actividades fueron posibles.
 

  • Las tablas estadísticas de números aleatorios fueron mucho más fáciles de producir y luego desaparecieron pues su función fue sometida a los paquetes estadísticos.
     
  • Una gran masa de datos, más grande que en épocas pasadas, puede ser analizada.
  • El Data mining exhaustivo es posible.
     
  • Modelos y métodos más complejos pueden ser usados. Los nuevos métodos se han diseñado con idea de la implementación computacional. Por ejemplo, la familia de los modelos lineales generalizados vinculada al programa GLIM (ver  John Nelder FRS).
     
  • En el siglo 20 cuando Student (1908) escribió sobre la media normal y Yule (1926) escribió sobre las correlaciones sin sentido, ellos usaron experimentos basados en muestras y en la década de 1920 valió la pena producir tablas de números aleatorios. Esto cambió con la introducción de los métodos asistidos por el computador para la generación de números pseudo-aleatorios, más aún los métodos de Monte-Carlo (introducidos por von NeumannUlam) fueron posibles.
     
  • Desde 1980 los métodos de Monte Carlo han sido estudiados y usados directamente en el análisis de datos. En la inferencia clásica, el bootstrap ha sido prominente.

P valores aleatorios

En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.

La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es

Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.

La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:

Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.

 Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.

Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.

Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis

Ho: mu igual a cero            VS.      Ha: mu distinto de cero.

Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero

  • Bajo la hipótesis nula, el histograma de los p valores toma la forma de una distribución plana y uniforme sobre el intervalo [0, 1]. Para enfatizar el punto de que un p valor no es la probabilidad de que Ho sea cierto, el instructor sólo necesita explicar este histograma, en donde claramente Ho es cierta, sin embargo el p valor está uniformemente distribuido entre cero y uno.
  • Bajo la hipótesis alternativa, la distribución de los p valores no es uniforme. Para el estudiante será obvio que el chance de obtener p valores menores al nivel de significación será más alto bajo la hipótesis alterna que bajo la hipótesis nula y ese efecto es más claro a medida que mu incrementa su valor. En este punto, es posible introducir el concepto de potencia.

Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir  la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero

  • Si mu menor que cero, la distribución de los p sobre el intervalo [0, 1] no será uniforme y tenderá al valor uno. En este punto, el estudiante entenderá que la distribución de los p valores no está determinada por el sistema de hipótesis sino por los parámetros.

Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.

¿Cuál es la probabilidad de victoria de Obama?

 

Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.

Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.

Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.

Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad  de que Obama gane más votos electorales en las primarias es de 70%.

Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica  para disminuir la influencia de estimaciones atípicas con respecto a la gran media.  

Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente,  Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.

Usando simulación para recordar la teoría

Estudiando algunas correlaciones entre ingreso y diversas medidas de ideología política, Andrew Gelman se deseaba obtener cierto sentido de la variabilidad muestral en su análisis. Él recordaba, vagamente, que la correlación muestral tiene una varianza de aproximadamente 1/n. Para corroborar la fórmula se hizo una simulación:

> var(replicate(1000,cor(rnorm(100),rnorm(100))))

[1] 0.001

Que en pasos más largos puede ser escrita de la siguiente manera:

> corrs <- rep (NA, 1000)

> for (i in 1:1000) corrs[i]<-cor(rnorm(100),rnorm(100))

> mean(corrs)

[1] -0.0021

> sd(corrs)

[1] 0.01

¡Sí, en efecto, 1/n era correcto! Funcionó bien y fue más rápido y productivo que investigar en un libro.

PD: En el anterior ejemplo se utilizaron muestras no correlacionadas de tamaño 100 de variables aleatorias con distribución normal estándar. Sin embargo, si hubiese correlación rho, entonces la varianza asintótica sería (1/n)* [1-rho^2]^2.