“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Posts tagged Simulación
Historia de la probabilidad (Era moderna)
Oct 25th

Siglo XX
El siglo XX se ha caracterizado por los avances de la tecnología; medicina y ciencia en general; fin de la esclavitud (al menos nominalmente); liberación de la mujer en la mayor parte de los países; pero también por crisis y despotismos humanos, que causaron efectos tales como las Guerras Mundiales; el genocidio y el etnocidio, las políticas de exclusión social y la generalización del desempleo y de la pobreza. Como consecuencia, se profundizaron las inequidades en cuanto al desarrollo social, económico y tecnológico y en cuanto a la distribución de la riqueza entre los países, y las grandes diferencias en la calidad de vida de los habitantes de las distintas regiones del mundo. En los últimos años del siglo, especialmente a partir de 1989-1991 con el derrumbe de los regímenes colectivistas de Europa, comenzó el fenómeno llamado globalización o mundialización.
1920-1930
En los años de la gran Guerra (primera guerra mundial entre 1914 y 1918) la probabilidad y la estadística se esparcieron por todos lados. Durante la guerra, la investigación en probabilidad casi se detiene por causa de que la gente se enlistaba en los servicios armados. Pearson, Lévy y Wiener trabajaron en balística, Jeffreys en meteorología e Yule en administración.
-
En 1900 David Hilbert propuso un conjunto de problemas para el siglo 20. El sexto problema fue, “tratar… por medio de axiomas, aquellas ciencias físicas en las cuales las matemáticas juegan un papel importante; en primer lugar están la teoría de la probabilidad y la mecánica.” La teoría de la medida, que jugaría un papel muy importante en la axiomatización de la probabilidad, fue creada por Borel, Lebesgue entre otros.
-
Desde diferentes campos surgieron contribuciones que eventualmente encontraron lugar en la teoría de los procesos estocásticos. En física, Einstein y Smoluchovski trabajaron en el movimiento Browniano. Bachelier desarrolló un modelo similar aplicado a la especulación financiera; alternamente, el actuario Lundberg desarrolló una teoría de riesgo colectivo. –la enfermedad de la malaria y la migración de los mosquitos fueron el foco principal de la investigación de Pearson originado en el problema de la caminata aleatoria. Ronald Ross y A. G.McKendrick, sin la referencia del anterior trabajo de Daniel Bernoulli, crearon modelos matemáticos de epidemias.
-
Charles Spearman (1863-1945) impulsó la correlación y esta empezó a ser parte importante de la sicología. Entre las contribuciones a la estadística estuvieron la correlación de rangos y el análisis factorial. Godfrey Thomson fue un crítico severo del análisis factorial de la inteligencia basado en el trabajo de Spearman. En la década de 1930 Louis L. Thurstone desarrolló el análisis factorial múltiple.
-
En economía, especialmente en los Estados unidos, los métodos cuantitativos empezaron a ser más prominentes. Las figuras más importantes fueron Warren Persons, Irving Fisher, Wesley Mitchell and H. L. Moore. La mayoría de su trabajo se clasificaría en el análisis de series de tiempo.
-
Las aplicaciones industriales en probabilidad empezaron con el trabajo de Erlang sobre congestión de sistemas telefónicos, el ancestro de la teoría de colas.
-
Los desarrollos institucionales incluyen, en 1911 la creación del departamento de estadísticas aplicadas en UCL encabezado por Pearson. Yule, podría ser llamado “el primer estadístico moderno”.
1920-1930
La mayoría de las personas que dominaron la probabilidad y la estadística tuvieron un impacto temprano. De ellos, el individuo que tuvo un mayor impacto fue Fisher en estadística. El alemán era el idioma tradicional en la literatura científica de la época. Sin embargo, Fisher escribía en inglés pues creía que la época de escritura alema había terminado con Gauss.
-
Los avances en probabilidad incluyeron refinamientos del teorema central del límite (Lindeberg hizo una muy importante contribución) y de la ley fuerte de los grandes números y nuevos resultados incluían la ley del algoritmo dominado. Hubo contribuciones de la mayoría de los países del continente europeo; por ejemplo, Mazurkiewicz de Polonia y en 1935 Turing repitió el trabajo de Lindeberg sin saber de su publicación.
-
Los fundamentos de la probabilidad recibieron mucha atención y ciertas posiciones encontraron expresiones clásicas: la interpretación lógica de la probabilidad (grado de creencia razonable) fue propuesta por los filósofos de Cambridge, W. E. Johnson, J. M. Keynes y C. D. Broad, y presentada a una audiencia científica por Jeffreys; el punto de vista frecuentista fue desarrollado por von Mises.
-
En estadística, R. A. Fisher generó nuevas ideas sobre estimación y juzgamiento de hipótesis y su trabajo de diseño experimental movió este tópico desde los linderos hasta el centro de la estadística. Sus Métodos estadísticos para investigadores (1925) fue el libro más influyente del siglo 20.
-
W. A. Shewhart (ASQ) fue el pionero del control de calidad, el cual se convirtió en una aplicación muy importante de la estadística en la industria.
1930-1940
En contra de una economía en recession y de una política desastrosa, hubo importantes desarrollos en probabilidad, teoría estadística y sus aplicaciones. En la Unión Soviética, a los matemáticos les iba mayor que a los economistas o a los genetistas y pudieron salir de su país y publicar en revistas internacionales; así Kolmogorov y Khinchin publicaron en Alemania, donde precisamente los judíos fueron expulsados de la academia desde 1934.
-
En probabilidad, los principales desarrollos fueron la axiomatización de la probabilidad por Kolmogorov y el desarrollo de la teoría de los procesos estocásticos por él y por Khinchin. Su trabajo es usualmente visto como el comienzo de la probabilidad moderna.
-
En los fundamentos de la probabilidad, Bruno de Finetti y Frank Ramsey (1903-1930) (St. Andrews, N.-E. Sahlin) trabajaron en la probabilidad subjetiva. Ramsey empezó con el criticismo de la escuela de lógica de Cambridge, en particular Keynes. Una superestructura estadística no se dio sino años después. Jeffreys dio un tratamiento complete a la estadística fundamentado en su noción lógica de la probabilidad, aunque la forma prevaleciente era la clásica.
-
Biometrika detuvo la publicación de la investigación biológica y se enfocó en la estadística teórica. El Instituto de estadística matemática fue fundado en 1930 y su revista, The Annals of Mathematical Statistics apareció en 1933. El primer laboratorio de estadística en los Estados Unidos fue creado en Iowa por Snedecor en 1933. Snedecor fue fuertemente influenciado por Fisher.
-
En el campo de la inferencia estadística, el mayor desarrollo fue la teoría del juzgamiento de hipótesis de Neyman-Pearson. El análisis multivariado se convirtió en una material identificable, formada por contribuciones como la distribución Wishart (1928), los componentes principales de Harold Hotelling (1933) y la correlación canónica (1936) y el análisis discriminante de Fisher (1936).
-
Las aplicaciones de las matemáticas y estadísticas a la economía se juntaron en el movimiento econométrico. Entre los líderes de la década de 1930 estuvieron Jan Tinbergen y Ragnar Frisch. Los econometristas que ganaron el premio Nobel en economía son Engle, Granger, Haavelmo, Heckman, Klein, McFadden.
1940-1950
Entre los millones de muertos de la segunda Guerra mundial se contaron algunos matemáticos y estadísticos. Doeblin es el más famoso de los finados; uno de los libros de Neyman está dedicado a la memoria de diez colegas y amigos. Esta guerra incentivó el estudio de la probabilidad y la estadística. Al final de la Guerra, muchas personas se encontraron trabajando como estadísticos, hubo nuevas aplicaciones y la importancia de esta material fue más ampliamente reconocida.
-
Las persecuciones Nazis y la segunda guerra mundial empujaron la migración de muchos estadísticos a los Estados Unidos. Algunas de las más importantes figures de la probabilidad en la postguerra en Estados Unidos son: Feller, M. Kac (MGP), Wald, G. E. P. Box (MGP), W. G. Cochran (ASA) (MGP), W. Hoeffding (MGP), H. O. Hartley (MGP), F. J.Anscombe (Obit. p. 17) (MGP), Z. W. Birnbaum (MGP) y O. Kempthorne (MGP).
-
Los métodos no-paramétricos empezaron a ser sistemáticamente estudiados, usando técnicas de la teoría de la inferencia estadística; E. J. G. Pitman fue un pionero importante. Las pruebas estadísticas para el juzgamiento de hipótesis vinieron de no-estadísticos como Spearman (rangos) o Wilcoxon (prueba de Wilcoxon). El repertorio conocido de las pruebas del signo, pruebas de permutación y la prueba de Kolmogorov-Smirnov se expandieron rápidamente en el medio.
-
El análisis moderno de series de tiempos vino de la unión de la teoría de los procesos estocásticos, la teoría de la predicción y la teoría de la inferencia estadística. Uno de los principales pioneros de esta década fue M. S. Bartlett. En la década de 1950 Tukey fue una figura importante. En la década de 1960, Kalman (filtro de Kalman) y los sistemas de ingeniería hicieron importantes contribuciones y en la década de 1970, los métodos de G. E. P. Box y G. M. Jenkins (Box-Jenkins) fueron adoptados en la economía y los negocios.
1950-1980
Este es un periodo de expansión, más países, más gente, más departamentos, más libros, más revistas. Los computadores empiezan a tener un gran impacto.
-
Los departamentos existents de estadística se expanden. Nuevas instituciones son creadas, entre ellas el Laboratorio estadístico en Cambridge en 1947 y el departamento de estadística en Harvard en 1958.
-
El alcance de la teoría de la probabilidad se incrementa con el nacimiento de nuevos subcampos como la teoría de colas y la teoría de la renovación. El libro de Feller Introduction to Probability Theory hizo un impacto muy grande en el mundo de habla inglesa pues promovió el estudio de tópicos más avanzados como las cadenas de Markov.
-
En material estadística hubo un renacimiento Bayesiano. En Estados Unidos, la teoría de decisión Bayesiana reflejó la influencia de la teoría de la decisión de Wald.
-
W. Edwards Deming continúo el trabajo de Shewhart en control de calidad y fue muy efectivo a la hora de adoptar estos métodos en la industria.
-
Laplace y Quetelet vieron el trabajo de los censos como posibles aplicaciones de la probabilidad pero el uso de la teoría estadística para recopilación de información oficial llegó sólo después de las actividades de Morris Hansen (ver entrevista) en la oficina de censos de Estados Unidos.
1980 + (Los efectos del computador)
Este periodo describe el efecto impactante de los ordenadores en el desarrollo de métodos estadísticos desde su advenimiento, en la década de 1950 y el dramático cambio en la historia de la probabilidad y la estadística en las recientes décadas. Al final del siglo 19, las máquinas mecánicas calculadoras proveyeron el material para la investigación de Pearson y Fisher y la construcción de sus tablas estadísticas. Con la disponibilidad de los computadores, las viejas actividades tomaron menos tiempo y nuevas actividades fueron posibles.
-
Las tablas estadísticas de números aleatorios fueron mucho más fáciles de producir y luego desaparecieron pues su función fue sometida a los paquetes estadísticos.
-
Una gran masa de datos, más grande que en épocas pasadas, puede ser analizada.
-
El Data mining exhaustivo es posible.
-
Modelos y métodos más complejos pueden ser usados. Los nuevos métodos se han diseñado con idea de la implementación computacional. Por ejemplo, la familia de los modelos lineales generalizados vinculada al programa GLIM (ver John Nelder FRS).
-
En el siglo 20 cuando Student (1908) escribió sobre la media normal y Yule (1926) escribió sobre las correlaciones sin sentido, ellos usaron experimentos basados en muestras y en la década de 1920 valió la pena producir tablas de números aleatorios. Esto cambió con la introducción de los métodos asistidos por el computador para la generación de números pseudo-aleatorios, más aún los métodos de Monte-Carlo (introducidos por von Neumann y Ulam) fueron posibles.
-
Desde 1980 los métodos de Monte Carlo han sido estudiados y usados directamente en el análisis de datos. En la inferencia clásica, el bootstrap ha sido prominente.
P valores aleatorios
Aug 19th
En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.
La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es
Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.
La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.
Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.
Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis
Ho: mu igual a cero VS. Ha: mu distinto de cero.
Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero
- Bajo la hipótesis nula, el histograma de los p valores toma la forma de una distribución plana y uniforme sobre el intervalo [0, 1]. Para enfatizar el punto de que un p valor no es la probabilidad de que Ho sea cierto, el instructor sólo necesita explicar este histograma, en donde claramente Ho es cierta, sin embargo el p valor está uniformemente distribuido entre cero y uno.
- Bajo la hipótesis alternativa, la distribución de los p valores no es uniforme. Para el estudiante será obvio que el chance de obtener p valores menores al nivel de significación será más alto bajo la hipótesis alterna que bajo la hipótesis nula y ese efecto es más claro a medida que mu incrementa su valor. En este punto, es posible introducir el concepto de potencia.
Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero
- Si mu menor que cero, la distribución de los p sobre el intervalo [0, 1] no será uniforme y tenderá al valor uno. En este punto, el estudiante entenderá que la distribución de los p valores no está determinada por el sistema de hipótesis sino por los parámetros.
Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.
¿Cuál es la probabilidad de victoria de Obama?
Apr 25th
Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.
Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.
Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.
Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad de que Obama gane más votos electorales en las primarias es de 70%.
Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica para disminuir la influencia de estimaciones atípicas con respecto a la gran media.
Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente, Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.
Usando simulación para recordar la teoría
Mar 21st
Estudiando algunas correlaciones entre ingreso y diversas medidas de ideología política, Andrew Gelman se deseaba obtener cierto sentido de la variabilidad muestral en su análisis. Él recordaba, vagamente, que la correlación muestral tiene una varianza de aproximadamente 1/n. Para corroborar la fórmula se hizo una simulación:
> var(replicate(1000,cor(rnorm(100),rnorm(100))))
[1] 0.001
Que en pasos más largos puede ser escrita de la siguiente manera:
> corrs <- rep (NA, 1000)
> for (i in 1:1000) corrs[i]<-cor(rnorm(100),rnorm(100))
> mean(corrs)
[1] -0.0021
> sd(corrs)
[1] 0.01
¡Sí, en efecto, 1/n era correcto! Funcionó bien y fue más rápido y productivo que investigar en un libro.
PD: En el anterior ejemplo se utilizaron muestras no correlacionadas de tamaño 100 de variables aleatorias con distribución normal estándar. Sin embargo, si hubiese correlación rho, entonces la varianza asintótica sería (1/n)* [1-rho^2]^2.








Comentarios