Todo comienza con la “p”

 

Andrew Gelman comenta que John Cook comenta que,

Existe sólo un símbolo importante en estadística, p. El mismo símbolo representa todo. Simplemente se debe usarlo y darse cuenta cuál p es cual, pues pueden provenir de diferentes contextos… Un ejemplo claro en donde p representa cuatro funciones distintas en una sola ecuación es el siguiente:

p(theta|x)=p(x|theta)frac{p(theta)}{p(x)}

Usualmente, la regla de Bayes no requiere de mucha explicación. Sin embargo, en la anterior ecuación cada p denota funciones que son totalmente diferentes, aunque compartan el mismo símbolo. Los autores prefieren este tipo de escritura para evadir la notación engorrosa que requeriría la escritura completamente explícita.

A veces, la sobrecarga de la decimonovena letra del alfabeto se convierte en un lastre y los estadísticos cambian de notación y de alfabeto y usan la contraparte griega pi. Aunque esto a veces hace las cosas un poco más confusas.

En su libro, Bayesian Data Analysis, Andrew Gelman, explica por qué la notación simple, con el uso (a veces abuso) de la letra p es más rigurosa de lo que, a simple vista, pueda parecer y comenta que,

En realidad no me gusta la notación que la mayoría de los estadísticos usan… f, para distribuciones de muestreo, pi, para distribuciones a priori y L, para verosimilitudes. Este estilo de notación se desvía de lo que realmente es importante. La notación no debería depender del orden en que las distribuciones son especificadas. Todas ellas son distribuciones de probabilidad, eso es lo realmente importante.

Esto tiene sentido, aún más cuando se estudian las propiedades estadísticas de los estimadores desde el punto de vista de la teoría de la medida. Siendo así, el símbolo p se refiere a una notación para una medida de probabilidad, quizás inducida por un elemento aleatorio. De hecho, en la ecuación que determina la regla de Bayes, cada una de las p son medidas de probabilidad que no comparten el mismo espacio de medida (ni la misma sigma-álgebra, ni el mimo espacio muestral ).

De hecho, todo queda claro al realizar un diagrama que permita ver el espacio de salida y el espacio de llegada de los elementos aleatorios que inducen (si es el caso), cada una de las distribuciones de probabilidad. Por otra parte, Bob Carpenter, concluye que

[Una vez resuelto el problema de identificación de los espacios] la notación estadística depende en gran manera del contexto y aunque la regla de Bayes no necesite de mucha explicación, es necesario conocerlo todo acerca del contexto para poder interpretar las funciones que la conforman… El problema se hace mucho más agudo para los estadísticos novatos, pero eso se resuelve con la práctica. Una vez que uno sabe lo que está haciendo, se vuelve obvia la referencia de la distribución p.

Por lo anterior, es natural que algunos de los textos clásicos de estadística matemática, parezcan olvidar el contexto de las diferentes medidas de probabilidad. En realidad no es que lo olviden, lo que pasa es que los autores no son novatos y asumen que el lector sigue la idea de la referencia de la p en cuestión. Sin embargo, y lo digo por mi y sólo por mí, sería mejor que no asumieran esa idea. De esta manera, el estudio de estos textos sería un poco menos denso.

Historia de la probabilidad (Era moderna)

 

Siglo XX  

El siglo XX se ha caracterizado por los avances de la tecnologíamedicina y ciencia en general; fin de la esclavitud (al menos nominalmente); liberación de la mujer en la mayor parte de los países; pero también por crisis y despotismos humanos, que causaron efectos tales como las Guerras Mundiales; el genocidio y el etnocidio, las políticas de exclusión social y la generalización del desempleo y de la pobreza. Como consecuencia, se profundizaron las inequidades en cuanto al desarrollo social, económico y tecnológico y en cuanto a la distribución de la riqueza entre los países, y las grandes diferencias en la calidad de vida de los habitantes de las distintas regiones del mundo. En los últimos años del siglo, especialmente a partir de 1989-1991 con el derrumbe de los regímenes colectivistas de Europa, comenzó el fenómeno llamado globalización o mundialización.
 

1920-1930

En los años de la gran Guerra (primera guerra mundial entre 1914 y 1918) la probabilidad y la estadística se esparcieron por todos lados. Durante la guerra, la investigación en probabilidad casi se detiene por causa de que la gente se enlistaba en los servicios armados. PearsonLévy y Wiener trabajaron en balística, Jeffreys en meteorología e Yule en administración.

1920-1930

La mayoría de las personas que dominaron la probabilidad y la estadística tuvieron un impacto temprano. De ellos, el individuo que tuvo un mayor impacto fue Fisher en estadística. El alemán era el idioma tradicional en la literatura científica de la época. Sin embargo, Fisher escribía en inglés pues creía que la época de escritura alema había terminado con Gauss.
 

  • Los fundamentos de la probabilidad recibieron mucha atención y ciertas posiciones encontraron expresiones clásicas: la interpretación lógica de la probabilidad (grado de creencia razonable) fue propuesta por los filósofos de Cambridge, W. E. JohnsonJ. M. Keynes y C. D. Broad, y presentada a una audiencia científica por Jeffreys; el punto de vista frecuentista fue desarrollado por von Mises.
     

1930-1940

En contra de una economía en recession y de una política desastrosa, hubo importantes desarrollos en probabilidad, teoría estadística y sus aplicaciones. En la Unión Soviética, a los matemáticos les iba mayor que a los economistas o a los genetistas y pudieron salir de su país y publicar en revistas internacionales; así Kolmogorov y Khinchin publicaron en Alemania, donde precisamente los judíos fueron expulsados de la academia desde 1934.
 

1940-1950

Entre los millones de muertos de la segunda Guerra mundial se contaron algunos matemáticos y estadísticos. Doeblin es el más famoso de los finados; uno de los libros de Neyman está dedicado a la memoria de diez colegas y amigos. Esta guerra incentivó el estudio de la probabilidad y la estadística. Al final de la Guerra, muchas personas se encontraron trabajando como estadísticos, hubo nuevas aplicaciones y la importancia de esta material fue más ampliamente reconocida.
 

1950-1980

Este es un periodo de expansión, más países, más gente, más departamentos, más libros, más revistas. Los computadores empiezan a tener un gran impacto.

1980 + (Los efectos del computador)

 

Este periodo describe el efecto impactante de los ordenadores en el desarrollo de métodos estadísticos desde su advenimiento, en la década de 1950 y el dramático cambio en la historia de la probabilidad y la estadística en las recientes décadas. Al final del siglo 19, las máquinas mecánicas calculadoras proveyeron el material para la investigación de Pearson y Fisher y la construcción de sus tablas estadísticas. Con la disponibilidad de los computadores, las viejas actividades tomaron menos tiempo y nuevas actividades fueron posibles.
 

  • Las tablas estadísticas de números aleatorios fueron mucho más fáciles de producir y luego desaparecieron pues su función fue sometida a los paquetes estadísticos.
     
  • Una gran masa de datos, más grande que en épocas pasadas, puede ser analizada.
  • El Data mining exhaustivo es posible.
     
  • Modelos y métodos más complejos pueden ser usados. Los nuevos métodos se han diseñado con idea de la implementación computacional. Por ejemplo, la familia de los modelos lineales generalizados vinculada al programa GLIM (ver  John Nelder FRS).
     
  • En el siglo 20 cuando Student (1908) escribió sobre la media normal y Yule (1926) escribió sobre las correlaciones sin sentido, ellos usaron experimentos basados en muestras y en la década de 1920 valió la pena producir tablas de números aleatorios. Esto cambió con la introducción de los métodos asistidos por el computador para la generación de números pseudo-aleatorios, más aún los métodos de Monte-Carlo (introducidos por von NeumannUlam) fueron posibles.
     
  • Desde 1980 los métodos de Monte Carlo han sido estudiados y usados directamente en el análisis de datos. En la inferencia clásica, el bootstrap ha sido prominente.

Historia de la probabilidad (Era Contemporánea)


Siglo XIX  

La característica fundamental son sus fuertes cambios. Cambios anunciados y gestados en el pasado pero que se efectuarían, de hecho, en el siglo. Cambios en todos los ámbitos de la vida y el conocimiento. Revoluciones de todas las índoles tendrían su lugar. La ciencia y la economía se retroalimentarían, el término “científico”, acuñado en 1833 por William Whewell,1 2sería parte fundamental del lenguaje de la época

1800-1830 

Este periodo se encuentra dominado por las figuras de Laplace y Gauss. Laplace cubrió todo el rondó de la probabilidad y la estadística; Gauss se enfocó solamente en la teoría de los errores.

  • El trabajo en la teoría de los errores alcanzó un clímax con la introducción del método de los mínimos cuadrados que fue publicado Legendre en 1805. Durante veinte años hubo tres razonamientos basados en la teoría de la probabilidad: El argumento bayesiano de Gauss (con una distribución a priori uniforme), el argumento de Laplace basado en el teorema central del límite y el argumento de Gauss que se basó en el teorema de Gauss-Markov. El trabajo de investigación continuo a través del siglo 19 con la ayuda y contribución de numerosos astrónomos y matemáticos; entre ellos, CauchyPoissonFourierBesselEnckeChauvenet y Newcomb.  (Aparece la  distribución de Cauchy como un caso poco elegante de la teoría de los errores.) Pearson, Fisher y Jeffreys aprenden la teoría de los errores desde la perspectiva de los astrónomos.
     
  • Gauss encontró una segunda aplicación de los mínimos cuadrados en la geodesia. Los geodesistas hicieron importantes contribuciones a los mínimos cuadrados, particularmente desde la perspectiva computacional. Los epónimos, Gauss-Jordan y Cholesky, son puestos en honor a posteriores geodesistas. Helmert (la transformada de Helmert) fue un geodesista que contribuyó a la teoría de los errores. Nótese que el topógrafo Frank Yates contribuyó enormemente a la estadística siendo colega y sucesor de Fisher en Rothamsted. 
     
  • En Gran Bretaña se llevó a cabo el primer censo poblacional en 1801. Éste terminó la controversia acerca del tamaño de la población que empezó con Price, amigo de Bayes, quien argumentaba que la población había decrecido en el siglo 18. Numerosos escritores lanzaron estimaciones, incluyendo a Eden.
     
  • William Playfair encontró nuevas formas de representación gráfica de los datos. Sin embargo, nadie le prestó atención. La teoría estadística que ganó terreno en los siguientes 150 años no tuvo en cuenta la idea de la graficación de los datos. Esta idea es reciente y se asocia con Tukey.
     
  • Concluye la era de las academias y los mayores avances se dan en las universidades. El sistema de educación francesa fue transformado gracias a la revolución y el siglo 19 vio el surgimiento de la universidad alemana.

     

1830-1860

Este periodo vio el surgimiento de de la sociedad estadística, la cual ha estado active en la escena científica desde entonces. Aunque el significado de la palabra “Estadística” ha cambiado desde el principio de la literatura filosófica de la probabilidad. En este periodo, también se dio la más glamorosa rama del análisis empírico de las series temporales, el llamado “ciclo de las manchas solares”.

  • Desde 1830 han habido varias sociedades estadísticas, incluyendo la London (Royal) Statistical Society y la American Statistical Association (ahora la más grande del mundo). El International Statistical Institute fue fundado en 1885 aunque ha organizado congresos internacionales desde 1853. Las estadísticas estuvieron basadas en las poblaciones humanas y en Francia André-Michel Guerry mapeó una clase de estadísticas morales. Quetelet fue un catalizador en la formación de la London Society.
     
  • Desde 1840, existe la literatura filosófica de probabilidad. La literatura inglesa empieza con la discusión de probabilidad de John Stuart Mill (1843). Este fue seguido por John Venn, W. Stanley Jevons y Karl Pearson. Hubo un traslape en la literatura de lógica y de probabilidad. De Morgan y Boole también aportaron exhaustivas y largas discusiones acerca de la probabilidad.
     
  •  En 1843 Schwabe observe que la actividad de las manchas solares (sunspot) era periódica. Seguido de décadas de investigación, no solo en la física solar sino en el magnetismo terrestre, meteorología e incluso economía, donde se examinaban las series para ver si su periodicidad coincidía con la de las manchas solares. Incluso antes de la manía o moda de las manchas solares hubo un interés intense en la periodicidad en la meteorología, en el estudio de las mareas y otras ramas de la física observacional. Juntos, Laplace y Quetelet, habían analizado datos meteorológicos y Herschel había escrito un libro al respecto. Las técnicas en uso variaban desde las más simples, como la tabla de Buys Ballot, a formas más sofisticadas como el análisis armónico. Al final del siglo, el físico Arthur Schuster introdujo el periodograma. Sin embargo, por ese entonces, una forma rival del análisis de series temporales, basada en la correlación y promovida por PearsonYuleHooker y otros, fue tomando forma.
     

1860-1880

Dos importantes campos de aplicación se abrieron en este periodo. La probabilidad encontró una aplicación más profunda en la física, particularmente en la teoría de gases, naciendo así la mecánica estadística. Los problemas de la mecánica estadística estaban detrás del alcance de los avances de la probabilidad a comienzos del siglo 20. El estudio estadístico de la herencia, desarrollado dentro de la biometría, tuvo lugar. Al mismo tiempo el mundo sufrió importantes cambios geográficos. Un trabajo importante en la teoría de la probabilidad venía desarrollándose en Rusia mientras que el trabajo estadístico venía de Inglaterra.

1880-1900

En este periodo la escuela inglesa estadística tomó forma. Pearson fue el personaje dominante hasta que Fisher lo desplazó en la década de 1920s.

  • Galton introdujo la correlación y una teoría basada en el anterior concepto fue rápidamente desarrollada por PearsonEdgeworthSheppard y Yule. La correlación fue la mayor salida desde el trabajo estadístico de Laplace y Gauss. Empezó a ser ampliamente aplicada en biología, psicología y ciencias sociales.
     
  • En economía Edgeworth siguió algunas ideas de Jevons, sobre números índice. Sin embargo, en Inglaterra la economía estadística era más cercana al trabajo en estadísticas oficiales o periodismo financiero. En Italia Vilfredo Pareto descubrió una regularidad estadística en la distribución del ingreso (distribución de Pareto).

Historia de la probabilidad (Era Primaria)

1650-1700  

En este periodo se encuentran los orígenes de la probabilidad y de la estadística mediante el tratamiento matemático del juego y del estudio sistemático de las cifras de mortalidad. Esta época es conocida como la era de la revolución científica  en donde grandes nombres como, Galileo (ver Materiales y Todhunter) y Newton dieron algunas ideas de la probabilidad sin influenciar su desarrollo teórico.

  • Antes de este periodo, hubo algunas contribuciones a la probabilidad y es así como Cardano (1501-76) dio algunas probabilidades asociadas al lanzamiento de los dados. Sin embargo, una masa crítica de investigadores y resultados fue alcanzada solamente después de las discusiones entre Pascal y Fermat.
     
  • Las estadísticas poblacionales surgen mediante el trabajo de GrauntWilliam Petty (amigo de Graunt) creó el término Política Aritmética refiriéndose al estudio cuantitativo de la demografía y de la economía. Gregory King fue una importante figura de la siguiente generación. Sin embargo la línea econométrica no surgió de la manera adecuada. De hecho, el economista más influyente del siglo 18, Adam Smith, escribió,  ”Yo no tengo ninguna esperanza en la política aritmética”.
     

 

Siglo XVIII

 

Hald (1990) llamó a la primera parte de esta época el gran salto (1708-1718): Hubo contribuciones muy importantes en distintos temas de la probabilidad. Aunque las raíces de la probabilidad y de la estadística son muy distintas, en los comienzos del siglo 18 se entendía que los dos temas estaban cercanamente relacionados.

La probabilidad se establece en la ciencia de la Física, en la astronomía muestra una influencia. La aplicación más duradera en la astronomía trata acerca de la combinación de observaciones. La teoría resultante de los errores es el ancestro más importante de la inferencia estadística moderna, particularmente en el campo de la teoría de estimación.

  • Los más importantes astrónomos y matemáticos, incluidos Daniel BernoulliBoscovichEulerLambertMayer y Lagrange, trataron el problema de la combinación de observaciones astronómicas, “para minimizar los errores surgidos de las imperfecciones de los instrumentos y de los órganos de los sentidos” en palabras de Thomas Simpson. Simpson introdujo la idea de postular una distribución para los errores.
     
  • Se desarrollaron algunas pruebas de significación, la mayoría de ellas aplicadas en astronomía. Daniel BernoulliJohn Michell (1767) y Crossley calcularon las chances (odds) de que el sistema de Pléyades (siete cabrillas) fuera un sistema de estrellas y no un conglomerado aleatorio.
     
  • Se realizan afirmaciones en forma de intervalo para el parámetro de la distribución Binomial (ancestros de los intervalos de confianza modernos). Estos fueron propuestos por Lagrange y por Laplace en la década de 1780.
  • En 1770 Condorcet empieza una publicación acerca de matemáticas sociales, para la aplicación de la teoría de probabilidad en las decisiones de jurados y otras asambleas. Su trabajo tuvo una fuerte influencia en Laplace y Poisson. Otros autores franceses de este periodo son D’Alembert y Buffon; el primero es recordado por sus comentarios críticos en la teoría de probabilidad y el último el experimento de la aguja.
     

El teorema del estadístico inconsciente

La esperanza de una variable aleatoria, uno de los conceptos más importantes y poderosos de la teoría estadística, parecería tener dos definiciones distintas, dependiendo del nivel académico en que sea vista. Por una parte, está la definición desde el punto de vista de la teoría de la medida. Por ejemplo, Shao (2003, p. 11) afirma que la esperanza o valor esperado de una variable aleatoria continua X está dado por la siguiente expresión:

 

E(X)=int_{Omega}XdP.

 

Sin embargo, la anterior definición difiere con la de un libro de texto clásico de probabilidad como Mood, Graybill & Boes (1963, p. 69), en donde la esperanza de una variable aleatoria estáa dada por la siguiente expresión:

 

E(X)=int_{mathbb{R}}xf_X(x)dx.

 

Es claro que las dos definiciones no concuerdan a simple vista y la demostración de este resultado no es trivial ni obvia. Haciendo clic acá encontrará un manuscrito que escribí para que yo mismo pudiera entender este gran resultado. Para ello, he hecho un breve repaso de algunos resultados útiles de la teoría de la medida. Espero que la demostración sea clara y, por qué no, sirva para tenerla a la mano cuando alguien nos pregunte acerca de la equivalencia de estas definiciones.

Jhon Cook afirma que el resultado que liga a estas dos definiciones es llamado la ley del estadístico inconsciente puesto que éste es aplicado tan frecuentemente que se hace de manera inconsciente e indiferente. Él ha escrito una prueba en cuatro renglones, que sinceramente no entendí (aunque, con toda seguridad, es una prueba muy bien estructurada). Esa entrada de Jhon Cook fue la motivación para desarrollar esta demostración que es un poco más terrenal y hace uso de conceptos más básicos.

La moneda sesgada

 

“Se lanza una moneda con probabilidad p>0 de que el resultado sea cara” Woodroofe ( 1975, p. 108 )

“Suponga una moneda con probabilidad 0.7 de que el resultado del lanzamiento sea cara” Ross ( 2000, p. 82 )

 

La moneda sesgada es el unicornio de la teoría de la probabilidad. Todo el mundo ha escuchado acerca de su existencia, pero nadie lo ha visto en carne y hueso porque, simplemente no existe. Así mismo, la moneda sesgada no existe.

Profundicemos un poco en el evento: Lanzamiento de una moneda. ¿Es realmente un evento aleatorio? Está comprobado científicamente que las leyes físicas determinísticas inducen los resultados del evento en cuestión. Este simple ejemplo, muestra cuán difícil es separar lo aleatorio de lo determinístico.

La moneda obedece a leyes de Newton acerca del movimiento y estas leyes determinan el estado final de la moneda dependiendo de su velocidad angular (tasa de giro) y tiempo de viaje (velocidad de lanzamiento). Por otra parte la ley de la conservación del momento angular afirma que una vez que la moneda es lanzada al aire, ésta girará a una tasa constante.

Para cualquier tasa de giro, la moneda durará la mitad del tiempo de viaje con la cara hacia arriba y la otra mitad con la cara hacia abajo. Así que, cuando la moneda aterriza en el suelo, la probabilidad de que el resultado sea cara es la misma que la probabilidad de que el resultado sea sello.

Si la moneda es físicamente alterada, al momento de lanzarla, ésta girará alrededor de su centro de gravedad (sin importar que éste difiera de su centro geométrico). Por tanto, no importa cómo sea alterada la moneda, el resultado ya está determinado por las leyes físicas.

Por supuesto, la probabilidad de que el resultado del lanzamiento sea cara puede dejar de ser un medio si la moneda es sumamente alterada de tal forma que sea tan liviana que al lanzarla no gire en el aire sino que flote como una pluma al caer. En el anterior caso, la moneda habría sufrido un proceso, no de alteración sino, de transformación. Dejó de ser una moneda y se convirtió en un peculiar billete.

PD: Nótese que la aleatoriedad de este evento está dada por la incertidumbre del estado inicial de la moneda antes de ser lanzada.

 

¿Cuál es la probabilidad de victoria de Obama?

 

Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.

Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.

Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.

Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad  de que Obama gane más votos electorales en las primarias es de 70%.

Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica  para disminuir la influencia de estimaciones atípicas con respecto a la gran media.  

Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente,  Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.