Bayesiano

Identificabilidad en modelos bayesianos mixtos y el teorema fundamental de las Cadenas de Markov… ¿puedo usar WinBugs?

Bien, este es el escenario general… Se tiene un modelo mixto y acudiendo a la fama, uso y fácil e intuitiva programación de WinBugs, se definen distribuciones previas no informativas para los parámetros del modelo y además para los hiper-parámetros del modelo. Luego se realiza la inferencia Bayesiana. Por ejemplo, suponga el siguiente modelo mixto:

y_{ij}|\beta, u_i, \sigma^2_e \sim Normal(\beta+u_i, \sigma^2_e) en donde u_i\sim Normal(0, \sigma^2)

Siendo así, se reescribe la función la función de densidad posterior como el producto de las verosimilitudes con las densidades previas de los parámetros, \beta y \sigma^2_e, y de los hiper-parámetros, \sigma^2. De esta forma, se tiene que

p(\beta, \mathbf{u}, \sigma^2_e, \sigma^2|\mathbf{y}) \propto p(\mathbf{y}|\beta, \mathbf{u}, \sigma^2_e)p(\mathbf{u}|\sigma^2)p(\beta)p(\sigma^2_e)p(sigma^2)

Una definición muy usada para la distribución previa de los parámetros es la siguiente:

p(\beta, \sigma^2_e|\mathbf{y}) \propto 1/\sigma^{2}_e

Con esta distribución previa no informativa, se acude a la multiplicación de todas las verosimilitudes con las distribuciones previas y se utiliza el análisis condicional y el algoritmo de Gibbs para “supuestamente” construir una Cadena de Markov cuya distribución estacionaria coincide exactamente con la distribución posterior. Sin embargo, cuando se utilizan distribuciones previas impropias para los parámetros, resulta que la distribución posterior es también impropia. Lo anterior está demostrado en Hill (1965, Journal of the American Statistical Association, 60, pp 806-825). Por lo anterior, aunque se utilice el algoritmo de Gibbs, la distribución posterior carecerá de sentido puesto que no es integrable y esto implica que no existe una distribución condicional conjunta que coincida con las distribuciones condicionales creadas al utilizar el algoritmo de Gibbs.

Las consecuencias de lo anterior no se hacen esperar. Máxime teniendo en cuenta que el teorema fundamental de las cadenas de Markov, sobre el cual se basa todo el andamiaje de los métodos MCMC, afirma que una cadena de Markov tiene distribución estacionaria si y sólo si todos sus estados son persistentes no nulos y, en ese caso, esa distribución es única. Ahora, un estado es persistente nulo si la esperanza del tiempo medio de recurrencia es infinita. Es decir, en este caso, cuando se presenta un estado persistente no nulo, la cadena de Markov generada mediante el algoritmo de Gibbs no converge en distribución. Sin embargo, dada nuestra restricción para verificar hipótesis en el infinito, es posible que observemos que la cadena ha entrado en una región de muy alta probabilidad, la cual es razonable. Sin embargo, si pudiésemos realizar y observar infinitas realizaciones de la cadena, nos daríamos cuenta de que en realidad esa convergencia jamás se presentó y nunca se presentará.

En conclusión, dado que la distribución posterior es impropia, entonces las cadenas de Markov inducidas por el algoritmo de Gibbs son recurrentes nulas y por tanto no convergerán en distribución. Lo anterior puede ser pasado por alto por la mayoría de estadísticos al utilizar la facilidad del entorno de programación de WinBugs. Más aún, en esta situación, las aproximaciones de Monte Carlo resultantes pueden parecer completamente razonables, lo cual nos pone en una situación bastante peligrosa puesto que el muestreador de Gibbs nos guiará a inferencias plausibles sobre una distribución que no existe. Por lo tanto, antes de escribir su código en WinBugs y antes de definir las distribuciones previas de los parámetros es aconsejable realizar un estudio de sensibilidad sobre estas distribuciones previas y sobre todo definirlas de tal forma que sean integrables a priori, como por ejemplo distribuciones normales centradas en cero, pero con una varianza muy grande, o inversas-gama con parámetros muy pequeños. De esta forma, esas distribuciones previas se hacen no informativas de antemano e integrables a priori.

Mejor dicho, cuando escriba su código en WinBugs, por favor sea cuidadoso y evite usar la siguiente asignación para las distribuciones previas:

Beta ~ dflat()
Sigma ~ dflat()

En vez de lo anterior mejor asigne las siguientes distribuciones previas:

Beta ~ dnorm(0, 0.0001)
Sigma ~ dgamma(0.01, 0.01)

Para mayor información acerca de este fenómeno desafortunado, puede remitirse a los siguientes artículos (si no puede conseguirlos en internet, envíeme un correo y yo los comparto con usted):

– Ibrahim, J. G., and Laud, P. W. (1991), On Bayesian Analysis of Generalized Linear Models Using Jeffreys’s Prior, Journal of the American Statistical Association, 86, 981-986.

– Hobert, J. P. and Casella, G. (1996), The Effect of Improper Priors on Gibbs Sampling in Hierarchical Linear Mixed Models James P. Hobert and George Casella, Journal of the American Statistical Association, 91, 436.

– Gelfand, A. E. and Sahu, S. K (1999), Identifiability, Improper Priors, and Gibbs Sampling for Generalized Linear Models, Journal of the American Statistical Association 94, 445 (Mar., 1999), pp. 247-253.

Regalo de navidad para los apasionados del muestreo

Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de la ciencia estadística y los modelos. Pues nada más falso, el muestreo esta circunscrito dentro de la ciencia estadística y tiene como base a, nada más y nada menos, la probabilidad.

  1. El primer regalo es un compendio, que lo pueden encontrar gratis en el repositorio ArXiV, y es una publicación del Instituto Internacional de Estadística, llamada métodos bayesianos que los frecuentistas deberían conocer. Este compendio tiene temas tan interesantes como calibración bayesiana, distribuciones previas objetivas, métodos bayesianos en polítcas públicas, muestreo desde una perspectiva bayesiana, y el impacto de las técnicas bayesianas en el diseño y análisis de encuestas.
  2. El segundo regalo es otro compendio, que lo pueden encontrar gratis en la página del Pakistan Journal of Statistics, con sendas discusiones acerca de la contribución de Ken Brewer al muestreo. Ken Brewer es reconocido por tratar de unificar los modelos estadísticos con las técnicas de estimación estándares en muestreo, a través de sus llamados estimadores cosméticos.

Vale la pena que los imprima y los lea. Feliz navidad y un saludo desde Colombia.

Si las elecciones fueran hoy… Parody no gana

Claro, suponiendo mil cosas que no necesariamente se cumplen. Según este artículo, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: <<Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia. Peñalosa, que se postula por el Partido Verde y el Partido Social de Unidad Nacional (Partido de La U), se situó segundo con 21%, de acuerdo con el sondeo divulgado por el diario El Espectador. En el tercer lugar se ubicó la ex senadora Gina Parody, con 18%.>>

Si asumimos una distribución previa no informativa (Dirichlett con parámetros constantes e iguales y cercanos a la unidad), se tienen las siguientes estimaciones posteriores, en las cuales no involucré a los restantes candidatos porque no tuve tiempo de buscar la información.

Candidato

Estimación

Límite inferior

Límite superior

Parody

29%

24%

33%

Peñalosa

33%

28%

38%

Petro

38%

33%

43%

La anterior tabla da un resumen de la distribución posterior de la intención de voto para los anteriores candidatos. De alguna forma u otra, observando con detenimiento los límites de credibilidad, es posible concluir que… cualquier cosa podría pasar. Sin embargo, es claro que la menor opción la tiene Gina Parody. La siguiente figura da cuenta de la distribución posterior para cada candidato y es posible observar que efectivamente hay un empate técnico puesto que hay traslape entre las densidades poblacionales.

Bajo este escenario, la probabilidad posterior de que Gina Parody le gane a Peñalosa es de tan solo 0.126. La probabilidad posterior de que Parody le gane a Petro es aún más baja, 0.011. Por último la probabilidad posterior de que Peñalosa le gane a Petro es de 0.1286.

Por otro lado, acudiendo a la encuesta de Datexco y suponiendo que no se inventaron la mitad de las encuestas (no lo digo yo, lo dicen las denuncias suscitadas acá). Entonces, es posible utilizar esta información para crear un escenario más preciso incluyéndola a manera de información previa informativa. Puesto que, si observó bien en la tabla de estimaciones, existe mucha variabilidad en la distribución posterior y eso explica por qué los intervalos de credibilidad son tan anchos. La información de la encuesta de Datexco dice así: << En tanto, otra encuesta de la firma Datexco también divulgada el viernes y contratada por el diario El Tiempo, ubicó primero a Peñalosa, con 20,9%; segundo a Petro, con 16,4%, y tercera a Parody, con 14,1%. >>

Si asumimos una distribución previa informativa (Dirichlett con parámetros desiguales y relacionados con la intención de voto en la encuesta de Datexco), se tienen las siguientes estimaciones posteriores:

Candidato

Estimación

Límite inferior

Límite superior

Parody

28%

24%

31%

Peñalosa

37%

33%

40%

Petro

35%

31%

38%

Este escenario es un poco más claro, con menos variabilidad, puesto que la distribución posterior ha recogido los efectos de la distribución previa. Sin emabargo, aunque es má claro estadísticamente, no lo es políticamente. Bueno, dependiendo de la filiación política de cada quién. Por lo menos, a mí me parece un mal escenario. Puesto que yo voy a votar por … En fin, esto sea como sea, el siguiente gráfico muestra un panorámica más clara de la intención de voto posterior.

También es posible calcular la probabilidad posterior de que Parody le gane a Peñalosa, ese valor es de 0.00104. Muy pequeño. La probabilidad posterior de que Parody venza a Petro es de 0.00784. Y la probabilidad posterior de que Peñalosa obtenga una victoria sobre Petro es de 0.72. Bueno, como dicen por ahí, la verdadera encuesta es el día de las elecciones. Bla, bla, bla… Por supuesto, si salen más encuestas, haré más predicciones chimbas. No con el fin de predecir nada, sino con el de realizar un análisis de sensibilidad sobre las propuestas en las distribuciones previas. Estén sintonizados con el blog ese día de las elecciones. Con cada reporte de la registraduría estaré realizando una nueva estimación. Esto con el fin de cotejar el poder del enfoque bayesiano que permitiría proclamar al ganador con antelación al conteo total.

Por otro lado, quisiera saber cuál es la técnica súper avanzada para afirmar que hay un empate técnico. Dicen los gerentes de las encuestadoras que hay un empate técnico entre Peñalosa y Petro. Esta conclusión la realizan al sumar y restar el error de muestreo a las estimaciones puntuales. Pero bueno, desde mi humilde punto de vista, creo que falta multiplicar el error estándar (si es que es el error del que se está hablando) por un percentil relacionado con una distribución que dé cuenta del modelo probabilístico detrás del cálculo. Ahora, ese error de muestreo ¿qué es? ¿Cómo es posible hablar de error de muestreo cuando no hay ningún muestreo por detrás? Yo conozco las respuestas a esas preguntas, pero no creo que los gerentes de esas firmas lo sepan y por tanto el engañador ignorante engaña al más ignorante. Podemos estar haciendo negocios sucios… En fin, para no dejarlos preocupados, sí es posible hablar de error incluso cuando no hay ningún muestreo probabilístico. ¿Los dejé peor de asustados?

Por último… 1) Piense su voto… no se deje influenciar por propuestas populistas que ya mucho daño le hicieron a la ciudad. 2) Ayude a pensar en cómo hacemos para enseñarles a los ignorantes colombianos, en materia de estadística, cómo se interpreta un error y con qué cuidado se deberían interpretar estos resultados electorales. Mire que los ignorantes son muchos y que si lográramos permear los medios de comunicación con este mensaje, le haríamos un bien al pueblo a la hora de elegir. Además muchos se interesarían más por la estadística.

Estadística en los estrados judiciales

Ya en otra ocasión había advertido de la excelente labor que realizó el Colombiano Daniel Guzmán al testificar en un juicio en contra de algunos oficiales de la Policía Nacional de Guatemala por la desaparición de Edgar García, un líder estudiantil. El resultado de esta influyente declaración de Daniel, fue una pena máxima de 40 años de cárcel contra los agentes involucrados. Pues bien, fue muy grato para mí saber que la revista CHANCE ha publicado en su último número un vasto artículo escrito por Daniel en el que relata con pelos y señales cómo fue todo el proceso. Realmente vale la pena leerlo porque la forma en que lo escribe Daniel hace que la lectura sea muy entretenida. Felicitaciones a Daniel y esperemos que sus técnicas estadísticas sirvan algún día para esclarecer las actividades delictivas que han suscitado miles de desapariciones en Colombia. Esto lo digo a título personal, porque mi familia y yo hemos sido víctimas de este insuceso y por supuesto, entenderán mi emoción al saber que hay personas cercanas por ahí, trabajando e influyendo en los estrados judiciales para evitar la impunidad. Y lo mejor de todo el armamento y la munición estadística de Daniel fue el muestreo. Claro, no faltan los jueces que impiden que la ciencia tenga lugar en las decisiones judiciales.

Lo anterior lo digo porque hace pocos días un juez inglés tumbó la regla de Bayes como evidencia en cualquier clase de juicio criminal. Así es, se trata de un juicio por asesinato en el que el presunto asesino habría dejado en la escena del crimen las huellas de sus tennis Nike, que coincidencialmente eran idénticas a un par encontradas en su casa (la casa del sindicado). El teorema de Bayes habría entrado en acción al intentar calcular la probabilidad de coincidencia de las huellas con los tennis del acusado. Para esto, es necesario tener certeza acercad del número de existencias de esta clase específica de tennis. Como el abogado no pudo demostrar por qué se usan estimaciones gruesas en los cálculos, entonces el juez decidió no tener en cuenta al teorema de Bayes como evidencia contra el presunto asesino. Más aún, ordeno que para cualquier caso de estas características criminales en el Reino Unido, el teorema de Bayes no deberá ser tenido en cuenta. Y pues bien, tumbaron a Bayes.

Eso me hace pensar que aquellos que quieren tomarse un tinto y tumbar el muestreo posiblemente lo logren… Nooo, qué va, con tipos tan duros como Daniel y el reconocimiento que ha tenido les va a quedar muy difícil !!!

Y ahora con qué ganas… (Datexco denunciado)

Lonely Party Girl with Balloon

¿Ahora con qué ganas voy a hacer el análisis bayesiano electoral con las últimas denuncias que se han suscrito a la encuestadora Datexco? En mis pocos años de vida, no he sabido de otra empresa tan cuestionada en el ámbito de las encuestas como Datexco (no es la primera vez que se rumora de sus malas prácticas). Yo no sé si sea cierto ese rumor, pero lo que sí sé es Datexco debería aclarar su situación. El presidente de esta firma en respuesta a las declaraciones de sus antiguos gerentes ha expresado su inconformidad y ha salido, como en su momento hizo el ex-alcalde Samuel Moreno (hoy en prisión preventiva), con un comunicado de prensa que señala que va a tomar acciones penales contra los ex-empleados de su compañía.

Sea que los ex-empleados de Datexco estén o no calumniando a esta empresa, su presidente – además de salir con amenazas de denuncias – debería aclarar la situación.

En fin, qué mal que esto pase. Yo doy fe de que muchas encuestadoras en Colombia hacen muy bien su trabajo. Son firmas que se esfuerzan en conseguir las entrevistas y que tienen muchos filtros de supervisión para que haya total transparencia en la recolección de la información. Incluso, aunque tal vez algunos de mis lectores no lo sepan, muchas firmas encuestadoras tienen procesos de selección probabilística (sí, con base en un diseño de muestreo) muy bien estructurado. Lo sé de primera mano pues yo audito y califico algunos procesos que llegan en forma de licitación.

Análisis estadísticos aplicados a la genética en la producción animal

Exactamente eso… una conversación amena con un investigador en genética animal.

Andrés Gutiérrez & Ricardo Camacho - Análisis estadísticos aplicados a la genética en la producción animal

Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)

Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto. 

Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un copyright y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.

Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. El ejercicio es meramente académico y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.

El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.

En esta primera entrada, desarrollaremos un análisis básico con base en una primera encuesta realizada del 12 al 14 de Agosto por la firma Ipsos – Napoleón Franco, en donde según el portal WEB de la revista Semana se afirma que:

<<Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%>>.

Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis.

Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el portal WEB de ElTiempo.com afirma que:

<<Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%>>.

Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.

Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:

Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, aunque sea muy difícil, suponiendo que los datos son válidos, es de 0.97.

PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.

PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.

PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.

TEAM


Contenido (clic acá)

Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Obtenga una visualización del texto acá (Google books)

Compre el libro acá (Librería de la U)

Compre el libro acá (Lemoine editores)

Compre el libro acá (Librería Nacional)


Puntos de venta:

Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)

Videos divertidos del Statistical Planet

El Grupo de conocimiento público de la American Statistical Association (ASA) realizó un concurso de videos llamado “promoción de la práctica y profesión de la Estadística”. A continuación el video más bayesiano.

Este es un video en el que el cantante no se explica cómo es la situación de dos personas que estadísticamente comen un pollo, pero en la realidad uno de ellos comió dos pollos, mientras que el otro no comió nada.

Y este es un video que bien podría ser el cabezote de un infomercial.

Hay muchos otros videos divertidos (y otros no tanto) acá.

Comunicaciones en Estadística Volumen 4 No. 1

 

http://comunicacionesenestadistica.usta.edu.co/

En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.

Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.

Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.

El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.

Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.

Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.

Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.

Bradley Efron sobre genes y micro-arreglos… Inferencia a gran escala (Parte 2)

Algoritmos para chequear la significión estadística


El tercer capítulo del libro de BE empieza abordando el tema de las pruebas de hipótesis que se realizan simultáneamente. El autor hace una reseña del libro Simultaneous Statistical inference, escrito por Rupert Miller en 1966, y concluye que este gran aporte, que es en esencia de tipo frecuentista, se enfoca en el control del error tipo I y se enfoca en situaciones de comparaciones múltiples para situaciones de casos entre dos y diez. Por supuesto, con los avances científicos, ahora se tiene que considerar comparaciones múltiples con muchos más individuos. Con base en lo anterior, este capítulo, a manera de repaso obligatorio, aborda algunos algoritmos que se utilizan para controlar el error tipo I.

Antes de empezar el recuento de los procedimientos de comparaciones múltiples, el autor discute el uso y abuso de los valores p, que suponen un lenguaje universal para las pruebas de hipótesis estadísticas. Análogamente, plantea su similitud con los valores z, que se definen como la función inversa de la función de distribución de una normal estándar, evaluada en la realización del valor p. Algunas caracterizaciones de los procedimientos son visibles a simple vista con la realización de un histograma, dado que, bajo la hipótesis nula, los valores p tienen distribución uniforme en el intervalo cero-uno, y los valores z, tienen distribución normal estándar. Por ejemplo, es posible chequear las discrepancias que se presentan entre las barras del histograma y la distribución teórica, como picos o colas pesadas.

Luego, el autor presenta la tasa de error family-wise (FWER, por sus siglas en inglés), definida como la probabilidad de realizar al menos un falso rechazo en una familia de pruebas de hipótesis. Un procedimiento de control FWER es un algoritmo que, al ingresar una familia de valores p, arroja una lista de hipótesis nulas aceptadas y rechazadas, sujeta a que la FWER sea menor o igual al error tipo I.

Los límites de Bonferroni son un claro ejemplo de un algoritmo de control, el cual no requiere del supuesto de independencia entre los valores p. El procedimiento de Sidák presenta mejores resultados que los límites de Bonferroni, pero supone independencia. El procedimiento de Holm presenta un mejor desempeño, puesto que sus regiones de rechazo son más grandes. Luego, el autor introduce los algoritmos paso a paso y los algoritmos basados en permutaciones.

Bradley Efron sobre genes y micro-arreglos… Inferencia a gran escala (Parte 1)

Hace unas semanas el Journal of Official Statistics me envió el último libro de Bradley Efron (BE), Large-Scale Inference, para hacerle una reseña. A parte de que es una gran dignidad hacerle una reseña a este autor, inventor del Bootstrap y el único estadístico ganador de la Medalla Nacional de las Ciencias (el más grande honor científico en los Estados Unidos), voy a dedicar un par de entradas para abarcar este tema que es realmente apasionante y concluir con la reseña. La idea es que con sus comentarios se enriquezca la reseña.

En primer lugar, algo realmente digno de mencionar es la diferenciación que hace BE acerca de la historia de la estadística como una disciplina reconocida:

  1. La era de Quetelet y sus sucesores, en la cual se utilizaron enormes conjuntos de datos, provenientes de censos, para resolver preguntas simples pero muy importantes: ¿nacen más mujeres que hombres? ¿La tasa de mortalidad de los niños está aumentando?
  2. El periodo clásico de Pearson, Neyman, Fisher y Hotelling, gigantes intelectuales que desarrollaron una teoría de inferencia estadística tan buena que es capaz de sacar hasta la última gota de información en experimentos científicos. Las preguntas en este periodo seguían siendo simples: ¿El tratamiento A es mejor que el tratamiento B? Sin embargo, estas nuevas metodologías están supeditadas a los pequeños conjuntos de datos que los investigadores pudiesen recolectar.
  3. La era de la producción científica masiva, en donde las nuevas tecnologías, tipificadas por los micro-arreglos, que permiten la producción de datos de un tamaño que el propio Quetelet envidiaría. Esta era está acompañada por muchísimas preguntas y quizás miles de estimaciones y pruebas de hipótesis que el estadístico debe resolver. Definitivamente, no es la clase de trabajo que el estadístico clásico tenía en mente.

Abordando el problema

Los dos primeros capítulos del libro tratan el problema general. Cuando se tiene una gran masa de datos, el enfoque que se debe utilizar es multivariante. De manera tradicional, el enfoque más utilizado es el de máxima verosimilitud. Sin embargo, que sea el más utilizado no implica que sea el correcto. BE cita el trabajo de Stein en 1955 que conmovió las bases de la estadística con un resultado que asegura que, para dimensiones mayores a dos, el estimador de máxima verosimilitud puede ser mejorado en términos del error cuadrático total esperado. Más adelante, Stein desarrolló junto con James un estimador basado en la metodología de Bayes empírico, que domina al estimador de máxima verosimilitud, para cualquier escogencia de distribución previa. Aunque el estimador de James-Stain sea mejor, lo cierto es que para algunas circunstancias subestima al parámetro de interés, razón por la cual es a veces preferido el uso del estimador de máxima verosimilitud. El primer capítulo, así como a lo largo de todo el texto, hace énfasis en el desarrollo de problemas, teóricos y prácticos, que contextualizan la lectura.

Micro-arreglos

Mediante un ejemplo de micro- arreglos, el segundo capítulo aborda la problemática de las pruebas de hipótesis para grandes masas de datos. Este ejemplo, enmarcado en un estudio de cáncer de próstata, mide los niveles de expresión para 6033 genes en 102 pacientes, 50 controles y 52 tratamientos. De esta manera, se establece una matriz de dimensión 6033 X 102, con entradas x_ij, concernientes al nivel de expresión del gen i en el paciente j. El interés está en conocer si algún gen hace diferencia en el desarrollo de cáncer de próstata, entre controles y tratamientos. Para esto, la estadística clásica recomendaría el uso de la prueba t para cada uno de los 6033 genes, para probar la hipótesis nula Ho: el gen es nulo. Bajo los supuestos clásicos de muestreo de una distribución normal, la estadística de prueba normalizada tendrá distribución normal estándar. Suponiendo que la expresión genética es independiente para cada gen, entonces un histograma de los 6033 valores de las estadísticas de prueba, y basado en la hipótesis nula, debería ajustar a una curva de densidad normal estándar. Las barras que no ajustan indican sospecha de la no nulidad del gen.

El enfoque frecuentista a este tipo de problemas está basado en el uso de los límites de Bonferroni, al ajustar el valor crítico de 0.05 a 0.05/6033. Sin embargo, este acercamiento subestima el número total de genes no nulos. Por otra parte, al proponer distribuciones previas para la probabilidad de que el gen sea nulo y para la probabilidad de que el gen sea no-nulo, se crea un enfoque Bayesiano, al suponer una verosimilitud para los datos, que permite además permite estimar la tasa de descubrimientos falsos.

Respuestas al manifiesto

Algún lector anónimo escribe lo siguiente:

Andrés,

Para impulsar estas ideas, hay que empezar por el principio.

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.

¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

Saludes!

Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?

Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?

 

No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.

¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

 

No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.

 

¿Para quién va dirigido el Workshop que hace la USTA?

 

Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.

 

Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.

 

Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.

 

No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

 

¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.

Manifiesto: quiero ser cabeza de ratón

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:

  1. Impulsar la creación de la Asociación Colombiana de Estadísticos.
  2. Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
  3. Promover la institucionalización de la tarjeta profesional para los estadísticos.
  4. Motivar la creación de un programa de posgrado en metodología de encuestas.
  5. Posicionar la Revista Comunicaciones en Estadística.
  6. Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
  7. Crear una editorial de libros de texto en estadística.

Y lo más ambicioso y controvertido:

8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.

Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.

Soy parte de los 300mil

Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.

¡¡¡Una vez más gracias!!!

 

See ya in da beach !!!

Bueno pues… este año la cita fue en Bogotá con el Workshop Bayesiano… ahora, nos vamos para las meetings 2011 en Miami… Ya se de 3 colombianos que van a ir… déjenme saber quién más piensa asistir para atenderlos como es debido allá en los miamis… Nos vemos allá parce !!!

 

We are pleased to inform you that your presentation (Abstract #301744, Hierarchical Design-Based Estimation in Stratified Multipurpose Surveys) has been accepted and is scheduled in Session # 413 on Tuesday, 8/2/2011 beginning at 2:00 PM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

We are pleased to inform you that your presentation (Abstract #301743, Student Paper Competitions) has been accepted and is scheduled in Session # 459 on Wednesday, 8/3/2011 beginning at 8:30 AM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel

Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.

Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadística

WinBugs en Excel

Todos aquellos que hemos trabajado con modelos bayesianos nos hemos enfrentado con la ardua tarea de programar métodos MCMC para realizar inferencias de coeficientes de regresión o parámetros de itnerés. Para esto, una gran parte de nosotros ha encontrado en WinBugs una herramienta eficiente. Pues bien, Phil Woodward ha hecho que este proceso sea aún más intuitivo y ha creado una adición a Excel que permite trabajar con la interface de WinBugs en el ambiente de Excel, se trata de BugsXLA. Al parecer, funciona bajo sistemas operativos más avanzados a Windows 98 y versiones de Excel superiores a la 2000. Acá se puede encontrar un ejemplo de BugsXLA ajustando una regresión logística.



Introduction to Applied Bayesian Statistics and Estimation for Social Scientists (descarga gratis)

Scott M. Lynch y Springer han puesto en la WEB este libro de 2007 que es muy interesante para los investigadores en ciencias sociales.

Consultorio estadístico para Hispanoamérica



 

Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.

Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.

PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.

Bayesian Model Averaging (BMA) para Marco & Lucy

Hoeting et. al. (1999) afirma que la práctica habitual de la estadística hace caso omiso de la incertidumbre de los modelos. Los estadísticos suelen seleccionar un modelo de alguna familia de modelos y luego proceden como si el modelo elegido hubiese generado esos datos. Este enfoque hace caso omiso de la incertidumbre en la selección del modelo, dando lugar a inferencias muy confiadas y a la toma de decisiones más riesgosas de lo que uno pensaría.

Un promedio de modelos Bayesianos (BMA, por sus siglas en inglés) proporciona un mecanismo coherente para dar cuenta de la incertidumbre de los modelos. Existen varios métodos de aplicación del BMA que han surgido recientemente y en esta entrada voy a utilizar la información del archivo de datos principal del paquete TeachingSampling para explicar paso a paso la adecuación de esta metodología que arroja coeficientes de regresión que resultan ser un promedio de los coeficientes de cada posible modelo. Más aún, se trata de un promedio ponderado por la respectiva probabilidad a posteriori de cada modelo.

Siguiendo la regla de Bayes, la probabilidad a posteriori de cada modelo (PMP, por sus siglas en inglés) resulta ser proporcional a la verosimilitud marginal del modelo (la probabilidad de los datos dado el modelo) multiplicado por la distribución previa del modelo. En muchas ocasiones, la distribución previa del modelo se asume tipo g-Zelnner, que es una distribución normal con media nula y varianza dependiendo de un hiperparámetro de incertidumbre g. Un valor pequeño de g implica un gran conocimiento previo de que los coeficientes del modelo son nulos, y un valor grande para g implica que el investigador no está muy seguro de que los coeficientes del modelo sean cero.

Con base en el anterior razonamiento, se utilizará la base de datos Lucy para ilustrar el ajuste de un promedio de modelos bayesianos. En primer lugar, cargamos la librería TeachingSampling para poder acceder a los daros y también la librería BMS para realizar el ajuste de los modelos. La base de datos la constituyen 2396 empresas del sector industrial, la variable de interés es el número de empleados de cada empresa y las variables regresoras son el total de impuestos declarados, el total de ingresos, el nivel de industrialización, la zona de ubicación y el tipo de publicidad en el último año fiscal.

> library(TeachingSampling)
> library(BMS)
> data(Lucy)
> databma <- data.frame(Emp=Lucy$Employees, Tax=Lucy$Taxes, Inc=Lucy$Income,
+ Lev=as.double(Lucy$Level), Zon=as.double(Lucy$Zone), Spa=as.double(Lucy$SPAM))

Para ajustar los modelos, se utiliza la función bms de la librería BMS. Esta función ajusta todos los 2^k posibles modelos (siendo k el número total de variables regresoras), computa todas las PMPs, calcula todos los coeficientes de regresión en cada uno de esos modelos, y al final promedia estos coeficientes utilizando como ponderador las PMPs. Una característica importante en esta función es que la primera columna del archivo de datos debe ser la variable de interés.

> Lucybma <- bms(databma, burn=100000, iter=200000, g="BRIC", mprior="uniform", mcmc="bd", user.int=T)

La función coef arroja las probabilidades de inclusión posteriores (PIP) de cada variable en los modelos, la media posterior de cada coeficiente de regresión (la misma estimación bayesiana) y el error estándar posterior. Cada PIP se calcula como la suma de las PMPs para cada modelo en donde esa covariable fue incluida. Por ejemplo, para Lucy, la variable más importante es Tax, la cual tiene probabilidad de inclusión igual a uno pues fue incluida en todos los posibles modelos. Luego le sigue la variable Inc, con probabilidad de inclusión 0.99, y luego la variable Lev, con probabilidad de inclusión 0.89. Para estas variables, la estimación bayesiana de sus respectivos coeficientes de regresión son 0.66, 0.03 y -5.63, respectivamente.

> coef(Lucybma, std.coefs = T, include.constant = T)
                 PIP     Post Mean     Post SD Cond.Pos.Sign Idx
Tax         1.000000  3.486176e-01 0.038496653             1   1
Inc         0.999785  2.437994e-01 0.054688020             1   2
Lev         0.896795 -9.475564e-02 0.043172340             0   3
Spa         0.054590 -1.203361e-03 0.006156046             0   5
Zon         0.020045 -9.232616e-05 0.002313997             0   4
(Intercept) 1.000000  1.747969e+00          NA            NA   0

La función topmodels.bma arroja una matriz de unos y ceros, donde las columnas representan el modelo ajustado y las filas las variables regresoras. Las entradas de esta matriz son uno, si la variable regresora fue incluida en el modelo, y cero, en otro caso. En las últimas filas, se presentan las PMP. Para este caso, el mejor modelo, con una probabilidad a posteriori de 0.82, es el que incluye las variables regresoras Tax, Inc y Lev.

> topmodels.bma(Lucybma) ## Mejores modelos según la PMP
                   1c         18         1d        1e          19          1a
Tax         1.0000000 1.00000000 1.00000000 1.0000000 1.000000000 1.000000000
Inc         1.0000000 1.00000000 1.00000000 1.0000000 1.000000000 1.000000000
Lev         1.0000000 0.00000000 1.00000000 1.0000000 0.000000000 0.000000000
Zon         0.0000000 0.00000000 0.00000000 1.0000000 0.000000000 1.000000000
Spa         0.0000000 0.00000000 1.00000000 0.0000000 1.000000000 0.000000000
PMP (Exact) 0.8277914 0.09783366 0.04749275 0.0177992 0.005750708 0.002000072
PMP (MCMC)  0.8301100 0.09601000 0.04824500 0.0173450 0.005375000 0.001760000
                     1f           14           1b           15
Tax         1.000000000 1.0000000000 1.0000000000 1.000000e+00
Inc         1.000000000 0.0000000000 1.0000000000 0.000000e+00
Lev         1.000000000 1.0000000000 0.0000000000 1.000000e+00
Zon         1.000000000 0.0000000000 1.0000000000 0.000000e+00
Spa         1.000000000 0.0000000000 1.0000000000 1.000000e+00
PMP (Exact) 0.001015727 0.0001877044 0.0001174979 1.129789e-05
PMP (MCMC)  0.000885000 0.0001850000 0.0000600000 3.000000e-05

La función plot.Conv grafica las distribuciones previa y posterior para los tamaños (número de variables incluidas) en el modelo. Para nuestro ejemplo, la distribución previa daba mayor probabilidad a los modelos que incluían dos o tres variables regresoras, mientras que la distribución posterior da mayor peso a los modelos de tres variables regresoras.

> plotConv(Lucybma)

La función beta.draws.bma da como resultado los coeficientes de regresión para todos los modelos. Nótese que promediando estos valores, con su respectiva ponderación, se tiene la estimación bayesiana posterior del promedio de modelos dada por la segunda columna de la función coef.

> beta.draws.bma(Lucybma[1:5])  ## Los coeficientes de los 5 mejores modelos
             1c         18          1d          1e         19
Tax  0.66206081 0.65436602  0.66466816  0.66017039  0.6570294
Inc  0.02883466 0.04053246  0.02876660  0.02896933  0.0404346
Lev -6.29892336 0.00000000 -6.28361012 -6.34535538  0.0000000
Zon  0.00000000 0.00000000  0.00000000 -0.15891039  0.0000000
Spa  0.00000000 0.00000000 -1.48334674  0.00000000 -1.5043990

La función image arroja una gráfica que incluye cada variable. Si para esta variable el color es blanco, significa que no fue incluida en ese modelo, si el color es rojo, implica que el signo del coeficiente de regresión es negativo, y si el color es azul, significa que el signo del coeficiente de regresión es positivo. Nótese que esta figura está basada en probabilidades acumuladas; así que entre más ancha sean los cuadros, implica que el modelo tiene una mayor PMP.

> image(Lucybma[1:5])

Para tener un acercamiento completo a la distribución posterior de los coeficientes, la función density proyecta una gráfica de la densidad posterior del coeficiente.

> density(Lucybma,"Tax")
> density(Lucybma,"Inc")

 

 

Diferencias entre bayesianos y frecuentistas

Bueno, pues no hay mucho que decir, George Casella así lo ve… una imagen vale más que mil palabras… pero la imagen de arriba se complementa muy bien con esta presentación del propio Casella acerca de las diferencias entre estos dos tipo de estadísticos.

My talk in Bogota (Nonlinear mixed models under the bayesian approach)

En el marco del 2nd International Workshop on applied Satatistics, voy a exponer esta investigación que diserta de cómo ajustar modelos mixtos no-lineales bajo una perspectiva bayesiana.

Todos invitados… entrada libre al workshop bayesiano (sólo por hoy)

Efectivamente, la entrada es libre… sólo tiene que inscribirse acá y pagar una módica suma ( menor o igual a 150mil pesos… eso es estadísticamente insignificante) y podrá entrar libremente al evento y ser partícipe de esta reunión de profesionales y estudiantes de la ciencia estadística. Piénselo bien… la estadística bayesiana es una herramienta fundamental en cuestiones de análisis de la información. Si usted no tiene idea de qué eso de estadística bayesiana puede ingresar al curso de Introducción a la estadística bayesiana, si ya tiene algunas bases sobre la materia puede ingresar al curso de Series de tiempo bayesianas o al curso de Inferencia bayesiana en datos longitudinales.

Si quiere saber más acerca de quiénes son los cursillistas o conferencistas vea acá el nuevo brochure del evento… Todavía está a tiempo; asista y participe que, además de enriquecer sus conocimientos y tomar ventaja profesional, estará apoyando la dinámica de nuestra profesión. No le importe quién es el organizador, sólo piense en que unidos, podemos consolidar un gremio de profesionales con sólidas bases para hacer de la nuestra, una mejor profesión. Participe en este evento, en el Simposio de la Nacional, en la Escuela de Verano en Medellín… Bienvenidos todos los eventos de estadística en Colombia, que desafotunadamente son muy pocos.

Les recuerdo que el Second Workshop on Applied Statistics es organizado por la Facultad de Estadística de la Universidad Santo Tomás, y patrocinado por la International Association of Survey Statisticians, que tendrá lugar desde el 3 de febrero en Bogotá. ¿y usted ya se inscribió?

Estadística en los comics

Oración por la Serenidad (versión Bayesiana)


Querido Bayes,

concédeme la serenidad
de aceptar que los modelos están equivocados;
el valor para limpiar los datos;
y la sabiduría de elegir una distribución a priori.

Actualizando un dato a la vez;
seleccionando muestras de un modelo a la vez;
aceptando las iteraciones como una manera de inferencia;
sonsiderando, como lo hizo Bayes, este mundo incierto
como podría ser, no como me gustaría que fuera.

Siempre en el límite.
Amén.

Tomado de acá.

Programación del Workshop en Estadística Bayesiana (Bogotá – Colombia)

La International Association of Survey Statisticians, junto con la Facultad de Estadística de la Universidad Santo Tomás presentan uno de los eventos más esperados por la comunidad estadística colombiana, el International Workshop on Applied Statistics en su segunda versión. Este evento bienal que tendrá lugar en la sede principal de la Universidad entre el 3 y el 5 de febrero de 2011, abordará como tema principal la Estadística Bayesiana y sus Aplicaciones.

El evento contará con la presencia de reconocidos profesionales de la estadística a nivel internacional, los cuales estarán acompañados de destacados estadísticos nacionales, todos ellos expertos en Estadística Bayesiana, a saber:

  • Raquel Prado – University of California
  • Mike Daniels – University of Florida
  • Eduardo Gutiérrez – Universidad Nacional Autónoma de México
  • Andrés Gutiérrez – Universidad Santo Tomás
  • Fabio Humberto Nieto – Universidad Nacional de Colombia (Sede Bogotá)
  • Jairo Fúquene - University of Puerto Rico
  • Victor López – Universidad Nacional de Colombia (Sede Medellín)

El workshop se caracteriza porque todos los invitados internacionales, además de conferencias, desarrollarán cursillos intensivos (10 horas) sobre temas de punta en la investigación de la estadística aplicada, con lo cual los participantes serán instruidos personalmente por este reconocido equipo estadístico. Los cursos ofrecidos, son:

  • Introducción a la Estadística Bayesiana
  • Modelos e Inferencia Bayesiana en Series Temporales
  • Bayesian Modeling of Missing Data in Longitudinal Studies

La información sobre el programa del seminario, el valor de la inversión, así como el procedimiento de inscripciones, puede encontrarse en la página web: http://www.usta.edu.co/

Los contactos para ampliar la información son:

PROGRAMA

CURSILLO N°1:

Raquel Prado (University of California): Modelos e Inferencia Bayesiana en Series Temporales

CURSILLO N°2:

Mike Daniels (University of Florida): Bayesian modeling of missing data in longitudinal studies

CURSILLO N°3:

Eduardo Gutiérrez (Universidad Nacional Autónoma de México): Introducción a la Estadística Bayesiana

JUEVES 03 DE FEBRERO DE 2011

  • 8:00 – 11:00 am

Cursillos – Día 1 (Salas asignadas)

  • 6:30 – 7:00 pm

Instalación del Evento (Aula Magna Fray Domingo de las Casas)

  • 7:00 – 8:00 pm

Conferencia 1: Time Series Analysis using TAR Models – Fabio Humberto Nieto. Universidad Nacional de Colombia – Sede Bogotá.

  • 8:00 – 8:30 pm Acto Social

VIERNES 04 DE FEBRERO DE 2011

  • 8:00 – 11:00 am

Cursillos – Día 2 (Salas asignadas)

  • 3:00 – 4:00 pm

Ciclo de Comunicaciones

  • 4:00 – 5:00 pm

Conferencia 2: “A Case for Robust Bayesian Priors with Applications to Clinical Trials”- Jairo Fúquene (University of Puerto Rico)

  • 5:00 – 6:00 pm

Conferencia 3: “Modelos doblemente generalizados utilizando técnicas bayesianas”- Andrés Gutiérrez (Universidad Santo Tomás)

  • 6:00 – 6:30 pm

Coffee Break.

  • 6:30 – 7:30 pm

Conferencia 4: “Construcción de distribuciones a partir de variables latentes” – Eduardo Gutiérrez. Universidad Nacional Autónoma de México (UNAM)

  • 7:30 – 8:30 pm

Conferencia 5: “Modelos temporales para detectar fatiga a partir de señales de electroencefalografías” – Raquel Prado. University of California.

SÁBADO 05 DE FEBRERO DE 2011

  • 8:00 – 11:00 am

Cursillos – Día 3 (Salas asignadas)

  • 2:00 – 2:45 pm

Conferencia 6: “Teoría de diseños óptimos Bajo una perspectiva Bayesiana” – Víctor López. Universidad de Nacional de Colombia- Sede Medellín

  • 2:45 – 3:30 pm

Conferencia 7: “A Bayesian Shrinkage Model for Incomplete Longitudinal Binary Data with Application to the Breast Cancer Prevention Trial” – Mike Daniels. University of Florida

  • 3:30 – 4:30 pm

Panel de Clausura – ¿Llegó la era de la estadística bayesiana?

Raquel Prado (University of California), Mike Daniels (University of Florida) & Eduardo Gutiérrez (Universidad Nacional Autónoma de México).

Moderador: Andrés Gutiérrez – Universidad Santo Tomás

  • 4:30 – 5:00 pm

Evento Social – Cierre

Declaración sobre Ética Profesional del Instituto Internacional de Estadística

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.

Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden
enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión. La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.

La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:

• de la sociedad,
• de empleadores, clientes y financiadores,
• de colegas,
• de los grupos a los que se aplica su trabajo.

En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.

La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.  La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.

En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)

Comunicaciones en Estadística Volumen 3 No. 2

Comunicaciones en estadística Vol. 1 No. 1

En este quinto número consecutivo de la revista Comunicaciones en Estadísti­ca nos encontramos frente a un cisma generado por la globalización del conoci­miento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una inicia­tiva de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los insti­tutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.

En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacio­nal, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este pro­cedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.

El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la iden­tificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de co­varianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.

Jiménez propone en su trabajo una nueva función de densidad simétrica que pue­de ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena al­ternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.

En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyen­tes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.

Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.

Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febre­ro de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el partici­pante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Apli­cadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el In­ternational Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.

Desde la Facultad de Estadística de la Universidad Santo Tomás les agradece­mos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.

Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)

Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)

Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.

En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.

Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.

En la página de Colombia es pasión, es posible leer lo siguiente:

Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.

Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:

… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…

En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.

Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.

En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.

Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.

En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:

En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.

Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.

En materia de estabilidad social

Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país

En materia de compromiso estatal

La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.

En materia de buen gobierno por la gente

Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.

En materia de seguridad

El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios

Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.

Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis


La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:

Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…

Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.

Entre los invitados nacionales están:

  • Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
  • Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá

Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.

  1. Estudiantes de pregrado: 100 mil pesos
  2. Profesionales: 150 mil pesos
  3. Participantes con poster o ponencia aprobada: 100 mil

La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:

heivarrodriguez@usantotomas.edu.co

Estadística pragmática

En este estupendo artículo, Robert Kass afirma que las marcadas diferencias entre las corrientes bayesiana y frecuentista han socavado – más que ayudado – al aprendizaje de la ciencia estadística. El frecuentista critica al bayesiano porque realiza inferencias subjetivas al escoger la distribución a priori de los parámetros de interés; el bayesiano critica al frecuentista porque la interpretación de confianza y significación sólo tiene sentido cuando se tiene en cuenta un número grande de experimentos controlados: por ejemplo, un intervalo de confianza del 95% se interpreta como que al calcular ese mismo intervalo 100 veces en muestras aleatorias, entonces 95 intervalos contendrán al parámetro de interés.

La verdad es que en la vida real, estos conceptos bayesianos o frecuentistas son de vital importancia y han ayudado a resolver cientos de miles de problemas de investigación. Por esto, Kass afirma que los estadísticos prácticos modernos deben tener una mente abierta para apreciar el papel que juegan los supuestos teóricos y no para recitar correctamente la interpretación de un intervalo de confianza. Así que, Kass hace un llamado para entrar en una especie de filosofía moderna que él llama, pragmatismo estadístico y que se basa en los siguientes puntos:

  1. Los intervalos de confianza, la significación estadística y la probabilidad a posteriori son todas herramientas inferenciales valiosas.
  2. Las situaciones de azar simple pueden suplir las intuiciones básicas acerca de la probabilidad de un evento.
  3. Las frecuencias de largo plazo son importantes matemáticamente, tienen sentido interpretativo y pedagógico, sin embargo, es posible la asignación de probabilidades a eventos únicos: por ejemplo, que en un intervalo de confianza esté el parámetro de interés.
  4. La interpretación subjetiva de la probabilidad a posteriori es importante para entender la inferencia bayesiana, pero no es fundamental en su uso.
  5. Las inferencias estadísticas de todo tipo usan modelos estadísticos que requieren supuestos: las variables aleatorias, los intervalos de confianza y las probabilidades a posteriori viven en el mundo irreal de la teoría y se usan para concluir acerca del comportamiento de los datos reales.

El docente avezado debe tener en cuenta que el mundo real está constituido por los datos recolectados y que el mundo fantástico, muy útil y matemáticamente fundamentado pero en últimas irreal, está ligado a modelos probabilísticos de los cuales se extrae una muestra aleatoria para realizar inferencias acerca de uno o varios parámetros que definen el comportamiento estructural de un modelo supuesto. De esta manera, por ejemplo, en el mundo real se tiene acceso al promedio muestral de un conjunto de datos; en el mundo irreal, se tiene un estimador llamado, equis barra, que no denota una cantidad fija sino una variable aleatoria.

Modelamiento conjunto de media y varianza

Piense en esto: usted está tratando de relacionar unas covariables X con la variable de interés Y; para esto, es natural pensar en un modelo lineal que permita esta relación mediante una combinación lineal de covariables y parámetros de regresión. Sin embargo, uno de los supuestos del modelo lineal afirma que todas las observaciones tienen diferente media dada por X’beta pero igual varianza (homoscedásticidad). Cuando no se tiene el supuesto de igualdad de varianzas, a veces, es necesario recurrir a transformaciones (como Box-Cox) que permitan paliar este incoveniente. Pero en algunas situaciones no es plausible asumir transformaciones y se necesita modelar la varianza de cada Y_i. En el siguiente enlace encontrará una introducción a la modelación bayesiana de media y varianza simultáneamente. El documento está basado en el artículo publicado en diciembre de 2000 por Cepeda y Gamerman en el Brazilian Journal of Probability and Statistics titulado Bayesian Modeling of Variance Heterogeneity in Normal Regression Models.

PD: La simulación mostrada fue programada en R utilizando el siguiente código computacional.

Nuevo portal WEB de la Revista Comunicaciones en Estadística

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.

http://comunicacionesenestadistica.usta.edu.co

La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.

La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:

  • Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
  • Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
  • Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
  • Una revisión de los modelos de volatilidad estocástica.
  • Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.

Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a

revistaestadistica@usantotomas.edu.co

Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.

Confidence and Credibility Intervals for the Difference of Two Proportions

My article about confidence and credibility intervals published in REVCOLES… if you are performing some test about proportions, this article could be of interest for you. You can read it by clicking here.

<<This paper presents a frequentist comparison of the performance of confidence and credibility intervals for the difference of two proportions from two independent samples. The comparison is carried out considering three frequentist criteria. It was found that the intervals with the best performance, in terms of coverage probability, are Bayesians; in terms of expected length and variance of the length, the Newcombe interval shows the best performance. As a final remark, it was found that traditional intervals such as the Wald and adjusted Wald have a poor performance.>>

Intervalos de confianza y de credibilidad para la diferencia de dos proporciones

Mi artículo sobre intervalos de confianza y credibilidad publicado en REVCOLES… Si usted está realizando alguna prueba acerca de proporciones, este artículo podría ser de interés para usted. Puede leerlo haciendo clic aquí.

<<Este artículo presenta una comparación del comportamiento de intervalos de confianza frecuentistas y de credibilidad bayesianos para la diferencia de dos proporciones provenientes de muestras aleatorias independientes. La comparación se lleva cabo considerando tres criterios frecuentistas con los cuales se concluyó que el mejor comportamiento, en términos de la probabilidad de cobertura, lo tienen los intervalos bayesianos, y en términos de la longitud esperada y varianza de la longitud el mejor comportamiento está dado por el intervalo frecuentista de Newcombe. Como resultado de esta investigación se encontró que los intervalos frecuentistas más populares como Wald y Wald ajustado tienen un comportamiento deficiente.>>

Convergencia e inferencia en métodos MCMC

En este documento inédito del Handbook of Markov Chain Monte Carlo, Andrew Gelman y Kenneth Shirley resumen la manera de realizar inferencia estadística mediante simulación y diagnosticar la convergencia de las cadenas. Gelman tiene la capacidad envidiable de escribir claro y entretener al mismo tiempo. En un área tan compleja como los métodos MCMC, esta lectura es sencilla, agradable, clara y no utiliza ninguna fórmula matemática compleja.

En general, al construir un algoritmo que genere valores de una cadena de Markov ellos recomiendan lo siguiente:

  1. Simular tres o más cadenas de forma paralela. Los valores iniciales de cada cadena deben estar dispersos entre sí.
  2. Comprobar la convergencia de la cadena descartando la primera mitad de los valores generados en cada cadena. Esta etapa se conoce como burning stage.
  3. Cuando las cadenas converjan, mezclar los tres conjuntos de valores generados por las cadenas. Esto garantiza, en primera instancia, que las cadenas no estén auto-correlacionadas.
  4. Además de realizar esta mezcla, es siempre recomendable descartar valores intermedios. Esta etapa se conoce como thining stage. Al final se recomienda almacenar sólo 1000 valores simulados; sin embargo, este proceso depende del contexto y del problema de inferencia.
  5. Calibrar el algoritmo de muestreo si la convergencia no se presenta rápidamente. Por ejemplo, en un algoritmo de Metropolis-Hastings, escoger una distribución jumping más acorde con la distribución de la cual se desea simular. En inferencia bayesiana lo anterior se traduciría en calibrar la distribución jumping para que su forma estructural sea más parecida a la distribución a posteriori.
  6. Con base en lo anterior, es bueno comparar y contrastar los resultados con modelos simples que permitan examinar posibles discrepancias y corregir posibles errores de programación.

En términos de inferencia, el documento aclara que, aunque la tarea más común en estadística bayesiana (una de las corrientes más directamente beneficiada de los métodos MCMC) es realizar inferencias acerca de un parámetro theta, también es posible realizar cálculos acerca de los momentos del parámetro. Por ejemplo su esperanza. Estas dos opciones tienen tratamientos muy diferentes en términos de la cantidad de simulaciones requeridas para inferir. Por ejemplo, si el objetivo es inferir acerca de theta, basta con unas cuantas simulaciones que se resumen en un promedio y una desviación estándar. Por otro lado, si el objetivo es inferir acerca de E(theta), se requieren más simulaciones para obtener una precisión deseada. Además, Gelman recomienda que, una vez terminado el proceso de burning y thining, se dividan los valores en k grupos y una estimación de E(theta) será la gran media de las medias muestrales de cada grupo y el error estándar será la desviación estándar dividida en sqrt{k}.

Simulación de observaciones II

En algunas entradas anteriores (ver acá yacá) se discutía un método que, a pesar de ser muy antiguo, es muy efectivo a la hora de simular observaciones de cualquier distribución con o sin forma conocida. Asumo que este método es enseñado a los alumnos de estadística en los cursos de computación o simulación estadística. A decir verdad, yo tomé ese curso en mi pregrado en estadística (hace no más de cinco años) y jamás me topé con algún ejercicio como este… Seguramente las cosas se han replanteado y se le ha dado a ese curso la verdadera importacia que merece mediante la actualización de sus contenidos.

En este orden de ideas, y teniendo en cuenta que tanto la práctica como la investigación teórica en estadística están tomando un matiz bayesiano, este tipo de cursos computacionales debe ser uno de los más importantes. Ahora, yo sé (y lo digo porque he sido parte activa del comité curricular del pregrado en estadística en la universidad donde laboro) que replantear estos contenidos no es tarea fácil… pero no es imposible. Sencillamente, además de las destrezas matemáticas, el estadístico moderno (bayesiano o frecuentista) debe tener cierto tipo de habilidades computacionales si quiere tener éxito en su vida práctica profesional.

En fin, escribiendo la sección de métodos bayesianos jerárquicos en el modelo de Poisson con aprioris gamma, me encontré con otra linda distribución. Su forma funcional se presenta a continuación:

p(\alpha \mid \theta_i, \beta, \mathbf{Y}) \propto \prod_{i=1}^n \frac{\theta_i^{\alpha-1}}{\Gamma(\alpha)}\alpha^{a-1}\exp\{-\alpha b\}

Lamentablemente, ni R ni Winbugs la tiene implementada. La solución:el método de la grilla. Esta sencilla técnica una vez más nos saca del problema de la simulación de observaciones bajo cualquier distribución. Además es posible conocer la forma estructural que toma la densidad de probabilidad (ver imagen), y saber que aunque se trata de una forma conocida. En este sencillo documento se encuentra tanto la teoría como el código computacional en R para la simulación de observaciones de esta linda distribución.

Abordando a Bayes

Francisco escribe:

Soy un estudiante erasmus de España que está en Gante, Bélgica. En estos momentos estoy haciendo mi master thesis sobre computer vision. Nunca pense que esto iba a estar tan ligado a la estadística. Mis conocimientos de ésta son pocos, aunque voy conociendo un poco mejor este mundo.

Por ejemplo, estoy intentando implementar un sistema de multiple hipotesis (Multitarget tracking) que consiste en tener una serie de hipótesis almacenadas con sus respectivos estados a la vez que voy obteniendo datos y en cuanto a eso hacer una eleccion de a que hipótesis pertenece un nuevo estado; y claro necesito una base de estadística y de probabilidad bayesiana importante.

La cuestion era si podrias recomendarme alguna pagina, libro,… que me facilitara el familiarizarme con el tema y entender este complejo mundo.

My reply:

Es increíble cómo la estadística se viene convirtiendo en una herramienta indispensable para la investigación acutal en los diferentes campos del saber… Ya lo decía el visionario H. G. Wells en la frase que motivó este blog:

Llegará el día en que el pensamiento estadístico se ra una caondición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir.

Aún más increíble es el lugar que está tomando la estadística bayesiana en la investigación interdisciplinaria actual. Ya lo diría el famoso analista político y estadístico Andrew Gelman:

En estos días es posible ser no bayesiano [frecuentista], pero ser anti-bayesiano ya no es una opción.

Los días en que se tildaba al bayesiano de hereje ya han quedado atrás… Más bien, el pensamiento estadístico actual está virando cada vez más en la dirección bayesiana, como bien lo ejemplifica el caso de Francisco. Por otro lado, no existen probabilidades bayesianas (de seguro que Kolmogorov jamás pensó en axiomatizar la probabilidad bayesiana :) )… la probabilidad es una sola, pero el enfoque estadístico de a priori o a posteriori es lo que distingue a la estadística bayesiana de la clásica.

Ahora, el enfoque bayesiano va de la mano con los métodos numéricos y la estadística computacional.. Así que, Francisco, aprovechando tu énfasis, utiliza lo mejor de tus habilidades de programación porque sería como querer manejar un avión con una licencia de motociclista. Empieza por leer la segunda edición del libro de Gelman (Bayesian Data Analysis, publicado por CRC en 2003)… después descárgate el WinBugs y el software R, de seguro que encontrarás muchas cosas novedosas si sigues atentamente la lectura de la tercera edición del libro de Carlin & Louis (Bayesian Methods for Data Analysis, publicado por CRC en 2009) … Y pues lo único que debes hacer es prácticar y prácticar.

Mucha suerte con tu maestría.

Dos índices, dos nombres…

  1. ¿Qué nombre le pondría usted a un libro con este índice?
  2. ¿Qué nombre le pondría usted a un libro con este otro índice?

Cosas que debo hacer este semestre…

Recibo ideas…
  1. Publicar <<Inferencia Estadística, un enfoque integral>> (alguien tiene un mejor nombre?, todavía no me convenzo de ese título… este libro es pura estadística matemática aplicada a las ciencias sociales… modelos univariados y multivariados, ejemplos en R y datos reales, 350 pags!!!!)
  2. Empezar my thesis PhDs (Modelamiento Bayesiano para datos longitudinales en media y varianza, mi tutor me dice que debo entregar en año y medio… ojalá, Dios me ayude!!!)
  3. Terminar el libro de Bayesiano (En principio se llama Introducción a los modelos Bayesianos… ¿un mejor nombre?… ya terminé toda la parte teórica, pero falta que los coautores me ayuden con los ejemplos en R… Modelos univariados, multivariados, regresión, modelos lineales generalizados, modelos jerárquicos, series de tiempo, muestreo y sobrevida.)
  4. Darle forma a las notas de Análisis de Sobrevida (Esta será una linda aventura… todo empezó con el curso de doctorado y ahora ya tenemos unas notas que carecen de estructura, pero que muy seguramente saldrán a la vida en un libro introductorio de esta linda materia.)
  5. Patinar con mis amigos!!! skating with my hommies.

Proporciones bayesianas y EM en Google Books

Una variante de nuestro trabajo acerca de la inferencia bayesiana en el problema de la diferencia de dos proporciones – enfocada en la investigación de mercados (específicamente en pruebas de empaque o packaging test) – ha sido publicado por la Revista de métodos cuantitativos para la economía y la empresa. Esta revista es la única publicación en español que aparece referenciada en el raking australiano de revistas de estadística.

El artículo trata un caso de estudio en donde se quiere poner a prueba el cambio del empaque de un producto posicionado en su categoría de mercado. Con estadística frecuentista tradicional se llegaría a la conclusión de que no es conveniente cambiar de empaque. Con los métodos bayesianos (diferencia de proporciones y pruebas de independencia) se sugiere que la mejor estrategia está en cambiar el empaque. Este artículo está basado en un conjunto de funciones en R (ver acá) que ayudan a implementar un análisis bayesiano exacto y/o simulado y están disponibles hacindo clic acá. El artículo está disponible acá.

Por otro lado, Estrategias de muestreo (EM) ya aparece en Google Books (ver acá) y muy pronto podrá ser adquirido de forma electrónica.

Manual de soluciones de teoría Bayesiana

42-22065357

En las últimas décadas, la teoría estadística se ha visto enriquecida por un nuevo tipo de pensamiento, que según David Salsburg (The Lady Testing Tea), fue desechado llevado al punto en que el investigador que manifestara su gusto por esta corriente era directamente discriminado y tildado de no riguroso. Pues bien lo tiempos han cambiado, y la verdad sea dicha, la estadística Bayesiana se ha convertido en un baluarte gigante de los métodos cuantitativos.

Algunas personas me han escrito desde diferentes países de Latino-américa y en cierta forma algunos de esos correos buscan algún tipo de dirección en cuanto a estadística bayesiana se refiere. La verdad sea dicha, en muchos casos el investigador que intenta usar un método bayesiano en un área de aplicación debe sacar lo mejor de sí y ponerse en la tarea de aprender de forma individual. Para todos aquellos (no estadísticos) que están interesados, de alguna manera muy apasionados, por aprender estadística bayesiana, les digo que sí es posible hacerlo. En realidad, por el momento, no existe algún texto estándar porque el subjetivismo juega parte importante en el aprendizaje de esta materia. De hecho, valdría la pena publicar un libro en español de análisis bayesiano que estuviera enfocado en métodos aplicados a problemas del día a día (Ver más abajo). Mientras alguien se anima les dejo dos herramientas de trabajo para su quehacer autodidacta. Se trata de dos solucionarios: el primero, escrito por Andrew Gelman para la segunda edición de Bayesian Data Analysys, el segundo escrito por Robert & Marin para su libro The Bayesian Core.

PD1: Confieso que desde hoy me pondré a la tarea de terminar esta grandiosa idea de plasmar en un texto académico mi visión de la estadística bayesiana.

PD2: En pocos días saldrá al mercado mi primer libro. Gracias a todos ustedes por interesarse tanto en el muestreo. De veras, infinitas gracias.

Tablas 2X2… Independencia bayesiana

La prueba Ji-cuadrado (más conocida como el test de Pearson) usualmente tiene dos connotaciones prácticas importantes en el día a día del oficio del estadístico. Una de ellas es chequear la bondad del ajuste de una distribución propuesta a los datos reales y la otra se trata de probar la independencia de dos variables aleatorias categóricas cuyos conteos se reúnen en una tabla de contingencia. Sin embargo, esta prueba utiliza resultados de teoría asintótica y por tanto sólo debe ser utilizada cuando el total de conteos marginales es grande (¿qué es grande? algunos autores afirman que es inapropiado utilizar esta prueba cuando los valores esperados por cada celda son menores que diez). Por otra parte, tampoco es apropiado utilizarlo en tablas de contingencia 2X2 puesto que, en este caso particular, la estadística de prueba “asintótica” tendría un solo grado de libertad.

Se cuenta que Fisher pensó en este problema cuando una señorita afirmó (The lady tasting tea) que era capaz de discernir cuándo el té inglés era preparado adicionando primero la leche, luego el té y revolviendo o viceversa. La solución de Fisher fue la prueba exacta que lleva su nombre (Fisher’s exact test) la cual guía a la probabilidad exacta, basada en una distribución hipergeométrica, de obtener un arreglo particular en unta tabla 2X2. Sin embargo, el bayesiano Andrew Gelman afirma:

Yo odio el Fisher’s exact test puesto que tiene problemas de orden práctico, citando a Agresti & Coull, y que la presunción de que es “exacta” se da en circunstancias muy raras. O, para decirlo de otra manera, es una solución exacta a un problema que nunca se verá.

Gelman también propone un método bayesiano directo y sencillo (basado en la diferencia de dos proporciones inducida por la tabla 2X2) que es práctico en los problemas fáciles y se generaliza rápidamente a problemas más complejos. Curiosamente, el método del análisis de la diferencia de proporciones fue uno de mis primeros acercamientos a la teoría bayesiana y hace poco tiempo, en este blog, publiqué un artículo que trata de cómo realizar un análisis de este tipo en R. En resumidas cuentas, la técnica se trata de suponer que las entradas de la tabla vienen de distribuciones binomiales “independientes” (Nótese el símil con la hipótesis nula de independencia), una con parámetro theta_1 y la otra con parámetro theta_2. Estos parámetros, que se asumen variables aleatorias, tienen asignada una función de probabilidad a priori, que usualmente es Beta puesto que admite varios casos particulares como la uniforme. Como se asume independencia, entonces la densidad a posteriori de los parámetros será Beta. En resumen se tienen dos densidades a posteriori para las cuales se simulan un número grande (digamos dos mil) observaciones para tener dos vectores de tamaño 2000. Por la independencia, un vector de observaciones provenientes de la distribución a posteriori de theta_1 - theta_2 está dada por la resta de los anteriores vectores. Las inferencias estarán dadas en términos de este nuevo vector. Eso es todo.

Sin embargo, una cosa es que la diferencia de los parámetros de las binomiales sea igual a cero con una credibilidad muy alta y otra es que las filas y las columnas en la tabla 2X2 sean independientes. Luego, lo que Gelman no responde es ¿de qué manera se relacionan estas dos situaciones? Pues bien, la respuesta está en este sencillo documento (¿página 189?) que encuentro muy didáctico. Con esto simplemente se conlcuye que si Pr(theta_1 > theta_2) o si Pr(theta_2 > theta_1) es muy grande, entonces no existe independencia entre las filas y columnas de la tabla de contingencia.

Ahora que está claro que sí existe una relación directa entre los dos análisis entonces no queda nada más sino bajar las funciones y el documento y realizar la inferencia, obviamente bayesiana, en las tablas 2X2 que son tan usadas por este gremio.

Diferencia de proporciones usando métodos bayesianos

Es cierto, a veces algunas técnicas estadísiticas fallan. Más aun, a veces fallan técnicas que, por ser consideradas clásicas y robustas, no deberían de hacerlo. Es bien sabido que, con repecto a la diferencia de dos proporciones, los intervalos de confianza de Wald no son la mejor opción. Pues bien, el mismo espíritu de pensamiento que concibió estos intervalos es el que está detrás de la prueba de hipótesis clásica para dos proporciones: sí, la prueba aquella de dos colas que utiliza la normalidad, la prueba clásica, la del Canavos,  la del comando prop.test en R.

Imagínese que a usted lo contratan en un juicio de discriminación racial. Una gran compañía metalúrgica enfrentada contra un sindicato de trabajadores de raza negra. La información es la siguiente: en el último periodo de contratación, de 80 personas de raza blanca, 41 fueron admitidos y 39 fueron rechazados; mientras que de 44 personas de raza negra, 14 fueron admitidos y 30 fueron rechazados. La proporción de admitidos de raza blanca es de casi el 50%, pero la proporción de admitidos de raza negra es de apenas el 30%.

Si utilizamos una prueba de proporciones clásica, llegaríamos a la conclusión de que la diferencia de proporciones es estadísticamente igual a cero. Por tanto, concluiríamos que no existe evidencia de discriminación racial. Sin emabargo, al utilizar un enfoque bayesiano, las conclusiones y el resultado final cambiarían la historia del juicio rotundamente (si quiere conocer el final de la historia de clic acá).

El objetivo de esta entrada es introducir al lector a un conjunto de soluciones computacionales, programadas en el ambiente de R, que permiten analizar, de forma bayesiana, los problemas concernientes al juzgamiento de hipótesis para dos proporciones. El conjunto de funciones (paquete propbayes) está disponible gratuitamente acá junto con un conjunto de ejemplos que le permitirán analizar de manera consistente sus datos.

Modelos bayesianos multiparamétricos

Haciendo clic acá encontrará un exhaustivo recuento de modelos (sin covariables) bayesianos que involucran la inferencia de varios parámetros simultaneamente. En la primera parte se introduce el modelo multinomial, además del modelo normal univariado con media y varianza desconocida se aborda el modelo normal multivariante con vector de medias desconocido, matriz de varianzas desconocida y/o ambos parámetros desconocidos.

Esta exposición se realizó en el marco del seminario informal de estadística bayesiana que se adelanta en la Universidad Nacional de Colombia – Sede Bogotá.

My talks in Medellín

El XIX simposio de estadìstica acaba de culminar con un rotundo éxito. Tuve la oportunidad de viajar y participar en este evento con investigaciones involucradas específicamente en mis áreas de interés: Muestreo e Inferencia Bayesiana.

La primera charla se llama Frequentist performance of confidence and credibility intervals for the difference of two proportions y trata de la comparación, en términos de estadística clásica, de varios intervalos de confianza, entre ls que se destacan el intervalo de Newcombe y varios intervalos de credibilidad con información previa no informativa

La segunda charla se titula A multiparametric approach in multipurpose surveys y es la base teórica del paquete TeachingSampling y está motivada por el pensamiento de T. M. F. Smith acerca de la brecha entre los estadísticos teóricos y los prácticos en términos de encuestas que involucran la estimación de muchos parámetros y por consiguiente incorporan muchas variables en el estudio.

La corriente Bayesiana empírica

42-20731264
 

Lo anterior ha permitido que el investigador pueda proponer modelos que siguen comportamientos estructurales distintos y en algunos casos que se encuentran anidados en modelos más complejos. En el caso bayesiano, es claro que el momento de coyuntura en el cual el investigador no contempla un punto de retorno está dado en la formulación de la distribución a priori para el vector de parámetros de interés $btheta$. Más aún, la influencia de la distribución a priori en la resultante distribución a posteriori está dada por la asignación del vector de hiperparámetros $bEta$ que parametriza la distribución a priori. Cuando los valores exactos de los hiperparámetros se desconocen o cuando no se tiene plena certeza del comportamiento estructural de la distribución a priori, entonces es necesario estimarlos pues de estos dependen los resultados en cualquier investigación de tipo causal. En otras palabras, una mala asignación de los valores de los hiperparámetros conduce a una distribución a priori que no es acorde con la realidad y esto puede conllevar a su vez a que la distribución a posteriori no concuerde con la realidad, produciendo así resultados engañosos.
Siguiendo los fundamentos filosóficos de la estadística bayesiana, tener que estimar el vector de hiperparámetros envuelve al investigador en una paradoja cuya solución no siempre está dada por métodos bayesianos. En primer lugar, nótese la forma de la distribución a priori del vector de parámetros de interés: $p(btheta|bEta)$. A simple vista se puede concluir que $bEta$ hace parte de la distribución a priori la cual, según la lógica de la filosofía bayesiana, involucra el conocimiento del investigador antes de la recolección de los datos. Por tanto la pregunta directa que surge es ¿Por qué estimar algo que se debería suponer conocido?. En segundo lugar y si se concibe tal estimación, la otra pregunta natural es ¿Se deben utilizar los datos para estimar tales hiperparámetros?. Las posibles respuestas a las anteriores preguntas han creado toda una nueva corriente alterna a la bayesiana pura llamada <<corriente bayesiana empíricafootnote{citeasnoun{Carlin96} afirma que este nombre surge del hecho de utilizar los datos recolectados para estimar los hiperparámetros.}>> la cual utiliza los métodos de estimación puntual frecuentista para estimar estos hiperparámetros y por consiguiente definir la distribución a priori del vector de parámetros de interés.

En las últimas décadas la formulación de modelos estadísticos ha evolucionado demasiado. En un principio, los modelos establecidos obedecían a reglas estándar que se suponían ciertas para toda la población. Sin embargo, el estado de la naturaleza de la mayoría de los problemas práctico no sigue una regla común para todos y cada uno de los elementos de una población aleatoria. De hecho el sentido común establece que para una misma población, pueden existir tendencias comunes entre diferentes miembros de la misma y la estructura de dispersión de los elementos puede obedecer comportamientos disímiles a través de éstos. 

Lo anterior ha permitido que el investigador pueda proponer modelos que siguen comportamientos estructurales distintos y en algunos casos que se encuentran anidados en modelos más complejos. En el caso bayesiano, es claro que el momento de coyuntura en el cual el investigador no contempla un punto de retorno está dado en la formulación de la distribución a priori para el vector de parámetros de interés theta. Más aún, la influencia de la distribución a priori en la resultante distribución a posteriori está dada por la asignación del vector de hiperparámetros eta que parametriza la distribución a priori. Cuando los valores exactos de los hiperparámetros se desconocen o cuando no se tiene plena certeza del comportamiento estructural de la distribución a priori, entonces es necesario estimarlos pues de estos dependen los resultados en cualquier investigación de tipo causal. En otras palabras, una mala asignación de los valores de los hiperparámetros conduce a una distribución a priori que no es acorde con la realidad y esto puede conllevar a su vez a que la distribución a posteriori no concuerde con la realidad, produciendo así resultados engañosos.

Siguiendo los fundamentos filosóficos de la estadística bayesiana, tener que estimar el vector de hiperparámetros envuelve al investigador en una paradoja cuya solución no siempre está dada por métodos bayesianos. En primer lugar, nótese la forma de la distribución a priori del vector de parámetros de interés: p(theta|eta). A simple vista se puede concluir que eta hace parte de la distribución a priori la cual, según la lógica de la filosofía bayesiana, involucra el conocimiento del investigador antes de la recolección de los datos. Por tanto la pregunta directa que surge es ¿Por qué estimar algo que se debería suponer conocido?. En segundo lugar y si se concibe tal estimación, la otra pregunta natural es ¿Se deben utilizar los datos para estimar tales hiperparámetros?. Las posibles respuestas a las anteriores preguntas han creado toda una nueva corriente alterna a la bayesiana pura llamada <<corriente bayesiana empírica>> la cual utiliza los métodos de estimación puntual frecuentista para estimar estos hiperparámetros y por consiguiente definir la distribución a priori del vector de parámetros de interés… Aunque, por supuesto, no se trata de la única solución al problema de modelos jerárquicos, ésta pone en tela de juicio el andamiaje epistemológico de la teoría adjudicada al reverendo Bayes. Aunque, como suele suceder con lo bayeasiano, la puesta en marcha de los métodos bayesianos empíricos suelen arrojar resultados <<buenos>> y mejor aún, resultados <<eficientes>>.  

Pearson, Fisher, Bayes y …

Desde la revolución estadística de Pearson y Fisher, la inferencia estadística busca encontrar los valores que parametrizan a la distribución desconocida de los datos. El primer enfoque, propuesto por Pearson, afirmaba que si era posible observar a la variable de interés en todos y cada uno de los individuos de una población, entonces era posible calcular los parámetros de la distribución de la variable de interés; por otro lado, si sólo se tenía acceso a una muestra representativa, entonces era posible calcular una estimación de tales parámetros. Sin embargo, Fisher discrepó de tales argumentos, asumiendo que las observaciones están sujetas a un error de medición y por lo tanto, así se tuviese acceso a toda la población, es imposible calcular los parámetros de la distribución de la variable de interés.

Del planteamiento de Fisher resultaron una multitud de métodos estadísticos para la estimación de los parámetros poblacionales. Es decir, si la distribución de X está parametrizada por \theta \in \Theta, con \Theta el espacio paramétrico inducido por el comportamiento de la variable de interés, el objetivo de la teoría estadística inferencial es calcular una estimación \hat{\theta} del parámetro \theta por medio de los datos observados. En este enfoque, los parámetros se consideran cantidades fijas y constantes. Sin embargo, en la última mitad del siglo XX, algunos investigadores estadísticos comenzaron a reflexionar acerca de la naturaleza de \theta y enfocaron la inferencia estadística de una manera distinta: asumiendo que la distribución de la variable de interés está condicionada a valores específicos de los parámetros. Es decir, en términos de notación, si la variable de interés es X, su distribución condicionada a los parámetros toma la siguiente forma f_X(X|\theta). Esto implica claramente que en este nuevo enfoque la naturaleza de los parámetros no es constante sino estocástica.

Ahora, en este justo instante, vienen pequeños susurros desde Brasil, que mencionan que un grupo de estadísticos ha empezado a trabajar en un nuevo enfoque. Amanecerá y veremos.