Enseñanza

El tamaño sí importa

Attractive young woman sitting on white background

Con el tiempo deja de fastidiarme la pregunta que se hacen todos y cada uno de los usuarios y “clientes” de una encuesta: ¿cuál es el tamo de muestra para este estudio? De hecho, esta pregunta a veces surge sin plantear el problema de investigación, ¡a veces sin siquiera saludar! El dueño de la investigación llega muy orondo y de repente cuestiona: ¿cuál es el tamaño de muestra para evaluar esta política pública? ¿cuál es el tamaño de muestra para esta investigación de mercados? ¿cuál es el tamaño de muestra para este estudio farmacológico? Por supuesto, el tamaño importa porque dependiendo de esta cifra se tiene un costeo previo del monto del estudio.

Además de lidiar con estas actitudes automatizadas, el estadístico debe guiar al “cliente”, muchas veces con preguntas sagaces, hacía un lugar que les permita tener un acercamiento exhaustivo al problema en cuestión. A algunos les parecerá aburrido e innecesario, pero les aseguro que es un ejercicio que hará valorar más el papel del estadístico frente al medio. Esto llega a tener implicaciones éticas muy profundas porque una buena concienciación del problema puede ahorrarle dinero al estado. Por ejemplo, considere que un estudio quiera tener representatividad (nivel de confianza predefinido, asegurar un margen de error previo y acotar el error estándar relativo) con un nivel de confianza del 95% y un error estándar relativo máximo del 3%. Ahora piense en esto: si con tres mil encuestas se logra un error estándar relativo del 2% y con dos mil encuestas se logra un error estándar relativo del 2.9%, entonces la escogencia de tamaño de muestra debería ser dos mil encuestas, en vez de tres mil. El estadístico novato dirá que tres mil es mejor que dos mil. En términos de inferencia estadística los dos escenarios son similares (ambos con la misma confianza y un error estándar relativo menor al 3%), se toman las mismas decisiones con ambas cifras, pero la diferencia en dinero puede ser abrumadora.

Sin embargo, aparte de lo anterior, el estadístico debe sondear si el problema de investigación se refiere a la estimación de un parámetro o al contraste de una hipótesis que el investigador haya definido como importante.  En principio son dos escenarios distintos, pero hay una delgada línea entre uno y el otro. Por ejemplo, suponga que se plantea un estudio que va a comparar dos grupos: un grupo de tratamiento y grupo de control. El investigador quiere conocer si existen diferencias significativas entre un grupo y otro. Es justo en este instante cuando comienza la encrucijada. Eso suena a prueba de hipótesis. Es más suena a prueba de hipótesis bilateral. Sin embargo, es aquí en donde el papel del estadístico debe sobresalir. Y no porque sea avezado en sugerir expresiones matemáticas inmediatas para el cálculo del tamaño de muestra, sino porque debe seguir ahondando más en el problema. Antes de sugerir alguna fórmula, debe realizar la siguiente pregunta ¿cuánto es diferente? Si las diferencias son de medias o de proporciones, los investigadores deben saber desde qué cantidad esa diferencia comienza a ser importante. La respuesta a esta pregunta determina el rumbo de estudio y por consiguiente la fórmula correcta para determinar el tamaño de muestra.

Entonces, si la respuesta es: “déjeme pensar, no sé, dígame usted”; este es un problema de estimación y no de pruebas de hipótesis. Si todavía está leyendo pues no pare de hacerlo, porque esto se pone más interesante. No es una herejía, cuando el investigador no conoce la respuesta a la pregunta ¿cuánto es diferente?, entonces al diablo con las pruebas de hipótesis y bienvenida la confianza estadística (Z_{1-\alpha/2}), el margen de error (\varepsilon) y el efecto de diseño del muestreo (Deff). En este caso, la expresión adecuada para el tamaño de muestra es: (Ver acá)

n>\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{e^2}{Z_{1-\alpha/2}^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

Por el contrario, si el investigador responde: “yo quiero saber si la diferencia absoluta entre las proporciones es mayor a 0.2″; entonces el problema sí es de pruebas de hipótesis y no de estimación. Nótese lo ambigua que es la afirmación “quiero saber si hay diferencias significativas.” No, de lo que se trata es de que el investigador afirme “quiero saber si el grupo de tratamiento tiene una proporción mayor que la del grupo control. Es más quiero saber si esa diferencia es mayor a 0.2″ En el anterior escenario, es claro que ni siquiera se trataba de una hipótesis bilateral, sino unilateral y que el efecto que al investigador le importa ya está cualificado y es de 0.2. Este sí es un escenario de pruebas de hipótesis (unilateral) y debe involucrar a la confianza (Z_{1-\alpha}), la potencia (Z_{\beta}) y el efecto que quiere contrastar en la prueba (D=P_1-P_2). En este caso, la expresión correcta para el tamaño de muestra es: (Ver acá)

n=\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{D^2}{(Z_{1-\alpha}+Z_{\beta})^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

En la práctica, esto significa que para una población de un millón de personas, divida en dos grupos de interés, en donde se supone un diseño de muestreo complejo para la recolección de la información con un Deff=4, y asumiendo que la varainza de la diferencia de proporciones es máxima (con P_1=P_2=0.5), se tiene que:

1.  El tamaño de muestra mínimo en cada subgrupo, para realizar una estimación de la diferencia de proporciones cuyo intervalo de confianza al 95% sea tal que su margen de error no supere el 3%, es de 2130 personas.

2. El tamaño de muestra mínimo en cada subgrupo, para realizar una prueba de hipótesis sobre la diferencia de proporciones para detectar un efecto de D=15%, un nivel de significación del 5% y una potencia del 80%, es de 933 personas.

Espero que con esta lectura usted esté descubriendo esa delgada línea en su área de trabajo. Por lo demás, tómese siempre su tiempo para reflexionar en las características de su estudio y en hacer las preguntas correctas a las personas correctas en el momento correcto. Esto le da una ventaja competitiva invaluable.

Un gran error: utilizar Excel para realizar análisis estadísticos

NewImage

Hace poco leí una discusión que debo traer a colación en este espacio. Lo hago porque sé que muchos de nosotros utilizamos hojas de cálculo para realizar nuestros análisis estadísticos. Aunque el título de la entrada se refiere a MS Excel, usted también puede caer en este error si usa hojas de cálculo en programas estadísticos más sofisticados como Minitab, SPSS, StatGraphics, entre otros.

Sin embargo, el estadístico que utiliza MS Excel está cometiendo, quizás sin saberlo, un gran error puesto que se ha mostrado (acá y acá) que MS Excel no arroja estimaciones correctas para algunos modelos estadísticos. En particular, el NIS (National Institute of Standards and Technology) provee varios conjuntos de datos para que los analistas de información estadística corroboren que sus modelos y sus herramientas están calibrados y por ende, el proceso de estimación e inferencia se correcto. En algunos modelos de regresión nolineal, entre otros, el desempeño de MS Excel no es el mejor. 

Ahora, los usuarios de hojas de cálculo en MS Excel, o en cualquier otro software estadístico, deben saber que existen políticas de análisis estandarizadas, como las normas ISO, entre otras, que propenden por el buen uso de los modelos estadísticos. Entre estas características están la reproducibilidad (replicar o reproducir un análisis por cualquier persona ajena al estudio) de los resultados obtenidos y la trazabilidad (serie de procedimientos que permiten seguir  el proceso de evolución de un producto en cada una de sus etapas). Es decir que, aunque el software sea correcto en sus estimaciones, se debe garantizar las anteriores características, lo cual es imposible a no ser que el error humano sea minimizado. 

Por lo anterior, si en su empresa o institución usted quiere cumplir a satisfacción con los estándares internacionales de análisis de datos, es menester que empiece a documentar todos sus procesos con la utilización de sintaxis estadística que le permita reproducir sus análisis repetidas veces y obtener siempre los mismos resultados. 

Esto es fundamental, por ejemplo, en el sector de evaluación de políticas públicas, en donde todo debería estar documentado. Hace algunos años, como asesor del gobierno en temas de muestreo, me enfrenté a una situación parecida. El consultor privado, había seleccionado una muestra, a mi juicio no probabilística (puesto que algunos municipios del país sospechosamente había ya sido seleccionados en varios ejercicios anteriores), aunque él declaraba que en efecto era probabilística. Yo requerí que por favor me enviase los códigos computacionales que había utilizado para inducir esa muestra. La respuesta del consultor: “no tengo el código”. Además de sospechoso, todo el asunto culminó con una política interna en donde se exige que el consultor, no sólo socialice los códigos de los análisis estadísticos (como regresiones, método multivariados, etc.) sino que, sustente incluso la selección de una muestra.

Por último, como un ejemplo actual de esta problemática, tenemos a dos reconocidos investigadores de Harvard, Reinhart y Rogoff (este último en la foto del encabezado de esta entrada), que utilizaron hojas de cálculo para sustentar una teoría económica de austeridad que ha impactado todo el mundo occidental. Ellos concluyeron en 2010, con ayuda de MS Excel, que cuando la deuda de un país alcanza el 90% de su producto interno bruto, el crecimiento económico decrece significativamente. Tiempo después, un estudiante los desmintió y esto ha generado una respuesta mediática bastante grande.

¡Piénselo dos veces cuando abra el MS Excel! No quisiera usted estar en los zapatos desacreditados de estos dos investigadores que ahora, andan dando entrevistas de porqué sí o porqué no omitieron en el análisis algunos datos.

¿Le gustaría recibir entrenamiento virtual certificado en estadística aplicada?

Estamos por montar una plataforma virtual única respaldada por una excelente Universidad en América Latina. Se trata de hacer algo muy serio y efectivo para el entrenamiento de los profesionales que a diario están aplicando técnicas estadísticas en sus diferentes disciplinas. Los seminarios, cursos, diplomados y conferencias serán virtuales y estarán disponibles para todos nuestros profesionales de la región. Los inscritos recibirán una certificación válida por la Universidad.

Imagínese la cantidad de oportunidades que podrían generar con estos entrenamientos. Los temas son muy variados, por ejemplo, ¿le gustaría aprender estadística bayesiana? ¿le gustaría aprender a hacer macros en SAS o en SPSS o en R? Las opciones son ilimitadas y usted podría capacitarse, entre otros en: Bioestadística, Causalidad, Control de calidad, Data Mining, Diseño experimental, Econometría, Diseño de encuestas, Inferencia, LaTeX, Marketing, Métodos multivariados, Modelos estadísticos, Muestreo, Probabilidad, Psicometría, Software estadístico, Series de tiempo, Simulación, etc.

Para que este proyecto tenga éxito, le pido que por favor llene una encuesta muy breve que no le llevará más de dos minutos.

Haga clic aquí para completar la encuesta.

Llamado a árbitros

La Revista Comunicaciones en Estadística reconoce el valor y la importancia de los árbitros en el proceso de editorial general. En este momento, queremos lograr las cualificaciones apropiadas para lograr nuestra inclusión en bases de datos nacionales e internacionales de revistas científicas. Para ello, necesitamos la asistencia de evaluadores externos que ayuden al comité editorial en la selección de artículos adecuados para la publicación en la revista.

En un esfuerzo por facilitar la selección de árbitros apropiados para la revista, le pedimos que se tome un momento para completar este formulario para nuestros archivos. Por favor, asegúrese de hacer clic en la casilla de verificación de revisión.

Gracias de antemano.

__________________________________________________________________________

Call For Reviewers

 

Our journal “Comunicaciones en Estadística” recognizes the value and importance of the peer reviewer in the overall publication process. Right now, we want to achieve appropriate qualifications for our inclusion in national and international scientific journal databases. For this, we need the assistance of external reviewers to help the Editorial Review Board select suitable papers for publication.

In an effort to facilitate the selection of appropriate peer reviewers for the journal, we ask you to take a moment to complete this form for our files. Please, be sure to click in the review check box.

Thanks in advance.

 

Muestreo y políticas públicas, una conversación en MAS

Exactamente eso… una conversación amena con la mesa de trabajo del programa de radio MAS, de la Facultad de Estadística de la USTA.
Andrés Gutiérrez - Estadística, muestreo y políticas públicas

Controversia del mes: pruebas de hipótesis

Imagen de http://1pixel2.es/2009/05/17/mama-me-han-metido-algo-en-la-copa/

En el último número de Significance, Baker & Mudge proponen realizar pruebas de hipótesis minimizando las oportunidades de obtener falsos positivos y falsos negativos. Hoy discutiré algunos aspectos interesantes de su artículo que llamaron mi atención.

Ellos argumentan que la hipótesis nula siempre es falsa. Este es el argumento de muchos pensadores que se cuestionan acerca de la validez de las pruebas estadísticas como las conocemos hoy. Si usted está haciendo pruebas de hipótesis justo en este instante, pregúntese acerca de sus hipótesis nulas. Son ciertas? seguramente no. Por ejemplo, considere una prueba sobre una media en un proceso industrial. La hipótesis nula podría ser que la vida media de un componente es de 120 días. Pues bien, esa afirmación es del todo falsa pues, como lo menciona Gelman, no tiene sentido cuando el espacio paramétrico es continuo.

Yo diría muy burdamente que existe una validez práctica muy importante. Aún cuando las hipótesis nulas no sean estrictamente verdaderas. Piense en una diferencia de medias, para la cual se realiza una prueba a dos colas. Obviamente resulta imposible pensar en que  la hipótesis nula (la resta de las medias es nula) es verdadera, en sentido estricto. Sin embargo, es muy plausible que el efecto sea tan pequeño que de lo mismo pensar en que la hipótesis nula sea verdadera. Incluso, es posible pensar – sin ser bayesiano – que exista una diferencia entre cero (la supuesta diferencia de medias) y la verdadera diferencia de medias, para la cual su medida de probabilidad sea nula… si la anterior frase le quedó sonando, piénselo muy bien puesto que, en el mundo frecuentista, los parámetros no son variables aleatorias sujetas a medidas de probabilidad; pero, en el mundo bayesiano, esto tiene todo el sentido.

Para rematar, esto señores se preguntan ¿de dónde sale ese numerito alpha? ¿por qué es siempre igual a 0.05? Esa es una pregunta que ojalá muchos estudiantes realizaran en clase. Si usted es estudiante le recomiendo que la formule en clase. Realmente no tiene sentido que en todas las disciplinas ese valor sea el mismo. Si usted está realizando pruebas psicométricas, el valor es 0.05; si está haciendo una prueba de hipótesis en un experimento con animales, el valor es el mismo 0.05; si se trata de una prueba sobre microarreglos en genética, el valor es idéntico. Pareciera un guarismo arbitrario impuesto por los profesores de estadística. Yo creo que así es. Concuerdo con los autores en que ni tiene ningún fundamento lógico. De hecho, el anónimo Student advertía de los peligros de confundir ajuste estadístico con importancia.

¿Y cuál es su opinión?

Identificabilidad en modelos bayesianos mixtos y el teorema fundamental de las Cadenas de Markov… ¿puedo usar WinBugs?

Bien, este es el escenario general… Se tiene un modelo mixto y acudiendo a la fama, uso y fácil e intuitiva programación de WinBugs, se definen distribuciones previas no informativas para los parámetros del modelo y además para los hiper-parámetros del modelo. Luego se realiza la inferencia Bayesiana. Por ejemplo, suponga el siguiente modelo mixto:

y_{ij}|\beta, u_i, \sigma^2_e \sim Normal(\beta+u_i, \sigma^2_e) en donde u_i\sim Normal(0, \sigma^2)

Siendo así, se reescribe la función la función de densidad posterior como el producto de las verosimilitudes con las densidades previas de los parámetros, \beta y \sigma^2_e, y de los hiper-parámetros, \sigma^2. De esta forma, se tiene que

p(\beta, \mathbf{u}, \sigma^2_e, \sigma^2|\mathbf{y}) \propto p(\mathbf{y}|\beta, \mathbf{u}, \sigma^2_e)p(\mathbf{u}|\sigma^2)p(\beta)p(\sigma^2_e)p(sigma^2)

Una definición muy usada para la distribución previa de los parámetros es la siguiente:

p(\beta, \sigma^2_e|\mathbf{y}) \propto 1/\sigma^{2}_e

Con esta distribución previa no informativa, se acude a la multiplicación de todas las verosimilitudes con las distribuciones previas y se utiliza el análisis condicional y el algoritmo de Gibbs para “supuestamente” construir una Cadena de Markov cuya distribución estacionaria coincide exactamente con la distribución posterior. Sin embargo, cuando se utilizan distribuciones previas impropias para los parámetros, resulta que la distribución posterior es también impropia. Lo anterior está demostrado en Hill (1965, Journal of the American Statistical Association, 60, pp 806-825). Por lo anterior, aunque se utilice el algoritmo de Gibbs, la distribución posterior carecerá de sentido puesto que no es integrable y esto implica que no existe una distribución condicional conjunta que coincida con las distribuciones condicionales creadas al utilizar el algoritmo de Gibbs.

Las consecuencias de lo anterior no se hacen esperar. Máxime teniendo en cuenta que el teorema fundamental de las cadenas de Markov, sobre el cual se basa todo el andamiaje de los métodos MCMC, afirma que una cadena de Markov tiene distribución estacionaria si y sólo si todos sus estados son persistentes no nulos y, en ese caso, esa distribución es única. Ahora, un estado es persistente nulo si la esperanza del tiempo medio de recurrencia es infinita. Es decir, en este caso, cuando se presenta un estado persistente no nulo, la cadena de Markov generada mediante el algoritmo de Gibbs no converge en distribución. Sin embargo, dada nuestra restricción para verificar hipótesis en el infinito, es posible que observemos que la cadena ha entrado en una región de muy alta probabilidad, la cual es razonable. Sin embargo, si pudiésemos realizar y observar infinitas realizaciones de la cadena, nos daríamos cuenta de que en realidad esa convergencia jamás se presentó y nunca se presentará.

En conclusión, dado que la distribución posterior es impropia, entonces las cadenas de Markov inducidas por el algoritmo de Gibbs son recurrentes nulas y por tanto no convergerán en distribución. Lo anterior puede ser pasado por alto por la mayoría de estadísticos al utilizar la facilidad del entorno de programación de WinBugs. Más aún, en esta situación, las aproximaciones de Monte Carlo resultantes pueden parecer completamente razonables, lo cual nos pone en una situación bastante peligrosa puesto que el muestreador de Gibbs nos guiará a inferencias plausibles sobre una distribución que no existe. Por lo tanto, antes de escribir su código en WinBugs y antes de definir las distribuciones previas de los parámetros es aconsejable realizar un estudio de sensibilidad sobre estas distribuciones previas y sobre todo definirlas de tal forma que sean integrables a priori, como por ejemplo distribuciones normales centradas en cero, pero con una varianza muy grande, o inversas-gama con parámetros muy pequeños. De esta forma, esas distribuciones previas se hacen no informativas de antemano e integrables a priori.

Mejor dicho, cuando escriba su código en WinBugs, por favor sea cuidadoso y evite usar la siguiente asignación para las distribuciones previas:

Beta ~ dflat()
Sigma ~ dflat()

En vez de lo anterior mejor asigne las siguientes distribuciones previas:

Beta ~ dnorm(0, 0.0001)
Sigma ~ dgamma(0.01, 0.01)

Para mayor información acerca de este fenómeno desafortunado, puede remitirse a los siguientes artículos (si no puede conseguirlos en internet, envíeme un correo y yo los comparto con usted):

– Ibrahim, J. G., and Laud, P. W. (1991), On Bayesian Analysis of Generalized Linear Models Using Jeffreys’s Prior, Journal of the American Statistical Association, 86, 981-986.

– Hobert, J. P. and Casella, G. (1996), The Effect of Improper Priors on Gibbs Sampling in Hierarchical Linear Mixed Models James P. Hobert and George Casella, Journal of the American Statistical Association, 91, 436.

– Gelfand, A. E. and Sahu, S. K (1999), Identifiability, Improper Priors, and Gibbs Sampling for Generalized Linear Models, Journal of the American Statistical Association 94, 445 (Mar., 1999), pp. 247-253.

Sesgo aproximado y sesgo asintótico… dos definiciones diferentes y un ejemplo contundente

Me escribió un colega – a quien respeto y admiro y le mando un saludo grande desde Colombia – inquiriendo acerca del ejemplo de sesgo asintótico y consistencia que escribí en esta entrada anterior. En un muy bonito cruce de correos, logramos discernir algunas cuestiones que no son para nada evidentes en lo que tiene que ver con las definiciones clásicas del sesgo asintótico

Pues bien, entre las definiciones de insesgamiento asintótico tenemos:

  1. Que la media de la distribución límite de n^{1/2} (T_n-\theta) sea nula.
  2. Que el \lim_{n\to \infty} E(T_n - \theta) tienda a cero.

La definición 1 fue la que utilicé para escribir la entrada anterior y la definición 2 es la aparece en la mayoría de libros. La definición 1, la tomé del libro de Shao (Mathematical Statistics) y me gusta porque un estimador no necesariamente debe tener esperanza para ser un buen estimador… ¿Es confuso? De ninguna manera, suponga que el parámetro de interés es la razón entre dos medias, definido como \theta=\mu_x/\mu_y. Para este ejemplo, que entre otras cosas resulta ser uno de los problemas más abordados en la práctica estadística, un estimador usual estaría dado por la razón entre los promedios muestrales, definido como T_n=\bar{X}_n/\bar{Y}_n. Es cierto, aunque este estimador es muy usado, resulta que, en términos generales, la esperanza de T_n no está definida. Es más, no está definida para ningún n y por lo tanto, según la definición 2, no sería asintóticamente insesgado. Nótese que, si X_n y Y_n son independientes con distribución normal (0,1), entonces X_n/Y_n converge en distribución a una variable aleatoria Cauchy, que no tiene esperanza.

Lo anterior abre el camino a una pregunta muy capciosa,

Dado que no se puede hallar el sesgo exacto de un estimador ¿será posible definir un sesgo asintótico?

Y es que a veces, estas definiciones asintóticas nos pueden hacer caer en contradicciones. Por ejemplo, uno podría pensar que para una estadística que no tiene esperanza no se debería poder hablar de sesgo (asintótico o no), pues el sesgo no está definido y, en ese caso, hablar de insesgamiento no tendría sentido. Sin embargo, ese razonamiento es equivocado, puesto que como bien lo sabemos, el estimador T_n=\bar{X}_n/\bar{Y}_n es asintóticamente insesgado, aunque carezca de una esperanza y sesgo exactos. De hecho este es un muy buen ejemplo de por qué la definición 1 es apropiada: bajo esa definición es posible hablar de sesgo asintótico de una estadística cuyo sesgo no existe.

Probemos que efectivamente T_n=\bar{X}_n/\bar{Y}_n es asintóticamente insesgado. En primer lugar sabemos que, por la ley fuerte de los grandes números, \bar{X}_n converge casi seguro a \mu_x; de igual forma, \bar{Y}_n converge casi seguro a \mu_y. Por otro lado, es bien sabido que g(X,Y)=X/Y es una función medible y por lo tanto, dado que (\bar{X}_n, \bar{Y}_n) converge casi seguro a (\mu_x, \mu_y), entonces g(X,Y) converge casi seguro a g(\mu_x,\mu_y)=\mu_x/\mu_y. Por último, la convergencia casi seguro implica convergencia en distribución y se tiene la prueba.

Un comentario final es que la esperanza es una cantidad exacta y tal vez es confuso hablar de aproximaciones a la esperanza. Ahora, yo creo que la confusión aumenta cuando uno le mete un límite a algo que en principio no debería tenerlo. Es que una cosa es el límite de una sucesión de número y otra cosa son los modos de convergencia en probabilidad. Al hablar de asintóticamente, uno no solamente está pensando en un límite simple, sino en una sucesión de variables aleatorias, y sus funciones de distribución, que se hace cada vez más grande a medida que n crece. Las dos cosas son diferentes y si se piensa en que una esperanza es exacta, tiene sentido y mucho hablar de la distribución límite y de su media, en vez de calcular el límite simplemente.

En la misma línea del anterior comentario, Shao afirma que la definición dos no se debería llamar sesgo asintótico, sino sesgo aproximado. Esto último aclara muchas cosas al entender que una cosa es asintótico y otra cosa es aproximado.

Mi artículo de encuestas en políticas públicas

El número 18 del Boletín Política Pública Hoy incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y su equipo deben tener en cuenta al momento de planear una encuesta en este contexto.

Sin ninguna, fórmula matemática y con mucha carreta para que genere una mayor comprensión, este artículo coadyuvará en la estandarización de las buenas prácticas que se deben generar desde nuestro gremio. El artículo lo pueden descargar acá.

Si las elecciones fueran hoy… Parody no gana

Claro, suponiendo mil cosas que no necesariamente se cumplen. Según este artículo, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: <<Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia. Peñalosa, que se postula por el Partido Verde y el Partido Social de Unidad Nacional (Partido de La U), se situó segundo con 21%, de acuerdo con el sondeo divulgado por el diario El Espectador. En el tercer lugar se ubicó la ex senadora Gina Parody, con 18%.>>

Si asumimos una distribución previa no informativa (Dirichlett con parámetros constantes e iguales y cercanos a la unidad), se tienen las siguientes estimaciones posteriores, en las cuales no involucré a los restantes candidatos porque no tuve tiempo de buscar la información.

Candidato

Estimación

Límite inferior

Límite superior

Parody

29%

24%

33%

Peñalosa

33%

28%

38%

Petro

38%

33%

43%

La anterior tabla da un resumen de la distribución posterior de la intención de voto para los anteriores candidatos. De alguna forma u otra, observando con detenimiento los límites de credibilidad, es posible concluir que… cualquier cosa podría pasar. Sin embargo, es claro que la menor opción la tiene Gina Parody. La siguiente figura da cuenta de la distribución posterior para cada candidato y es posible observar que efectivamente hay un empate técnico puesto que hay traslape entre las densidades poblacionales.

Bajo este escenario, la probabilidad posterior de que Gina Parody le gane a Peñalosa es de tan solo 0.126. La probabilidad posterior de que Parody le gane a Petro es aún más baja, 0.011. Por último la probabilidad posterior de que Peñalosa le gane a Petro es de 0.1286.

Por otro lado, acudiendo a la encuesta de Datexco y suponiendo que no se inventaron la mitad de las encuestas (no lo digo yo, lo dicen las denuncias suscitadas acá). Entonces, es posible utilizar esta información para crear un escenario más preciso incluyéndola a manera de información previa informativa. Puesto que, si observó bien en la tabla de estimaciones, existe mucha variabilidad en la distribución posterior y eso explica por qué los intervalos de credibilidad son tan anchos. La información de la encuesta de Datexco dice así: << En tanto, otra encuesta de la firma Datexco también divulgada el viernes y contratada por el diario El Tiempo, ubicó primero a Peñalosa, con 20,9%; segundo a Petro, con 16,4%, y tercera a Parody, con 14,1%. >>

Si asumimos una distribución previa informativa (Dirichlett con parámetros desiguales y relacionados con la intención de voto en la encuesta de Datexco), se tienen las siguientes estimaciones posteriores:

Candidato

Estimación

Límite inferior

Límite superior

Parody

28%

24%

31%

Peñalosa

37%

33%

40%

Petro

35%

31%

38%

Este escenario es un poco más claro, con menos variabilidad, puesto que la distribución posterior ha recogido los efectos de la distribución previa. Sin emabargo, aunque es má claro estadísticamente, no lo es políticamente. Bueno, dependiendo de la filiación política de cada quién. Por lo menos, a mí me parece un mal escenario. Puesto que yo voy a votar por … En fin, esto sea como sea, el siguiente gráfico muestra un panorámica más clara de la intención de voto posterior.

También es posible calcular la probabilidad posterior de que Parody le gane a Peñalosa, ese valor es de 0.00104. Muy pequeño. La probabilidad posterior de que Parody venza a Petro es de 0.00784. Y la probabilidad posterior de que Peñalosa obtenga una victoria sobre Petro es de 0.72. Bueno, como dicen por ahí, la verdadera encuesta es el día de las elecciones. Bla, bla, bla… Por supuesto, si salen más encuestas, haré más predicciones chimbas. No con el fin de predecir nada, sino con el de realizar un análisis de sensibilidad sobre las propuestas en las distribuciones previas. Estén sintonizados con el blog ese día de las elecciones. Con cada reporte de la registraduría estaré realizando una nueva estimación. Esto con el fin de cotejar el poder del enfoque bayesiano que permitiría proclamar al ganador con antelación al conteo total.

Por otro lado, quisiera saber cuál es la técnica súper avanzada para afirmar que hay un empate técnico. Dicen los gerentes de las encuestadoras que hay un empate técnico entre Peñalosa y Petro. Esta conclusión la realizan al sumar y restar el error de muestreo a las estimaciones puntuales. Pero bueno, desde mi humilde punto de vista, creo que falta multiplicar el error estándar (si es que es el error del que se está hablando) por un percentil relacionado con una distribución que dé cuenta del modelo probabilístico detrás del cálculo. Ahora, ese error de muestreo ¿qué es? ¿Cómo es posible hablar de error de muestreo cuando no hay ningún muestreo por detrás? Yo conozco las respuestas a esas preguntas, pero no creo que los gerentes de esas firmas lo sepan y por tanto el engañador ignorante engaña al más ignorante. Podemos estar haciendo negocios sucios… En fin, para no dejarlos preocupados, sí es posible hablar de error incluso cuando no hay ningún muestreo probabilístico. ¿Los dejé peor de asustados?

Por último… 1) Piense su voto… no se deje influenciar por propuestas populistas que ya mucho daño le hicieron a la ciudad. 2) Ayude a pensar en cómo hacemos para enseñarles a los ignorantes colombianos, en materia de estadística, cómo se interpreta un error y con qué cuidado se deberían interpretar estos resultados electorales. Mire que los ignorantes son muchos y que si lográramos permear los medios de comunicación con este mensaje, le haríamos un bien al pueblo a la hora de elegir. Además muchos se interesarían más por la estadística.

Análisis estadísticos aplicados a la genética en la producción animal

Exactamente eso… una conversación amena con un investigador en genética animal.

Andrés Gutiérrez & Ricardo Camacho - Análisis estadísticos aplicados a la genética en la producción animal

TEAM


Contenido (clic acá)

Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Obtenga una visualización del texto acá (Google books)

Compre el libro acá (Librería de la U)

Compre el libro acá (Lemoine editores)

Compre el libro acá (Librería Nacional)


Puntos de venta:

Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)

Videos divertidos del Statistical Planet

El Grupo de conocimiento público de la American Statistical Association (ASA) realizó un concurso de videos llamado “promoción de la práctica y profesión de la Estadística”. A continuación el video más bayesiano.

Este es un video en el que el cantante no se explica cómo es la situación de dos personas que estadísticamente comen un pollo, pero en la realidad uno de ellos comió dos pollos, mientras que el otro no comió nada.

Y este es un video que bien podría ser el cabezote de un infomercial.

Hay muchos otros videos divertidos (y otros no tanto) acá.

Comunicaciones en Estadística Volumen 4 No. 1

 

http://comunicacionesenestadistica.usta.edu.co/

En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.

Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.

Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.

El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.

Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.

Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.

Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.

Mi artículo de muestreo y políticas públicas

Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación Política Pública Hoy. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi correo.

El artículo lo pueden descargar acá.

Respuestas al manifiesto

Algún lector anónimo escribe lo siguiente:

Andrés,

Para impulsar estas ideas, hay que empezar por el principio.

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.

¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

Saludes!

Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?

Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?

 

No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.

¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

 

No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.

 

¿Para quién va dirigido el Workshop que hace la USTA?

 

Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.

 

Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.

 

Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.

 

No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

 

¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.

Manifiesto: quiero ser cabeza de ratón

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:

  1. Impulsar la creación de la Asociación Colombiana de Estadísticos.
  2. Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
  3. Promover la institucionalización de la tarjeta profesional para los estadísticos.
  4. Motivar la creación de un programa de posgrado en metodología de encuestas.
  5. Posicionar la Revista Comunicaciones en Estadística.
  6. Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
  7. Crear una editorial de libros de texto en estadística.

Y lo más ambicioso y controvertido:

8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.

Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.

Soy parte de los 300mil

Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.

¡¡¡Una vez más gracias!!!

 

Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel

Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.

Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadística

Consultorio estadístico para Hispanoamérica



 

Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.

Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.

PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.

Visualización interactiva de una mezcla de normales (la ley de la esperanza total y la ley de la varianza total)


Las leyes de la esperanza total y la varianza total (que vienen directamente del teorema de probabilidad total) se mantienen para cualquier distribución de probabilidad. Aquí se muestra el funcionamiento de estas leyes con una mezcla de distribuciones normales. Esta demostración resulta muy amena porque está basada en una descomposición visual muy agradable (perfecto para un curso de modelos estadísticos avanzados).

Esta demo probablemente necesitará de Firefox o Google Chrome para que cargue sin problemas.

TEAM en Google books

El pasado sabado 5 de febrero, en el marco de la clausura del Workshop Bayesiano, se presentó mi nuevo libro Teoría estadística: aplicaciones y métodos (TEAM). Esperamos que puedan obtener una visualización del texto acá y, si es de su agrado, que lo compren y recomienden. Todas las críticas, quejas o sugerencias son bienvenidas en mi correo electrónico.

Todos invitados… entrada libre al workshop bayesiano (sólo por hoy)

Efectivamente, la entrada es libre… sólo tiene que inscribirse acá y pagar una módica suma ( menor o igual a 150mil pesos… eso es estadísticamente insignificante) y podrá entrar libremente al evento y ser partícipe de esta reunión de profesionales y estudiantes de la ciencia estadística. Piénselo bien… la estadística bayesiana es una herramienta fundamental en cuestiones de análisis de la información. Si usted no tiene idea de qué eso de estadística bayesiana puede ingresar al curso de Introducción a la estadística bayesiana, si ya tiene algunas bases sobre la materia puede ingresar al curso de Series de tiempo bayesianas o al curso de Inferencia bayesiana en datos longitudinales.

Si quiere saber más acerca de quiénes son los cursillistas o conferencistas vea acá el nuevo brochure del evento… Todavía está a tiempo; asista y participe que, además de enriquecer sus conocimientos y tomar ventaja profesional, estará apoyando la dinámica de nuestra profesión. No le importe quién es el organizador, sólo piense en que unidos, podemos consolidar un gremio de profesionales con sólidas bases para hacer de la nuestra, una mejor profesión. Participe en este evento, en el Simposio de la Nacional, en la Escuela de Verano en Medellín… Bienvenidos todos los eventos de estadística en Colombia, que desafotunadamente son muy pocos.

Les recuerdo que el Second Workshop on Applied Statistics es organizado por la Facultad de Estadística de la Universidad Santo Tomás, y patrocinado por la International Association of Survey Statisticians, que tendrá lugar desde el 3 de febrero en Bogotá. ¿y usted ya se inscribió?

Estadística en los comics

Declaración sobre Ética Profesional del Instituto Internacional de Estadística

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.

Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden
enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión. La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.

La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:

• de la sociedad,
• de empleadores, clientes y financiadores,
• de colegas,
• de los grupos a los que se aplica su trabajo.

En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.

La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.  La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.

En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)

The Joy of stats… Versión completa de una hora en la BBC4

Primero fue el trailer, a continuación, había clips, y ahora el programa de la BBC4 completo de una hora. The Joy of Stats con Hans Rosling (de Gapminder) está disponible ahora en YouTube!

Comunicaciones en Estadística Volumen 3 No. 2

Comunicaciones en estadística Vol. 1 No. 1

En este quinto número consecutivo de la revista Comunicaciones en Estadísti­ca nos encontramos frente a un cisma generado por la globalización del conoci­miento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una inicia­tiva de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los insti­tutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.

En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacio­nal, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este pro­cedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.

El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la iden­tificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de co­varianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.

Jiménez propone en su trabajo una nueva función de densidad simétrica que pue­de ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena al­ternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.

En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyen­tes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.

Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.

Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febre­ro de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el partici­pante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Apli­cadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el In­ternational Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.

Desde la Facultad de Estadística de la Universidad Santo Tomás les agradece­mos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.

Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)

Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)

Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.

En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.

Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.

En la página de Colombia es pasión, es posible leer lo siguiente:

Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.

Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:

… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…

En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.

Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.

En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.

Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.

En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:

En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.

Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.

En materia de estabilidad social

Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país

En materia de compromiso estatal

La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.

En materia de buen gobierno por la gente

Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.

En materia de seguridad

El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios

Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.

Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis


La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:

Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…

Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.

Entre los invitados nacionales están:

  • Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
  • Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá

Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.

  1. Estudiantes de pregrado: 100 mil pesos
  2. Profesionales: 150 mil pesos
  3. Participantes con poster o ponencia aprobada: 100 mil

La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:

heivarrodriguez@usantotomas.edu.co

La regla de oro del muestreo

La verdad no recuerdo si el sobrenombre <<regla de oro>> me lo inventé o lo leí en alguna parte. Pudo haber sido resultado de haber combinado la lectura del libro <<Foundations of Inference in Survey Sampling>> con la lectura de algún evangelio mientras meditaba en la conclusión del sermón del monte. Lo que recuerdo bien es que ese libro hablaba acerca de que una estrategia de muestreo es óptima siempre y cuando el vector de probabilidades de inclusión de primer orden fuese proporcional a la característica de interés. A eso es a lo que yo llamo la regla de oro del muestreo.

Al respecto, debo aclarar que, a mi modo de ver, lo de la proporcionalidad se debe entender como la similaridad en el comportamiento estructural de los dos conjuntos de datos (el vector de probabilidades de inclusión y el vector de valores observados de la característica de información auxiliar). Por ejemplo, suponga una encuesta de establecimientos en un país latino en donde hay pocas tiendas supergigantes que venden muchísimo, hay muchas tiendas grandes que venden mucho y hay muchísimas tienditas de barrio que venden poco. Ahora suponga tres diseños de muestreo para el mismo problema: el primero, que asigna probabilidades de inclusión iguales a cada elemento de la población, el segundo que asigna mayores probabilidades de inclusión a las tienditas que venden menos y menores probabilidades de inclusión a las supertiendas que venden muchísimo, y el tercer diseño que asigna probabilidades de inclusión mayores a las supertiendas y menores a las tienditas. Teniendo en cuenta la regla de oro del muestreo, el mejor diseño es este último pues más ventas implica mayores probabilidades de inclusión y menos ventas implica menores probabilidades de inclusión.

¿Por qué? Por el principio de representatividad sobre el cual se basa todo el andamiaje epistemológico de la inferencia en poblaciones finitas. Palabras más, palabras menos, se dice que a pesar de la variación per se de todas la poblaciones, algunos individuos son capaces de representarse a sí mismos y a algún otro conjunto de individuos. Es por lo anterior que en estadística se utilizan ponderadores para representar a la población de interés y, como es bien sabido, un ponderador natural es el inverso de la probabilidad de inclusión. Por tanto, un individuo con una probabilidad de inclusión máxima igual a uno, sólo es capaz de representarse a sí mismo y a nadie más, puesto que el inverso de la unidad es la unidad. Un individuo con una probabilidad de inclusión baja, se representará a si mismo y a un conjunto grande de individuos. Si se utiliza el primer diseño muestral, se está incurriendo en un error puesto que se le está asignando el mismo peso a las supertiendas gigantes que a las tienditas de barrio. Pero si se utiliza el segundo diseño muestral se está incurriendo en un error más grave aún puesto que se está afirmando que la supertienda gigante se representa a si misma y a muchas otras y a la vez las tienditas no tienen mucha representación en la población. Lo anterior es obviamente incorrecto. Así que, la regla de oro del muestreo, no es otra cosa que sentido común. Y contra el sentido común no hay mucho que pelear. Por eso a mi me gusta afirmar en mis clases que el diseño muestral y el estimador deben ser igualmente importantes. De qué sirve un mal diseño combinado con el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados….. sirve de nada.

El proyecto IPSUR

En Julio de este año, salió al ciberespacio la obra maestra de G. Jay Kerns. Él ha escrito una obra de alto talante que personalmente siempre quise leer… Se trata de un compendio introductorio de probabilidad y estadística con R… pero cuando digo con R quiero decir que R hace parte fundamental en la lectura y comprensión del texto… Se puede decir que el libro tiene dos partes: la primera enfocada con temas de probabilidad y la segunda con técnicas estadísticas. sin descartar la segunda, me parece que este texto resalta por su excelencia en la escritura de la primera parte… En los cursos de servicios de Probabilidad y Estadística es difícil realizar aplicaciones prácticas de probabilidad con algún software estadístico como SPSS o MINITAB o SAS y la estrategia del docente se remonta a la diagramación en tablero de árboles de porbabilidad siguiendo fielmente la teoría del libro de texto. Sin embargo, esta obra de Kerns, le permite al profesor llevar de la mano la teoría junto con la enseñanza de un software estadístico. Si el lector nota bien, se dará cuenta de que lo anterior conlleva a  no sólo enseñar una matería sino también inculcar en el subconciente colectivo de la calse la necesidad de la computación para realizar estadística y la cultura del aprendizaje de R, hoy por hoy el más importante e influyente software estadístico en las aulas de clase. Me gusta este enfoque y fue precisamente lo que tratamos de hacer en <<Teoría Estadística: Aplicaciones y Métodos>> con los temas de inferencia estadística… llevar conceptos importantes como suficiencia, completez, insesgamiento, cotas de varianza a un lenguaje computacional estándar que sirviera como baluarte fundamental en la enseñanza de tales temas.

La segunda sección del libro de Kerns comprende técnicas estadísticas como pruebas de hipótesis, regresión o series de tiempo.  No voy a ahondar en esto pues hay ya muchos libros que unifican estos conceptos con el software R. Esta obra hace parte de un proyecto adelantado por el mismo Kerns y por G. Andy Chang de la Youngstown State University. Como hace parte de un proyecto GNU… pues ¿adivinen qué? … sí, es grátis… la descarga del libro es gratis y viene acompañada de la descarga del paquete de R <<IPSUR>>. Ahora, que si  lo quiere tener en formato de papel y así apoyar al autor, pues sólo debe adquirir su copia impresa por no más de 30 dólares americanos. Si usted ya es usuario de R siga las siguintes instrucciones para accede al paquete y al libro:

install.packages("IPSUR")
library(IPSUR)
read(IPSUR)

Pero esto apenas empieza, dado que es parte de un proyecto GNU, el autor de esta obra ha puesto a disposición de la comunidad los códigos LaTeX para que usted los modifique y pueda construir su propio libro (debe tener en cuenta el manejo de Sweave, LaTeX y BibTeX). Se trata de una obra sin antecedentes, no sólo por su contenido (libro y paquete) sino por el alcance que estoy seguro va a tener en el mediano plazo dadas sus técnicas de comercialización.

Nuevo portal WEB de la Revista Comunicaciones en Estadística

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.

http://comunicacionesenestadistica.usta.edu.co

La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.

La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:

  • Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
  • Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
  • Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
  • Una revisión de los modelos de volatilidad estocástica.
  • Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.

Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a

revistaestadistica@usantotomas.edu.co

Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.

Una mezcla factible

Se ha dicho que el sector privado y la academia no siempre son compatibles;  yo coincido con esa opinión pero en un sentido ligero, y en esta entrada quiero explicar por qué no son del todo compatibles y porqué sí deberían serlo. La explicación es sencilla y está enmarcada en la siguiente frase de un colega, muy respetado, describiendo el mundo laboral (empresa o academía) del estadístico egresado:

Cuando te gradúas, o te contrata una empresa en la que debes permanecer diez horas al día, o te buscas un par de universidades en las cuales dictes cursos a lo largo del día… Al final de la jornada, habrás tomado una decisión de vida.

El anterior razonamiento es una realidad; sin embargo, de ninguna manera está indicando que el estadístico deba o pueda desligarse de la academia. De hecho, ni siquiera es una opción… Nuestra profesión es diferente; aunque se ha dicho que el estadístico siempre debe estar en continua actualización porque su campo de acción está en diferentes sectores (como el marketing, la farmacología, la genética, las finanzas, entre otras); yo creo que además de esto, el estadístico ha adquirido la cultura de actualizarse en materia de métodos estadísticos. En este campo de la ciencia, se debe ser proactivo y, aunque el trabajo en la oficina es monótono, cada vez que llegan datos para analizar, el estadístico debe preguntarse qué nuevo modelo arrojaría mejores resultados, o qué nueva técnica discriminaría mejor los clientes, etc. Esa cultura de la actualización es la que ha llevado a muchos colegas a ser exitosos en sus empresas sobre otro tipo de profesionales de otras disciplinas.

Por el otro lado, el docente o el investigador debe estar preparado para afrontar las preguntas de los alumnos y al mismo tiempo para guiarlos en el desarrollo profesional y establecer los parámetros para el desempeño de la vida profesional. Por eso, en esta disciplina, un buen docente no es aquel que conoce al pie de la letra la teoría y las fórmulas y ecuaciones; eso no es un valor agregado. Un buen docente, a parte de conocer con exactitud la teoría debe manifestar su conocimiento con ejemplos prácticos y debe ser capaz de colocar al alumno en situaciones reales. A mi antojo, los ejemplos de los libros en estadística son a veces inocuos… Asuma la muestra aleatoria normal … bla, bla, bla… No estoy de acuerdo con eso, y lo he visto en varios escenarios. Gracias a Dios, tuve la fortuna de contar en la Universidad Nacional, en todos los niveles, con muchos profesores y colegas investigadores académicos pero a la vez  profesionales que utilizaban ejemplos de sus propias consultorías para enfocar el desarrollo de la clase.

De esta manera, quiero hacer un llamado a la excelencia en nuestra disciplina; el estadístico de oficina, que trabaja arduamente debe actualizarse en materia de métodos y aplicaciones estadísticas. El estadístico docente investigador debe afrontar sus clases con ejemplos reales de su desarrollo como consultor. No hacerlo representa el estancamiento profesional y académico.

¿Quién enseña estadística básica?

En respuesta a un muy citado artículo del profesor Meng en 2009 (Temido y deseado, ¿qué hacemos ahora y durante los próximos 50 años?), el doctor Frank Soler escribió un corto ensayo acerca de uno de los puntos críticos de los que habla Meng. En esta ocasión, Soler toca el tema de los profesores que enseñan estadística básica (refiriéndose a los cursos que se desarrollan en carreras como ingeniería o economía). En su ensayo, afirma que, a pesar de ser una ciencia joven, la estadística ha tenido un crecimiento asombroso, de alguna manera, representado en el número de estudiantes que se enrolan en un curso introductorio. En sus cálculos, él asume que anualmente cuatro mil estudiantes asisten a los cursos básicos de estadística que ofrece el departamento de matemáticas y estadística de la institución donde labora. Para servir estos cursos, alrededor de 20 o más profesores son contratados como docentes y de estos, sólo seis tienen un diploma de pregrado en estadística, el resto del cuerpo docente lo constituyen matemáticos con poca experiencia en el manejo de datos.

El doctor Meng, en su artículo hace un llamado a corregir este tipo de situaciones, y es un llamado específico a los estadísticos para que enseñen estadística en todos los niveles y afirma que

Los profesores estadísticos más competentes (en el sentido profesional y pedagógico) deberían enseñar cursos de estadística básica

Al respecto, yo creo que es posible que esta situación mejore en el corto plazo. En la Universidad Santo Tomás existe un departamento de ciencias básicas encargado de los cursos de matemáticas y estadística introductoria. Con el pasar del tiempo, la Facultad de Estadística está tomando esos cursos de servicios y los está administrando con su propio cuerpo docente. Cabe aclarar que la mayoría de docentes son estadísticos, aunque hay unos cuantos matemáticos que tienen una muy buena perspectiva del manejo de datos. Los cursos básicos no pueden ser abandonados a la deriva y tienen que ser una motivación para que el estudiante sea un mejor profesional… Ahora, esto sólo se logra si los docentes les hablan del trabajo estadístico en el día a día, del manejo de la información y de cómo su profesión se ve involucrada con la nuestra y, como consecuencia directa, su impacto en los niveles de la sociedad o de la empresa. En este momento, la Facultad atiende por semestre a más de dos mil estudiantes y ya empieza a fortalecerse como un cuerpo serio dentro de la institución.

El problema ahora no es atraer a los estudiantes a tomar un curso de estadística. De alguna manera, cada vez más el manejo cuantitativo de datos en el mundo profesional hace que los estudiantes se vean en la obligación de tomar esta clase de cursos. Por el contrario, el problema ahora es quién está dictando esos cursos… Deben hacerse los esfuerzos necesarios para que estos cursos estén a cargo de personas idóneas que entiendan la problemática estadística y no sólo se limiten a exponer fórmulas matemáticas sin sentido práctico, puesto que, como lo afirma Soler, estamos en el momento de la masa crítica y nuestra atención sobre este tema puede determinar si la estadística será deseada o temida en 50 años.

Ejercicios EM (capítulos 2, 3 y 4)

Haciendo clic acá y acá encontrará algunos ejercicios que he preparado para mi cátedra de muestreo en la Facultad de Estadística de la Universidad Santo Tomás. Los ejercicios están basados en el libro EM y están planeados para que el estudiante interiorice que un buen <<muestrista>>  debe pensar en las ventajas y desventajas de las estrategias (diseño de muestreo y estimador) que pueda implementar con ayuda del marco de muestreo de elementos y al final, con la mejor estrategia, selecciona un única muestra y realizar el proceso de estimación con el mejor estimador.

Nuestro libro de estadística: Teoría Estadística, Aplicaciones y Métodos


Hace unos pocos días hemos terminado un trabajo que desde hace unos años empezamos a gestar en la Facultad de Estadística de la Universidad Santo Tomás… se trata de un libro de teoría estadística que recoge la rigurosidad teórica y al mismo tiempo conduce al lector por el apasionante destino de la práctica estadística la cual ciertamente debe estar fundamentada en la teoría. Con este enfoque empezamos a divagar sobre cuál debería ser el orden de los contenidos y qué tópicos debería abordar el texto. Después de poco tiempo, propuse que debería ser el sentido común quien le diera el orden a los contenidos. El sentido común al que tanto apelaba Leslie Kish cuando, a grandes rasgos, afirmaba que las muestras no estaban dadas sino que debían ser recolectadas y analizadas.

Con base en lo anterior, verificamos que el análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución beta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque… tiene la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría que se desarrolla rigurosamente.

El libro está en proceso editorial y esperamos que en pocos meses esté disponible en el mercado hispanoamericano. Haciendo clic acá encontrará una visualización del texto. A continuación reproduzco el prologo, que muy amablemente fue escrito por Fabio Nieto, reconocido profesor e investigador del Departamento de Estadística de la Universidad Nacional de Colombia, sede Bogotá.

Sobre teoría estadística se han escrito muchos libros, indudablemente más en el concierto internacional que en el nacional. Sin embargo, cada vez que un lector se enfrenta a una nueva publicación sobre el tema, él quisiera detectar qué es lo nuevo, diferente o atractivo que se presenta o desarrolla en la obra que tiene en sus manos. Desde esta premisa, es muy agradable presentar este libro en el cual se marcan diferencias importantes con respecto a muchos otros escritos sobre la materia. En las líneas siguientes explicaré estas características significativas, para usar un término muy “estadístico”.

En virtud de la gran experiencia y habilidad en el manejo del lenguaje R por parte de los autores, el libro incluye muchos ejemplos ilustrativos de los conceptos fundamentales de la inferencia estadística, los cuales se han desarrollado con este lenguaje. Esto permite al lector comprender, por ejemplo entre muchas otras,  la noción intuitiva de distribución muestral (o de muestreo).

Se incluye la teoría estadística básica de la inferencia multivariada, crucial en el entendimiento del comportamiento probabilístico de un vector de variables aleatorias y de las relaciones entre ellas. No es usual encontrar un trabajo en donde se incluyan conjuntamente, los contextos univariado y multivariado de la inferencia estadística.

Este libro es un buen punto de partida para el conocimiento e interiorización de la teoría estadística, por parte de estudiantes de una carrera de estadística, en el entendido de hacer de la práctica estadística una profesión. Además, podrá ser un gran soporte para la realización de estudios de posgrado, bien sea a nivel de profundización de conocimientos o a nivel de investigación.

En forma muy general, se puede afirmar que en la presente obra, la teoría y sus aplicaciones son presentadas de manera muy coherente y equilibrada; es decir, sin profundizar en lo teórico más allá de lo necesario y sin exagerar en la inclusión de las aplicaciones. Por esto y todo lo expresado anteriormente, me siento muy complacido de presentar este libro y de recomendarlo a un amplio conglomerado de lectores o usuarios de la estadística.

Fabio Nieto

Cosas que debo hacer este semestre…

Recibo ideas…
  1. Publicar <<Inferencia Estadística, un enfoque integral>> (alguien tiene un mejor nombre?, todavía no me convenzo de ese título… este libro es pura estadística matemática aplicada a las ciencias sociales… modelos univariados y multivariados, ejemplos en R y datos reales, 350 pags!!!!)
  2. Empezar my thesis PhDs (Modelamiento Bayesiano para datos longitudinales en media y varianza, mi tutor me dice que debo entregar en año y medio… ojalá, Dios me ayude!!!)
  3. Terminar el libro de Bayesiano (En principio se llama Introducción a los modelos Bayesianos… ¿un mejor nombre?… ya terminé toda la parte teórica, pero falta que los coautores me ayuden con los ejemplos en R… Modelos univariados, multivariados, regresión, modelos lineales generalizados, modelos jerárquicos, series de tiempo, muestreo y sobrevida.)
  4. Darle forma a las notas de Análisis de Sobrevida (Esta será una linda aventura… todo empezó con el curso de doctorado y ahora ya tenemos unas notas que carecen de estructura, pero que muy seguramente saldrán a la vida en un libro introductorio de esta linda materia.)
  5. Patinar con mis amigos!!! skating with my hommies.

R y LaTex unidos en la generación automática de reportes de muestreo

Se acerca navidad y esta vez el regalo es para aquellos estadísticos que trabajan generando cuadros de estimaciones de muestreo (aunque no necesariamente de muestreo probabilístico) y lo hacen utilizando R (no necesariamente el paquete TeachingSampling). Una vez más, Jorge Ortiz vuelve a sorprender al gremio con su creatividad y su perspicacia para automatizar las tareas en las que el estadístico no es tan hábil. En esta ocasión, se propone un procedimiento para y una función en lenguaje R para preparar la edición automática de grandes cantidades de tablas con estructuras similares que se generan durante las aplicaciones de encuestas.

Se trata de las nuevas funciones TbLatex y DataFr, incorporadas en la nueva versión del paquete TeachingSampling (v. 1.1.9), las cuales permiten definir la implementación de variables, categorías, subgrupos poblacionales, rótulos, estimaciones, coeficientes de variación, títulos, encabezados y notas de las tablas resultantes de un estudio que se van a incluir en un reporte de trabajo estadístico. Esta engorrosa labor es llevada a cabo, la mayoría de las veces, utilizando MS Excel o MS Access y su implementación final puede tomar varias semanas, si se cuenta con un equipo de varios digitadores. Además de evadir el error humano, la presentación de las tablas es muy importante. El formato resultante de la aplicación de estas funciones (ver imagen y ver acá) es limpio, diáfano y estándar. Además que mejor que presentar unos buenos cuadros de salida venidos de LaTeX.

El resultado de las funciones es un archivo con extensión .tex. Se trata de un archivo que se encuentra listo para compilar en su editor preferido de LaTeX. Si se trata de un reporte técnico, usted puede generar un informe vertical. Si se trata de una presentación con diapositivas, lo puede hacer de forma horizontal. Si sólo necesita los cuadros de salida, por ejemplo para un apéndice, sólo tiene que ejecutar la función en R y compilar y listo. Si quiere añadirle texto y explicaciones y referenciarlas, sólo tiene que abrir el archivo generado y, antes de compilar, añadirle sus explicaciones o lo que sea que le quiera añadir.

Esta implementación, es fruto de este artículo del profesor Ortiz que saldrá en pocos días en la revista comunicaciones en Estadística. En ese manuscrito, el profesor Ortiz utiliza un ejemplo ficticio para la generación de tablas automáticas. Por otro lado, está este manual de las funciones que estará en pocas semanas en el CRAN de R, disponible en el paquete TeachingSampling. En este manual, se integraron las funciones en cuestión con las del paquete y como resultado se tiene un software que selecciona muestras de la mayoría de diseños de muestreo más conocidos, que estima totales, medias, cuantiles y coeficientes de regresión – para múltiples variables de interés – mediante expansión, o calibración y todas esas estimaciones se concentran en LaTeX para la generación diáfana de reportes de muestreo.

Esperamos que disfruten esta nueva característica del paquete y Feliz Navidad… Volveré a escribir, si Dios lo permite, a principios del otro año. Feliz y próspero año nuevo… Tome un momento y recapacite en todas las cosas buenas de la vida… Bien, esas cosas se las dio Dios… sea agradecido. De esta manera, me despido de ustedes, agradeciéndole a Dios por tantos lectores y comentaristas.

Correlaciones

Fuente: Wikipedia

Manual de soluciones de teoría Bayesiana

42-22065357

En las últimas décadas, la teoría estadística se ha visto enriquecida por un nuevo tipo de pensamiento, que según David Salsburg (The Lady Testing Tea), fue desechado llevado al punto en que el investigador que manifestara su gusto por esta corriente era directamente discriminado y tildado de no riguroso. Pues bien lo tiempos han cambiado, y la verdad sea dicha, la estadística Bayesiana se ha convertido en un baluarte gigante de los métodos cuantitativos.

Algunas personas me han escrito desde diferentes países de Latino-américa y en cierta forma algunos de esos correos buscan algún tipo de dirección en cuanto a estadística bayesiana se refiere. La verdad sea dicha, en muchos casos el investigador que intenta usar un método bayesiano en un área de aplicación debe sacar lo mejor de sí y ponerse en la tarea de aprender de forma individual. Para todos aquellos (no estadísticos) que están interesados, de alguna manera muy apasionados, por aprender estadística bayesiana, les digo que sí es posible hacerlo. En realidad, por el momento, no existe algún texto estándar porque el subjetivismo juega parte importante en el aprendizaje de esta materia. De hecho, valdría la pena publicar un libro en español de análisis bayesiano que estuviera enfocado en métodos aplicados a problemas del día a día (Ver más abajo). Mientras alguien se anima les dejo dos herramientas de trabajo para su quehacer autodidacta. Se trata de dos solucionarios: el primero, escrito por Andrew Gelman para la segunda edición de Bayesian Data Analysys, el segundo escrito por Robert & Marin para su libro The Bayesian Core.

PD1: Confieso que desde hoy me pondré a la tarea de terminar esta grandiosa idea de plasmar en un texto académico mi visión de la estadística bayesiana.

PD2: En pocos días saldrá al mercado mi primer libro. Gracias a todos ustedes por interesarse tanto en el muestreo. De veras, infinitas gracias.

¿Efecto causal o simplemente asociación?

Bases

Gran alboroto entre la comunidad internacional (como si no tuviéramos suficiente con nuestros vecinos y nuestro papá dictador interno) ha causado la divulgación de un artículo, titulado Bases, balas y balotas: el efecto de la ayuda militar de EE.UU. en el conflicto político de Colombia, escrito por los reconocidos investigadores Oeindrila Dube y Suresh Naiduz del instituo Santafe. La introducción del artículo clama que:

Este documento examina el efecto de la ayuda militar de EE.UU. sobre la violencia política y la democracia en Colombia. Aprovechamos el hecho de que la ayuda militar de EE.UU. se canaliza a las brigadas del ejército colombiano que operan en bases militares para comparar cómo los cambios en las ayudas afectan a los resultados en los municipios con y sin bases. Usando datos detallados sobre la violencia perpetuada por grupos armados ilegales, encontramos que la ayuda militar de EE.UU. lleva a un aumento diferenciado en los ataques de los grupos paramilitares.

En el cuerpo del documento los investigadores afirman que:

Un aumento del 1% en ayuda militar de EE.UU. hacia Colombia aumenta los ataques paramilitares en un 1,5% más en los municipios, y baja la participación en las elecciones a alcalde en 0.2% y en 0.12% más en las regiones de disputa militar.

El analista político Chris Blattman asegura que:

Yo no diría que lo anterior condena el Plan Colombia. La lucha contra los insurgentes no es atractiva, pero sí es importante… Sin embargo, sugiere que los EE.UU. podrían tener una mayor obligación de promover la democracia local y la seguridad junto con su ayuda militar.

Andrew Gelman ha subido una entrada crítica en su blog donde advierte sobre la gravedad, en términos estadísticos, de las conclusiones de este artículo. Él afirma que:

Es un análisis interesante, pero me gustaría que se sustituya todo el lenguaje causal por “se asocia con” o algo similar… Desde un punto de vista estadístico, lo que Dubey y Naiduz están haciendo es estimar los efectos de la ayuda militar de dos maneras: primero, mediante la comparación de los resultados en años en que los EE.UU. gastan más o menos en la ayuda militar, en segundo lugar, comparar los resultados en las ciudades en Colombia, con y sin bases militares.

En este caso, los investigadores parecen haber encontrado que, al observar las diferencias en los resultados en un año determinado comparando las ciudades con y sin bases militares, estas diferencias fueron mayores, en promedio, en años donde había más ayuda militar de EE.UU. [Sin embargo,] lo que realmente me gustaría ver son algunos diagramas de dispersión que dejaran claro este patrón. El único gráfico que es relevante para este análisis es la figura 2 (ver la figura de arriba), que revela que el gasto militar de EE.UU. ha sido mayor en períodos en los que ha habido más ataques paramilitares en las ciudades con bases militares. Pero, sin ver los datos reales, es muy difícil interpretar esto como la evidencia de que los aumentos en la ayuda militar están causando los ataques.

Y concluye que:

Lo que realmente parece que está pasando, desde un punto de vista estadístico, es que se están comparando el último tercio de la serie de tiempo con los dos primeros… Pero entonces se debe aclarar que se ve tan sólo una asociación [no una causalidad] en el tiempo de la ayuda de EE.UU. en momentos de mayor conflicto.

Al respecto, John Sides comenta que:

La ayuda militar de EE.UU. es distribuida a las brigadas que están más cerca de los combates. Es más probable que la violencia paramilitar ocurra en las comunidades más cercanas al conflicto. Seguramente que los EE.UU. le proporciona a Colombia ayuda alimentaria, la cual es, sin duda, distribuida en las zonas más pobres del país. ¿Significa esto que ayuda de EE.UU. provoca la desnutrición?

En general, este es un ejemplo claro de cómo malinterpretar la asociación estadística con la causalidad efectiva… Recordemos que no fue sino después de una dura lucha, que llevó muchos años, que se concluyó que el cigarrillo causa el cáncer de pulmón y no fue con una simple tabla de contingencia. Más allá de mi opinión acerca de las bases y el conflicto colombiano, pienso que este artículo sirve como estrategia didáctica para que los alumnos adquieran capacidad de análisis y veracidad en la interpretación de las técnicas estadísticas.

En término prácticos, una clase de regresión podría incluir el sencillo ejemplo de las emisoras y el número de dementes en las ciudades (mayor número de emisoras no implica mayor número de dementes, ni las emisoras vuelven locas a las personas… simplemente si hay más emisoras es porque la ciudad es más grande y por ende hay más personas, ergo más dementes) y luego introducir este ejemplo de la ayuda militar en Colombia, y mostrarle al estudiante de estadística que debe tener mucho cuidado con las interpretaciones de los betas, etc. De suerte que el estudiante caerá en cuenta que, más allá de aplicar una técnica estadística, su trabajo está directamente relacionado con la toma de decisiones influenciada por su interpretación acerca de los datos; es decir, su trabajo se trata de brindar información veraz con los datos recolectados.

Por otro lado, auguro que este artículo traerá mayor oposición internacional hacia el gobierno Colombiano y su relación con EE.UU. y esto afectará aún más las relaciones regionales. La verdad, se me antoja que las conclusiones de estos investigadores son desafortunadas y con mucho potencial… En términos de política interior se debe revisar con rigurosidad el destino de los dineros provenientes de la ayuda militar de EE.UU. No queremos más falsos positivos, según José Obdulio Gaviria, no queremos más atentados cobardes y deliberados del estado en contra el pueblo colombiano, según el autor de esta entrada.

Interpretación física de la mediana

Es claro el altísimo nivel de importancia que han adquirido las estrategias didácticas en el aula de clase. Ya lo diría Tukey cuando afirmaba que no se deberían dar ejemplos estúpidos en el momento de la enseñanza de conceptos estadísticos puesto que esto implica que el alumno va a reconocer que la estadística sólo sirve para resolver problemas estúpidos en la vida real.

Esta entrada está basada en el enfoque didáctico que Mark Lynch, de Millsaps College Jackson, plasmó en un artículo del The College Mathematics Journal, en donde se reconoce que la media de un conjunto de datos {x_1,ldots,x_n} se puede interpretar como un punto de balance, en el sentido de que si esos puntos se colocasen en una barra uniforme, entonces un fulcro debería ser colocado en el punto de equilibrio para tener equilibrio perfecto – ó el lugar en donde se debería poner un punto de apoyo para alcanzar un balance perfecto debería ser en el punto medio de la barra dado por sum x_i/n – tal y como lo muestra la siguiente figura.

Por otro lado, una interpretación física de la mediana, basada en este contexto de balance, no ha sido muy difundida en la literatura. Sin embargo, Lynch propone una muy linda idea que vale la pena compartir con los estudiantes para llegar a una mejor comprensión de la definición de esta medida de tendencia central. Luego, vamos a cambiar la barra uniforme por una cuerda (¿cabuya?) y a esta le añadimos un pedazo de cuerda aún más larga que la anterior para formar un bucle, así como lo indica la siguiente figura.

Además de cambiar la barra por la cuerda, vamos a cambiar el fulcro por una polea y supondremos que es una polea perfectamente lubricada de tal forma que la fricción pueda ser pasada por alto sin ningún inconveniente. Ahora, colgando la polea en un sitio seguro, es fácil observar que el bucle se estabiliza en la mediana de los datos. Al respecto se cuenta con los siguientes dos comentarios que caracterizan a la mediana como medida de tendencia central:

  1. No importa qué tan alejado esté algún dato del resto, el balance se mantiene en el mismo lugar y esto muestra por qué la mediana no se deja afectar por valores atípicos.
  2. Si el número de observaciones es impar, el balance se alcanza en el dato que está en la mitad. Si por el contrario, el número de observaciones es par, el balance se alcanza en cualquier punto físico que se encuentre localizado entre los dos valores de la mitad, luego la mediana no se restringe sólo al promedio entre estos dos datos (ver siguiente gráfica). De hecho, desde la definición ortodoxa de mediana, si el número de observaciones es par, cualquier punto entre los datos de la mitad acumula el 50% de las observaciones a derecha y a izquierda.

Nuevas tendencias en publicación estadística

Haciendo clic acá encontrará la charla titulada “Nuevas tendencias en publicación estadística” enmarcada dentro de la cátedra Estadística y Sociedad de la carrera de Estadística en la universidad Nacional de Colombia. Mis agradecimientos al profesor Pedro Nel Pacheco por la invitación y al excelente público compuesto por estudiantes, egresados y profesores.

Del dicho al hecho: Consistencia, eficiencia e insesgamiento

—————————————————————————————————————————————————

Las siguientes deficiniciones matemáticas están adaptadas del libro de Teoría de estimación puntual de Lehman (Wiley, 1983).

Insesgamiento: Sea T un estimador del parámetro de interés \theta \in \Theta. Se dice que T es insesgado si y sólo si se cumple que

E(T-\theta)=0

Insesgamiento asintótico: Sea T_n una secuencia de estimadores del parámetro de interés \theta \in \Theta. Se dice que T_n es asintóticamente insesgados si la distribución límite de n^{1/2}(T-\theta) tiene media nula.

Consistencia: Sea T_n;n>1 una secuencia de estimadores del parámetro de interés \theta in \Theta. Se dice que la secuencia T_n es consistente si y sólo si para todo \theta in \Theta y para todo \varepsilon>0 se cumple que

Lim_{n \rightarrow \infty} P(|T_n-\theta|\geq \varepsilon)=0

Eficiencia: Sean T_1 y T_2 estimadores del parámetro de interés \theta \in \Theta. Se dice que T_1 domina a T_2 si para todo \theta \in \Theta

E[(T_1-\theta)^2]\leq E[(T_1-\theta)^2]

Y se define la eficiencia relativa como

e(T_1,T_2)=frac{ E[(T_1-\theta)^2]}{ E[(T_2-\theta)^2]}

—————————————————————————————————————————————————

Hace pocos días asistí a una charla enmarcada dentro de un seminario informal en donde el expositor, uno de los más reconocidos investigadores estadísticos del ámbito nacional, manifestaba la dificultad que significaba traducir la simbología matemática de los fundamentos de la teoría estadística, con su perfecto andamiaje, a la vida práctica. Él se refería a términos como la completitud de un estimador o incluso la misma suficiencia, como conceptos que si bien encajan perfectamente en la abstracción matemática, en la práctica no son nada fáciles de explicar.

No en vano él es una de las personas más influyentes en el desarrollo de la estadística en Colombia y uno de los mejores profesores universitarios. Esa amalgama de investigador y buen profesor es difícil encontrarla en una sola persona. Su avidez para reconocer esa dificultad debe motivarnos a cambiar las estrategias docentes en los cursos tanto de servicios externos a otras facultades como internos en un programa de estadística. Por otro lado, Jhon D. Cook, uno de los estadísticos más leídos en el mundo, también manifestó a finales del año pasado que ha tenido grandes dificultades a la hora de explicar términos como sesgo, consistencia o suficiencia en una clase de estadística en pregrado y que su estrategia radica en construir pseudo-códigos computacionales para <<aterrizar>> la idea práctica de cada uno de estos conceptos.

Y es que una de las formas más óptimas para que un estudiante asimile conceptos tan teóricos y a veces tan disímiles es el aprendizaje a través del código computacional. De esta manera, no sólo se está introduciendo al estudiante al mundo de la habilidad lógica matemática en una demostración sino que al mismo tiempo ese mismo estudiante puede reconocer fácilmente las propiedades de los estimadores que le ayudaran a decidir en la vida práctica. Y es que aunque la vieja regla de Hajek sigue teniendo vigencia -

Los estimadores con un sesgo considerable son pobres sin importar qué otras propiedades puedan tener.

- ésta no resuelve nada en presencia de dos estimadores tales que uno es insesgado y el otro es levemente sesgado ¿cuál estimador debo escoger? Retomando a Cook, supóngase que se desean comparar dos estimadores de la varianza de una muestra aleatoria de variables con densidad Normal de media 5 y varianza 81; por ejemplo, el estimador de máxima verosimilitud

\hat{\sigma}^2=\frac{1}{n}\sum_{i=1}^n(x_i-\bar{x})

Y el clásico estimador insesgado

S^2=\frac{1}{n-1}\sum_{i=1}^n(x_i-\bar{x})

Que algo quede muy claro. La muestra es una y sólo una… ¿cuál es el mejor estimador? En términos computacionales, y adaptando el ejercicio práctico de Cook, la siguiente gráfica muestra la propiedad de consistencia de los dos estimadores: Ambos conservan esta propiedad; es decir a medida que el tamaño de muestra crece, los valores de las estimaciones se acercan al verdadero valor 81 con una muy alta probabilidad. En estos términos los dos estimadores son igualmente aceptables.

Por otro lado, la propiedad del insesgamiento está relacionada directamente con la esperanza matemática del estimador, en términos de su distribución de muestreo. La siguiente gráfica fue realizada de la siguiente manera: Para un tamaño de muestra fijo n=10, se estima el parámetro de interés. Ahora, este ejercicio se realiza una vez, dos veces, tres veces, …, muchas veces. En cada repetición se calcula el promedio de las estimaciones y se grafica (siempre manteniendo el tamaño de muestra fijo). Nótese que en un momento dado ambas líneas parecen convergar a un valor. Por supuesto el estimador insesgado converge a 81, el verdadero valor, mientras que el sesgado converge a un valor inferior.

John Cook se pregunta si ésta es una prueba fehaciente de que el estimador insesgado resulta mejor que su competidor. Él afirma que aunque el promedio el estimador converja al verdadero valor 81, eso no significa que las estimaciones individuales sean buenas. Es posible que un estimador insesgado arroje estimaciones individuales ridículas pero en promedio converja al verdadero valor. Una vez más, el número de muestras seleccionadas en la vida real es uno y sólo uno. Así que esta propiedad no basta para escoger un estimador. Paso seguido, la eficiencia. En la siguiente gráfica se aprecia que el error cuadrático medio del estimador insesgado está alrededor de 1500, siendo más alto que el error cuadrático medio del estimador sesgado, que se encuentra alrededor de 1200. Las anteriores cantidades se pueden calcular teóricamente: para el estimador insesgado, resulta ser igual a 1458 y para el sesgado resulta ser 1246.

Haciendo clic acá  encontrará el código computacional en R con el que se desarrollo el anterior ejercicio.