“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Inferencia
El tamaño sí importa
May 9th
Con el tiempo deja de fastidiarme la pregunta que se hacen todos y cada uno de los usuarios y “clientes” de una encuesta: ¿cuál es el tamo de muestra para este estudio? De hecho, esta pregunta a veces surge sin plantear el problema de investigación, ¡a veces sin siquiera saludar! El dueño de la investigación llega muy orondo y de repente cuestiona: ¿cuál es el tamaño de muestra para evaluar esta política pública? ¿cuál es el tamaño de muestra para esta investigación de mercados? ¿cuál es el tamaño de muestra para este estudio farmacológico? Por supuesto, el tamaño importa porque dependiendo de esta cifra se tiene un costeo previo del monto del estudio.
Además de lidiar con estas actitudes automatizadas, el estadístico debe guiar al “cliente”, muchas veces con preguntas sagaces, hacía un lugar que les permita tener un acercamiento exhaustivo al problema en cuestión. A algunos les parecerá aburrido e innecesario, pero les aseguro que es un ejercicio que hará valorar más el papel del estadístico frente al medio. Esto llega a tener implicaciones éticas muy profundas porque una buena concienciación del problema puede ahorrarle dinero al estado. Por ejemplo, considere que un estudio quiera tener representatividad (nivel de confianza predefinido, asegurar un margen de error previo y acotar el error estándar relativo) con un nivel de confianza del 95% y un error estándar relativo máximo del 3%. Ahora piense en esto: si con tres mil encuestas se logra un error estándar relativo del 2% y con dos mil encuestas se logra un error estándar relativo del 2.9%, entonces la escogencia de tamaño de muestra debería ser dos mil encuestas, en vez de tres mil. El estadístico novato dirá que tres mil es mejor que dos mil. En términos de inferencia estadística los dos escenarios son similares (ambos con la misma confianza y un error estándar relativo menor al 3%), se toman las mismas decisiones con ambas cifras, pero la diferencia en dinero puede ser abrumadora.
Sin embargo, aparte de lo anterior, el estadístico debe sondear si el problema de investigación se refiere a la estimación de un parámetro o al contraste de una hipótesis que el investigador haya definido como importante. En principio son dos escenarios distintos, pero hay una delgada línea entre uno y el otro. Por ejemplo, suponga que se plantea un estudio que va a comparar dos grupos: un grupo de tratamiento y grupo de control. El investigador quiere conocer si existen diferencias significativas entre un grupo y otro. Es justo en este instante cuando comienza la encrucijada. Eso suena a prueba de hipótesis. Es más suena a prueba de hipótesis bilateral. Sin embargo, es aquí en donde el papel del estadístico debe sobresalir. Y no porque sea avezado en sugerir expresiones matemáticas inmediatas para el cálculo del tamaño de muestra, sino porque debe seguir ahondando más en el problema. Antes de sugerir alguna fórmula, debe realizar la siguiente pregunta ¿cuánto es diferente? Si las diferencias son de medias o de proporciones, los investigadores deben saber desde qué cantidad esa diferencia comienza a ser importante. La respuesta a esta pregunta determina el rumbo de estudio y por consiguiente la fórmula correcta para determinar el tamaño de muestra.
Entonces, si la respuesta es: “déjeme pensar, no sé, dígame usted”; este es un problema de estimación y no de pruebas de hipótesis. Si todavía está leyendo pues no pare de hacerlo, porque esto se pone más interesante. No es una herejía, cuando el investigador no conoce la respuesta a la pregunta ¿cuánto es diferente?, entonces al diablo con las pruebas de hipótesis y bienvenida la confianza estadística (), el margen de error (
) y el efecto de diseño del muestreo (Deff). En este caso, la expresión adecuada para el tamaño de muestra es: (Ver acá)
Por el contrario, si el investigador responde: “yo quiero saber si la diferencia absoluta entre las proporciones es mayor a 0.2″; entonces el problema sí es de pruebas de hipótesis y no de estimación. Nótese lo ambigua que es la afirmación “quiero saber si hay diferencias significativas.” No, de lo que se trata es de que el investigador afirme “quiero saber si el grupo de tratamiento tiene una proporción mayor que la del grupo control. Es más quiero saber si esa diferencia es mayor a 0.2″ En el anterior escenario, es claro que ni siquiera se trataba de una hipótesis bilateral, sino unilateral y que el efecto que al investigador le importa ya está cualificado y es de 0.2. Este sí es un escenario de pruebas de hipótesis (unilateral) y debe involucrar a la confianza (), la potencia (
) y el efecto que quiere contrastar en la prueba (
). En este caso, la expresión correcta para el tamaño de muestra es: (Ver acá)
En la práctica, esto significa que para una población de un millón de personas, divida en dos grupos de interés, en donde se supone un diseño de muestreo complejo para la recolección de la información con un , y asumiendo que la varainza de la diferencia de proporciones es máxima (con
), se tiene que:
1. El tamaño de muestra mínimo en cada subgrupo, para realizar una estimación de la diferencia de proporciones cuyo intervalo de confianza al 95% sea tal que su margen de error no supere el 3%, es de 2130 personas.
2. El tamaño de muestra mínimo en cada subgrupo, para realizar una prueba de hipótesis sobre la diferencia de proporciones para detectar un efecto de D=15%, un nivel de significación del 5% y una potencia del 80%, es de 933 personas.
Espero que con esta lectura usted esté descubriendo esa delgada línea en su área de trabajo. Por lo demás, tómese siempre su tiempo para reflexionar en las características de su estudio y en hacer las preguntas correctas a las personas correctas en el momento correcto. Esto le da una ventaja competitiva invaluable.
¿Le gustaría recibir entrenamiento virtual certificado en estadística aplicada?
Dec 2nd
Estamos por montar una plataforma virtual única respaldada por una excelente Universidad en América Latina. Se trata de hacer algo muy serio y efectivo para el entrenamiento de los profesionales que a diario están aplicando técnicas estadísticas en sus diferentes disciplinas. Los seminarios, cursos, diplomados y conferencias serán virtuales y estarán disponibles para todos nuestros profesionales de la región. Los inscritos recibirán una certificación válida por la Universidad.
Imagínese la cantidad de oportunidades que podrían generar con estos entrenamientos. Los temas son muy variados, por ejemplo, ¿le gustaría aprender estadística bayesiana? ¿le gustaría aprender a hacer macros en SAS o en SPSS o en R? Las opciones son ilimitadas y usted podría capacitarse, entre otros en: Bioestadística, Causalidad, Control de calidad, Data Mining, Diseño experimental, Econometría, Diseño de encuestas, Inferencia, LaTeX, Marketing, Métodos multivariados, Modelos estadísticos, Muestreo, Probabilidad, Psicometría, Software estadístico, Series de tiempo, Simulación, etc.
Para que este proyecto tenga éxito, le pido que por favor llene una encuesta muy breve que no le llevará más de dos minutos.
¿Con intercepto o sin intercepto? ¡Esa es la cuestión! (controversia del mes… ver los comentarios)
Sep 21st
Hace varios meses he tenido que lidiar con la creación de modelos en diferentes disciplinas. Si bien cada modelo requiere que el investigador haga una contextualización adecuada de la problemática que aborda, lo cual implica que ningún modelo será igual a otro, existe una pregunta común que el investigador debe hacerse antes de la puesta en marcha del modelo.
¿Ajusto el modelo con o sin intercepto?
En la búsqueda del mejor ajuste, el investigador se ve tentado muchas veces a ejecutar procedimientos automatizados de selección de variables (stepwise, forward, backward) y muchas veces se escoge el mejor modelo; de tal manera que el coeficiente de determinación (o el AIC, o el DIC) sea el más alto. Llámenme anticuado y retrogrado (o incluso vejestorio) pero yo siempre he sido un poco reticente de meter los datos al software y esperar el mejor modelo (ver diseño estadístico).
Volviendo al objeto de esta entrada quisiera resaltar la importancia de la inclusión/omisión del intercepto en un modelo. Para esto voy a tener en cuenta los siguientes casos
Si la variable respuesta Y es continua:
- La variable explicativa X también es continua: este es el caso clásico de una regresión lineal, donde al incluir el intercepto, estamos asumiendo que cuando X toma el valor 0, el valor de Y no es 0, y corresponde a la estimación del intercepto. Mientas que al excluir el intercepto, estamos exigiendo que el valor de Y sea 0 cuando X sea 0. De esta forma la inclusión o exclusión del intercepto, en muchos casos, depende de la naturaleza y la interpretación de las variables.
- Cuando la variable explicativa X es categórica, y sin pérdida de generalidad al asumimos como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como
Donde D1 toma el valor 1 para los individuos que se encuentran en el primer nivel de X y toma el valor 0 para los demás individuos. En este caso, la interpretación de este modelo es como sigue: Para los individuos del nivel 1 de X, la esperanza de Y está dada por . Para los individuos del nivel 2 de X, la esperanza de Y está dada por
. De esta forma
representa la diferencia en los dos niveles, y si la estimación resulta significativa implica que la variable X sí tiene una influencia significativa en Y.
Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como
En este modelo tenemos que: para los individuos del primer nivel de X, la esperanza de Y está dada por y para los individuos del segundo nivel de X, la esperanza de Y está dada por
. De esta forma, aun cuando la estimación de
o de
resulte significativa, no implica que X influye en Y. Lo único que podríamos afirmar en este modelo es que los dos parámetros son significativamente distintos de cero. Por lo tanto si se desea establecer si X influye en Y, entonces omitir el intercepto no resulta ser una buena opción.
Si la variable respuesta Y es discreta:
- Si la variable respuesta Y es continua: en este caso, el modelo que se ajusta correspondería (en general) a una regresión logit, modelando las probabilidades de éxito
en términos de X de la forma
Si el modelo incluye intercepto, la estimación de se puede usar para estimar la probabilidad de éxito cuando X toma el valor 0, puesto que
. Por otro lado, si la estimación de
no resulta significativa, implica que los valores de X no influyen en las probabilidades de éxito, y estas serán constantes; si la estimación de
es significativa con un valor positivo (negativo), indica que el aumento de la variable X contribuye a obtener una mayor (menor) probabilidad de éxito, y esta interpretación se mantiene cuando la regresión se ajusta sin el intercepto.
- Cuando la variable explicativa es categórica que sin pérdida de generalidad, se asume como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como
La interpretación de este modelo es como sigue: para los individuos del primer nivel de X, y para los individuos del segundo de
,
. De esta forma, si la estimación de
es significativa, indica que
es diferente en los niveles de la variable X, y podemos concluir que la variable X sí tiene una influencia significativa en Y.
Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como
Para este modelo, las estimaciones de y
representan los valores de
en los dos niveles de X. De esta forma, la significación de la estimación de
no da ninguna información sobre la influencia de X en Y.
En resumen, podemos concluir que cuando la variable explicativa es continua, la interpretación de no varía si se incluye o se excluye el intercepto, mientras que cuando la variable explicativa es discreta, debemos tener en cuenta si el modelo incluye o no el intercepto, puesto que la interpretación de
cambia. Además, si lo que se quiere es conocer la influencia de X en Y, es necesario incluir el intercepto. Lo anterior, sólo se logra si se construye un modelo con intercepto, y se dejan de lado (un poco, aunque sea un poco) los procedimiento automatizados que ajustan el mejor modelo, en términos de la bondad del ajuste.
Llamado a árbitros
Sep 4th
La Revista Comunicaciones en Estadística reconoce el valor y la importancia de los árbitros en el proceso de editorial general. En este momento, queremos lograr las cualificaciones apropiadas para lograr nuestra inclusión en bases de datos nacionales e internacionales de revistas científicas. Para ello, necesitamos la asistencia de evaluadores externos que ayuden al comité editorial en la selección de artículos adecuados para la publicación en la revista.
En un esfuerzo por facilitar la selección de árbitros apropiados para la revista, le pedimos que se tome un momento para completar este formulario para nuestros archivos. Por favor, asegúrese de hacer clic en la casilla de verificación de revisión.
Gracias de antemano.
__________________________________________________________________________
Call For Reviewers
Our journal “Comunicaciones en Estadística” recognizes the value and importance of the peer reviewer in the overall publication process. Right now, we want to achieve appropriate qualifications for our inclusion in national and international scientific journal databases. For this, we need the assistance of external reviewers to help the Editorial Review Board select suitable papers for publication.
In an effort to facilitate the selection of appropriate peer reviewers for the journal, we ask you to take a moment to complete this form for our files. Please, be sure to click in the review check box.
Thanks in advance.
Controversia del mes: pruebas de hipótesis
Jul 23rd
![]()
Imagen de http://1pixel2.es/2009/05/17/mama-me-han-metido-algo-en-la-copa/
En el último número de Significance, Baker & Mudge proponen realizar pruebas de hipótesis minimizando las oportunidades de obtener falsos positivos y falsos negativos. Hoy discutiré algunos aspectos interesantes de su artículo que llamaron mi atención.
Ellos argumentan que la hipótesis nula siempre es falsa. Este es el argumento de muchos pensadores que se cuestionan acerca de la validez de las pruebas estadísticas como las conocemos hoy. Si usted está haciendo pruebas de hipótesis justo en este instante, pregúntese acerca de sus hipótesis nulas. Son ciertas? seguramente no. Por ejemplo, considere una prueba sobre una media en un proceso industrial. La hipótesis nula podría ser que la vida media de un componente es de 120 días. Pues bien, esa afirmación es del todo falsa pues, como lo menciona Gelman, no tiene sentido cuando el espacio paramétrico es continuo.
Yo diría muy burdamente que existe una validez práctica muy importante. Aún cuando las hipótesis nulas no sean estrictamente verdaderas. Piense en una diferencia de medias, para la cual se realiza una prueba a dos colas. Obviamente resulta imposible pensar en que la hipótesis nula (la resta de las medias es nula) es verdadera, en sentido estricto. Sin embargo, es muy plausible que el efecto sea tan pequeño que de lo mismo pensar en que la hipótesis nula sea verdadera. Incluso, es posible pensar – sin ser bayesiano – que exista una diferencia entre cero (la supuesta diferencia de medias) y la verdadera diferencia de medias, para la cual su medida de probabilidad sea nula… si la anterior frase le quedó sonando, piénselo muy bien puesto que, en el mundo frecuentista, los parámetros no son variables aleatorias sujetas a medidas de probabilidad; pero, en el mundo bayesiano, esto tiene todo el sentido.
Para rematar, esto señores se preguntan ¿de dónde sale ese numerito alpha? ¿por qué es siempre igual a 0.05? Esa es una pregunta que ojalá muchos estudiantes realizaran en clase. Si usted es estudiante le recomiendo que la formule en clase. Realmente no tiene sentido que en todas las disciplinas ese valor sea el mismo. Si usted está realizando pruebas psicométricas, el valor es 0.05; si está haciendo una prueba de hipótesis en un experimento con animales, el valor es el mismo 0.05; si se trata de una prueba sobre microarreglos en genética, el valor es idéntico. Pareciera un guarismo arbitrario impuesto por los profesores de estadística. Yo creo que así es. Concuerdo con los autores en que ni tiene ningún fundamento lógico. De hecho, el anónimo Student advertía de los peligros de confundir ajuste estadístico con importancia.
¿Y cuál es su opinión?
Mi revisión del libro de Efron en el Journal of Official Statistics
Jul 12th
Hace algunos meses, Jaki McCarthy me invitó a ser parte del número 2, Volumen 28 del Journal of Official Statistics para que hiciera un pequeño ensayo del libro Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction de Bradley Efron. Pues bien, después de leer el libro y hacer el review, aquí está el resultado.
Realmente, Efron es una de las mentes más brillantes en la historia de la estadística y con este libro expone un tema que sin pretender ir más lejos, se está convirtiendo en una herramienta fundamental en experimentos clínicos y en la estadística de la era de la información masiva, la inferencia a gran escala. De hecho, el libro más parece ser una monografía de sus tantos artículos publicados sobre este tema.
Realmente lo recomiendo, y auguro que no tardará en convertirse en el texto de referencia en términos de pruebas de hipótesis y análisis estadísticos cuando se manejan grandes masas de datos. Por otra parte, no tardo en evidenciar que la bioestadística se convertirá en una disciplina reconocida y utilizada en muchos ámbitos cientifico y de investigación en América Latina y España. Desde ya, si usted está interesado en este bonito tema, tome mi consejo: baje las notas de clase de Efron (que son gratis y las puede conseguir acá) y aventúrese en estas metodologías. Si le gustan las notas, no dude en comprar el libro.
Por lo pronto, como ejemplo, yo no dudaré en descartar las metodologías clásicas para comparar medias, entre otras. Realmente, es sorprendente darse cuenta de que, cuando se trata con muchos datos, la metodología clásica de los p-valores no suele ser la mejor. Así que, desde ya estoy listo para mi próximo análisis de microarreglos.
Identificabilidad en modelos bayesianos mixtos y el teorema fundamental de las Cadenas de Markov… ¿puedo usar WinBugs?
Apr 28th
Bien, este es el escenario general… Se tiene un modelo mixto y acudiendo a la fama, uso y fácil e intuitiva programación de WinBugs, se definen distribuciones previas no informativas para los parámetros del modelo y además para los hiper-parámetros del modelo. Luego se realiza la inferencia Bayesiana. Por ejemplo, suponga el siguiente modelo mixto:
en donde
Siendo así, se reescribe la función la función de densidad posterior como el producto de las verosimilitudes con las densidades previas de los parámetros, y
, y de los hiper-parámetros,
. De esta forma, se tiene que
Una definición muy usada para la distribución previa de los parámetros es la siguiente:
Con esta distribución previa no informativa, se acude a la multiplicación de todas las verosimilitudes con las distribuciones previas y se utiliza el análisis condicional y el algoritmo de Gibbs para “supuestamente” construir una Cadena de Markov cuya distribución estacionaria coincide exactamente con la distribución posterior. Sin embargo, cuando se utilizan distribuciones previas impropias para los parámetros, resulta que la distribución posterior es también impropia. Lo anterior está demostrado en Hill (1965, Journal of the American Statistical Association, 60, pp 806-825). Por lo anterior, aunque se utilice el algoritmo de Gibbs, la distribución posterior carecerá de sentido puesto que no es integrable y esto implica que no existe una distribución condicional conjunta que coincida con las distribuciones condicionales creadas al utilizar el algoritmo de Gibbs.
Las consecuencias de lo anterior no se hacen esperar. Máxime teniendo en cuenta que el teorema fundamental de las cadenas de Markov, sobre el cual se basa todo el andamiaje de los métodos MCMC, afirma que una cadena de Markov tiene distribución estacionaria si y sólo si todos sus estados son persistentes no nulos y, en ese caso, esa distribución es única. Ahora, un estado es persistente nulo si la esperanza del tiempo medio de recurrencia es infinita. Es decir, en este caso, cuando se presenta un estado persistente no nulo, la cadena de Markov generada mediante el algoritmo de Gibbs no converge en distribución. Sin embargo, dada nuestra restricción para verificar hipótesis en el infinito, es posible que observemos que la cadena ha entrado en una región de muy alta probabilidad, la cual es razonable. Sin embargo, si pudiésemos realizar y observar infinitas realizaciones de la cadena, nos daríamos cuenta de que en realidad esa convergencia jamás se presentó y nunca se presentará.
En conclusión, dado que la distribución posterior es impropia, entonces las cadenas de Markov inducidas por el algoritmo de Gibbs son recurrentes nulas y por tanto no convergerán en distribución. Lo anterior puede ser pasado por alto por la mayoría de estadísticos al utilizar la facilidad del entorno de programación de WinBugs. Más aún, en esta situación, las aproximaciones de Monte Carlo resultantes pueden parecer completamente razonables, lo cual nos pone en una situación bastante peligrosa puesto que el muestreador de Gibbs nos guiará a inferencias plausibles sobre una distribución que no existe. Por lo tanto, antes de escribir su código en WinBugs y antes de definir las distribuciones previas de los parámetros es aconsejable realizar un estudio de sensibilidad sobre estas distribuciones previas y sobre todo definirlas de tal forma que sean integrables a priori, como por ejemplo distribuciones normales centradas en cero, pero con una varianza muy grande, o inversas-gama con parámetros muy pequeños. De esta forma, esas distribuciones previas se hacen no informativas de antemano e integrables a priori.
Mejor dicho, cuando escriba su código en WinBugs, por favor sea cuidadoso y evite usar la siguiente asignación para las distribuciones previas:
Beta ~ dflat() Sigma ~ dflat()
En vez de lo anterior mejor asigne las siguientes distribuciones previas:
Beta ~ dnorm(0, 0.0001) Sigma ~ dgamma(0.01, 0.01)
Para mayor información acerca de este fenómeno desafortunado, puede remitirse a los siguientes artículos (si no puede conseguirlos en internet, envíeme un correo y yo los comparto con usted):
– Ibrahim, J. G., and Laud, P. W. (1991), On Bayesian Analysis of Generalized Linear Models Using Jeffreys’s Prior, Journal of the American Statistical Association, 86, 981-986.
– Hobert, J. P. and Casella, G. (1996), The Effect of Improper Priors on Gibbs Sampling in Hierarchical Linear Mixed Models James P. Hobert and George Casella, Journal of the American Statistical Association, 91, 436.
– Gelfand, A. E. and Sahu, S. K (1999), Identifiability, Improper Priors, and Gibbs Sampling for Generalized Linear Models, Journal of the American Statistical Association 94, 445 (Mar., 1999), pp. 247-253.
Inferencia doble cuando se analizan datos de muestras complejas que suponen un modelo poblacional
Apr 18th
Ya estoy harto de repetirlo: si los datos provienen de encuestas complejas, debe incorporar el diseño de muestreo al análisis inferencial que se quiera realizar… Es la frase que más repito en mis clases. Sin embargo, esta bonita profesión de profesor me obliga a repetirlo hasta el cansancio. Esta entrada es para todos aquellos inquietos por la estadística, va para los amantes del muestreo y también para los críticos del muestreo. Lo cierto es que espero con esta entrada espero contar muy bien la historia y al final, espero que los muestristas tengan un mayor aprecio por los modelos y los que los críticos del muestreo reconozcan el valor del mismo en los procesos de inferencia. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), voy a desarrollar mis ideas y voy a introducir algunos conceptos que son de utilidad. Finalmente, todos los resultados los voy a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.
Suponga que se generaron N=100 realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro θ=0.3. Los datos que se obtienen se muestran a continuación:
1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0
En esta población finita, que fue generada a partir de un modelo probabilístico, hay 28 éxitos.
Primer proceso inferencial: el modelo
En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución Binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Por supuesto, aunque la realización del promedio poblacional en la población del ejemplo es , se comprueba fácilmente que la esperanza del promedio poblacional es
. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular hartas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido θ=0.3. El siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de poblaciones podrían haber sido obtenidas bajo el modelo.

Con la siguiente simulación de Monte Carlo se tiene un aceramiento al insesgamiento de :
> theta [1] 0.3 > Esp0 [1] 0.30046
Segundo proceso inferencial: el muestreo
En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir no corresponden a realizaciones de variables aleatorias. Por ejemplo, a la hora de estimar la tasa de desempleo, se considera que si un individuo está desempleado, pues está desempleado y punto. En otras palabras, el estado de la naturaleza del individuo al momento de la medición es “desempleado” y esta caracterización no corresponde a ninguna realización de algún evento aleatorio. Es por esto que una vertiente de la inferencia en poblaciones finitas considera que el parámetro de interés será el número total de personas desempleadas dividido por el número total de personas en la fuerza laboral. Si se tuviese la oportunidad de medir a todos los integrantes de la fuerza laboral, mediante la realización de un censo, pues esa división correspondería al parámetro poblacional con el cual se tomarían decisiones y/o se cambiarían o reforzarían las políticas públicas de un país.
Para reforzar esta idea haga lo siguiente: examine una moneda y obsérvela. Suponga que usted está observando la cara (o sello, da igual) de la moneda. Pues bien, le tengo una noticia: esa cara (o sello) no constituye una realización de una variable aleatoria. Para que se pueda hablar de una variable aleatoria, es necesario realizar un experimento, el cual induce el conjunto de todos los posibles resultados, el cual a su vez induce una sigma-álgebra que define a la variable aleatoria. Sería muy diferente si usted crea un experimento con esa moneda. El más sencillo de todos sería lanzarla al aire y observar si la moneda cayó en cara o sello. De forma similar, es muy válido afirmar que el estado de la naturaleza de un individuo que está desempleado no constituye una realización de una variable aleatoria.
Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado. De esta manera, el parámetro de interés es . Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de NI=27 hogares:
(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)
El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra de nI hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión proporcionales al tamaño del hogar Ni. Siendo la característica de interés yi el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso), entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados es el siguiente:
En donde es la proporción de desempleados en el hogar i-ésimo,
es el total de desempleados en el hogar i, Ni es el número de individuos en el hogar i y nI es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:
Que corresponde a la proporción general de desempleados en la muestra. En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que es insesgado, mientras que es
sesgado:
> theta_N [1] 0.28 > Esp1 [1] 0.2827724 > Esp2 [1] 0.10941
Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.
Inferencia doble: los modelos y el muestreo
En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Ahora, una población finita está constituida por la realización particular de las variables aleatorias. Ahora, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.
Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Po lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble.
Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador resulta ser el estimador de máxima pseudo-verosimilitud, el cual cumple la siguiente relación:
Por otro lado, otro estimador insesgado para el parámetro de interés es el promedio poblacional, pero dado que sólo tenemos una muestra aleatoria, no es posible calcularlo. Ahora, el estimador ingenuo, , es sesgado puesto que:
El siguiente esquema trata de reproducir gráficamente este proceso de inferencia doble, en donde un gran número poblaciones podrían haber sido generadas del modelo y a su vez, para cada una de estas, un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo complejo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que es insesgado, mientras que es
sesgado:
> theta [1] 0.30 > mean(Esp1) [1] 0.3093036 > mean(Esp2) [1] 0.1160646 > mean(Esp0) [1] 0.29754
Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.
Sesgo aproximado y sesgo asintótico… dos definiciones diferentes y un ejemplo contundente
Apr 9th
Me escribió un colega – a quien respeto y admiro y le mando un saludo grande desde Colombia – inquiriendo acerca del ejemplo de sesgo asintótico y consistencia que escribí en esta entrada anterior. En un muy bonito cruce de correos, logramos discernir algunas cuestiones que no son para nada evidentes en lo que tiene que ver con las definiciones clásicas del sesgo asintótico
Pues bien, entre las definiciones de insesgamiento asintótico tenemos:
-
Que la media de la distribución límite de
sea nula.
-
Que el
tienda a cero.
La definición 1 fue la que utilicé para escribir la entrada anterior y la definición 2 es la aparece en la mayoría de libros. La definición 1, la tomé del libro de Shao (Mathematical Statistics) y me gusta porque un estimador no necesariamente debe tener esperanza para ser un buen estimador… ¿Es confuso? De ninguna manera, suponga que el parámetro de interés es la razón entre dos medias, definido como . Para este ejemplo, que entre otras cosas resulta ser uno de los problemas más abordados en la práctica estadística, un estimador usual estaría dado por la razón entre los promedios muestrales, definido como
. Es cierto, aunque este estimador es muy usado, resulta que, en términos generales, la esperanza de
no está definida. Es más, no está definida para ningún n y por lo tanto, según la definición 2, no sería asintóticamente insesgado. Nótese que, si
y
son independientes con distribución normal (0,1), entonces
converge en distribución a una variable aleatoria Cauchy, que no tiene esperanza.
Lo anterior abre el camino a una pregunta muy capciosa,
Dado que no se puede hallar el sesgo exacto de un estimador ¿será posible definir un sesgo asintótico?
Y es que a veces, estas definiciones asintóticas nos pueden hacer caer en contradicciones. Por ejemplo, uno podría pensar que para una estadística que no tiene esperanza no se debería poder hablar de sesgo (asintótico o no), pues el sesgo no está definido y, en ese caso, hablar de insesgamiento no tendría sentido. Sin embargo, ese razonamiento es equivocado, puesto que como bien lo sabemos, el estimador es asintóticamente insesgado, aunque carezca de una esperanza y sesgo exactos. De hecho este es un muy buen ejemplo de por qué la definición 1 es apropiada: bajo esa definición es posible hablar de sesgo asintótico de una estadística cuyo sesgo no existe.
Probemos que efectivamente es asintóticamente insesgado. En primer lugar sabemos que, por la ley fuerte de los grandes números,
converge casi seguro a
; de igual forma,
converge casi seguro a
. Por otro lado, es bien sabido que
es una función medible y por lo tanto, dado que
converge casi seguro a
, entonces
converge casi seguro a
. Por último, la convergencia casi seguro implica convergencia en distribución y se tiene la prueba.
Un comentario final es que la esperanza es una cantidad exacta y tal vez es confuso hablar de aproximaciones a la esperanza. Ahora, yo creo que la confusión aumenta cuando uno le mete un límite a algo que en principio no debería tenerlo. Es que una cosa es el límite de una sucesión de número y otra cosa son los modos de convergencia en probabilidad. Al hablar de asintóticamente, uno no solamente está pensando en un límite simple, sino en una sucesión de variables aleatorias, y sus funciones de distribución, que se hace cada vez más grande a medida que n crece. Las dos cosas son diferentes y si se piensa en que una esperanza es exacta, tiene sentido y mucho hablar de la distribución límite y de su media, en vez de calcular el límite simplemente.
En la misma línea del anterior comentario, Shao afirma que la definición dos no se debería llamar sesgo asintótico, sino sesgo aproximado. Esto último aclara muchas cosas al entender que una cosa es asintótico y otra cosa es aproximado.
Contraejemplos de consistencia e insesgamiento asintótico
Mar 22nd
Alguna vez leí un libro de humor del periodista Daniel Samper Pizano y quedé encantado con esta frase:
“Yo, personalmente, admiro más el plasma que la sangre”
Y es que, al escoger un estimador, pueden primar gustos por el plasma más que por la sangre. A lo que voy es que en teoría estadística, es bien sabido que el enfoque clásico, e incluso bayesiano, está enfocado en hallar un estimador que, en primera medida sea insesgado. Ya lo decía el viejo Hájek en alguna de sus obras que afirmaba que:
“… si el sesgo del estimador no es despreciable, entonces el estimador es inútil sin importar qué otras propiedades estadísticas pudiese tener”
Tal vez sea por mi énfasis en el muestreo, pero cuando se trata de estimadores, yo prefiero examinar primero la consistencia y después las otras propiedades estadísticas del estimador. Un ejemplo clásico de muestreo consiste en que, para estimar el promedio de patas de los perros en la tierra, un alienígena procede a utilizar el estimador de Horvitz-Thonmpson, que es insesgado, y que en sus dos posible realizaciones arroja como resultados para una muestra 2 y para otra muestra 6… Sí, 2+6=8, 8/2=4. Efectivamente, el estimador es insesgado pero inútil. Sin embargo, paradójicamente, al utilizar el estimador de Hájek, que es consistente y asintóticamente insesgado, el alienígena encuentra que para sus dos posibles muestras, el estimador siempre es 4. Hoy quiero traer dos ejemplos de lo uno y de lo otro sin entrar en detalles técnicos ni computacionales. Antes de que siga con la lectura, le recomiendo que se empape del tema leyendo esta entrada relacionada.
Un estimador consistente que no es asintóticamente insesgado
Suponga una muestra aleatoria de variables con media y varianza
. El siguiente estimador
es consistente, puesto que, entre otros, a medida que el tamaño de muestra crece:
-
Su esperanza tiende al valor del parámetro
.
-
Su error cuadrático medio
tiende a cero.
Sin embargo, no es asintóticamente insesgado puesto que la distribución límite de no tiene media nula. Lo anterior puesto que la distirbución límite de
Es normal con media c y varianza .
Un estimador asintóticamente insesgado que no es consistente
Suponga una muestra aleatoria de variables con distribución de Laplace
Y considere el siguiente estimador insesgado para la media
Dado que T es insesgado, también es asintóticamente insesgado. Sin embargo, dado que la varianza de T es $Var(T)=2\neq 0$, no es consistente. Por supuesto, lo anterior se verifica rápidamente cuando se nota que
No depende de n, y por lo tanto esta probabilidad no tiende a cero a medida que n crece.
Análisis estadísticos aplicados a la genética en la producción animal
Sep 22nd
Exactamente eso… una conversación amena con un investigador en genética animal.
Andrés Gutiérrez & Ricardo Camacho - Análisis estadísticos aplicados a la genética en la producción animalTEAM
Sep 5th
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.
Obtenga una visualización del texto acá (Google books)
Compre el libro acá (Librería de la U)
Compre el libro acá (Lemoine editores)
Compre el libro acá (Librería Nacional)
Puntos de venta:
Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)
Comunicaciones en Estadística Volumen 4 No. 1
Aug 8th

http://comunicacionesenestadistica.usta.edu.co/
En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.
Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.
Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.
El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.
Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.
Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.
Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.
Mi artículo de muestreo y políticas públicas
Jul 20th
Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación Política Pública Hoy. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi correo.
Respuestas al manifiesto
May 17th
Algún lector anónimo escribe lo siguiente:
Andrés,
Para impulsar estas ideas, hay que empezar por el principio.
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.
¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
Saludes!
Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?
Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?
No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.
¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.
¿Para quién va dirigido el Workshop que hace la USTA?
Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.
Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.
Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.
No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.
Manifiesto: quiero ser cabeza de ratón
May 17th

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:
-
Impulsar la creación de la Asociación Colombiana de Estadísticos.
-
Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
-
Promover la institucionalización de la tarjeta profesional para los estadísticos.
-
Motivar la creación de un programa de posgrado en metodología de encuestas.
-
Posicionar la Revista Comunicaciones en Estadística.
-
Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
-
Crear una editorial de libros de texto en estadística.
Y lo más ambicioso y controvertido:
8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.
Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.
El principio de representatividad (My talk in Ibague)
May 12th
La teoría y práctica de la inferencia basada en el diseño de muestreo descansa en el principio de la representatividad de las muestras; este artículo discute el papel que este principio juega en la consideración de la mejor estrategia de muestreo para la consecución de estadísticas oficiales. En algunas ocasiones, el estadístico puede diseñar un excelente plan de muestreo que al final no es considerado en la etapa de estimación debido a la escogencia de un determinado estimador; en algunas otras ocasiones, el estadístico puede agotar todos sus recursos en la búsqueda de un excelente estimador y restar importancia a la forma de consecución de la información. Aunque la práctica estadística es difícil en el sentido de determinar cuál es el mejor diseño de muestreo y cuál es el mejor estimador, el estadístico debe paliar este tipo de situaciones considerando que en realidad se trata de escoger una estrategia óptima para cada tipo de investigación. Descargar la presentación acá.
¿Qué tan insignificante es la significación estadística?
Apr 13th
Como algunos de ustedes habrán leído acerca del caso Zicam, la corte suprema de EE.UU. ha omitido un concepto desfavorable para los estadísticos puristas que se aferran fervientemente a los valores p. En pocas palabras, el concepto afirma que la divulgación de posibles efectos colaterales en el uso de fármacos no debe basarse solamente en la significación estadística. Luis Pericchi ha escrito esta interesante nota que devela, desde el punto de vista de la teoría de la decisión, que la inferencia estadística también debería depender del propósito del estudio y de las consecuencias de las decisiones que se tomarán.
Soy parte de los 300mil
Apr 5th
Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.
¡¡¡Una vez más gracias!!!
Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel
Mar 15th
Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.
Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadísticaConsultorio estadístico para Hispanoamérica
Mar 3rd
Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.
Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.
PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.
TEAM en Google books
Feb 9th

El pasado sabado 5 de febrero, en el marco de la clausura del Workshop Bayesiano, se presentó mi nuevo libro Teoría estadística: aplicaciones y métodos (TEAM). Esperamos que puedan obtener una visualización del texto acá y, si es de su agrado, que lo compren y recomienden. Todas las críticas, quejas o sugerencias son bienvenidas en mi correo electrónico.
My talk in Bogota (Nonlinear mixed models under the bayesian approach)
Feb 4th
En el marco del 2nd International Workshop on applied Satatistics, voy a exponer esta investigación que diserta de cómo ajustar modelos mixtos no-lineales bajo una perspectiva bayesiana.
Programación del Workshop en Estadística Bayesiana (Bogotá – Colombia)
Jan 19th
La International Association of Survey Statisticians, junto con la Facultad de Estadística de la Universidad Santo Tomás presentan uno de los eventos más esperados por la comunidad estadística colombiana, el International Workshop on Applied Statistics en su segunda versión. Este evento bienal que tendrá lugar en la sede principal de la Universidad entre el 3 y el 5 de febrero de 2011, abordará como tema principal la Estadística Bayesiana y sus Aplicaciones.
El evento contará con la presencia de reconocidos profesionales de la estadística a nivel internacional, los cuales estarán acompañados de destacados estadísticos nacionales, todos ellos expertos en Estadística Bayesiana, a saber:
- Raquel Prado – University of California
- Mike Daniels – University of Florida
- Eduardo Gutiérrez – Universidad Nacional Autónoma de México
- Andrés Gutiérrez – Universidad Santo Tomás
- Fabio Humberto Nieto – Universidad Nacional de Colombia (Sede Bogotá)
- Jairo Fúquene - University of Puerto Rico
- Victor López – Universidad Nacional de Colombia (Sede Medellín)
El workshop se caracteriza porque todos los invitados internacionales, además de conferencias, desarrollarán cursillos intensivos (10 horas) sobre temas de punta en la investigación de la estadística aplicada, con lo cual los participantes serán instruidos personalmente por este reconocido equipo estadístico. Los cursos ofrecidos, son:
- Introducción a la Estadística Bayesiana
- Modelos e Inferencia Bayesiana en Series Temporales
- Bayesian Modeling of Missing Data in Longitudinal Studies
La información sobre el programa del seminario, el valor de la inversión, así como el procedimiento de inscripciones, puede encontrarse en la página web: http://www.usta.edu.co/
Los contactos para ampliar la información son:
- estadistica@usantotomas.edu.co
- heivarrodriguez@usantotomas.edu.co
- Teléfonos: 5878869, 5878797 ext: 1422 – 1450
PROGRAMA
CURSILLO N°1:
Raquel Prado (University of California): Modelos e Inferencia Bayesiana en Series Temporales
CURSILLO N°2:
Mike Daniels (University of Florida): Bayesian modeling of missing data in longitudinal studies
CURSILLO N°3:
Eduardo Gutiérrez (Universidad Nacional Autónoma de México): Introducción a la Estadística Bayesiana
JUEVES 03 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 1 (Salas asignadas)
- 6:30 – 7:00 pm
Instalación del Evento (Aula Magna Fray Domingo de las Casas)
- 7:00 – 8:00 pm
Conferencia 1: Time Series Analysis using TAR Models – Fabio Humberto Nieto. Universidad Nacional de Colombia – Sede Bogotá.
- 8:00 – 8:30 pm Acto Social
VIERNES 04 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 2 (Salas asignadas)
- 3:00 – 4:00 pm
Ciclo de Comunicaciones
- 4:00 – 5:00 pm
Conferencia 2: “A Case for Robust Bayesian Priors with Applications to Clinical Trials”- Jairo Fúquene (University of Puerto Rico)
- 5:00 – 6:00 pm
Conferencia 3: “Modelos doblemente generalizados utilizando técnicas bayesianas”- Andrés Gutiérrez (Universidad Santo Tomás)
- 6:00 – 6:30 pm
Coffee Break.
- 6:30 – 7:30 pm
Conferencia 4: “Construcción de distribuciones a partir de variables latentes” – Eduardo Gutiérrez. Universidad Nacional Autónoma de México (UNAM)
- 7:30 – 8:30 pm
Conferencia 5: “Modelos temporales para detectar fatiga a partir de señales de electroencefalografías” – Raquel Prado. University of California.
SÁBADO 05 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 3 (Salas asignadas)
- 2:00 – 2:45 pm
Conferencia 6: “Teoría de diseños óptimos Bajo una perspectiva Bayesiana” – Víctor López. Universidad de Nacional de Colombia- Sede Medellín
- 2:45 – 3:30 pm
Conferencia 7: “A Bayesian Shrinkage Model for Incomplete Longitudinal Binary Data with Application to the Breast Cancer Prevention Trial” – Mike Daniels. University of Florida
- 3:30 – 4:30 pm
Panel de Clausura – ¿Llegó la era de la estadística bayesiana?
Raquel Prado (University of California), Mike Daniels (University of Florida) & Eduardo Gutiérrez (Universidad Nacional Autónoma de México).
Moderador: Andrés Gutiérrez – Universidad Santo Tomás
- 4:30 – 5:00 pm
Evento Social – Cierre
Mi artículo en la Revista ib del DANE
Jan 17th
Este artículo – publicado por la Revista ib virtual del DANE – está dirigido a todos los profesionales involucrados en la consecución de estadísticas oficiales para poblaciones grandes y relaciona el uso de la inferencia inversa con el principio de la representatividad. Después de una breve introducción, la segunda sección de este artículo define conceptos básicos que son necesarios para desarrollar el tema central del mismo; en la tercera y cuarta sección se expone el concepto de la representatividad en el diseño de muestreo y en la escogencia de estimadores representativos, respectivamente. En la quinta sección se presentan algunas ilustraciones de la práctica estadística, y finalmente en la última sección se dan algunas recomendaciones.
Para bajar el artículo haga clic acá.
Cuando la significación estadística apesta (el caso Zicam)
Jan 16th

Steve Ziliak escribe lo siguiente:
¿Cuándo es la anosmia – la pérdida permanente del olfato – “significativa”?
Existe un caso de la Corte Suprema [de Estados Unidos] – que se debatió el 10 de enero de 2011 – implicando la diferencia entre significación “estadística” y “práctica”. ¿Deberían los fabricantes de medicamentos, y otras empresas, estar obligados a informar los efectos adversos de un producto en los usuarios, si el efecto no es estadísticamente diferente de cero al nivel del 5% [de confianza]? ¿Las personas pueden presentar reclamaciones contra las empresas que no advierten acerca de los efectos adversos que no son estadísticamente significativos al nivel del 5%? Estos son dos de las cuestiones que deben resolverse por el Tribunal Supremo a la luz de la Securities Exchange Act de 1934.
El caso que nos ocupa implica el fármaco Zicam, un medicamento a base de zinc para el resfriado común de Matrixx (una farmacéutica americana) que, evidentemente, hace que algunos usuarios tiendan a perder permanentemente su sentido del olfato. (Parece que la forma nasal de aerosol del Zicam – no la píldora – es la culpable principal de que más de 200 usuarios en los EE.UU. han presentado demandas judiciales.)
Matrixx, el fabricante del Zicam, afirma que los efectos negativos (pérdida del olfato) no fueron detectados como en los ensayos clínicos como “estadísticamente significativos” al nivel del 5% de significación estadística. Por lo tanto, también afirman que el efecto adverso no se es ”importante” ni para la salud humana ni para la riqueza de los accionistas.
El procurador general interino de los EE.UU., la AARP, y otros economistas y abogados (como Joseph Mason y Robert Litan) están de acuerdo en que una cosa es “importancia estadística” y otra cosa es “importancia práctica”. Ellos entienden el peligro y los costos de la actual “importancia” y contribuyeron al así declararlo ante la Corte Suprema.
Se dice que es uno de los diez casos más sonados del año puesto que la decisión del Tribunal tiene consecuencias generales y de gran responsabilidad sobre la regulación y la presentación de informes por la Comisión de Bolsa y Valores. Miles de millones de dólares están en juego, es cierto. Pero también lo son miles de millones de vidas. En los ensayos de primera instancia, la empresa alegó que no ha perjudicado a los accionistas ni a los usuarios por no reportar los efectos adversos.
Por último, Ziliak vincula el documento que ayudó a redactar para la suprema Corte, además de un artículo en donde expone sus puntos de vista acerca de la significación práctica, junto con otros artículos que vienen al caso (ver acá y acá).
Declaración sobre Ética Profesional del Instituto Internacional de Estadística
Jan 11th
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.
La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:
En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.
La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia. La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.
En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)
Comunicaciones en Estadística Volumen 3 No. 2
Dec 21st
En este quinto número consecutivo de la revista Comunicaciones en Estadística nos encontramos frente a un cisma generado por la globalización del conocimiento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una iniciativa de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los institutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.
En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacional, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este procedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.
El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la identificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de covarianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.
Jiménez propone en su trabajo una nueva función de densidad simétrica que puede ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena alternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.
En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyentes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.
Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.
Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.
Desde la Facultad de Estadística de la Universidad Santo Tomás les agradecemos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.
Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)
Dec 18th
Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)
Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.
En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.
Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.
En la página de Colombia es pasión, es posible leer lo siguiente:
Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.
Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:
… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…
En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.
Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.
En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.
Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.
En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:
En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.
Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.
En materia de estabilidad social
Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país
En materia de compromiso estatal
La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.
En materia de buen gobierno por la gente
Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.
En materia de seguridad
El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios
Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.
Mi nuevo libro… Teoría Estadística Aplicaciones y Métodos (TEAM)
Dec 13th
Para conocer más acerca de este libro haga clic acá
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Hace un tiempo, un colega, a quien estimo y respeto, me preguntó un día: Andrés, no veo cuál es la relevancia de un libro con los contenidos en TEAM, aparte de que esté en español. En esa ocasión nuestra respuesta fue:
La relevancia radica en que está escrito en español, tiene muchos ejemplos en R y está escrito para personas que deseen aplicar la estadística matemática de manera práctica. Aunque existen bastantes libros sobre el tema, hay pocos en nuestro idioma y más aún, hay libros que no llenan el vacío entre el estadístico teórico y el profesional que quiere aplicar los métodos estadísticos en el campo de las ciencias sociales. TEAM está escrito de una manera pragmática pero muy interesante. Deja de lado muchos supuestos y permite que el estudiante se plantee situaciones y piense no sólo en la escogencia del mejor estimador o en la demostración de un resultado, sino también en la parte práctica y el día a día del estadístico en el campo laboral.
Además,
En muchos libros de inferencia estadística basta con encontrar estimadores para el parámetro de la distribución de donde vienen los datos. Por ejemplo, en la Poisson muestran que theta se estima con bar{X}, pero hay otras cantidades muy interesantes para estimar, como por ejemplo suponga que se observa valores que denotan (algo típico) número de clientes que llegan a una oficina entre determinadas horas, y se utiliza la distribución poisson, entonces no sólo podemos estimar el número promedio de clientes, sino que podemos usar la muestra observada para estimar (por ejemplo) la probabilidad de que no llegue ningún cliente durante ese rango de tiempo, más aún, podemos encontrar un intervalo de confianza para esta probabilidad.
Este es uno de los ejemplos que tiene el libro y muestra el enfoque práctico que hemos adoptado como estrategia de enseñanza.
A continuación la contra-carátula

Y las solapas del libro

Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis
Dec 4th
La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:
Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…
Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.
Entre los invitados nacionales están:
- Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
- Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá
Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.
- Estudiantes de pregrado: 100 mil pesos
- Profesionales: 150 mil pesos
- Participantes con poster o ponencia aprobada: 100 mil
La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:
heivarrodriguez@usantotomas.edu.co
Nuevo portal WEB de la Revista Comunicaciones en Estadística
Jul 14th

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.
http://comunicacionesenestadistica.usta.edu.co
La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.
La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:
-
Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
-
Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
-
Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
-
Una revisión de los modelos de volatilidad estocástica.
-
Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.
Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a
revistaestadistica@usantotomas.edu.co
Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.
Meta-Análisis estadístico de encuestas electorales en Colombia: El fenómeno de Familias en Acción
Jun 8th

Hace varios días quería escribir esta entrada que, aunque al día de hoy puede parecer un poco desactualizada, tiene una connotación estadística interesante. Si no la escribí en su tiempo pertinente fue por dos motivos: el primero emocional, causado por la decepción que me produjo los resultados electorales en Colombia y el segundo terrenal, pues estaba ausente de mi sitio regular de trabajo (aunque seguía trabajando, por supuesto). Ahora que en mi vida todo vuelve a la normalidad y la interesante rutina toma su lugar, es tiempo de reflexionar y comentar este interesante fenómeno, no sin antes agradecer a mi maestro LGDM por haberme transmitido desde la distancia su parecer, el cual motivo esta entrada. En primer lugar quiero introducir algunos conceptos que el lector desprevenido debe interiorizar para un mejor entendimiento del tema y luego de contextualizar la coyuntura electoral colombiana pasaré a exponer la idea principal y las conclusiones de este fugaz estudio.
Para entrar en materia es necesario exponer que mucho descubrimientos de la ciencia médica han tenido lugar debido a que la estadística ha incorporado entre su arsenal de herramientas una técnica basada en la recopilación de observaciones de diferentes estudios en diferentes tiempos e incluso en diferentes países y regiones. Se trata del meta-análisis, que según información de la red, fue empleado por primera vez por Eugene V. Glass en 1976 y es usado con autoridad y como evidencia en muchas publicaciones científicas médicas de renombre internacional. Para los escépticos, hay que afirmar que esta técnica fue utilizada por primera vez por el señor por Karl Pearson a principios del siglo pasado para palear los problemas que se presentan cuando se trabaja con tamaños de muestra pequeños.
El lector se preguntará cuál es la relación entre estos estudios clínicos con el título de esta entrada. Pues bien, se trata de analizar rápida y empíricamente el comportamiento de la tendencia electoral en Colombia para luego contrastarla con los resultados reales de las votaciones… El análisis se hará teniendo en cuenta los resultados de las encuestas electorales de los últimos meses, tal y como lo haría un investigador médico con un conjunto de experimentos, tal y como lo sugiere el meta-análisis. Es claro que no se tienen experimentos controlados pero dado que el tamaño de muestra final es elevado, este supuesto se puede omitir, máxime cuando los resultados de las encuestadoras no fueron disimiles.
Yo siempre he afirmado que no soy dogmático de ninguna rama de la estadística; aunque como conocedor de los temas de muestreo presté poca importancia a la validez individual de cada resultado que las firmas encuestadoras colombianas presentaban en sus sondeos de opinión. Sin embargo, la tendencia de un empate técnico era clara, continua y contundente. Ahora, apelando a la teoría estadística de la inferencia en poblaciones finitas basada en modelos poblacionales y reuniendo las observaciones de las distintas encuestas – justo como en el meta-análisis – se llega no sólo a un tamaño de muestra alto, sino a conclusiones similares, pero esta vez respaldadas por las técnicas estadísticas. El lector estará de acuerdo conmigo en que, bajo este escenario, la reunión de tantas y tantas observaciones no es una cuestión de poca importancia.
Con base en lo anterior, se podría afirmar que existe evidencia estadística de que la votación de la primera vuelta de las elecciones presidenciales en Colombia no sería otra cosa que una reñida puja entre el candidato del oficialismo y el candidato independiente. Sin embargo, la realidad de las votaciones arrojó otro escenario muy distinto al que sugería la estadística. El candidato oficialista obtuvo una ventaja de tres millones de votos frente a su inmediato contendor independiente… ¿Qué paso?, esa fue la pregunta que, con seguridad, fue planteada por más de tres millones de votantes simpatizantes del candidato independiente. Si por un lado, y con poca validez estadística, las encuestas realizadas pronosticaban un empate y por el otro, y con harta validez estadística, el meta-análisis parece concluir de la misma manera, ¿qué diantres pasó?
Yo no sé con seguridad si lo que voy a afirmar a continuación sea la respuesta a la pregunta, pero si sé que explica muy bien el fenómeno. Dos argumentos, los siguientes:
Primero: en Colombia existe un programa gubernamental de ayuda a la población menos favorecida del país (que lamentablemente es la gran mayoría). Cifras oficiales indican que unas tres millones de familias están activas en este programa que provee una ayuda de entre 10 a 15 dólares mensuales. Para recibir esta ayuda es necesario demostrar que la familia es pobre, muy pobre. Segundo: volviendo a los supuestos del meta-análisis, la mayoría de las encuestas fue realizada en los principales municipios y ciudades del país de forma telefónica y unas pocas se hicieron por interceptación en la calle. Lo anterior no garantiza la homogeneidad y control de un experimento de laboratorio. A todas las encuestadoras se les olvidó que la gran mayoría de Colombianos con teléfono no pertenece a ese cúmulo de familias que reciben ese beneficio del estado; si no tienen dinero para comer mucho menos para pagar las cuentas del teléfono… Grave error si se quieren realizar pronósticos en un país en donde la regla es la pobreza… A todas las firmas de sondeos de opinión se les olvidó que la política de este gobierno está basada en la mano dura y que es de todos conocida la injerencia indirecta del estado en la contienda electoral… Grave error porque ya era bien sabido que se había amenazado a los beneficiarios de Familias en Acción de que el candidato independiente anularía este programa y los perjudicaría directamente… Grave error si se tiene en cuenta que tres millones de votantes pobres y desesperados pueden hacer una gran diferencia en las elecciones.
Muy a pesar mío sé que esta entrada tendrá el mismo efecto que tiene un grito debajo del agua y que muy pocas personas oirán el clamor que las ocho millones de personas que en este mismo instante tienen hambre en mi país.
PD: como conclusión se puede afirmar que en estadística no todo vale, no todo vale, no todo vale y que las muestras son sagradas, las muestras son sagradas, las muestras son sagradas.
Nuestro libro de estadística: Teoría Estadística, Aplicaciones y Métodos
Apr 7th
Hace unos pocos días hemos terminado un trabajo que desde hace unos años empezamos a gestar en la Facultad de Estadística de la Universidad Santo Tomás… se trata de un libro de teoría estadística que recoge la rigurosidad teórica y al mismo tiempo conduce al lector por el apasionante destino de la práctica estadística la cual ciertamente debe estar fundamentada en la teoría. Con este enfoque empezamos a divagar sobre cuál debería ser el orden de los contenidos y qué tópicos debería abordar el texto. Después de poco tiempo, propuse que debería ser el sentido común quien le diera el orden a los contenidos. El sentido común al que tanto apelaba Leslie Kish cuando, a grandes rasgos, afirmaba que las muestras no estaban dadas sino que debían ser recolectadas y analizadas.
Con base en lo anterior, verificamos que el análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución beta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque… tiene la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría que se desarrolla rigurosamente.
El libro está en proceso editorial y esperamos que en pocos meses esté disponible en el mercado hispanoamericano. Haciendo clic acá encontrará una visualización del texto. A continuación reproduzco el prologo, que muy amablemente fue escrito por Fabio Nieto, reconocido profesor e investigador del Departamento de Estadística de la Universidad Nacional de Colombia, sede Bogotá.
Sobre teoría estadística se han escrito muchos libros, indudablemente más en el concierto internacional que en el nacional. Sin embargo, cada vez que un lector se enfrenta a una nueva publicación sobre el tema, él quisiera detectar qué es lo nuevo, diferente o atractivo que se presenta o desarrolla en la obra que tiene en sus manos. Desde esta premisa, es muy agradable presentar este libro en el cual se marcan diferencias importantes con respecto a muchos otros escritos sobre la materia. En las líneas siguientes explicaré estas características significativas, para usar un término muy “estadístico”.
En virtud de la gran experiencia y habilidad en el manejo del lenguaje R por parte de los autores, el libro incluye muchos ejemplos ilustrativos de los conceptos fundamentales de la inferencia estadística, los cuales se han desarrollado con este lenguaje. Esto permite al lector comprender, por ejemplo entre muchas otras, la noción intuitiva de distribución muestral (o de muestreo).
Se incluye la teoría estadística básica de la inferencia multivariada, crucial en el entendimiento del comportamiento probabilístico de un vector de variables aleatorias y de las relaciones entre ellas. No es usual encontrar un trabajo en donde se incluyan conjuntamente, los contextos univariado y multivariado de la inferencia estadística.
Este libro es un buen punto de partida para el conocimiento e interiorización de la teoría estadística, por parte de estudiantes de una carrera de estadística, en el entendido de hacer de la práctica estadística una profesión. Además, podrá ser un gran soporte para la realización de estudios de posgrado, bien sea a nivel de profundización de conocimientos o a nivel de investigación.
En forma muy general, se puede afirmar que en la presente obra, la teoría y sus aplicaciones son presentadas de manera muy coherente y equilibrada; es decir, sin profundizar en lo teórico más allá de lo necesario y sin exagerar en la inclusión de las aplicaciones. Por esto y todo lo expresado anteriormente, me siento muy complacido de presentar este libro y de recomendarlo a un amplio conglomerado de lectores o usuarios de la estadística.
Fabio Nieto
Otra agradable propiedad del p-valor: no es una medida de soporte
Mar 4th
John D. Cook citando un artículo de Mark Schervish afirma que los p-valores están siendo usados por los usuarios de la estadística como medidas de soporte (además de algunas otras malinterpretaciones) cuando éstos precisamente se caracterizan por carecer de consistencia como medidas de la evidencia a favor de un conjunto de hipótesis. Al respecto, Cook explica que si es posible obtener evidencia de que cierto animal es un oso, entonces debe existir también evidencia para afirmar que ese animal es un mamífero. Nótese que en el ejemplo de Cook existen dos hipótesis: la primera hace referencia a que el animal es un oso y la segunda a que el animal es un mamífero y, por supuesto, la primera está contenida en la segunda. Ahora, utilizar los p-valores como una medida de soporte a favor de la evidencia de la segunda hipótesis puede ser una muy mala idea.
Una medida de soporte debería satisfacer la siguiente propiedad (muy útil en el contexto de comparaciones múltiples):
Si una hipótesis H1 implica una hipótesis H2, entonces una medida de soporte es coherente si el rechazo de H2 siempre implica el rechazo de H1
En palabras de Cook:
Si una hipótesis H1 implica otra H2, entonces la evidencia a favor de H2 debe ser al menos tan grande como la evidencia en favor de H1
Teniendo en cuenta este criterio, se sigue que el p-valor es una pésima medida de soporte. Schervish lo explica con el siguiente ejemplo: Suponga que se observa la realización de una variable aleatoria con distribución normal de varianza uno y media desconocida. Sea H1: y sea H2:
. Claramente el espacio paramétrico de H1 está contenido en H2 y, por consiguiente, H1 implica H2. Ahora, si la observación correspondió a x=2.18 entonces el p-valor para H1 es de 0.0502, mientras que el p-valor para H2 es de 0.0498. Lo anterior implica que, tomando el p-valor como medidas de soporte, existe más evidencia a favor de H1 que a favor de H2, lo cual es contradictorio con el sentido común. Más aún, si el nivel de significación es de 0.05, la regla de decisión implicaría que debemos rechazar H2 y aceptar H1. En otras palabras: la media de la distribución puede estar entre (-0.5, 0.5), pero de ninguna manera puede estar entre (-0.82, 0.52), lo cual es muy contradictorio.
Dos índices, dos nombres…
Feb 17th
- ¿Qué nombre le pondría usted a un libro con este índice?
- ¿Qué nombre le pondría usted a un libro con este otro índice?
Cosas que debo hacer este semestre…
Feb 14th
- Publicar <<Inferencia Estadística, un enfoque integral>> (alguien tiene un mejor nombre?, todavía no me convenzo de ese título… este libro es pura estadística matemática aplicada a las ciencias sociales… modelos univariados y multivariados, ejemplos en R y datos reales, 350 pags!!!!)
- Empezar my thesis PhDs (Modelamiento Bayesiano para datos longitudinales en media y varianza, mi tutor me dice que debo entregar en año y medio… ojalá, Dios me ayude!!!)
- Terminar el libro de Bayesiano (En principio se llama Introducción a los modelos Bayesianos… ¿un mejor nombre?… ya terminé toda la parte teórica, pero falta que los coautores me ayuden con los ejemplos en R… Modelos univariados, multivariados, regresión, modelos lineales generalizados, modelos jerárquicos, series de tiempo, muestreo y sobrevida.)
- Darle forma a las notas de Análisis de Sobrevida (Esta será una linda aventura… todo empezó con el curso de doctorado y ahora ya tenemos unas notas que carecen de estructura, pero que muy seguramente saldrán a la vida en un libro introductorio de esta linda materia.)
- Patinar con mis amigos!!! skating with my hommies.
Las medias de Chisini (Parte 1)
Jan 18th
Empecemos este año con una gran revelación… El promedio aritmético no es la única media disponible en los estantes de mercado de la tienda estadística. Estoy seguro que la mayoría de lectores ha oído de la media geométrica o de la harmónica. De la misma manera, estoy seguro que a muy pocos les enseñaron de dónde venían tales esperpentos, y muy pocos saben cuándo usar una o cuándo usar la otra. Oscar Chisini en 1992 presentó un enfoque que, según Graziani y Veronesse (2009, TAS), ayuda a los estudiantes a entender el espíritu del problema al cual se enfrentan al escoger una media y no requiere una lista de fórmulas desesperadas en algún libro de texto.
En primer lugar, Chisini argumenta que el requisito fundamental de una media es el requisito de invariancia con respecto a los valores originales; es decir, si reemplazamos todas las observaciones por la media, el resultado debe ser el mismo. En símbolos, una media es el número tal que, para alguna función f, cumple lo siguiente:
De esta manera, para un conjunto de observaciones, no necesariamente existe una única solución a la anterior ecuación. La definición de la media de Chisini considera algunas restricciones sobre la función K, para que el número resultante sea único. Luego, , la media de Chisini, se obtiene de la siguiente manera
Donde . Consideremos un ejemplo particular. Sea
En donde los pesos w_i son constantes no negativas. Para este caso, (una función continua y estrictamente creciente). Entonces la media de Chisini es (ver acá)
Por lo tanto para cada f, correctamente definida, existirá una media. Luego, si cambia la función f, también cambiará la forma funcional de la media. En la siguiente tabla se puede observar algunas funciones con sus respectivas medias de Chisini, entre las cuales se encuentran la media aritmética, la media geométrica y la media harmónica.
The elements of statistical learning
Oct 15th
Con gran sorpresa me enteré que el libro The elements of statistical learning de Trevor Hastie, Robert Tibshirani y Jerome Friedman se encuentra disponible de manera gratuita. Este libro trata de minería de datos, inferencia y predicción estadística. en palabras de los autores:
Los desafíos en el aprendizaje a partir de datos han conducido a una revolución en la ciencia estadística. Dado que la computación juega un papel clave, no es sorprendente que gran parte de este nuevo desarrollo haya sido realizado por investigadores de otros campos como las ciencias de la computación (computer sciences) y la ingeniería.
Además, los retos en la áreas de almacenamiento de datos, la organización y la búsqueda han llevado al nuevo campo de la “minería de datos”; los problemas de estadística e informática en el campo de la biología y de la medicina han creado “bioinformática”. Enormes cantidades de datos se están generado en muchos campos, y la tarea del estadístico es darle sentido a estos datos y extraer los patrones y tendencias, y entender lo que dicen los datos. A esto lo llamamos “aprendizaje a partir de los datos”.
Variantes al modelo lineal general
Jun 11th
Felipe Ortiz ha presentado esta charla que entrega un sobrevuelo de las variantes al modelo lineal general. Es una muy buena recopilación que nos recuerda que el estadístico no debe saberlo todo pero sí que debe saber en dónde buscar. Que lo disfruten aligual que yo.
¡Pitágoras bruto!
Apr 7th
En esta semana de reflexión les dejo este mensaje anónimo que llegó a mi correo electrónico… En verdad me ha hecho pensar mucho… ahí les va:
Ya lo afirma Andrew Gelman en su excelente libro Teaching Statistics, si Pitágoras hubiese estudiado estadística… YO opino que si eso hubiese pasado, él nunca habría postulado tan grande estupidez (aunque en realidad fueron sus discípulos quienes enunciaron tal falacia). Falacia y gran mentira puesto que desde hoy yo he tumbado el famoso teorema de Pitágoras. Como decía un gran maestro en una gran universidad… me acabo de tomar un tinto y he tumbado la teoría milenaria de Pitágoras. De paso, voy a demandar al ministerio de educación por lavarle la mente a los indefensos niños… pobres criaturas que nada pueden hacer ante la conspiración de un gobierno que no tiene en cuenta el desarrollo de tan grande y todopoderosa ciencia… la estadística.
Voy a publicar mi descubrimiento en una gran revista… no en una revistica como esas que han salido en el último año en Colombia, dizque para incentivar la investigación de mediocres profesorcitos que jamás saldrán de Cundinamarca… lo mío es grande, es muy grande y digno de la alta alcurnia de la literatura estadística… tal vez JASA o la Royal se ajustan a lo que yo quiero. Si mi universidad me patrocina, me voy directo a las Joint Statistical Meetings que tendrán lugar en Washington… esa será la oportunidad que la ciencia estaba esperando… conocerme a mí. De otra forma, si no consigo apoyo, pues renuncio y me largo al otro lado del charco. Yo sé que allá, en el marco de alguna conferencia del simposio internacional de estadística expondré mi descubrimiento y será muy fácil conseguir trabajo en una universidad de renombre que merezca todo mi saber y mi excelente carisma.
Por otro lado, voy a callarle el pico de una vez por todas a todos aquellos que no creen en la significación estadística… ¡Brutos!… deberían entregar el título… sobre todo ese tal Andrés que, siendo estadístico, le echa pestes y pestes a la ciencia que le da de comer… estoy harto de los blogs y de páginas mediocres que discuten sumitas, resticas y, a lo más, derivadas… ¿y yo qué? Jamás me han mencionado en esas entradas, lo cual demuestra la mediocridad del autor.
Bueno, al grano… después de muchas simulaciones, he descubierto que el teorema de Pitágoras carece de sentido estadístico… es decir, es una mentira. Por ahí dicen y recalcan que la estadística debe tener sentido desde el punto de vista del usuario… jajajaja… que error tan grave… a continuación lo demostraré. Es más, lo demostraré en R.
Me encontré los siguientes datos, que provienen de Pitágoras… yo no sé… pero no me importa la teoría de ese tío… a mí me importan los datos. Los datos de las dos variables explicativas, que las llaman catetos, son
> x
[1] 2.731734 2.063456 1.254018 2.084789 1.301384 1.938547 2.549817 1.144791
[9] 1.947545 2.067407 2.493400 2.074311 2.816731 2.457791 2.093760
> z
[1] 7.234464 6.297769 8.205349 8.614326 7.502430 4.783516 4.360439 6.457423
[9] 4.766488 6.089330 6.560284 6.691666 4.075007 4.113226 4.387267
Y los datos de la variable respuesta, que la llaman hipotenusa o algo así, son
> y2
[1] 59.79984 43.91974 68.90031 78.55295 57.98006 26.63999 25.51499 43.00886
[9] 26.51234 41.35411 49.25436 49.08116 24.53966 22.95936 23.63194
Me han pagado una suma considerable de dinero para crear un modelo… muy fácil… un modelo lineal… un modelo de regresión… un modelo estadístico.
>Call:
lm(formula = y2 ~ x + z)
Coefficients:
Estimate Std. Error t value Pr(>|t|)
b0 -40.9131 4.3625 -9.378 7.13e-07 ***
x 4.5446 1.2352 3.679 0.00315 **
z 12.3628 0.4192 29.490 1.44e-12 ***
—
Multiple R-squared: 0.988, Adjusted R-squared: 0.986
Con un ajuste del 98% he descubierto que
Que nadie me diga que mi modelo no está bien. Bueno, queridos “colegas”… voy a patentar esto… Adios.
Mi respuesta: La regresión múltiple es una herramienta muy potente, incluso sirve para enorgullecer más al estadístico. Qué vaina!!! Que viva la humildad del gremio !!!
Cuatro errores comunes
Apr 6th
1. Dada (pffff, ¿quién se la dio?) una muestra aleatoria de variables con distribución normal
¿Cuál es la distribución de la media muestral? La respuesta más común es que si la varianza es conocida, entonces la media muestral tiene una distribución normal; si la varianza es desconocida, entonces la media muestral sigue una distribución
-Student con
grados de libertad.
R:/ Falso. John Cook afirma que nuestra ignorancia acerca de no cambia la distribución de los datos. Una combinación lineal de variables aleatorias con distribución normal es otra variable aleatoria con distribución normal y punto.
2. Si es un intervalo de confianza del 95% para el parámetro
, entonces la probabilidad de que el parámetro se encuentre en ese intervalo específico es de 0.95.
R:/ Falso. En primer lugar los extremos de los intervalos de confianza son variables aleatorias. La interpretación de los intervalos de confianza frecuentistas se refiere al intervalo de la distribución muestral para tal que, dados los datos observados, se podría esperar que el 5%de las futuras estimaciones de
no pertenecieran a dicho intervalo. La interpretación del enunciado estaría correcta si se tratase de intervalos de credibilidad.
3. El valor es la probabilidad de rechazar la hipótesis nula.
R:/ Falso. El enfoque tradicionalista, de Fisher, Neyman y Pearson, sugiere fijar una hipótesis primaria y una hipótesis alternativa
. Después de determinar una estadística apropiada
, se procede a calcular la significación observada, más conocida como valor
y definido como
. Si el valor
es más pequeño que un error Tipo I predeterminado, entonces la hipótesis
se rechaza.
4. Si el valor es mayor que el error Tipo I, entonces
se acepta.
R:/ Falso, muy falso. Una cosa es que los datos no ofrezcan evidencia en contra de y otra es que
sea cierta. Y de una cosa a la otra hay mucho, pero mucho, muchísmo camino. Lo repito una vez más no es lo mismo… nunca será lo mismo. Carlin (1996) lo explica de la siguiente manera. Un valor
pequeño indica que la hipótesis alternativa tiene un poder de explicación significativamente mayor. Sin embargo, un valor
grande no sugiere que las dos hipótesis sean equivalentes, sino que se carece de evidencia para afirmar que no lo són.
El paquete TeachingSampling
Mar 16th

¡Ojalá él estuviera aquí! Seguro que se sentiría muy feliz al saber que unos de nuestros sueños se ha cumplido…
Estimado colega, estimado profesor, estimado lector. Con mucha alegría permítanme presentarles el nuevo paquete TeachingSampling, desarrollado por mí en la Facultad de Estadística de la Universidad Santo Tomás, aunque un poco lejos de sus oficinas. En el CRAN de R existen un par de paquetes complementarios con respeto al muestreo; éstos son el paquete Survey escrito por Thomas Lumley, de la Universidad de Washington y el paquete Sampling escrito por Yves Tillé de la Universidad de Neuchatel. Excelentes paquetes, excelente programación y excelentes ejemplos. Sin embargo ninguno de ellos tiene el enfoque con el que yo aprendí muestreo y con el que quiero enseñarlo.
La documentación del paquete, haciendo clic acá y el archivo ZIP para la instalación manual, haciendo clic acá.
Es cierto, el muestreo y la inferencia en poblaciones finitas se distancian un poco de la estadística clásica y del pensamiento tradicional. Precisamente, por esta razón, el estudiante debe aprender, no sólo a manejar un software, sino a implementar los procesos muestrales en su mente sin que se pueda dar lugar a la confusión. ¿Cómo hacerlo? Mi respuesta es empezar desde lo básico… desde la medida, la probabilidad, las sigma-álgebras y el espacio muestral. En algunas cátedras de muestreo y en algunos textos, ni siquiera se menciona el concepto de Soporte. A mi entender, el estudiante debe asimilar en primer lugar este concepto para adentrase, después, en temas más complejos como las estrategias de muestreo y sus posibles variaciones.
Otro tema de suprema importancia es separar el diseño muestral del algoritmo de muestreo. Un diseño muestral es simplemente una distribución de probabilidad multivariante sobre un soporte, mientras que un algoritmo de muestreo es una manera de seleccionar muestras aleatorias que respeten el diseño de muestreo. Esto conlleva a que para un diseño de muestreo específico puedan existir múltiples algoritmos muestreo. Por supuesto, la forma de seleccionar la muestra implica directamente que la forma matemática del estimador que se utilice se vea alterada automáticamente por la escogencia de un diseño de muestreo, formándose así una dupla que se conoce como estrategia de muestreo.
El proceso no termina en memorizar qué es una estrategia de muestreo y sus infinitas variaciones. Una vez que se ha planteado el diseño de muestreo, que se ha seleccionado una muestra, mediante un algoritmo de muestreo, que se ha recopilado la información de las unidades seleccionadas en la muestra, se deben computar las estimaciones resultantes. Sin embargo, cuando yo hablo de estimaciones estoy inmediatamente refiriéndome a variación estadística. Por tanto junto con las estimaciones de los totales o las medias, es indispensable también publicar el coeficiente de variación estimado. Este concepto es vital para la buena práctica del muestreo.
Por otra parte, como lo asegura Sharon Lohr, una estrategia muestral siempre es susceptible de mejora. En particular, cuando se trata de incorporar información auxiliar (discreta o continua), ya sea en la etapa de diseño o en la etapa de estimación. El estudiante debe entender que la incorporación de información auxiliar no siempre es viable ya sea por motivos logísticos o porque con ésta no se logra mejorar la estrategia de muestreo en términos de la eficiencia estadística.
En ocasiones, la cátedra de muestreo se me antoja muy, pero muy matizada con la cátedra de programación computacional. Aunque no es posible hablar de investigación en muestreo sin habilidades computacionales, sí es posible lograr que el estudiante aprenda la teoría y ejecute una buena práctica sin necesidad de recorrer ese tortuoso camino de programación, que no a todos se nos facilita de la misma manera. La suma de las anteriores razones me llevó a plantear este programa en R, que ahora es una realidad y, que ejecuta los cálculos computacionales necesarios para la enseñanza del muestreo, respetando los conceptos arriba expuestos.
-
Distintos algoritmos de muestreo para diseños muestrales específicos
-
Estimaciones resultantes junto con la varianza y el coeficiente de variación estimado para las estrategias de muestreo
-
Incorporación de información auxiliar discreta. Muestreo estratificado y estimador de post-estratificación.
-
Incorporación de información auxiliar discreta. Muestreo de probabilidad proporcional y estimador de regresión general.
-
Requerimientos de estimaciones en dominios. Estimación en subgrupos poblacionales. Dominios o post-estratos
-
Diseños muestrales por conglomerados y en varias etapas
-
Calibración de estimadores. Método IPFP y de regresión
Espero que este paquete pueda servirles de mucha utilidad, ya sea enseñando, aprendiendo o utilizándolo en sus propias investigaciones.
PD: Agradezco al profesor Campo Elías Pardo por su apoyo y paciencia incondicional para la compilación del paquete y a Daniel Rodríguez, en primer lugar por su gran amistad, y por su interés, motivación y ayuda en el desarrollo de este paquete a pesar de la gran distancia.
Mala práctica de las pruebas de hipótesis
Jan 26th
Jim Berger ha diseñado un software que demuestra que las interpretaciones usuales acerca de los p-valores pueden ser erradas. La ayuda para manejar el software se encuentra en este documento.
Al respecto, John Cook hace una lista de cinco autores que tienen puntos de vista muy críticos acerca de la práctica e interpretación usual del estadístico con respecto al procedimiento de las pruebas de hipótesis.
- Andrew Gelman: En la realidad, la hipótesis nula es siempre falsa. ¿Es el tratamiento A igual de efectivo al tratamiento B? Seguramente no. Está claro que antes de la realización de un experimento deben existir algunas diferencias que se pueden manifestar con un número suficiente de datos.
- Jim Berger: Un p-valor pequeño implica que los datos recolectados son inverosímiles bajo la hipótesis nula. Sin embargo, también pueden serlo bajo la hipótesis alternativa. Las comparaciones de las hipótesis deberían estar condicionadas a la realización de los datos.
- Stephen Ziliak and Deirdra McCloskey: La significación estadística no es lo mismo que la significación científica. La cuestión más importante para la ciencia es el tamaño de un efecto y no si existe o no tal efecto.
- William Gosset: El error estadístico es sólo uno de los componentes del error real y quizás sea un componente pequeño.
- John Ioannidis: p-valores pequeños no implican una probabilidad pequeña de que la hipótesis nula sea incorrecta. En una revisión de estudios médicos se encontró que el 74% de los estudios con p-valores menores que 0.05 llegaban a conclusiones erróneas.
Algun extremista diría que la herramienta de las pruebas de hipótesis y de sus respectivos p-valores es una mala herramienta. Mi punto de vista es que cuándo se entiende que un p-valor es una variable aleatoria, entonces las conclusiones y por consiguiente la toma de decisiones se hace con más cuidado. Sin embargo existe otra herramienta estadística que puede ser usada como complemento a los p-valores. Se trata de los factores de Bayes que son la razón entre las probabilidades a posteriorí de las dos hipótesis dada la realización de los datos. Según John Cook, los factores de Bayes no tienen las debilidades de las pruebas de hipótesis, especialmente las que señalan los criticismos de Jim Berger y John Ioannidis.
Respuestas Bayesianas
Sep 8th
Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción.
Andrew Gelman
Una de las entradas más leídas de este blog se llama “Acerca de la estadística bayesiana” en ella se exponían los cuestionamientos acerca de los fundamentos de la inferencia Bayesiana. Esos cuestionamientos los hizo Andrew Gelman, uno de los autores Bayesianos más leídos de la última década.
Esos cuestionamientos hicieron que el editor de una importante publicación internacional (categoría AAA … donde mi amigo anónimo debería escribir) convenciera a Andrew Gelman para que escribiera un manuscrito al respecto. En esta entrada se dan las respuestas a esos cuestionamientos.
Antes que nada Andrew Gelman hace la siguiente aclaración: La estadística Bayesiana se trata de hacer afirmaciones de probabilidad, mientras que la estadística frecuentista se trata de evaluar afirmaciones de probabilidad… De esta forma un estadístico (entendido como la persona que ejecuta métodos estadísticos) puede ser frecuentista y Bayesiano en diferentes ocasiones. Aún más un simple método de análisis puede ser frecuentista y Bayesiano al mismo tiempo.
- “Los métodos Bayesianos son presentados como un motor de inferencia automática”: La inferencia Bayesiana tiene tres etapas: formulación del modelo, ajuste del modelo a los datos, comprobar el ajuste. Así que el procedimiento no es automático.
- “Como científicos debemos tratar con el conocimiento objetivo y dejar a un lado las creencias subjetivas”: Las distribuciones a priori que maneja la inferencia Bayesiana son objetivas de la misma forma que lo son los métodos frecuentistas. El resultado final sólo depende del modelo asumido y de los datos recolectados.
- “Los métodos Bayesianos parecen moverse rápidamente hacia la computación elaborada”: Para bien o para mal, la computación se está convirtiendo en una plataforma central para el desarrollo estadístico.
- “No existe un principio objetivo para la escogencia de una distribución a priori no informativa… De todas formas, ¿de dónde vienen esas distribuciones a priori?”: Nótese que tampoco existe un principio objetivo para escoger una verosimilitud… ¿de dónde vienen las regresiones logísticas? ¿quién dijo que los datos eran normales? Bernardo dice que como toda ciencia, la estadística se basa en procedimientos subjetivos que guían a resultados que se pueden probar de una manera objetiva.
- “¿Por qué debería creer en una a priori subjetiva?”: Si hay una seria diferenciación entre las creencias subjetivas y los resultados a posteriori, debería ser un indicador de reevaluar el modelo usado.
- “Es preferible la inferencia insesgada y los intervalos de confianza que permiten tener un nivel real de cobertura”: Acerca de este tópico Andrew Gelman recomienda dar un vistazo al ejemplo de las páginas 248-249 de su libro Bayesian Data Analysis.
- “La gente tiende a creer en resultados que apoyan sus preconceptos y son incrédulos ante los resultados que los logran sorprender”: como Bayesiano uno puede utilizar una distribución a priori débil y añadir más información si se necesita.
- “Un estimador Bayesiano es un estimador estadístico que minimiza el riesgo promedio. Sin embargo, cuando utilizamos estadística no tratamos de minimizar el riesgo promedio,; tratamos de hacer estimación y juzgamiento de hipótesis”: Es cierto, sin embargo, el lector puede referirse al capítulo 22 de Bayesian Data Analysis donde se habla de funciones de perdida y análisis de decisión como herramientas fundamentales en decisión y no en inferencia estadística.
Haciendo clic acá encontrará el documento completo. Termino esta entrada reiterando mi punto de vista acerca de la inferencia Bayesiana: “Reconozco la magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría estadística sino también en el pensamiento estadístico del autor. La estadística Bayesiana debe ser utilizada con expertise. cuando es usada por investigadores neófitos puede ser tergiversada. Sin embargo, el mal uso que se le dé a un método no involucra su credibilidad, sino la ignorancia del investigador.”
P valores aleatorios
Aug 19th
En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.
La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es
Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.
La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.
Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.
Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis
Ho: mu igual a cero VS. Ha: mu distinto de cero.
Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero
- Bajo la hipótesis nula, el histograma de los p valores toma la forma de una distribución plana y uniforme sobre el intervalo [0, 1]. Para enfatizar el punto de que un p valor no es la probabilidad de que Ho sea cierto, el instructor sólo necesita explicar este histograma, en donde claramente Ho es cierta, sin embargo el p valor está uniformemente distribuido entre cero y uno.
- Bajo la hipótesis alternativa, la distribución de los p valores no es uniforme. Para el estudiante será obvio que el chance de obtener p valores menores al nivel de significación será más alto bajo la hipótesis alterna que bajo la hipótesis nula y ese efecto es más claro a medida que mu incrementa su valor. En este punto, es posible introducir el concepto de potencia.
Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero
- Si mu menor que cero, la distribución de los p sobre el intervalo [0, 1] no será uniforme y tenderá al valor uno. En este punto, el estudiante entenderá que la distribución de los p valores no está determinada por el sistema de hipótesis sino por los parámetros.
Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.
Inferencia: Modelos o Aleatorización
Jul 27th

Las nociones de la inferencia en poblaciones finitas fueron expresadas hace más de 60 años en muchos libros clásicos como Cochran, Hansen, Hurwitz y Madow, Deming, Muthy, Des Raj y otros. La teoría de muestreo era aplicada desde la perspectiva misma de la selección aleatorizada de posibles muestras en la población finita. Dependiendo de las circunstancias prácticas, la selección se hacía de distintas maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como la actividad primaria y la estimación nunca fue considerada como una práctica separada sino como una consecuencia automática. Lo anterior se debía a que cada tipo de diseño de muestreo inducía un estimador cuyas propiedades estadísticas como el insesgamiento y la varianza eran establecidas de antemano con el diseño y así, la varianza era calculable y estimable.
Así que, para la década de los 60′s, muchos creyeron que la investigación en el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta porque se deberían inventar nuevas formas de selección de muestras (tarea ardua y difícil), más allá de las que se cubrían en los libros clásicos del muestreo. Aunque el estimador de razón fue considerado en algún detalle por los textos de referencia, la inclusión de varias variables de información auxiliar no se vio como un tópico que prometiera rédito alguno para emprender el camino de la investigación en esa vía.
En la década de los 70′s, varios autores dieron un viraje en su perspectiva epistemológica de la inferencia en poblaciones finitas. Es así como Basú, Brewer, Godambe y Royall, entre otros, consideraron los modelos estadísticos (en sintonía con la estadística clásica Fisheriana) como los verdaderos fundamentos de la estimación e inferencia en poblaciones finitas. Su trabajo se cimentó alrededor de la posibilidad de tener una inferencia que dependiera estrictamente del modelo propuesto y no tuviera nada que ver con el diseño de muestreo utilizado en la recolección de los datos. Como consecuencia, la atención se tornó alrededor de la estimación y se dejo de lado el muestreo por la relación existente o propuesta entre la característica de interés y las variables de información auxiliar.
El camino que tomó la historia del muestreo fue, precisamente, la incorporación de las dos corrientes de pensamiento bajo una sola sombrilla. Así que, fue posible combinar la Aleatorización clásica con un percepción más general de la relación de y con x. No hubo necesidad de sacrificar los principios basados en la aleatorización. Así nació la inferencia asistida por modelos pero basada en ala aleatorización (model assited desig-based inference por su original en inglés). Este nuevo tipo de inferencia se hizo muy atractiva porque la regresión y los modelos acompañan al estadístico desde sus primeros cursos y van tomando más fuerzas a medida que se avanza en el camino universitario. Así que, este pensamiento “asistido por modelos” es un matrimonio efectivo y tolerante que permite las ideas de la regresión junto con el paradigma de la aleatorización.
Jan Wrettman opina que el ajuste de un modelo se ha convertido en parte integral de la teoría clásica del muestreo, aunque los principios de la misma deben permanecer intocables porque as propiedades de los estimadores son evaluadas con respecto al mecanismo de probabilidad que genera la muestra y no con respecto a cualquier modelo asumido.
Adaptado de JOS (2005)
Eficiencia del PPT
Jul 26th
La regla de oro de una buena muestra reza que para que la inferencia basada en el diseño de muestreo arroje estimaciones que sean (abusando del lenguaje) de varianza mínima e insesgadas, las probabilidades de inclusión (o selección, según sea el caso) que arroje el diseño de muestreo utilizado deben ser directamente proporcionales a los valores que toma la característica de interés en la población.
En 1954, Des Raj demostró que: Si x es la información auxiliar utilizada en la etapa de diseño, la resta de la varianza de la estrategia de muestreo aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado una expresión directamente proporcional a la covarianza entre (x, y^2/x).
Este resultado condiciona el comportamiento estructural de la información auxiliar que debe cumplir dos condiciones para que la eficiencia de la estrategia PPT sea mayor que la del diseño aleatorio simple con reemplazo.
-
En primer lugar, el resultado indica que para que la estrategia de muestreo PPT sea más eficiente en términos de varianza que la estrategia de muestreo MRAS, además de que las probabilidades de selección de los individuos sean proporcionales a los valores que toma la información auxiliar, es necesario que la correlación entre (x, y^2/x)
debe ser positiva (lo cual es obvio dada la definición de correlación). Sin embargo, nótese que si la razón entre y y x es contante para todos los elementos, entonces esta correlación es igual a la correlación existente entre (x, y). Por tanto, una condición necesaria para que el diseño PPT sea más eficiente que el diseño de muestreo aleatorio simple con reemplazo es que exista una correlación positiva entre la característica de interés y la información auxiliar; pero, una condición suficiente para la optimalidad del diseño PPT, es que la razón entre (x/y) sea constante. -
Segundo, Lehtonen (2004) muestra que la eficiencia del diseño de muestreo PPT está directamente relacionada con un modelo de regresión simple con intercepto. Concluye que para que el diseño de muestreo PPT sea más eficiente, el intercepto debe ser una cantidad pequeña. Es decir, que la línea de regresión ajuste cerca del origen. Como corolario del resultado, se tiene que incluso si la correlación entre la característica de interés y la información auxiliar fuera perfecta e igual a uno, entonces no habría ningún término de error en la regresión, pero aún así si el intercepto fuera grande entonces la estrategia de muestreo PPT podría arrojar una eficiencia menor.
Por supuesto, la eficiencia de cualquier diseño de muestreo dependerá del parámetro que se quiera estimar, no es lo mismo estimar promedios que razones o que funciones de distribución. Está claro que bajo una buena planeación del diseño de muestreo, el PPT funciona mejor para totales que para razones. De hecho, cuando se utiliza el PPT para estimar una razón entre dos variables, es necesario encontrar una variable correlacionada con la transformada de Taylor (tarea ardua y confusa). Que, para los conocedores del tema, se trata de encontrar una variable correlacionada con cero.
Patentes Bayesianas
Jul 6th
Una vez más se demuestra que el camino de nuestros amigos empresarios va en contravía con las corrientes altruistas del mundo académico preocupado por su función vital en el desarrollo de la sociedad contemporánea. Esta vez veo con mucho asombro como el sueño ridículo de un conocido empresario en el ámbito de la investigación de mercados se materializa poco a poco: Producción de patentes de métodos estadísticos aplicados.
En este link usted encontrará el principio del fin de las publicaciones seriadas y respetadas en materia de métodos y aplicaciones estadísticas (como la JASA, Biometrika, etc.) que van siendo reemplazadas por patentes de las oficinas gubernamentales. Bueno, cabe resaltar que al menos, en particular, el tema de esta patente es innovadora y se trata de una aplicación bayesiana a los modelos lineales mediante un algoritmo que el autor de la patente afirma ser su inventor. Lo anterior lo menciono porque el reconocido empresario quería patentar el análisis de correspondencias que en alguna ocasión yo implementé y que él transformó con MS PowerPoint y un poco de ingenio costeño cambiándole el nombre original por uno más comercial: PLASMA. Lo llamó plasma porque en mi informe yo describía, como es mi costumbre con palabras amenas y sin tecnicismos, que el método de correspondencias múltiples plasmaba en dos dimensiones el comportamiento de la categoría en el mercado. Eso fue suficiente para que el astuto empresario (famoso por la mala paga, opresión a los trabajadores y una halitosis infernal) quisiera hacer la idea más comercial y de paso asegurarse de que nadie la copiara. De hecho, yo aún pienso que no se trataba de ingenio empresarial sino de miedo paranoico que posiblemente hizo que este tipo, en sus primeros pasos por el mundo de la investigación de mercados, quisiera patentar los diagramas de barras y los diagramas de pastel.
Es increíble que la ambición por el dinero esté, poco a poco, infectando nuestro querido gremio. De ahora en adelante, no habrá que visitar la biblioteca, ni ingresar a JSTOR ni a Google Academics, para buscar un artículo clave en nuestras investigaciones académicas, sino que por el contrario habrá que hacer una larga fila en la oficina de patentes para suplicar una copia del algoritmo estadístico utilizado por los grandes monopolios industriales en sus procesos.
La siguiente es una traducción del resumen de la patente de regresión bayesiana lineal:
Se desarrolló un simple, pero poderoso, modelo bayesiano de regresión lineal con aplicaciones en el aprendizaje de máquinas. A diferencia de los tratamientos previos que buscan estimar los hiper-parámetros a través de máxima verosimilitud o han usado una distribución a priori no informativa y sencilla para hacer los cálculos computacionales más sencillos, este método usa una combinación de álgebra e integración numérica para poder trabajar las distribuciones a posterí de manera completa. El algoritmo resultante es muy eficiente y muy útil en la práctica y puede verse como una versión bayesiana del algoritmo discriminante de mínimos cuadrados.
Bueno, los dejo porque se me hizo tarde para llegar a una cita con un empresario que quiere patentar la regresión bayesiana no lineal… y, llámenme mal amigo, creído o incluso petulante, pero nunca, nunca incumplido, eso sí que no.



























Comentarios