Muestreo

El tamaño sí importa

Attractive young woman sitting on white background

Con el tiempo deja de fastidiarme la pregunta que se hacen todos y cada uno de los usuarios y “clientes” de una encuesta: ¿cuál es el tamo de muestra para este estudio? De hecho, esta pregunta a veces surge sin plantear el problema de investigación, ¡a veces sin siquiera saludar! El dueño de la investigación llega muy orondo y de repente cuestiona: ¿cuál es el tamaño de muestra para evaluar esta política pública? ¿cuál es el tamaño de muestra para esta investigación de mercados? ¿cuál es el tamaño de muestra para este estudio farmacológico? Por supuesto, el tamaño importa porque dependiendo de esta cifra se tiene un costeo previo del monto del estudio.

Además de lidiar con estas actitudes automatizadas, el estadístico debe guiar al “cliente”, muchas veces con preguntas sagaces, hacía un lugar que les permita tener un acercamiento exhaustivo al problema en cuestión. A algunos les parecerá aburrido e innecesario, pero les aseguro que es un ejercicio que hará valorar más el papel del estadístico frente al medio. Esto llega a tener implicaciones éticas muy profundas porque una buena concienciación del problema puede ahorrarle dinero al estado. Por ejemplo, considere que un estudio quiera tener representatividad (nivel de confianza predefinido, asegurar un margen de error previo y acotar el error estándar relativo) con un nivel de confianza del 95% y un error estándar relativo máximo del 3%. Ahora piense en esto: si con tres mil encuestas se logra un error estándar relativo del 2% y con dos mil encuestas se logra un error estándar relativo del 2.9%, entonces la escogencia de tamaño de muestra debería ser dos mil encuestas, en vez de tres mil. El estadístico novato dirá que tres mil es mejor que dos mil. En términos de inferencia estadística los dos escenarios son similares (ambos con la misma confianza y un error estándar relativo menor al 3%), se toman las mismas decisiones con ambas cifras, pero la diferencia en dinero puede ser abrumadora.

Sin embargo, aparte de lo anterior, el estadístico debe sondear si el problema de investigación se refiere a la estimación de un parámetro o al contraste de una hipótesis que el investigador haya definido como importante.  En principio son dos escenarios distintos, pero hay una delgada línea entre uno y el otro. Por ejemplo, suponga que se plantea un estudio que va a comparar dos grupos: un grupo de tratamiento y grupo de control. El investigador quiere conocer si existen diferencias significativas entre un grupo y otro. Es justo en este instante cuando comienza la encrucijada. Eso suena a prueba de hipótesis. Es más suena a prueba de hipótesis bilateral. Sin embargo, es aquí en donde el papel del estadístico debe sobresalir. Y no porque sea avezado en sugerir expresiones matemáticas inmediatas para el cálculo del tamaño de muestra, sino porque debe seguir ahondando más en el problema. Antes de sugerir alguna fórmula, debe realizar la siguiente pregunta ¿cuánto es diferente? Si las diferencias son de medias o de proporciones, los investigadores deben saber desde qué cantidad esa diferencia comienza a ser importante. La respuesta a esta pregunta determina el rumbo de estudio y por consiguiente la fórmula correcta para determinar el tamaño de muestra.

Entonces, si la respuesta es: “déjeme pensar, no sé, dígame usted”; este es un problema de estimación y no de pruebas de hipótesis. Si todavía está leyendo pues no pare de hacerlo, porque esto se pone más interesante. No es una herejía, cuando el investigador no conoce la respuesta a la pregunta ¿cuánto es diferente?, entonces al diablo con las pruebas de hipótesis y bienvenida la confianza estadística (Z_{1-\alpha/2}), el margen de error (\varepsilon) y el efecto de diseño del muestreo (Deff). En este caso, la expresión adecuada para el tamaño de muestra es: (Ver acá)

n>\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{e^2}{Z_{1-\alpha/2}^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

Por el contrario, si el investigador responde: “yo quiero saber si la diferencia absoluta entre las proporciones es mayor a 0.2″; entonces el problema sí es de pruebas de hipótesis y no de estimación. Nótese lo ambigua que es la afirmación “quiero saber si hay diferencias significativas.” No, de lo que se trata es de que el investigador afirme “quiero saber si el grupo de tratamiento tiene una proporción mayor que la del grupo control. Es más quiero saber si esa diferencia es mayor a 0.2″ En el anterior escenario, es claro que ni siquiera se trataba de una hipótesis bilateral, sino unilateral y que el efecto que al investigador le importa ya está cualificado y es de 0.2. Este sí es un escenario de pruebas de hipótesis (unilateral) y debe involucrar a la confianza (Z_{1-\alpha}), la potencia (Z_{\beta}) y el efecto que quiere contrastar en la prueba (D=P_1-P_2). En este caso, la expresión correcta para el tamaño de muestra es: (Ver acá)

n=\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{D^2}{(Z_{1-\alpha}+Z_{\beta})^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

En la práctica, esto significa que para una población de un millón de personas, divida en dos grupos de interés, en donde se supone un diseño de muestreo complejo para la recolección de la información con un Deff=4, y asumiendo que la varainza de la diferencia de proporciones es máxima (con P_1=P_2=0.5), se tiene que:

1.  El tamaño de muestra mínimo en cada subgrupo, para realizar una estimación de la diferencia de proporciones cuyo intervalo de confianza al 95% sea tal que su margen de error no supere el 3%, es de 2130 personas.

2. El tamaño de muestra mínimo en cada subgrupo, para realizar una prueba de hipótesis sobre la diferencia de proporciones para detectar un efecto de D=15%, un nivel de significación del 5% y una potencia del 80%, es de 933 personas.

Espero que con esta lectura usted esté descubriendo esa delgada línea en su área de trabajo. Por lo demás, tómese siempre su tiempo para reflexionar en las características de su estudio y en hacer las preguntas correctas a las personas correctas en el momento correcto. Esto le da una ventaja competitiva invaluable.

Un gran error: utilizar Excel para realizar análisis estadísticos

NewImage

Hace poco leí una discusión que debo traer a colación en este espacio. Lo hago porque sé que muchos de nosotros utilizamos hojas de cálculo para realizar nuestros análisis estadísticos. Aunque el título de la entrada se refiere a MS Excel, usted también puede caer en este error si usa hojas de cálculo en programas estadísticos más sofisticados como Minitab, SPSS, StatGraphics, entre otros.

Sin embargo, el estadístico que utiliza MS Excel está cometiendo, quizás sin saberlo, un gran error puesto que se ha mostrado (acá y acá) que MS Excel no arroja estimaciones correctas para algunos modelos estadísticos. En particular, el NIS (National Institute of Standards and Technology) provee varios conjuntos de datos para que los analistas de información estadística corroboren que sus modelos y sus herramientas están calibrados y por ende, el proceso de estimación e inferencia se correcto. En algunos modelos de regresión nolineal, entre otros, el desempeño de MS Excel no es el mejor. 

Ahora, los usuarios de hojas de cálculo en MS Excel, o en cualquier otro software estadístico, deben saber que existen políticas de análisis estandarizadas, como las normas ISO, entre otras, que propenden por el buen uso de los modelos estadísticos. Entre estas características están la reproducibilidad (replicar o reproducir un análisis por cualquier persona ajena al estudio) de los resultados obtenidos y la trazabilidad (serie de procedimientos que permiten seguir  el proceso de evolución de un producto en cada una de sus etapas). Es decir que, aunque el software sea correcto en sus estimaciones, se debe garantizar las anteriores características, lo cual es imposible a no ser que el error humano sea minimizado. 

Por lo anterior, si en su empresa o institución usted quiere cumplir a satisfacción con los estándares internacionales de análisis de datos, es menester que empiece a documentar todos sus procesos con la utilización de sintaxis estadística que le permita reproducir sus análisis repetidas veces y obtener siempre los mismos resultados. 

Esto es fundamental, por ejemplo, en el sector de evaluación de políticas públicas, en donde todo debería estar documentado. Hace algunos años, como asesor del gobierno en temas de muestreo, me enfrenté a una situación parecida. El consultor privado, había seleccionado una muestra, a mi juicio no probabilística (puesto que algunos municipios del país sospechosamente había ya sido seleccionados en varios ejercicios anteriores), aunque él declaraba que en efecto era probabilística. Yo requerí que por favor me enviase los códigos computacionales que había utilizado para inducir esa muestra. La respuesta del consultor: “no tengo el código”. Además de sospechoso, todo el asunto culminó con una política interna en donde se exige que el consultor, no sólo socialice los códigos de los análisis estadísticos (como regresiones, método multivariados, etc.) sino que, sustente incluso la selección de una muestra.

Por último, como un ejemplo actual de esta problemática, tenemos a dos reconocidos investigadores de Harvard, Reinhart y Rogoff (este último en la foto del encabezado de esta entrada), que utilizaron hojas de cálculo para sustentar una teoría económica de austeridad que ha impactado todo el mundo occidental. Ellos concluyeron en 2010, con ayuda de MS Excel, que cuando la deuda de un país alcanza el 90% de su producto interno bruto, el crecimiento económico decrece significativamente. Tiempo después, un estudiante los desmintió y esto ha generado una respuesta mediática bastante grande.

¡Piénselo dos veces cuando abra el MS Excel! No quisiera usted estar en los zapatos desacreditados de estos dos investigadores que ahora, andan dando entrevistas de porqué sí o porqué no omitieron en el análisis algunos datos.

My article in RCE… Modelación paramétrica de factores de expansión en encuestas complejas

El principio de representatividad afirma que el vector de probabilidades de inclusión debe tener un comportamiento estructural similar al del vector de observaciones de la característica de interés. En encuestas complejas, en donde se utilizan procesos de conglomeración y estratificación, generalmente no se cumple tal principio.Por lo anterior, y dado el carácter multipropósito de las encuestas que brindan estadísticas oficiales, se hace necesario profundizar acerca de la forma como se ponderan las observaciones para cumplir con los requisitos de mínima variación en la estimación de totales poblaciones. En este artículo se explora una metodología que permite modelar los factores de expansión, inducidos por el diseño de muestreo, para cumplir con el principio de representatividad y mejorar los coeficientes de variación para unos nuevos estimadores de totales de las variables que conforman una encuesta compleja.

Para acceder al artículo completo, dar clicl en el siguiente link.

Publicando cifras con CVE mayor al 15% (la técnica de la transformación logit)

Empieza este nuevo año y asimismo la actividad bloguera. Quiero retomar un tema que había generado controversia el año pasado. A grandes rasgos, un par de personas me preguntaban acerca de qué hacer con los estimativos que tienen un coeficiente de variación (definido como el error estándar sobre el valor del estimativo) mayor al 15%. En términos generales, las directrices de algunas agencias que brindan estadísticas oficiales en Colombia y en América Latina van en la dirección de omitir la cifra y no publicarla.

En el último post de este tema habíamos concluido que el mejor indicativo era el intervalo de confianza y con algún ejemplo, mostramos que en realidad hay estimativos de proporciones pequeñas que tienen un error estándar pequeño, pero un coeficiente de variación muy elevado (mayor al 15%) y por lo tanto, la cifra – aunque buena – no era publicada. Creo que lo anterior sucede por tratar de automatizar los procesos antes de tener una estructura mental muy clara de lo que se quiere. En esta entrada voy a referirme a un algoritmo que se utiliza, entre otras encuestas, en la National Household Survey on Drug Abuse en EE.UU. en sus procesos de publicación de cifras.

Como se discutió anteriormente, cuando los estimativos son pequeños – en particular en proporciones, razones y tasas – se generan coeficientes de variación muy grandes que realmente no describen con efectividad el nivel de precisión de la cifra. Es más, cuando la proporción estimada (notada como \hat{p}) es cercana a cero o a uno, los intervalos de confianza podrían contener cifras negativas o mayores a uno, que por supuesto no tendrían sentido lógico. Cuando se presenta esta situación, es mejor optar por una transformación de los límites de confianza. Esta transformación está definida como

\hat{L}=\ln (\hat{p}/1-\hat{p})=logit(\hat{p})

Luego, haciendo uso de la aproximación de Taylor de primer orden en el punto p, se tiene que

\hat{L}\approx L(p) + \frac{\partial L}{\partial \hat{p}}(\hat{p}-p)

En donde \frac{\partial \hat{L}}{\partial \hat{p}} corresponde a la derivada de L con respecto a p y L=logit(p). Por lo tanto, la varianza aproximada de \hat{L} estará dada por

AVar(\hat{L})=(\frac{\partial \hat{L}}{\partial \hat{p}})^2Var(\hat{p})=\frac{1}{(1-p)^2}Var(\hat{p})

Entonces, un intervalo de confianza aproximado para L estará dado por:

(A,B)

En donde,

A=\hat{L}-Z \frac{\sqrt{Var(\hat{p})}}{\hat{p}(1-\hat{p})}

B=\hat{L}+Z \frac{\sqrt{Var(\hat{p})}}{\hat{p}(1-\hat{p})}

En donde Z representa el percentil de la distribución normal estándar escogido para satisfacer los niveles de confianza escogido en el estudio (que muchas veces se toma como Z=1.64 para un 90% de confianza). Finalmente, teniendo en cuenta que

p = \frac{exp(L)}{1+exp(L)}

Entonces, se obtienen los nuevos límites del intervalo de confianza aproximado para p al tomar la inversa de la función logit:

A^* = \frac{exp(A)}{1+exp(A)}

B^*=\frac{exp(B)}{1+exp(B)}

En donde A^* denota el límite inferior y B^* denota el límite superior del intervalo de confianza. Es decir, el nuevo intervalo de confianza para p será (A^*, B^*)

Lo anterior resuelve el problema de los intervalos de confianza para proporciones con valores negativos para el límite inferior. Debe notarse que este intervalo de confianza no es simétrico. Ahora, el criterio utilizado para la publicación o eliminación de la cifra está basado en el CVE de -ln(\hat{p}):

CVE(-ln(\hat{p}))=\frac{\sqrt{Var(-ln(\hat{p}))}}{-ln(\hat{p})}=\frac{\sqrt{Var(\hat{p})/\hat{p}^2}}{-ln(\hat{p})}= CVE(\hat{p})/-ln(\hat{p})

Nótese que, una vez más utilizando la aproximación de Taylor de primer orden, Var(-ln(\hat{p}))= Var(\hat{p})/\hat{p}^2. Por lo tanto, la nueva regla de decisión estará dada en términos de este nuevo criterio. En general, si el umbral de eliminación de la cifra es 15%, entonces la cifra no se publica si el nuevo CVE es mayor al 15%.

A continuación se presenta un ejemplo, para una población de tamaño N=un millón con una muestral aleatoria simple de tamaño n=mil, en donde la proporción estimada es del 0.10% y el intervalo de confianza clásico está dado por (-0.10%, 0.30%). Aún más, el CVE es del 99.70%, razón por la cual la cifra no sería publicable (según el criterio que afirma que si el CVE es mayor al 15%, entonces la cifra no se publica). Sin embargo, en esta misma situación, utilizando la transformación logit, el intervalo de confianza estaría dado por (0.01%, 0.71%) y el CVE es de 14.5%, y por lo tanto la cifra sí debería publicarse.

Aún más, este enfoque representa una excelente aproximación al enfoque clásico cuando las proporciones estimadas no son pequeñas. Por ejemplo, para la misma población del ejemplo anterior, con una proporción estimada del 30%, el intervalo de confianza clásico es de (27.16%, 32.84%) con un CVE de 4.83%. Utilizando la transformación logit, el intervalo de confianza estaría dado por (27.24%, 32.91%) y el CVE es de 4.01%. Haciendo clic acá pueden descargar una hoja de Excel para verificar las anteriores cantidades.

Por último, insto a las diferentes instancias técnicas en América Latina a utilizar enfoques como este, con el fin de no malgastar los recursos públicos. Si se siguen utilizando reglas de eliminación de cifras que tienen en cuenta el CVE clásico, entonces nos quedaremos siempre sin cifras pequeñas que, en realidad, si deberían ser publicadas.

My article in ib… Calibración de razones en encuestas complejas

Los estimadores de calibración se han convertido en una técnica robusta y eficiente en la estimación de totales en encuestas complejas. En este trabajo se considera y aplica un importante resultado que afirma que es posible calibrar con algunos otros parámetros complejos, diferentes a totales auxiliares, como la mediana, la media, la media geométrica o incluso una razón, logrando obtener estimaciones de totales con las mismas características de no tener sesgo y poseer varianza pequeña. Mediante simulaciones de Monte Carlo se aplicó este resultado a poblaciones empíricas, mostrando un buen desempeño. También, se utilizó esta técnica en la Gran Encuesta Integrada de Hogares realizada por el Departamento Administrativo Nacional de Estadística, lo cual permitió concluir acerca de la eficiencia de la técnica.

El artículo completo lo pueden descargar haciendo clic acá… En verdad espero que las personas que trabajan en los Institutos Nacionales de Estadística en América Latina (y por supuesto en Colombia en el DANE) encuentren en este artículo una valiosa herramienta para sus procesos de análisis de encuestas. Se agradecen todo tipo de comentarios al respecto.

¿Está seguro de su tamaño de muestra?

Permítame asegurar que una de las tareas más importantes del estadístico es la del cálculo del tamaño de muestra. De la misma manera, creo que no me equivoco al afirmar que es una de las tareas a las cuales se le presta menos atención. De hecho, en muchas ocasiones el investigador entra a una página de internet, o incluso a su teléfono celular, y carga una aplicación para la determinación del tamaño de muestra, que supone poblaciones infinitas y bla, bla, bla… Se imaginarán el resultado.

En otras ocasiones el investigador decide contar con el estadístico como apoyo para el cálculo del tamaño de muestra. Este a su vez, debe implementar un camino correcto para esta importante tarea. Muchas veces ese camino está dado por una expresión matemática que vio en algún libro de muestreo o en algún artículo. Hoy quiero abordar el tema del tamaño de muestra para una diferencia de proporciones, que se utiliza en muchas ocasiones, por ejemplo en el levantamiento de una línea de base en la evaluación de alguna política pública, entre otros.

Antes de abordar el tema, quiero que el lector (ya sea estudiante, profesor, consultor, asesor o empleado) tome consciencia de la importancia de utilizar una fórmula. Muchos profesores a veces no le prestamos atención a las fórmulas para los tamaños de muestra y las despreciamos, como si se tratara de una simpleza. Sin embargo, en la vida real, fuera del aula de clase, los profesionales podrían seguir esta práctica y tomar a la ligera el uso de las fórmulas. Lo que a veces olvida el profesor, que está en su burbuja académica, es que la correcta evaluación de las políticas públicas, de los estudios epidemiológicos, entre otros, depende en gran manera de este cálculo. Es tan increíblemente grande esta responsabilidad, que no encuentro las palabras para plasmarla en esta entrada. Imagínese que por negligencia o desconocimiento uno puede afectar a millones de personas. La tarea del estadístico es gigante. Por ejemplo, con un mal tamaño de muestra, la evaluación de una política pública podría arrojar resultados negativos, cuando en realidad son positivos, y de esta manera podría acabarse una intervención que sí está beneficiando a millones de niños. Pero claro, a veces no tenemos ni idea de que hay niños con hambre que necesitan ser nutridos y pasamos por alto las fórmulas y su correcto uso.

Bueno, creo que no hay tantos profesores así, pero es necesario que usted no haga esto y genere cultura estadística en sus pupilos. Volviendo al tema, creo que muchos conocen la siguiente expresión para el cálculo del tamaño de muestra cuando se quiere indagar por una proporción de interés:

n> \dfrac{PQ}{\dfrac{e^2}{z^2}+\dfrac{PQ}{N}}

En donde, e es el error relativo que uno quiere minimizar y z es el percentil de una normal estándar. Aquí no hay mucho misterio, simplemente el resultado de esta expresión es una cifra, y esta cifra induce un tamaño de muestra para un muestreo aleatorio simple sin reeemplazo.

Sin embargo, cuando el interés se centra en la diferencias de proporciones entre dos subpoblaciones, entonces es común encontrar esta fórmula, para un diseño de muestreo aleatorio simple sin reemplazo.

n> \dfrac{P_1Q_1+P_2Q_2}{\dfrac{e^2}{z^2}+\dfrac{P_1Q_1+P_2Q_2}{N}}

y el resultado es una cifra, una cifra que induce un tamaño de muestra. Pero espere, esta cifra no indica un tamaño de muestra total. Esta cifra induce un tamaño de muestra para las dos subpoblaciones de interés; es decir, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación. La razón de lo anterior está en que para llegar a esta expresión, se debe realizar una cantidad de supuestos, uno de los cuales es que el tamaño de muestra sea igual en cada subpoblación. Algo así como n1=n2=n.

Muchos investigadores hacen sus cálculos y en vez de duplicar el tamaño de muestra, lo dividen a la mitad. Recuerde, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación.

Si tiene curiosidad por la demostración y los supuestos utilizados, puede leer este documento que he preparado para usted.

¿Le gustaría recibir entrenamiento virtual certificado en estadística aplicada?

Estamos por montar una plataforma virtual única respaldada por una excelente Universidad en América Latina. Se trata de hacer algo muy serio y efectivo para el entrenamiento de los profesionales que a diario están aplicando técnicas estadísticas en sus diferentes disciplinas. Los seminarios, cursos, diplomados y conferencias serán virtuales y estarán disponibles para todos nuestros profesionales de la región. Los inscritos recibirán una certificación válida por la Universidad.

Imagínese la cantidad de oportunidades que podrían generar con estos entrenamientos. Los temas son muy variados, por ejemplo, ¿le gustaría aprender estadística bayesiana? ¿le gustaría aprender a hacer macros en SAS o en SPSS o en R? Las opciones son ilimitadas y usted podría capacitarse, entre otros en: Bioestadística, Causalidad, Control de calidad, Data Mining, Diseño experimental, Econometría, Diseño de encuestas, Inferencia, LaTeX, Marketing, Métodos multivariados, Modelos estadísticos, Muestreo, Probabilidad, Psicometría, Software estadístico, Series de tiempo, Simulación, etc.

Para que este proyecto tenga éxito, le pido que por favor llene una encuesta muy breve que no le llevará más de dos minutos.

Haga clic aquí para completar la encuesta.

Cifras sospechosas con un CVE mayor al 15%

En esta entrada critico las políticas absurdas de algunas entidades oficiales a la hora de reportar las estadísticas oficiales. Después de la crítica hago una serie de recomendaciones para evitar el desgaste de las cifras.

Tal vez me equivoque cuando afirmo que, tal vez, debido a la insistencia de nuestros maestros (de muestreo) en tener un sistema de estadísticas oficiales confiables, apareció una política, en algunas entidades que brindan estadísticas oficiales en Colombia, que consiste en no publicar las cifras que tengan un coeficiente de variación estimado (CVE) mayor al 15%. La razón de lo anterior está basada en la confiabilidad que se debe garantizar en un proceso de publicación de cifras para la toma de decisiones en el sector público.

Cualquier lector externo diría: “qué bien, están garantizando la calidad de las cifras oficiales”… Sin embargo, yo digo: “mmmmm”. El coeficiente de variación es una medida que los profesores de muestreo hemos vendido como un indicador de la precisión de las cifras en las encuestas. sin embargo, es deber del maestro (yo lo comencé a hacer este semestre y espero que mis alumnos anteriores lean esto) hacer una aclaración sobre las deficiencias de este indicador. A continuación cito algunas de ellas:

  1.  ¿Tiene sentido un coeficiente de variación negativo? Claro que sí. Cuando la estimación es negativa el CVE también lo es. Por ejemplo, cuando se estiman diferencias, cambios netos, cambios brutos, impactos, etc. ¿Es interpretable un CVE negativo? No, no lo es.
  2. Suponga que la estimación del parámetro es exactamente cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación no está definido.
  3. Suponga que la estimación del parámetro de interés es muy cercana a cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación será muy grande y no representará la calidad de la estrategia de muestreo.

Específicamente, si se siguiera la política de no reportar la cifra que tenga un CVE mayor al 15%, las estimaciones que tienen una magnitud pequeña (muy cercana a cero) son automáticamente castigadas por este indicador. Incluso si la variabilidad de la cifra es pequeña pequeña (cercana a cero), el coeficiente de variación será gigante. 

Por ejemplo, suponga que un estudio se plantea para estimar la proporción de niños que desertan de las aulas de clase y no vuelven a la escuela. Después de realizar el muestreo, se encontró que la proporción de niños desertores es de P=0.06 con un coeficiente de variación del 25%. Si seguimos la regla del 15%, entonces la cifra no sería publicable.

 Por lo anterior, el CVE no debe ser una medida de calidad de la cifra cuando las estimaciones son negativas o cercanas a cero. No es posible concebir que se adopten políticas de restricciones a las cifras basados en un indicador que no puede ser generalizado para todos los casos. Entonces, ¿qué medida de variabilidad debe adoptarse? En particular a mi gusta muchísimo el intervalo de confianza que envuelve dos medidas de calidad importantes: el error estándar (definido como la raíz cuadrada de la varianza del estimador) y el margen de error (definido como la multiplicación del error estándar por el percentíl adecuado de la distribución del estimador). Con el intervalo de confianza sí se puede decidir si una cifra es confiable o no, y si se procede a la publicación de la misma.

Ahora, en general lo del intervalo de confianza es un poco más engorroso puesto que sería preciso evaluar todas las cifras (una por una) y tomar la decisión después de un estudio juicioso. Entonces, si de generar un proceso automático se trata, el siguiente algoritmo sería una buena opción para que sea incorporado como factor decisivo en la publicación de las cifras oficiales.

Siguiendo con el ejemplo de estudiantes desertores, un CVE del 25%, para una proporción estimada de P=0.06, da como resultado un error estándar de 1.5% (dado por 0.25X0.06=0.015) y un margen de error cercano al 3% (dado por 0.015X1.96=0.029). Por lo tanto el intervalo de confianza de la proporción estaría dado por [3%,9%] (dado por 6%-3% y 6%+3% ) Esas cifras no son despreciables y deberían ser publicadas por cualquier entidad que genere estadísticas oficiales.

Llamado a árbitros

La Revista Comunicaciones en Estadística reconoce el valor y la importancia de los árbitros en el proceso de editorial general. En este momento, queremos lograr las cualificaciones apropiadas para lograr nuestra inclusión en bases de datos nacionales e internacionales de revistas científicas. Para ello, necesitamos la asistencia de evaluadores externos que ayuden al comité editorial en la selección de artículos adecuados para la publicación en la revista.

En un esfuerzo por facilitar la selección de árbitros apropiados para la revista, le pedimos que se tome un momento para completar este formulario para nuestros archivos. Por favor, asegúrese de hacer clic en la casilla de verificación de revisión.

Gracias de antemano.

__________________________________________________________________________

Call For Reviewers

 

Our journal “Comunicaciones en Estadística” recognizes the value and importance of the peer reviewer in the overall publication process. Right now, we want to achieve appropriate qualifications for our inclusion in national and international scientific journal databases. For this, we need the assistance of external reviewers to help the Editorial Review Board select suitable papers for publication.

In an effort to facilitate the selection of appropriate peer reviewers for the journal, we ask you to take a moment to complete this form for our files. Please, be sure to click in the review check box.

Thanks in advance.

 

Muestreo y políticas públicas, una conversación en MAS

Exactamente eso… una conversación amena con la mesa de trabajo del programa de radio MAS, de la Facultad de Estadística de la USTA.
Andrés Gutiérrez - Estadística, muestreo y políticas públicas

Our talk in Bucaramanga… Calibración multivariante sobre varias razones

Yo no sé si estoy siendo exagerado, tal vez sí, pero me parece que el acercamiento a la calibración y a la utilización de información auxiliar no volverá a ser el mismo. En otras épocas, era complicado el uso de estimadores de calibración por las restricciones que  se presentaban en términos de la consecución de los totales auxiliares. Sin embargo, con este enfoque no habría motivos para no calibrar. Esta presentación está enmarcada en el desarrollo de una propuesta de investigación acompañada por Natalia Rivera, a quién desde acá le envío un saludo cordial.

Sobre el error de muestreo en políticas públicas y el porqué ser estricto en el tamaño de muestra

En este documento técnico se evidencia por qué cualquier evaluación en el contexto de políticas públicas debe tener un tamaño de muestra robusto para que las inferencias sean válidas y por consiguiente los resultados sean confiables para dar un buen uso de los recursos designados y no caer en el error del detrimento del erario público.

La direcciones técnicas de los gobiernos, entre otras funciones, debe hacer seguimiento objetivo a las intervenciones del Estado en la ciudadanía. Es bien sabido que una de las herramientas más utilizadas en el ámbito del monitoreo a las políticas públicas es la recolección y análisis de información articuladas a través del muestreo estadístico, el cual tiene sus bases sustentadas en el método científico de la teoría estadística.

La forma más lógica, aunque no trivial, de conocer con total certeza el comportamiento de los beneficiarios de una política pública es la pregunta directa a cada uno de ellos, a través de un censo. De esta forma, se podría garantizar la exactitud de los indicadores o parámetros que guíen el seguimiento de dicha política. Sin embargo, debido a las limitaciones presupuestales y logísticas, las entidades que brindan este tipo de estadísticas oficiales, en el seguimiento a las políticas públicas en el mundo[1], han optado por acercarse a dichos indicadores mediante el muestreo probabilístico que le permite al gobierno conocer el resultado y/o impacto de sus intervenciones con un nivel de precisión bastante alto y confiable.

Por supuesto, dado que mediante una muestra no se tiene acceso a toda la población, las inferencias sobre los parámetros estarán sujetas a un error de muestreo, que se debe minimizar. Es un consenso internacional el que establece que este tipo de errores de muestreo no debe superar el 5%[2] para que las estimaciones estadísticas sean precisas y confiables. Entonces, ¿qué tan pequeño debe ser el error de muestreo? Es una pregunta que debe ser respondida de manera particular en la práctica de cada una de las evaluaciones que se realicen. Como experto en muestreo, mi opinión es que las evaluaciones con mayor impacto social, económico y también político deben ser planeadas con un error menor al 3%.

Realmente la base científica sobre la que reposa el muestreo hace que el gobierno no esté jugando a los dados a la hora de planear una evaluación sobre alguna intervención. Es por lo anterior que las muestras probabilísticas son mucho más costosas que cualquier otro tipo de acercamiento a los beneficiarios de una intervención. El proceso de muestreo requiere de la mayor rigurosidad tanto en su planeación como en su ejecución práctica. No es posible obtener buenas estimaciones si desde el escritorio, el planeamiento de la estrategia de muestreo no está bien sustentado. Por otra parte si, a pesar de haber concebido un buen plan de muestreo, no se ejecuta de la manera idónea, tampoco es posible obtener estimaciones confiables.

Lo que se espera de una entidad que evalúa las políticas del Estado es que sus cifras sean precisas y que reflejen la verdadera situación de la intervención, máxime cuando estas evaluaciones afectan las futuras políticas que pueden implementarse. Por lo tanto, si no hay una buena planeación y ejecución de la estrategia de muestreo, es posible que las recomendaciones sean favorables a una política que en realidad no haya tenido los resultados/impactos esperados, o también es posible que, como resultado de la evaluación se recomiende abolir una política que en realidad sí trae beneficios al país. Cuando una evaluación deja de lado la importancia del muestreo, es posible caer en alguna de las anteriores situaciones que claramente perjudican el desarrollo de un país. Por supuesto, también es posible encontrar resultados que reflejen la realidad, pero esa opción sólo se obtendría por azar. Es decir, el gobierno estaría inmiscuyéndose en el peligroso juego de los dados.

En términos prácticos, aceptar un error mayor al establecido en los estándares internacionales, y por consiguiente disminuir el tamaño de muestra requerido, es peligroso puesto que, con alta probabilidad, se podrían presentar las siguientes situaciones totalmente adversas, como se evidencia en la Figura 1. A saber:

  1. La situación menos peligrosa se presenta cuando, por el azar, la muestra sea representativa de la población pero las inferencias tengan poca confiabilidad puesto que el error de muestreo aumentó. Lo anterior significa que, a pesar de que la muestra es pequeña, sí contiene la información más importante de los beneficicarios, pero debido al ajuste del error de muestreo, las estimaciones puntuales están alejadas de la realidad.
  2. La situación más peligrosa se presenta cuando, por el azar, la muestra definitivamente no representa el comportamiento de la población, y por consiguiente las inferencias serán poco confiables y poco precisas. Lo anterior significa que, dado que la muestra es muy pequeña (consecuencia de aumentar el error de muestreo) no contiene la información de los beneficicarios, y las estimaciones puntuales están muy, pero muy, alejadas de la realidad.

 

Figura 1. Posibles escenarios adversos cuando se opta por aceptar un tamaño de muestra inferior  al establecido por la teoría de muestreo.

Por otro lado, mantener el error lo más pequeño posible, siguiendo los estándares estadísticos, inducirá una muestra aleatoria que no dependerá del azar para ser representativa de la población, y que será confiable y precisa, y por lo tanto las estimaciones estarán muy cercanas al verdadero valor del parámetro, como lo muestra la Figura 2.

Figura 2. Escenario óptimo cuando se decide mantener el tamaño de muestra requerido por la teoría de muestreo.

Los más adustos estadísticos pensarán que yo estoy confundiendo el concepto de precisión, ligado al sesgo, con el de confiabilidad, ligado a la varianza. Pero no, realmente los dos conceptos van de la mano en el muestreo, y mucho más cuando se manipulan los errores en pro de satisfacer un tamaño de muestra más pequeño que el requerido. Es tan sencillo como la siguiente situación: considere una encuesta con tamaño de muestra n para una determinada población de beneficiarios de una política. Asuma que el plan de muestreo fue concebido con el mayor de los cuidados, pero en la ejecución no fue posible (por x o y motivo) conseguir toda la muestra necesaria. En esta situación, inmediatamente el estadístico debe sospechar de la existencia del sesgo de selección. Por lo tanto, cuando hay sesgo (y este tipo de situaciones genera un sesgo de los más peligrosos puesto que no es medible) también se altera la confiabilidad de la estrategia de muestreo, como se evidencia en las Figuras 3 y 4.

Realmente, cuando el estadístico planea el estudio con un 95% de confianza y un 3% de error, esperaría que si no hay errores en la recolección de la información, la distribución teórica del estimador fuese como lo indica la curva roja, centrada en el verdadero valor del parámetro, θ. Sin embargo, al realizar menos encuestas, se aumenta el error, y también (¿por ende?) se introduce sesgo en el estimador, y su distribución estará inducida por la curva negra, centrada en θ+B . Entonces, al utilizar las técnicas clásicas sin tener en cuenta este sesgo, tendríamos un cambio en la distribución del estimador.

 La siguiente figura muestra las nefastas consecuencias de no realizar todas las encuestas pertinentes. Obviamente el nivel nominal de confianza que era en principio del 95% ahora sufre un descenso dramático y puede llegar a cifras menores del 70%. La precisión del estimador ni siquiera se cuestiona puesto que, como ya se mencionó, es segado. En general, la consecuencia de esta mala práctica es un estudio con menos del 70% de confianza, un nivel de error mayor al establecido, digamos mayor al 10% y una distribución de muestreo sesgada.

¡Qué maravilla de escenario!


[1] The magenta book: guidance notes for policy evaluation and analysis. Great Britain Treasury. Government Social Research Unit. (2003)

[2] Survey Methods and Practices. Statistics Canada. (2010)

Inferencia doble cuando se analizan datos de muestras complejas que suponen un modelo poblacional

Ya estoy harto de repetirlo: si los datos provienen de encuestas complejas, debe incorporar el diseño de muestreo al análisis inferencial que se quiera realizar… Es la frase que más repito en mis clases. Sin embargo, esta bonita profesión de profesor me obliga a repetirlo hasta el cansancio. Esta entrada es para todos aquellos inquietos por la estadística, va para los amantes del muestreo y también para los críticos del muestreo. Lo cierto es que espero con esta entrada espero contar muy bien la historia y al final, espero que los muestristas tengan un mayor aprecio por los modelos y los que los críticos del muestreo reconozcan el valor del mismo en los procesos de inferencia. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), voy a desarrollar mis ideas y voy a introducir algunos conceptos que son de utilidad. Finalmente, todos los resultados los voy a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.

Suponga que se generaron N=100 realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro θ=0.3. Los datos que se obtienen se muestran a continuación:

1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0

En esta población finita, que fue generada a partir de un modelo probabilístico, hay 28 éxitos.

Primer proceso inferencial: el modelo

En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución Binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Por supuesto, aunque la realización del promedio poblacional en la población del ejemplo es \bar{Y}_U=0.28, se comprueba fácilmente que la esperanza del promedio poblacional es E(\bar{Y}_U)=0.3. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular hartas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido θ=0.3. El siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de poblaciones podrían haber sido obtenidas bajo el modelo.

Con la siguiente simulación de Monte Carlo se tiene un aceramiento al insesgamiento de \bar{Y}_U:

> theta  
[1] 0.3  
> Esp0  
[1] 0.30046 

 

Segundo proceso inferencial: el muestreo

En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir no corresponden a realizaciones de variables aleatorias. Por ejemplo, a la hora de estimar la tasa de desempleo, se considera que si un individuo está desempleado, pues está desempleado y punto. En otras palabras, el estado de la naturaleza del individuo al momento de la medición es “desempleado” y esta caracterización no corresponde a ninguna realización de algún evento aleatorio. Es por esto que una vertiente de la inferencia en poblaciones finitas considera que el parámetro de interés será el número total de personas desempleadas dividido por el número total de personas en la fuerza laboral. Si se tuviese la oportunidad de medir a todos los integrantes de la fuerza laboral, mediante la realización de un censo, pues esa división correspondería al parámetro poblacional con el cual se tomarían decisiones y/o se cambiarían o reforzarían las políticas públicas de un país.

Para reforzar esta idea haga lo siguiente: examine una moneda y obsérvela. Suponga que usted está observando la cara (o sello, da igual) de la moneda. Pues bien, le tengo una noticia: esa cara (o sello) no constituye una realización de una variable aleatoria. Para que se pueda hablar de una variable aleatoria, es necesario realizar un experimento, el cual induce el conjunto de todos los posibles resultados, el cual a su vez induce una sigma-álgebra que define a la variable aleatoria. Sería muy diferente si usted crea un experimento con esa moneda. El más sencillo de todos sería lanzarla al aire y observar si la moneda cayó en cara o sello. De forma similar, es muy válido afirmar que el estado de la naturaleza de un individuo que está desempleado no constituye una realización de una variable aleatoria.

Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado. De esta manera, el parámetro de interés es \theta_N=\bar{Y}_U=0.28. Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de NI=27 hogares:

(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)

El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra de nI hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión proporcionales al tamaño del hogar Ni. Siendo la característica de interés yi el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso), entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados es el siguiente:

\bar{Y}_S=\frac{\sum_i \bar{y}_i}{nI}

En donde \bar{y}_i=t_{y_i}/N_i es la proporción de desempleados en el hogar i-ésimo, t_{y_i} es el total de desempleados en el hogar i, Ni es el número de individuos en el hogar i y nI es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:

\bar{Y}_S^*=\frac{\sum_i t_{y_i}}{\sum_i n_i}

Que corresponde a la proporción general de desempleados en la muestra. En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \bar{Y}_S es insesgado, mientras que es \bar{Y}_S^* sesgado:

> theta_N 
[1] 0.28 
> Esp1 
[1] 0.2827724 
> Esp2 
[1] 0.10941 

Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.

Inferencia doble: los modelos y el muestreo

En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Ahora, una población finita está constituida por la realización particular de las variables aleatorias. Ahora, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.

Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Po lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble.

Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador \bar{Y}_S resulta ser el estimador de máxima pseudo-verosimilitud, el cual cumple la siguiente relación:

E_{\xi p}(\bar{Y}_S)=E_{\xi}E_p(\bar{Y}_S|Y)=E_{\xi}(\bar{Y}_U)=\theta=0.3

Por otro lado, otro estimador insesgado para el parámetro de interés es el promedio poblacional, pero dado que sólo tenemos una muestra aleatoria, no es posible calcularlo. Ahora, el estimador ingenuo, , es sesgado puesto que:

E_{\xi p}(\bar{Y}_S^*)=E_{\xi}E_p(\bar{Y}_S^*|Y) \neq \theta

El siguiente esquema trata de reproducir gráficamente este proceso de inferencia doble, en donde un gran número poblaciones podrían haber sido generadas del modelo y a su vez, para cada una de estas, un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo complejo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \bar{Y}_S es insesgado, mientras que es \bar{Y}_S^* sesgado:

> theta 
[1] 0.30 
> mean(Esp1) 
[1] 0.3093036 
> mean(Esp2) 
[1] 0.1160646 
> mean(Esp0) 
[1] 0.29754 

Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.

Nuestro artículo en la Revista Colombiana de Estadística: una solución directa al muestreo indirecto

Este artículo considera la estimación conjunta de los totales de población para las diferentes variables de interés en la polivalente encuestas mediante muestreo estratificado diseños. Cuando la población finita tiene una estructura jerárquica, diferentes métodos de estimación insesgada pueden ser aplicados. Sobre la base de simulaciones de Monte Carlo, se concluye que el enfoque propuesto es mejor, en términos de eficiencia relativa, que otros métodos adecuados, tales como el método de ponderación generalizada en el muestreo indirecto.

Guía metodológica para el diseño y análisis de encuestas en evaluación de políticas públicas

Este documento hará parte de un modulo que el Departamento Nacional de Planeación editará en los próximos meses y para el cual fui muy amablemente invitado a participar. Aunque traté de plasmar los criterios más importantes, puede que algunos tópicos los haya pasado por alto, o incluso que existan errores en la escritura o la notación. Por tanto, si a usted le gusta el muestreo o siente atracción por las políticas públicas, este documento puede ser de gran utilidad para usted. De paso, si encuentra algún error, o cree que la cobertura de tópicos es insuficiente, le agradecería que lo mencionara y me lo hiciera saber para incluirlo en el documento. Se trata de una publicación que será  de divulgación gratuita y que francamente pienso que nos beneficiará a todos nosotros. La verdad es que no hay mucha literatura, menos en español, mucho menos gratis, que combine el tema del muestreo y de las políticas públicas. Este modulo se lo dedico a todos los lectores, visitantes y comentaristas de este blog que representa un gran esfuerzo y una gran satisfacción.

Sobre los Nule, las chocolatinas con vidrios, Agro Ingreso Seguro y el muestreo

Andrés Gutiérrez - El papel del estadísico en las evaluaciones de políticas públicas - Conferencia Fundación Universitaria Los Libertadores

Mi artículo de encuestas en políticas públicas

El número 18 del Boletín Política Pública Hoy incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y su equipo deben tener en cuenta al momento de planear una encuesta en este contexto.

Sin ninguna, fórmula matemática y con mucha carreta para que genere una mayor comprensión, este artículo coadyuvará en la estandarización de las buenas prácticas que se deben generar desde nuestro gremio. El artículo lo pueden descargar acá.

Regalo de navidad para los apasionados del muestreo

Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de la ciencia estadística y los modelos. Pues nada más falso, el muestreo esta circunscrito dentro de la ciencia estadística y tiene como base a, nada más y nada menos, la probabilidad.

  1. El primer regalo es un compendio, que lo pueden encontrar gratis en el repositorio ArXiV, y es una publicación del Instituto Internacional de Estadística, llamada métodos bayesianos que los frecuentistas deberían conocer. Este compendio tiene temas tan interesantes como calibración bayesiana, distribuciones previas objetivas, métodos bayesianos en polítcas públicas, muestreo desde una perspectiva bayesiana, y el impacto de las técnicas bayesianas en el diseño y análisis de encuestas.
  2. El segundo regalo es otro compendio, que lo pueden encontrar gratis en la página del Pakistan Journal of Statistics, con sendas discusiones acerca de la contribución de Ken Brewer al muestreo. Ken Brewer es reconocido por tratar de unificar los modelos estadísticos con las técnicas de estimación estándares en muestreo, a través de sus llamados estimadores cosméticos.

Vale la pena que los imprima y los lea. Feliz navidad y un saludo desde Colombia.

My talk in Juiz de Fora

¿Qué hacer cuando se necesitan estimar cambios netos o gross flows (como por ejmeplo los cambios en el empleo/desempleo) en encuestas complejas tipo panel o panel rotativo y existe ausencia de respuesta no ignorable? Haciendo clic acá encontrará una metodología que establece el modelamiento conjunto de la ausencia de respuesta y la clasificación en dos periodos teniendo en cuenta los pesos del diseño muestral.

Pensamientos de un auditor en muestreo

Lo cierto es que tengo la convicción de que un auditor en muestreo en un país de América Latina realizaría un trabajo arduo, que no sería nada fácil. La idiosincrasia del gremio no lo hace fácil. Desafortunadamente hay muy pocos muestristas en nuestro país y, en realidad, hay muy pocas firmas licitando. Para nadie es un secreto que habrá más calidad si la competencia es mayor. Y más allá de las calificaciones, los conceptos y los comentarios técnicos, el trabajo se trata de asegurar la calidad en un contexto en donde ésta no es producida por la interacción entre las firmas.

Lo anterior es muy bueno, tanto desde el punto de vista de las directivas del gobierno, como desde el punto de vista de las firmas. Para el GOBIERNO se trata de certificar que las firmas efectivamente hacen lo que proponen y esto se traduce en una vigilancia permanente que redunda en que los procesos de licitación y ejecución, en materia de muestreo efectivamente se cumplen con eficacia. En términos de estadísticas públicas, es indispensable que exista una contraparte que garantice que las cifras estimadas efectivamente son confiables. Y no estoy queriendo decir que las firmas tratan de engañarnos, ni mucho menos. Pero, definitivamente al existir esa revisoría, la calidad va a aumentar, como efectivamente lo estamos viendo. Por otro lado, para las firmas también es muy bueno, puesto que cuentan prácticamente con un asesor experto que hace las veces de un coach. De esta forma, al existir esta interacción saludable entre las firmas y el gobierno, por medio de un experto en muestreo, hay un enriquecimiento claro en términos de la calidad de la evaluación y de sus cifras resultantes.

De alguna manera cuando surgen comentarios como este <<Hay que planear muy bien el diseño, porque están molestando en la calificación>> esto se traduce en calidad garantizada desde la propuesta. Y me parece que ese tipo de comentarios enriquecen sobremanera nuestro trabajo. Si la firma planea seriamente su trabajo desde la etapa de diseño, es una garantía de que las cifras resultantes serán efectivamente confiables. Por otro lado, que exista ese rumor de que la calidad está siendo medida y valorada en el gobierno es muy importante porque envía un mensaje inequívoco.

Para un estadístico no es una tarea fácil hacer caer en cuenta a un colega de las posibles falencias en el diseño metodológico de la evaluación. Sin embargo, la mayoría de las veces hay un ambiente receptivo y muy amable. Aunque también, en contadas ocasiones habrá ambientes no tan cordiales porque algunos expertos tomarán los comentarios a título personal. Pero, ese es el día a día de las evaluaciones y seguramente que usted no tendrá ninguna dificultad en superar esos pocos impases. En los conceptos, el estadístico debrería preocuparse por ponerse en el lugar del muestrista de la firma consultora (no es nada fácil hacer un muestreo) y tratar siempre de encontrarle el sentido de la contraparte. La primera instancia de la relación con una firma son los conceptos que siempre deben estar sustentados desde el punto de vista técnico. Para su redacción, es posible preguntase cómo lo hubiera hecho yo y también como lo están haciendo ellos. Así que, de esa manera, no habrá sesgo hacia ninguna de las partes. Pienso que los conceptos con argumentos técnicos deberían ser tan diáfanos como los derechos humanos, no tienen discusión… Hasta el momento, ninguna firma ha refutado mis conceptos y más bien las recomendaciones que se dan allí han sido acogidas rápidamente. Algo parecido sucede con las calificaciones a las propuestas. Se deben sustentar bastante bien porqué la firma recibe o no recibe una calificación y un indicador de esto es que deberá haber pocos reclamos de las firmas.

Concerniente a este tema, la colaboración intra-gobierno es fundamental. Debe haber un alineamiento completo entre el muestrista asesor y los responsables de la evaluación desde el principio para planear la estructuración de los estudios previos, los puntajes óptimos y sobretodo los criterios de evaluación. Por ejemplo, para un tamaño de muestra: los criterios no son los mismos en una evaluación de resultados que en una evaluación de impacto. En la evaluación de resultados, se busca un tamaño de muestra óptimo que minimice un error para parámetros simples como proporciones. Pero en la evaluación de resultados, se debe buscar un tamaño de muestra óptimo para diferencias entre proporciones; lo cual hace que se necesite un tamaño de muestra mayor. Todo esto debe ser especificado con cuidado en los estudios previos de cualquier evaluación. En esta parte, quisiera ser un poco más enfático en que la planeación de los criterios de calificación de las muestras para todas las evaluaciones sea un trabajo en equipo y que no se trate de copy-paste a criterios de otras evaluaciones.

Es muy interesante y pertinente la documentación de los procesos. Este debe ser un apartado fundamental y esencial para el muestrista, para las firmas y para el usuario final de las cifras. Entonces, dado que el día a día del gobierno son las estadísticas oficiales deberá existir un proceso de documentación continuo y por siempre. Es algo tan sencillo como esto: el <<deff>>, el efecto de diseño, que es una cifra que está implicada la mayoría de las veces en el cálculo del tamaño de muestra. Es increíble que haya que buscar tan a fondo para obtener esta cifra, porque se supone que para cada encuesta debe ser calculada. Por ejemplo, para realizar algún concepto preliminar sobre cuántas encuestas se necesitarían para obtener representatividad en un encuesta, se necesita esa cifra para realizar un cálculo aproximado y puede ser que en la documentación no se informe del efecto de diseño. Bueno, cosas como esas no deberían suceder, pero la gestión del auditor en muestreo asegura que, como todo debe estar documentado, jamás tengamos que preocuparnos por conseguir cifras que deberían estar a nuestro alcance, o metodologías que deberían estar disponibles para cualquiera.

Por otra parte, permítame hacer una comparación un poco ridícula para poner en contexto la importancia que tiene que un muestrista haga parte del equipo de evaluación de gobierno. Suponga usted que una encuesta tienen un costo de sesenta millones de pesos (treinta mil dólares). Con esa plata es posible comprarse un carro. Con esa plata es posible alimentar a muchos niños con hambre. Es posible hacer muchas cosas, pero nosotros decidimos hacer encuestas para verificar los resultados de una política pública. La comparación la voy a hacer en términos de posventa. Si el carro falla, yo voy al concesionario y me lo tienen que arreglar por garantía. En términos de lo niños, la garantía es la satisfacción de que ya no tienen hambre. Y si se fija, en este tipo de contexto de las encuestas, en donde los bienes son intangibles, pues se trata de cifras y resultados de indicadores, no existe ningún tipo de garantía, mucho menos si no hay alguien que revise la información metodológica de la encuesta. El quid del asunto es que debería existir una garantía. Más aún, la asesoría del muestrista consiste en ser garante de que los estudios sean representativos. Note que, desafortunadamente, si la muestra no es representativa, no existe ningún tipo de análisis estadístico o econométrico que permita corregir el sesgo causado por la mala praxis que se puede llegar a cometer. Obviamente, las implicaciones de lo anterior van mucho más allá de los sesenta millones, puesto que, con base en las cifras de la encuesta, el gobierno puede decidir si mantiene o no mantiene una intervención. Por lo tanto, si la muestra es mala y no es representativa de la población estamos bajo tres posibles escenarios: el primero, que por casualidad la encuesta arroje los resultados verdaderos; el segundo, que la encuesta arroje resultados malos, siendo que la intervención es buena; el tercero, que la encuesta arroje resultados buenos, siendo que la intervención es mala. De esta forma, bajo el segundo escenario, la afectación la llevan las personas que dejan de recibir la intervención, bajo el último escenario, la afectación la llevan los contribuyentes que financiamos una intervención que no sirve. Siendo así ¿por qué le vamos a dejar al azar esa responsabilidad?… ¡mejor me gasto la plata en el carro!

Fuera de chistes, existe una gran responsabilidad sobre las firmas, que no están ajenas a equivocarse, y sobre el gobierno, que debe garantizar una especie de interventoría diáfana, porque en nuestro contexto es muy grave que cualquiera de las dos situaciones se dé o que las dos se den al tiempo. Es decir, que las firmas se equivoquen, que el gobierno no controle o que las firmas se equivoquen y al gobierno se le pase revisar. Para el futuro inmediato recomiendo fuertemente las agencias del gobierno sigan disponiendo de expertos en muestreo y estadística que intervengan cuando sea necesario y que sigan realizando esta labor.

Finalmente, algunos de las labores anexas del auditor deberán también estar enfocadas en:

1.    Establecer una guía de criterios óptimos para la redacción de los estudios previos en los distintos tipos de evaluaciones.

2.    Brindar asesoramiento y acompañamiento al equipo y a las firmas.

3.    Establecer documentos y guías metodológicas documentadas para la calificación de las propuestas.

4.    Crear criterios de estimación de modelos econométricos que tengan en cuenta los pesos del muestreo.

Si las elecciones fueran hoy… Parody no gana

Claro, suponiendo mil cosas que no necesariamente se cumplen. Según este artículo, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: <<Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia. Peñalosa, que se postula por el Partido Verde y el Partido Social de Unidad Nacional (Partido de La U), se situó segundo con 21%, de acuerdo con el sondeo divulgado por el diario El Espectador. En el tercer lugar se ubicó la ex senadora Gina Parody, con 18%.>>

Si asumimos una distribución previa no informativa (Dirichlett con parámetros constantes e iguales y cercanos a la unidad), se tienen las siguientes estimaciones posteriores, en las cuales no involucré a los restantes candidatos porque no tuve tiempo de buscar la información.

Candidato

Estimación

Límite inferior

Límite superior

Parody

29%

24%

33%

Peñalosa

33%

28%

38%

Petro

38%

33%

43%

La anterior tabla da un resumen de la distribución posterior de la intención de voto para los anteriores candidatos. De alguna forma u otra, observando con detenimiento los límites de credibilidad, es posible concluir que… cualquier cosa podría pasar. Sin embargo, es claro que la menor opción la tiene Gina Parody. La siguiente figura da cuenta de la distribución posterior para cada candidato y es posible observar que efectivamente hay un empate técnico puesto que hay traslape entre las densidades poblacionales.

Bajo este escenario, la probabilidad posterior de que Gina Parody le gane a Peñalosa es de tan solo 0.126. La probabilidad posterior de que Parody le gane a Petro es aún más baja, 0.011. Por último la probabilidad posterior de que Peñalosa le gane a Petro es de 0.1286.

Por otro lado, acudiendo a la encuesta de Datexco y suponiendo que no se inventaron la mitad de las encuestas (no lo digo yo, lo dicen las denuncias suscitadas acá). Entonces, es posible utilizar esta información para crear un escenario más preciso incluyéndola a manera de información previa informativa. Puesto que, si observó bien en la tabla de estimaciones, existe mucha variabilidad en la distribución posterior y eso explica por qué los intervalos de credibilidad son tan anchos. La información de la encuesta de Datexco dice así: << En tanto, otra encuesta de la firma Datexco también divulgada el viernes y contratada por el diario El Tiempo, ubicó primero a Peñalosa, con 20,9%; segundo a Petro, con 16,4%, y tercera a Parody, con 14,1%. >>

Si asumimos una distribución previa informativa (Dirichlett con parámetros desiguales y relacionados con la intención de voto en la encuesta de Datexco), se tienen las siguientes estimaciones posteriores:

Candidato

Estimación

Límite inferior

Límite superior

Parody

28%

24%

31%

Peñalosa

37%

33%

40%

Petro

35%

31%

38%

Este escenario es un poco más claro, con menos variabilidad, puesto que la distribución posterior ha recogido los efectos de la distribución previa. Sin emabargo, aunque es má claro estadísticamente, no lo es políticamente. Bueno, dependiendo de la filiación política de cada quién. Por lo menos, a mí me parece un mal escenario. Puesto que yo voy a votar por … En fin, esto sea como sea, el siguiente gráfico muestra un panorámica más clara de la intención de voto posterior.

También es posible calcular la probabilidad posterior de que Parody le gane a Peñalosa, ese valor es de 0.00104. Muy pequeño. La probabilidad posterior de que Parody venza a Petro es de 0.00784. Y la probabilidad posterior de que Peñalosa obtenga una victoria sobre Petro es de 0.72. Bueno, como dicen por ahí, la verdadera encuesta es el día de las elecciones. Bla, bla, bla… Por supuesto, si salen más encuestas, haré más predicciones chimbas. No con el fin de predecir nada, sino con el de realizar un análisis de sensibilidad sobre las propuestas en las distribuciones previas. Estén sintonizados con el blog ese día de las elecciones. Con cada reporte de la registraduría estaré realizando una nueva estimación. Esto con el fin de cotejar el poder del enfoque bayesiano que permitiría proclamar al ganador con antelación al conteo total.

Por otro lado, quisiera saber cuál es la técnica súper avanzada para afirmar que hay un empate técnico. Dicen los gerentes de las encuestadoras que hay un empate técnico entre Peñalosa y Petro. Esta conclusión la realizan al sumar y restar el error de muestreo a las estimaciones puntuales. Pero bueno, desde mi humilde punto de vista, creo que falta multiplicar el error estándar (si es que es el error del que se está hablando) por un percentil relacionado con una distribución que dé cuenta del modelo probabilístico detrás del cálculo. Ahora, ese error de muestreo ¿qué es? ¿Cómo es posible hablar de error de muestreo cuando no hay ningún muestreo por detrás? Yo conozco las respuestas a esas preguntas, pero no creo que los gerentes de esas firmas lo sepan y por tanto el engañador ignorante engaña al más ignorante. Podemos estar haciendo negocios sucios… En fin, para no dejarlos preocupados, sí es posible hablar de error incluso cuando no hay ningún muestreo probabilístico. ¿Los dejé peor de asustados?

Por último… 1) Piense su voto… no se deje influenciar por propuestas populistas que ya mucho daño le hicieron a la ciudad. 2) Ayude a pensar en cómo hacemos para enseñarles a los ignorantes colombianos, en materia de estadística, cómo se interpreta un error y con qué cuidado se deberían interpretar estos resultados electorales. Mire que los ignorantes son muchos y que si lográramos permear los medios de comunicación con este mensaje, le haríamos un bien al pueblo a la hora de elegir. Además muchos se interesarían más por la estadística.

Estadística en los estrados judiciales

Ya en otra ocasión había advertido de la excelente labor que realizó el Colombiano Daniel Guzmán al testificar en un juicio en contra de algunos oficiales de la Policía Nacional de Guatemala por la desaparición de Edgar García, un líder estudiantil. El resultado de esta influyente declaración de Daniel, fue una pena máxima de 40 años de cárcel contra los agentes involucrados. Pues bien, fue muy grato para mí saber que la revista CHANCE ha publicado en su último número un vasto artículo escrito por Daniel en el que relata con pelos y señales cómo fue todo el proceso. Realmente vale la pena leerlo porque la forma en que lo escribe Daniel hace que la lectura sea muy entretenida. Felicitaciones a Daniel y esperemos que sus técnicas estadísticas sirvan algún día para esclarecer las actividades delictivas que han suscitado miles de desapariciones en Colombia. Esto lo digo a título personal, porque mi familia y yo hemos sido víctimas de este insuceso y por supuesto, entenderán mi emoción al saber que hay personas cercanas por ahí, trabajando e influyendo en los estrados judiciales para evitar la impunidad. Y lo mejor de todo el armamento y la munición estadística de Daniel fue el muestreo. Claro, no faltan los jueces que impiden que la ciencia tenga lugar en las decisiones judiciales.

Lo anterior lo digo porque hace pocos días un juez inglés tumbó la regla de Bayes como evidencia en cualquier clase de juicio criminal. Así es, se trata de un juicio por asesinato en el que el presunto asesino habría dejado en la escena del crimen las huellas de sus tennis Nike, que coincidencialmente eran idénticas a un par encontradas en su casa (la casa del sindicado). El teorema de Bayes habría entrado en acción al intentar calcular la probabilidad de coincidencia de las huellas con los tennis del acusado. Para esto, es necesario tener certeza acercad del número de existencias de esta clase específica de tennis. Como el abogado no pudo demostrar por qué se usan estimaciones gruesas en los cálculos, entonces el juez decidió no tener en cuenta al teorema de Bayes como evidencia contra el presunto asesino. Más aún, ordeno que para cualquier caso de estas características criminales en el Reino Unido, el teorema de Bayes no deberá ser tenido en cuenta. Y pues bien, tumbaron a Bayes.

Eso me hace pensar que aquellos que quieren tomarse un tinto y tumbar el muestreo posiblemente lo logren… Nooo, qué va, con tipos tan duros como Daniel y el reconocimiento que ha tenido les va a quedar muy difícil !!!

Calibración de razones

El método de calibración es uno de los más utilizados en términos de estadísticas oficiales. De hecho, el último censo en Colombia utilizó este método para calibrar las estimaciones en la población. Un momento, si se supone que es censo, ¿de qué estimaciones está hablando?… ¡Jum! … pues fue censo pero no todos respondimos los mismos cuestionarios y los encuestadores descubrieron cómo hacer trampa en sus dispositivos y hubo 800 doctores (PhD) en chocó y muchos apartamentos en el parque nacional. En fin, el tema no es el censo, el tema de esta entrada es esta técnica que nos permite hallar nuevos ponderadores que inducen una estrategia de muestreo muy eficiente e insesgada. Estos nuevos pesos, wk, se construyen de tal forma que sean muy cercanos a los pesos originales, que son el inverso de la probabilidades de inclusión. Esta cercanía asegura que el estimador resultante sea insesgado asintóticamente. Además, este método tiene otras agradables propiedades, como la consistencia. Es decir, dada una característica de información auxiliar, para la cual se conoce el total poblacional, tx, entonces, sin importar la muestra seleccionada, siempre el estimador de calibración para la información auxiliar, reproducirá el total verdadero. Mejor, dicho

Esta propiedad es buena porque si x está bien relacionada con y, entonces las estimaciones del total de y serán muy cercanas al total desconocido. Sin embargo, hace unos días leí este artículo de Eric Lesage, en donde advierte un resultado que me dejó “calibrado”… Tal vez ustedes ya lo sabían, pero como el artículo es de Junio de este año, entonces pienso que la mayoría de los lectores no lo saben. Así que voy a reproducir este resultado. Y espero que a usted también lo sorprenda.

De manera tradicional, para calibrar es necesario conocer el total auxiliar tx. Sin embargo, Imagínese que no se conoce ese total, pero sí se conoce la razón poblacional, R=ty/tx, que es un parámetro poblacional que es estable en el tiempo. Enfatizo en que lo que sí se conoce es la razón, pero no se conoce ni el numerador ni el denominador. Entonces, siendo así, es posible utilizar el método de calibración para estimar eficientemente tanto el numerador ty como el denominador tx. Entonces, si calibramos la razón, para cualquier muestra, sea cual sea, la división de con siempre será contante e igual a R.

Resultado: Calibrar sobre una razón R es equivalente a calibrar sobre el total de una nueva característica auxiliar zk=(y_k)-(R)(x_k). Es decir, después de calibrar surgen unos nuevos pesos wk inducidos por esta metodología. Esos pesos se utilizarán para estimar ty, mediante la siguiente expresión y esos mismos pesos se utilizan para estimar tx, mediante la siguiente expresión . Luego,

Ejemplo con Marco y Lucy: utilizaremos la base de datos propia del paquete computacional TeachingSampling para reproducir este resultado. Suponemos que se conoce la razón entre el ingreso y los impuestos de las empresas del sector industrial en un país. Además se asume que esta razón ha presentado muy poca variación durante los últimos años y que es igual a R=36.12. Lo que quiere decir que por cada peso que las empresas declaran como impuesto, existe una ganacia de 36 pesos. El siguiente código se utiliza para la selección de una uestra MAS de tamaño n=1000.

# Draws a simple random sample without replacement
require(TeachingSampling)
data(Marco)
data(Lucy)
attach(Lucy)

ty=sum(Income)
tx=sum(Taxes)
R=ty/tx

N <- dim(Marco)[1]
n <- 1000
sam <- S.SI(N,n)
# The information about the units in the sample is stored in an object called data
data <- Lucy[sam,]
attach(data)
names(data)
# Vector of inclusion probabilities for units in the selected sample
Pik<-rep(n/N,n)

Y el siguiente código se utiliza para hacer la calibración de las características de interés sabiendo que la razón entre las estimaciones de Ingreso e Impuestos será siempre 36.12. Note que el total tz es siempre cero porque se anulan algunas expresiones puesto que tz=ty-Rtx=ty-(ty/tx)tx=ty-ty=0.

estima<-data.frame(Income, Employees, Taxes)
z <- Income-R*Taxes
tz <- 0
b <- E.Beta(estima,z,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,z,tz, b, b0=FALSE)

                 Income    Employees        Taxes
Estimation 1.037084e+06 1.505399e+05 2.870518e+04
Variance   1.002338e+08 2.414943e+06 7.679034e+04
CVE        9.653684e-01 1.032290e+00 9.653684e-01

Por último, el siguiente código verifica que sí se presente la propiedad de calibración sobre la razón. Nótese que =0.

> GREG.SI(N,n,estima,z,tz, b, b0=FALSE)[1,1]/GREG.SI(N,n,estima,z,tz, b, b0=FALSE)[1,3]
[1] 36.12881
> R
[1] 36.12881

w <- Wk(z,tz,Pik,ck=1,b0=FALSE)
> sum(z*w)
[1] -2.875709e-10
> sum(Income*w)/sum(Taxes*w)
[1] 36.12881

Created by Pretty R at inside-R.org

Sobre Fan-Muller-Rezucha

El método de Fan-Muller-Rezucha (ver acá) constituye uno de los más utilizados en la obtención de muestras simples. Acá un pequeño intento para demostrar que efectivamente este algoritmo sí induce las probabilidades de selección de un muestreo aleatorio simple. Es la solución al último punto del segundo parcial de mi materia, Muestreo I. ¿qué opinan? ¿hay nivel en la USTA? yo creo que sí y mucho !!!

Encuestas multipropósito… no cambie su estimador y respete el diseño

En la mayoría de encuestas multipropóstio, el estadístico se enfrenta con el dilema de la utilización del estimador. Es decir, su encuesta tiene ciertos tópicos que son necesarios e importantes y con los cuales usted ha propuesto la mejor opción en términos del diseño de muestreo. En la mayoría de ocasiones este diseño de muestreo induce probabilidades de inclusión (o de selección) que guían la escogencia del estimador. De esta forma, usted decide utilizar esta estrategia para estimar todos los parámetros de interés. Sin embargo, usted puede preguntarse ¿por qué utilizar la misma estrategia de muestreo para la estimación de todos los parámetros?

Es una pregunta muy válida… De hecho, estoy seguro que todos los que hemos seleccionado muestras la hemos formulado, al menos de forma silenciosa. Yo he tenido esa pregunta desde hace mucho tiempo y la respuesta que encuentro es que no hay por qué considerar la misma estrategia de estimación para todos los parámetros. Por supuesto, con respecto al diseño de muestreo, es imposible cambiar nada. En primera instancia, no es plausible formular distintos diseños de muestreo para una misma encuesta. Ahora, es posible cambiar el estimador. Sin embargo, esta tarea debe realizarse con mucha precaución.

Suponga que su encuesta viene de un diseño de muestreo con probabilidad proporcional al tamaño de una característica de interés. Usted ha escogido hacer un diseño de muestreo PPT porque conoce la buena relación de la característica de interés con la característica auxiliar. Ahora, usted también conoce que no todas las características de interés están relacionadas con la característica auxiliar. Por tanto, usted cree que puede pensar que sería loable suponer que el diseño de muestreo no sea PPT sino MAS. Es decir, para algunos parámetros usted asume que es muy bueno usar el PPT, para otros usted asume que sería muy bueno el MAS. Hasta ahí no problema en asumir y suponer.

Sin embargo, si la solución que usted propone es cambiar el estimador inducido por el PPT, por el estimador de expansión (definido como N veces Y barra), inducido por el MAS, debe estar consciente de que eso induce sesgo en el estimador, sin importar si hay o no correlación con la característica auxiliar. El siguiente histograma muestra la distribución de muestreo del estimador inducido por el PPT, para una característica de interés que no tiene muy buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro (desconocido en el momento de la encuesta) y la línea azul indica la esperanza del estimador. Las dos líneas coinciden puesto que el estimador es insesgado.

Por otro lado, el siguiente histograma muestra la distribución de muestreo del estimador de expansión, para la misma característica de interés que no tiene buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro y la línea azul indica la esperanza del estimador. Las dos líneas no coinciden puesto que el estimador es sesgado bajo un diseño PPT; de hecho bajo cualquier diseño de muestreo que no sea MAS.

Así que, piénselo dos veces antes de hacer esta maniobra que puede hacer que, a pesar de su buena voluntad, las estimaciones sean malas. Ahora, existen otros enfoques para cambiar de estimador. Por ejemplo, los estimadores de calibración son una opción.

Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)

Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto. 

Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un copyright y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.

Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. El ejercicio es meramente académico y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.

El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.

En esta primera entrada, desarrollaremos un análisis básico con base en una primera encuesta realizada del 12 al 14 de Agosto por la firma Ipsos – Napoleón Franco, en donde según el portal WEB de la revista Semana se afirma que:

<<Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%>>.

Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis.

Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el portal WEB de ElTiempo.com afirma que:

<<Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%>>.

Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.

Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:

Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, aunque sea muy difícil, suponiendo que los datos son válidos, es de 0.97.

PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.

PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.

PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.

Otros comentarios sobre la estimación de la varianza en encuestas multi-etápicas

Siguiendo con la estimación de la varianza en encuestas multi-etápicas, los programas computacionales como SAS, WesVar, entre otros, utilizan una aproximación, sesgada, para obtener esta cifra. Esta aproximación, solo tienen en cuenta la varianza de los totales estimados en la primera etapa, suponiendo que el muestreo en la primera etapa es aleatorio simple. Para la estimación de un total, suponiendo un diseño de muestreo en dos etapas, la fórmula que induce una estimación insesgada es la siguiente:

La expresión que utilizan los paquetes computacionales es la primera parte de la anterior expresión, es decir:

Y existe otra aproximación común, que se tiene al suponer que el muestreo en la primera etapa fue con reemplazo. La expresión de la estimación (sesgada) de la varianza en este caso es la siguiente:

Retomando las ideas del ejercicio anterior, simulé dos escenarios que se pueden encontrar en la vida real, para características de interés en el contexto de investigación social y económica. El primer escenario, está conformado por mil unidades primarias de muestreo, dentro de las cuales hay contenidos diez mil individuos en cada una de ellas. La distribución de la característica de interés es simétrica con forma gaussiana.

Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, f1 y f2, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. Por supuesto, como ya se explicó antes, se quisiera llegar al mismo nivel de precisión, pero en caso de no poder alcanzarlo, el peor panorama corresponde a la subestimación de la varianza. Es decir, es mejor que la aproximación sobreestime la varianza y no al contrario. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.

Se nota que la aproximación es buena cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. Lo cual concuerda con el comentario que asegura lo siguiente: <<The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level>>. Ahora, como el estimador de SAS, y otros paquetes, es básicamente la primera parte del estimador insesgado, entonces también es posible calcular el porcentaje de varianza, y tener una idea del sesgo. Se ve claramente que esta aproximación es óptima para tamaños de muestra pequeños en la primera etapa.

De igual manera, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.

El segundo escenario, está conformado por cien unidades primarias de muestreo, dentro de las cuales hay contenidos cien mil individuos en cada una de ellas. La distribución de la característica de interés es sesgada, como es usual en muchas encuestas económicas y sociales.

Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, f1 y f2, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.

Se nota que la aproximación es decente cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. De igual forma, también es posible calcular el porcentaje de varianza. Se observa que esta aproximación es mejor para tamaños de muestra pequeños en la primera etapa.

Por último, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.

¡ESPERE UN MOMENTO!

Ahora, aunque los resultados anteriores son muy claros, no significa que el diseño de muestreo deba estar supeditado a la utilización de la aproximación de la varianza. Como lo muestra el siguiente cuadro, en términos de eficiencia, cuando se utiliza el estimador de Horvitz-Thompson, hay Menor varianza cuando la fracción de muestreo en la primera etapa es alta y, de igual forma, cuando la fracción de muestreo en la última etapa es alta. A continuación se presenta la razón de coeficientes de variación estimados entre el mínimo de la tabla y el resto. Se nota que el mínimo es coeficiente de variación se presenta cuando las dos fracciones de muestreo son altas. Cuando la fracción de muestreo de la primera etapa es baja, como el caso en donde las aproximaciones son buenas, el estimador es altamente variable y pierde eficiencia. A continuación se muestra los resultados de la razón de coeficientes de variación reales para ambos escenarios, 1 y 2, respectivamente.

Por lo tanto, lo primero que se debe plantar es una muy buena estrategia de muestreo que asegure que la varianza del estimador es pequeña, luego, si se da el caso, utilizar la aproximación de la varianza. Pero si no se da el caso, se debe omitir la utilización de estas expresiones que subestiman la varianza.

TEAM


Contenido (clic acá)

Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Obtenga una visualización del texto acá (Google books)

Compre el libro acá (Librería de la U)

Compre el libro acá (Lemoine editores)

Compre el libro acá (Librería Nacional)


Puntos de venta:

Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)

Muestreo inverso, no-respuesta y otros temas

Un colega me pregunta lo siguiente:

Suponga un universo de 10 individuos U={12,…,10} de los cuales se quiere seleccionar 3 por muestreo aleatorio simple (MAS). Para esto, se aplica el método de coordinado negativo el cual re-ordena los 10 individuos de la siguiente forma 7,2,9,10,5,1,4,3,6,8. Por supuesto, se selecciona la muestra {7,2,9} y el estadístico a cargo guarda el orden en el cual quedaron los individuos en un archivo. Por problemas operativos no se puede contactar a los individuos 7 y 9, y se decide reemplazarlos por los individuos 10 y 5 sin ninguna selección aleatoria entre los restantes… simplemente se consideran “los que siguen en la lista”. ¿Es correcto afirmar que esa muestra {2,10,5} es generada por un diseño MAS (10,3)?

Por supuesto, me parece que este ejemplo viene del día a día de las encuestas complejas. Antes de formular cualquier cosa hay varias consideraciones al respecto (algunas mías y la mayoría de otros colegas extranjeros con quiénes discutí el tema en el Survey Research Methods Section de la ASA):

  1. Existe un problema de ausencia de respuesta que no debe ser pasado por alto. Hay muchos métodos para modelar esta ausencia y es mandatorio ponerlos en práctica cuando este fenómeno (que cada vez se va convirtiendo en una regla, en vez de la excepción) de ausencia de respuesta aparece. En general, se trata de modelar la respuesta como un evento aleatorio con probabilidad P(R); por lo tanto la probabilidad de ausencia de respuesta es 1-P(R). Si después de analizar la información, el estadístico decide que la ausencia de respuesta sigue un patrón completamente aleatorio MCAR (missing completely at random, por sus siglas en inglés) y no es debida a comportamientos intrínsecos en los subgrupos poblacionales, entonces, bajo este supuesto, todos los individuos tendrán la misma probabilidad de responder y, por tanto, la misma probabilidad de no responder.
  2. El algoritmo coordinado negativo ordena la población de forma aleatoria. De hecho, se trata de una permutación aleatoria de los elementos de la población. De esta forma, si la población tiene N individuos, y se ordenan aleatoriamente, entonces los primeros (o los últimos) k elementos conforman una muestra aleatoria simple de tamaño k.
  3. Para evitar esos inconvenientes técnicos, en la fase de diseño, se acostumbra a extraer la muestra de reemplazo para permitir la ausencia de respuesta. Cuando uno no ordena toda la lista de forma aleatoria, la muestra de reemplazo es una muestra separada de la población que queda después de extraer la muestra principal.) Por lo tanto, si los individuos 7 y 9 fueron los que no respondieron porque no estaban disponibles (missing o faltantes), y se reemplazaron con los individuos 10 y 5, entonces es plausible suponer que se tiene una muestra aleatoria de tamaño 5 que incluye dos individuos que no respondieron. Por supuesto, el siguiente paso debe ser el ajuste de los pesos de los encuestados para tener en cuenta la falta de respuesta.
  4. El proceso de muestreo que se describe puede ser llamado “muestreo inverso” puesto que no se dejan de seleccionar individuos hasta obtener tres observaciones que efectivamente sí respondieron y que conforman la muestra válida. En este caso, el tamaño de la muestra no es 3 y se convierte en una cantidad aleatoria. Este método, descrito en Cochran (1977), fue propuesto por Haldane (1949). Sin embargo, los desarrollos para la estimación insesgada de totales, media y proporciones son recientes.

A continuación vamos a tratar de elaborar un poco más el tema. Si se decide que el modelo pertinente para la falta de respuesta es MCAR, entonces se puede suponer (muy importante… suponer es diferente a definir) que la muestra es de 5 observaciones aleatoria simple y reajustar los pesos de las dos observaciones faltantes. De esta forma, si los individuos 7 y 9 no respondieron, se puede utilizar esa información para estimar la proporción de la población que no responde. De esta forma, sea S1 la muestra en la primera selección (esta muestra es de tamaño 3). Sea S2 la muestra efectiva en la segunda selección (esta muestra es de tamaño 2). Por último, sea R el conjunto de respondientes en la primera selección. Luego, dado que las selecciones no son independientes (puesto que para obtener S2, se debió haber seleccionado S1 y definido R), la probabilidad de inclusión de un individuo en la muestra final es:

Bajo esta perspectiva, muestreo aleatorio simple de 5 unidades con 2 faltantes, cada individuo en la muestra final tiene la misma ponderación. Lo anterior no significa que la muestra final provenga de un muestreo aleatorio simple de tamaño 3. Con este desarrollo, es posible utilizar el estimador de Horvitz-Thompson para estimar sesgadamente (pero con sesgo moderado) funciones de totales. Dada esta configuración, se deben desarrollar expresiones para las probabilidades de inclusión de segundo orden para tener un acercamiento apropiado a la varianza de las estimaciones. También se pueden aplicar los principios de la estimación en dos fases, entre otros.

Por otra parte, nos podemos permitir ajustar esta situación al muestreo inverso, en donde para satisfacer un tamaño de muestra r (en nuestro ejemplo, r=3) se continúan seleccionado unidades en la población hasta que las r respondan. Para profundizar en algunos algoritmos de selección de muestras inversas, el lector puede remitirse al artículo de Hinkins, Lock Oh & Scheuren (1997). Si se pretende estimar la media de la población o la proporción de respondientes es posible utilizar las técnicas planteadas en la Sección 3 de Salehi & Seber (2001). Algunas expresiones acerca de la probabilidad de selección de muestras inversas sin reemplazo se pueden encontrar en el artículo de Espejo, Singh & Saxena (2008). Por último, si desea utilizar este diseño de muestreo para combinarlo con el estimador de Horvitz-Thompson, entonces le recomiendo este excelente artículo de Mohammadi & Salehi (2011).

Cuidado con la estimación de la varianza… ¡SAS, PC-Carp, Sudaan, Wesvar y R pueden arrojar malos resultados!

Y en principio no estoy insinuando que estos excelentes paquetes computacionales sean malos o que su programación esté errada, de ninguna manera… Sin embargo, en mi ejercicio como auditor de metodologías de muestreo, he encontrado que en algunas ocasiones, para diseños de muestreo complejos que involucran estratificación y varias etapas, los errores estándar (definidos como la raíz cuadrada de la varianza), los coeficientes de variación (definidos como el cociente entre el error estándar y la estimación puntual), la longitud de los intervalos de confianza (definida como el producto del error estándar y el percentil adecuado de la distribución del estimador) y hasta los efectos de diseño (definidos como el cociente entre la varianza del diseño complejo y la varianza del muestreo aleatorio simple) parecen ser sospechosos.

De repente, para alguna muestra que se sabe que debería tener un efecto de aglomeración bastante alto, aparecen efectos de diseño muy bajos y errores estándar muy bajos. De esa manera, al revisar los informes metodológicos uno se encuentra con excelentes formulaciones de estrategias de muestreo que no responden a la sospecha de esas cifras y entonces uno infiere que el problema debe ser computacional. De esa forma, sistemáticamente he encontrado que muchos estadísticos dejan el tema de la estimación de la varianza en manos del software computacional.

En particular, en alguna ocasión me encontré estimando el tamaño de muestra de una gran encuesta y mis cifras diferían un poco con los tamaños de muestra de una respetada firma. Después de revisar muy bien, me encontré con que su estimación de los errores estándar no coincidía con la mía. Así que indagué a profundidad y encontré que la expresión que se utilizó para este cálculo de los errores estándar dentro de un estrato (para una encuesta en varias etapas) es la siguiente:

Y ya… sin importar el número de etapas, sin importar si la selección dentro de las etapas haya sido proporcional o simple… sin importar nada más, esta es la fórmula que veo y veo y sigo viendo en los informes metodológicos. Ahora, por supuesto que se trata de un a aproximación a la varianza real. Por lo tanto, está bien que se utilice y me imagino que la seguiré viendo con frecuencia, máxime cuando el PROC SURVEY MEANS del SAS, el WESVAR 4.0, el SUDAAN, el PC-CARP, entre otros, utilizan dentro de sus procedimientos de estimación esta expresión para el cálculo de los errores estándar. Escribí acerca de la validez de esta aproximación en el Survey Research Methods Section de la ASA y un experto muy reconocido me respondió lo siguiente:

Most variance estimators work with municipality level estimates.  The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level.  See for example Appendix D of the WesVar 4.0 manual or chapter 3 of the SUDAAN manual.

Luego, lo discutí con Felipe Ortiz, un amigo y colega a quien respeto y admiro mucho por su amplia visión de la estadística y el muestreo, y quien dirige la cátedra de diseño de encuestas en la Facultad de Estadística de la Universidad Santo Tomás. Cuál sería mi sorpresa al saber que en la entidad en donde él trabaja se había realizado una simulación para evaluar la validez de esta misma aproximación. Los resultados del ejercicio están acá y al parecer son muy claros.

En conclusión, es muy plausible usar esta aproximación, pero se debe usar teniendo en cuenta que la fracción de muestreo dentro de la primera unidad de muestreo no debe ser grande… Esto implica que el factor de corrección para poblaciones finitas (1-f) debe ser pequeño, luego el submuestreo en las USM debería ser grande. Por otra parte, si se usan estas expresiones, sería muy enriquecedor para el informe aclarar que no se trata de una expresión exacta, sino lo que es, una aproximación de la varianza.

Estimación de la varianza con tamaños de muestra uno… La técnica de los estratos colapsados

Termina la clase de muestreo avanzado. Son las diez de la noche y una de mis mejores alumnas me hace una pregunta: <<profe, ¿el siguiente esquema de muestreo es adecuado?>> Le respondo que sí, convencido de que sí es procedente. Llego a mi casa y comienzo a pensar un poco más en ese esquema de muestreo. Es una situación intrincada y en verdad, aunque la respuesta que di, en primera instancia es acertada, también es cierto que está condicionada. Por lo tanto, de algunos vericuetos mentales, surge esta entrada que trata de dar una solución al problema de las varianzas con tamaño de muestra uno y afianza una vez más el consejo que les di a mis estudiantes en esa misma clase: lo importante no es aprenderse las fórmulas de memoria, sino darles sentido.

El tema es el siguiente: Se tiene una encuesta probabilística en varias etapas. En las primeras etapas se seleccionan municipios, sectores cartográficos, manzanas y por últimos viviendas. En cada vivienda, se entrevistan a todos los habitantes, pero se selecciona aleatoriamente a uno de ellos para que complete un registro más largo. En pocas palabras, todos contestan ciertas preguntas básicas y sólo uno de ellos contesta otra batería de preguntas.

Bajo este contexto, con esta poca información, en términos de estimación de la varianza, la situación se divide en dos. Por una parte, es posible que el entrevistado de la vivienda esté respondiendo cuestiones inherentes al hogar. Siendo así, la unidad de interés es la vivienda y no existe ningún problema en que haya sólo un respondiente, pues está contestando preguntas de la vivienda. De esta manera, la muestra en la última etapa, no estaría dada por una sola vivienda, sino que estaría conformada por el total de viviendas pertenecientes a las manzanas seleccionadas. Ese fue mi razonamiento a priori y por ende, no deduje nada extraño en el planteamiento del problema, puesto que el tamaño de muestra (viviendas) es mayor a uno y no existiría ninguna complicación al estimar la varianza.

Sin embargo, después de pensarlo un poco más, la situación cambia totalmente si se supone que el único individuo seleccionado en la muestra está respondiendo preguntas relacionadas con él mismo. De esta manera, la unidad de muestreo correspondería a la persona (no el hogar o vivienda) y por ende, la muestra de la última etapa efectivamente sería de sólo un individuo en las viviendas. En este escenario, existiría una gran complicación para estimar la varianza, puesto que es bien sabido que si el tamaño de muestra es uno (n=1), entonces la probabilidad de inclusión conjunta es nula (\pi_{kl}=0, para todo k\neq l ). Lo anterior se traduce en que es imposible obtener una estimación insesgada de la varianza del estimador.

Por supuesto, es una situación difícil, pero no es el fin del mundo. Es posible que no podamos acceder a una estimación insesgada, pero siempre es posible obtener una estimación sesgada. El problema con las varianzas es que la estimación sesgada debe sobre-estimar la varianza real. Por supuesto, es mucho más grave reportar coeficientes de variación menores a la cifra real, que coeficientes de variación mayores. De la misma forma, las complicaciones son mayores si se reportan intervalos de confianza más estrechos que en la realidad, que si se reportan intervalos de confianza más anchos que en la realidad. Por lo tanto, como los coeficientes de variación y los intervalos de confianza están en función de la estimación de la varianza, entonces definitivamente optaremos por encontrar expresiones que sobre-estimen el verdadero valor de la varianza.

Existen muchas técnicas que permiten obtener un estimador sesgado. Sin embargo, algunas de ellas inducen sub-estimación de la varianza real. Por lo tanto, creo que una solución viable para esta problemática es utilizar la técnica de los estratos colapsados, por supuesto, después de modificarla un poco y acomodarla al contexto de varias etapas (lo cual constituye una tarea muy sencilla). El lector interesado puede encontrar más información en Cochran (1977, pg 138), Raj (1968, pg 74) y Sarndal, et.al. (1992, pg 109). Lehtonen y Pahkinen (2004, pg 132) proveen un ejemplo práctico, similar al que originó esta discusión. Básicamente, se supone que en las últimas etapas, la encuesta tiene muchos estratos y, por conveniencia logística y/o económica, se decide seleccionar sólo un elemento dentro de cada estrato. Por supuesto, no es posible obtener una estimación insesgada de la varianza. Por lo tanto, se propone el agrupamiento de los estratos en pares. Es decir, se crean nuevos estratos uniendo pares y, de esta manera, cada nuevo estrato tendrá un tamaño de muestra igual a dos.

Bajo este esquema, y suponiendo que el submuestreo fue aleatorio simple, se tienen H/2 pares de estratos y se propone el siguiente estimador sesgado

\hat{V}_1(\hat{t}_y)=\sum_{h=1}^{H/2}(\hat{t}_{h1}-\hat{t}_{h2})^2

Nótese que en el h-ésimo par, se tiene que

\hat{t}_{h1}-\hat{t}_{h2}=({t}_{h1}-{t}_{h2})+(\hat{t}_{h1}-{t}_{h1})-(\hat{t}_{h2}-{t}_{h2})

Por lo tanto, promediando sobre todas las posibles muestras en ese par, se tiene que

E(\hat{t}_{h1}-\hat{t}_{h2})^2=({t}_{h1}-{t}_{h2})^2+N_{h1}^2(1-1/ N_{h1})S^2_{Uh1}+N_{h2}^2(1-1/ N_{h2})S^2_{Uh2}

Por lo tanto, la esperanza de la suma sobre todos los estratos, que coincide con la esperanza de \hat{V}_1(\hat{t}_y) es

\sum_{h=1}^{H/2}E (\hat{t}_{h1}-\hat{t}_{h2})^2=E(\hat{V}_1(\hat{t}_y))= \sum_{h=1}^{H} N_{h}^2(1-1/ N_{h})S^2_{Uh}+\sum_{h=1}^{H/2}({t}_{h1}-{t}_{h2})^2

El primer término del sumando corresponde a la varianza real con tamaño de muestra uno y el segundo término es el sesgo positivo del estimador. Se dice que el tamaño del sesgo depende de qué tanto difieran los pares. Es decir, a la hora de construir estos pares, se debe procurar que se parezcan al máximo.

¿Alguna otra idea?

Mi artículo de muestreo en Comunicaciones en Estadística 2011

Una estrategia de muestreo es una dupla compuesta de un diseño de muestreo y un estimador, en este artículo se tratará el problema de escoger una estrategia de muestreo representativa para las variables auxiliares con el fin de aumentar la precisión de las estimaciones del total de una variable de interés en una población finita. Aunque existen diseños de muestreo y estimadores que inducen estrategias representativas, se concluye, por medio de una simulación de Monte Carlo que, en términos de eficiencia, no siempre es mejor utilizar un estimador de calibración bajo un diseño de muestreo balanceado, como uno podría suponer.

El artículo lo pueden descargar haciendo clic acá.

My talk in JSM 2011

La presentación de esta charla la pueden descargar haciendo clic acá.

Comunicaciones en Estadística Volumen 4 No. 1

 

http://comunicacionesenestadistica.usta.edu.co/

En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.

Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.

Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.

El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.

Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.

Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.

Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.

Mi artículo de muestreo y políticas públicas

Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación Política Pública Hoy. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi correo.

El artículo lo pueden descargar acá.

Algunas afirmaciones no del todo ciertas (parte I)

En muchas ocasiones, debido a mi trabajo, reviso, evalúo y audito muchas propuestas de metodologías de encuestas que abordan una determinada problemática. Me he encontrado con algunas afirmaciones que si bien, pueden llegar a ser ciertas bajo el debido contexto, son utilizadas como clichés y relleno en la propuesta metodológicas. A continuación tres de ellas:

  1. <<El muestreo estratificado es el mejor método de muestreo>> No necesariamente, ya Leonardo Bautista había abordado este tema, esta afirmación la he encontrado en una gran cantidad de propuestas técnicas que utilizan, obviamente, este tipo de diseño de muestreo. Ahora, aunque en esas propuestas la opción de estratificar es adecuada, no es cierto estrictamente que el muestreo estratificado sea el mejor. De hecho, la varianza del diseño aleatorio estratificado puede llegar a ser más grande cuando no hay una clara homogeneidad en el comportamiento de la característica de interés dentro de los estratos.
  2. <<La asignación de probabilidades desiguales inducen sesgo al estimador>> Esta frase es cierta, siempre y cuando el estimador que se utilice sea el estimador de expansión, es decir N veces y barra. La frase pierde su validez cuando se utiliza el estimador de Hansen-Hurwitz, para el caso de muestreos con reemplazo, o cuando se utiliza el estimador de Horvitz-Thompson, en muestreos sin reemplazo. Ahora, lo natural es que si el diseño es con probabilidades desiguales, pues no se utilice el estimador de expansión.
  3. <<Los conglomerados de tamaño desigual aumentan la varianza de estimador>> Es por esto que, en encuestas probabilísticas, se crean conglomerados pequeños, a nivel de manzana, o subsección cartográfica, e incluso hogares. Esta es una práctica muy pertinente, siempre y cuando el muestreo de los conglomerados sea aleatorio simple sin reemplazo. Por supuesto, como la varianza del estimador de expansión está en función de la varianza de los totales de los conglomerados, entonces si hay harta variación en los tamaños, habrá harta variación en los totales y por consiguiente la varianza del estimador será alta. De otra forma, si se tiene conocimiento de una característica de información auxiliar a nivel de conglomerados, es posible definir un diseño de muestreo con conglomerados muy desiguales en tamaño, pero que al final induzcan una muy pequeña varianza en el estimador, incluso más pequeña que la del muestreo aleatorio simple con conglomerados iguales en tamaño.

PD: En algunos estudios de consumo, una característica de información auxiliar muy correlacionada con los totales (cantidad de consumo total) de los conglomerados es el tamaño mismo de los conglomerados. Es muy cierto que el consumo está correlacionado con el tamaño del conglomerado, pues entre más personas haya en el conglomerado, mayor el consumo, y viceversa. De hecho, en los libros clásicos de muestreo, a las características de información auxiliar se les llama variables de tamaño, justamente porque se derivan del tamaño de los conglomerados.

 

¡Que no y que no! No hay poblaciones infinitas

  • Después de 40, la población se considera como infinita.

Esta es la excusa perfecta a la que convergen los profesionales de todas las disciplinas cuando quieren defender sus ideas del tamaño de muestra o simplemente cuando su impertinencia hace que hablen más de la cuenta. Lo cierto es que esa regla de los cuarenta y las poblaciones infinitas se hace muy difícil de entender. Tal vez yo no sea demasiado avezado para comprender tal “teorema” del muestreo, pero a continuación expondré mis argumentos y con eso me daré por bien servido, porque será un medio para desfogar mi ira, no contra mis colegas de otras disciplinas, sino contra la idiosincrasia impertinente que domina estas latitudes.

Un buen ejemplo del dominio de este arte, diría yo oscura, de dominar el infinito, lo viví hace poco en una reunión en la que se negociaba la realización de un estudio con una firma encuestadora de renombre nacional. Uno de los presentes hizo un comentario que me hizo sentir todo un neófito en temas estadísticos. Se trataba de un profesional no estadístico, que de verdad admiro mucho por sus características administrativas, que exponía que cuando él estaba en la universidad, cursando el pregrado, tomó una clase de probabilidad en donde el profesor hacía referencia a la ley fuerte de los grandes números. Después de argumentar lo anterior, afirmó que el tamaño de muestra en el estudio en cuestión era adecuado porque después de cierto número de encuestas la población se consideraba infinita.

Otro ejemplo lo viví en el marco de una asesoría que realicé a una propuesta técnica en la que me disgustaba el tamaño de muestra que habían propuesto. Yo sugerí que debían aumentar el tamaño de muestra para que se alcanzaran los errores mínimos de muestreo. Craso error… Acto seguido, me citaron a una reunión a la que asistió hasta el gerente de la compañía para indagar más acerca de mi recomendación. En esa reunión, uno de los funcionarios de la firma, con marcador en mano, me < > que no se debía aumentar el tamaño de muestra, puesto que la población era grande y esto era equivalente a que la población pudiera ser considerada como infinita. Por tanto, el tamaño de muestra que ellos proponían no debía cambiar. Lo más valioso, en ese proceso de aprendizaje, ocurrió cuando el funcionario dibujó en el tablero una curva y me explicó el concepto de asíntota.

En primer lugar, y esto lo digo en mis clases, yo jamás he trabajado en estudios o investigaciones que involucren poblaciones infinitas. Realmente no creo que ninguno de mis colegas estadísticos lo haya hecho alguna vez. De hecho, si alguna vez me ofrecen trabajar en alguna investigación que tenga como objeto una población infinita, yo declinaría inmediatamente la oferta, simplemente porque el infinito es algo que yo no entiendo aún, incluso cuando algunos colegas estadísticos y no estadísticos parecen dominarlo con excelencia.

Mi segundo argumento puntual es el siguiente: no existen poblaciones infinitas. O.K., existen las estrellas, los átomos y demás. Pero ese tipo de poblaciones no son de interés en estudios sociales, o de mercadeo, que es donde se utiliza el muestreo. Como ese tipo de poblaciones no es de interés, entonces no me gusta que me salgan con argumentos traídos de los cabellos.

Tercero, aunque la teoría de probabilidad es la base del muestreo, no es posible afirmar que las poblaciones son infinitas. En realidad, si después de cuarenta, todas las poblaciones son infinitas, entonces todas las estrategias de muestreo serían iguales, todos los tamaños de muestra serían iguales y todos los errores de muestreo serían los mismos. En estudios por muestreo, el hecho de que la población sea grande, no garantiza nada.

Cuarto, la inferencia que nos enseñaron en el pregrado, no es apta para ningún diseño de muestreo, a excepción del diseño de muestreo aleatorio simple con reemplazo. Espero que esto quede claro, si usted o sus clientes realizan una muestra, la inferencia que se debe utilizar es diferente a la que nos han enseñado, y esto se debe tener en cuenta cuando se realizan los diseños del tamaño de muestra.

Quinto, no es cierto que entre más muestra haya, menos error de muestreo existe. Lo anterior, si bien es válido para estrategias de muestreo aleatorias simples, no es necesariamente lo que ocurre cuando se utilizan diseños de muestreo complejos. Por ejemplo, si se utiliza un diseño de muestreo de tamaño de muestra aleatorio, como Bernoulli o Poisson, así se realice un censo, va a existir error de muestreo. Por lo tanto, la asíntota en estos casos es simplemente un argumento que no aplica en nada.

Seis, que por favor, por misericordia, el que no sepa de muestreo que no se meta, que no opine y que no se inmiscuya en asuntos que no le conciernen. Yo, siendo estadístico, jamás opinaría acerca de un modelo de riesgo o de un modelo de series de tiempo. Así de sencillo, un curso en pregrado no es suficiente para licitar, no es suficiente para auditar y no es suficiente para siquiera pretender dar una estimación del tamaño de muestra en un estudio. Si se quiere ser efectivo, hay que especializarse en el tema. Afortunadamente, cada vez son más los muchachos que se interesan por el muestreo. Alguien me dijo que hay más de sesenta alumnos en la UNAL-Bogotá en muestreo II y en la USTA-Bogotá la cifra, si bien no es tan alta, no es nada despreciable y es una de las electivas más pedidas.

Respuestas al manifiesto

Algún lector anónimo escribe lo siguiente:

Andrés,

Para impulsar estas ideas, hay que empezar por el principio.

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.

¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

Saludes!

Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?

Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?

 

No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.

¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

 

No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.

 

¿Para quién va dirigido el Workshop que hace la USTA?

 

Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.

 

Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.

 

Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.

 

No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

 

¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.

Manifiesto: quiero ser cabeza de ratón

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:

  1. Impulsar la creación de la Asociación Colombiana de Estadísticos.
  2. Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
  3. Promover la institucionalización de la tarjeta profesional para los estadísticos.
  4. Motivar la creación de un programa de posgrado en metodología de encuestas.
  5. Posicionar la Revista Comunicaciones en Estadística.
  6. Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
  7. Crear una editorial de libros de texto en estadística.

Y lo más ambicioso y controvertido:

8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.

Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.

El principio de representatividad (My talk in Ibague)

La teoría y práctica de la inferencia basada en el diseño de muestreo descansa en el principio de la representatividad de las muestras; este artículo discute el papel que este principio juega en la consideración de la mejor estrategia de muestreo para la consecución de estadísticas oficiales. En algunas ocasiones, el estadístico puede diseñar un excelente plan de muestreo que al final no es considerado en la etapa de estimación debido a la escogencia de un determinado estimador; en algunas otras ocasiones, el estadístico puede agotar todos sus recursos en la búsqueda de un excelente estimador y restar importancia a la forma de consecución de la información. Aunque la práctica estadística es difícil en el sentido de determinar cuál es el mejor diseño de muestreo y cuál es el mejor estimador, el estadístico debe paliar este tipo de situaciones considerando que en realidad se trata de escoger una estrategia óptima para cada tipo de investigación. Descargar la presentación acá.

La entropía de un diseño muestral

Suponga que se desea seleccionar una muestra aleatoria de una población finita de tamaño N. Para esto, usted escoge la mejor estrategia de muestreo que le permite hacer todo tipo de inferencias precisas sobre los parámetros de interés. Una estrategia de muestreo tiene dos componentes: la primera, el diseño de muestreo y la segunda, el estimador utilizado. Como ya lo he repetido en diferentes ocasiones, la planeación de un estudio por muestreo tiene que estar condicionada a la estrategia y no a l diseño o al estimador por separados. Es así como la estrategia, siguiendo la regla de oro del muestreo y el principio de representatividad, debería inducir ponderaciones cuyo comportamiento estructural sean directamente proporcional al comportamiento de la característica de interés.

En esta ocasión, voy a referirme a una propiedad bastante útil, pero desconocida de un diseño de muestreo, la entropía. Recalco que un diseño de muestreo no es otra cosa que una medida de probabilidad discreta definida sobre un conjunto aleatorio (o si se quiere, sobre un vector aleatorio) que toma distintas realizaciones sobre un soporte Q. A una realización de la muestra aleatoria se le conoce con el nombre de muestra seleccionada y el soporte Q contiene todas las posibles realizaciones. De esta forma, la entropía se define como

-\sum_{s \in Q}p(s)log p(s)

La entropía es una medida contraria a la información. Entre más entropía exista en un diseño de muestreo, se dice que hay más incertidumbre. Por el contrario, cuando hay baja entropía, hay más información y menos dispersión. Tillé (2010) afirma que un diseño de muestreo tiene alta entropía cuando existe una gran cantidad de “sorpresa” en la muestra seleccionada y que cuando un diseño de muestreo tiene alta entropía es muy difícil predecir el tipo de muestra que se obtendrá.

En algunas ocasiones es deseable que un diseño de muestreo tenga alta entropía. En muchas consultorías, el cliente suele estar preocupado por el tipo de muestra que se va a seleccionar: que si es posible que la muestra esté sesgada, que si es posible que la muestra contenga sólo a personas de estratos altos, que si la muestra va a llegar a todos los grupos etarios, que cómo hacemos para garantizar la representatividad de la muestra. Entre otro tipo de comentarios, lo que el cliente expresa en las primeras etapas del estudio es su afán porque la muestra sea “representativa”. Cuando esto sucede, simplemente le digo que confíe en el experto y que el principio de aleatorización es muy acertado y seguramente la muestra tendrá la dispersión que el cliente está esperando. Por supuesto que lo anterior, es simplemente un paliativo y una muy sutil explicación de la entropía.

De hecho, haciendo un paréntesis, una de las causas de éxito en esta profesión de consultor es poder expresar sin tecnicismos los conceptos inherentes a la teoría que sustenta nuestro trabajo. Si quiere perder el próximo contrato, le sugiero que le diga al cliente que no debe estar preocupado porque la entropía es una medida de la información de diseño de muestreo definida sobre un soporte… bla, bla, bla… El cliente no le va a entender nada de esas explicaciones técnicas y me va a contratar a mí J . Es en serio, un consultor es un profesional altamente adiestrado para transmitir conceptos y para aplicarlos en su área de experticia, un consultor no es un entrenador y no es un profesor.

Volviendo al tema de la entropía, un muestreo aleatorio simple tiene una alta entropía. Es muy útil este diseño en las últimas etapas de una investigación puesto que garantiza que la muestra no estará concentrada en ciertos subgrupos de la población (la muestra no estará “sesgada”). El diseño de muestreo sistemático, es un diseño que tiene muy poca entropía, puesto que si la población está ordenada sistemáticamente en el marco de muestreo, por ejemplo, un hombre, una mujer, un hombre, una mujer, etc., entonces si se escoge un arranque aleatorio cualquiera, la muestra estará conformada por sólo hombres o sólo mujeres, que sería precisamente lo que queremos evitar.

Bajo la familia de diseños de muestreo exponenciales, también llamados piPT y que no tienen nada que ver con la familia exponencial de la inferencia estadística clásica, caracterizados por tener probabilidades de inclusión desiguales, ser de tamaño de muestra fijo y sin reemplazo, el diseño con más alta entropía es el de Poisson condicional (que es un muestreo Poisson con tamaño de muestra fijo, que se implementa fijando el tamaño de muestra y seleccionando muestras Poisson hasta llegar a una muestra con el tamaño deseado). Así que, cuando utilice diseños proporcionales al tamaño, tenga en cuenta que tal vez la propiedad de alta entropía no es deseable. En otras palabras, cuando se tiene información auxiliar de tipo continúo y se sabe que tiene una muy buena correlación con la característica de interés, debemos sacrificar entropía por eficiencia. El uso de la información auxiliar hace que la muestra tenga un bajo nivel de sorpresa, pues lo que uno espera es que la muestra contenga los elementos con probabilidades de inclusión más altas y por lo tanto, un bajo nivel de entropía. Bajo estas condiciones, el estimador resultante será muy concentrado y con poca varianza produciendo coeficientes de variación más bajos y mayor eficiencia.

¡Me tomo un tinto y tumbo el muestreo!

El título de este post refleja literalmente las palabras de algunos obstinados colegas que, además de arribistas, muestran su ignorancia tratando de enmarcarlo todo dentro de modelos de probabilidad, despreciando la teoría de la aleatorización. Está bien que no les guste el muestreo, pero una cosa es la antipatía por una materia y otra es llegar a tal punto de negar la realidad.

Definitivamente se debe tener muy poco sentido común para afirmar que al tomarse un tinto, es posible invalidar una teoría con décadas de existencia, que ha sido formulada por las mentes más brillantes de la estadística. A lo que me refiero es que existe una actitud incorrecta de parte de un pequeño cúmulo de profesionales, que desestiman el muestreo.

Quiero traer a colación las palabras de uno de los estadísticos más importantes del mundo, Andrew Gelman. Este tipo adora los modelos, es un bayesiano de ultra-derecha, ha escrito muchos libros y atículos en temas de modelos y fíjense en lo que dice:

… el muestreo es más que una metáfora, es crucial en muchos aspectos de la estadística. Esto es evidente en los estudios de opinión pública y salud, donde los análisis se basan en muestras aleatorias, y en las estadísticas del medio ambiente, donde variables continuas de naturaleza física se estudian a partir de muestras del espacio-tiempo. Pero, incluso en las zonas donde el muestreo es menos evidente, puede ser importante. Considere la posibilidad de experimentos médicos, donde el objetivo siempre es la inferencia de la población en general, no sólo para los pacientes en el estudio. Del mismo modo, el objetivo de los neurocientíficos es conocer los aspectos generales de los cerebros de humanos y animales, no sólo para estudiar las criaturas en particular de las que se dispone de datos. En última instancia, la muestra es sólo otra palabra para subconjunto, y en ambas inferencia bayesiana y clásica, la generalización adecuada de la muestra a la población depende de un modelo para la toma de muestras o el proceso de selección. No tengo ningún problema con el uso del muestreo como marco para la inferencia, y yo creo que esto funcionará aún mejor si se hace hincapié en la generalización a partir de muestras reales de las poblaciones reales - no sólo construcciones matemáticas - que son esenciales para gran parte de nuestras inferencias aplicadas.


Soy parte de los 300mil

Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.

¡¡¡Una vez más gracias!!!

 

Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)

Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.

Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.

Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio U_d, para cualquier diseño de muestreo, es

Var(hat{t}_{dpi})=sumsum_{U_d}Delta_{kl}frac{y_k}{pi_k}frac{y_l}{pi_l}

Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra n para una población de tamaño N, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es

Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}

Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre U_d, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño N y con una muestra de tamaño n. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra n_d para una población de tamaño N_d. La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:

Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}

En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que N_d y N no son semejante; de la misma manera n_d y n tampoco lo son. La expresión S^2_{yU_d} implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio U_d. Por otro lado, S^2_{y_dU}, implica una cuasi-varianza entre los valores de la característica de interés en el dominio U_d y muchos ceros para los individuos de la muestra que no pertenezcan al dominio U_d. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.

No estoy diciendo que la fórmula Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d} no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, N_d, y se controla el tamaño de la muestra del mismo, n_d, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, n_d, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU} que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra n_d. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, N_d, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:

AVar(tilde{t}_{d})=sumsum_{U_d}Delta_{kl}frac{y_k-bar{y}_{U_d}}{pi_k}frac{y_l-bar{y}_{U_d}}{pi_l}

La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:

AVar_{MAS}(tilde{t}_{d})=frac{N^2}{n}(1-frac{n}{N}) S^2_{yU_d}

Nótese que, si bien se siguen manteniendo las cantidades N y n, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio U_d. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco & Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:

> data(Marco)
> data(Lucy)

> N <- dim(Marco)[1]
> n <- 400
> Pik<-rep(n/N,n)
> sam <- S.SI(N,n)
> data <- Lucy[sam,]
> attach(data)

Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.

> Doma <- Domains(SPAM)
> estima <- data.frame(Income, Employees, Taxes)
> SPAM.no <- estima*Doma[,1]
> SPAM.yes <- estima*Doma[,2]

Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.

> E.SI(N,n,SPAM.no)
                 Income    Employees        Taxes
Estimation 3.799757e+05 5.721648e+04 1.094673e+04
Variance   8.821093e+08 1.691118e+07 1.647727e+06
CVE        7.816376e+00 7.187301e+00 1.172623e+01

> E.SI(N,n,SPAM.yes)
                 Income    Employees        Taxes
Estimation 6.166226e+05 9.045499e+04 1.655636e+04
Variance   1.013343e+09 1.786384e+07 2.540981e+06
CVE        5.162485e+00 4.672560e+00 9.627995e+00

Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.

> E.SI(N,n,estima)
                 Income    Employees        Taxes
Estimation 9.965982e+05 1.476715e+05 2.750309e+04
Variance   9.170756e+08 1.316354e+07 3.431910e+06
CVE        3.038662e+00 2.456913e+00 6.735759e+00

Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.

> estima<-Doma*Income
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 4.099213e+05 5.889897e+05
Variance   3.519767e+08 5.619366e+08
CVE        4.576742e+00 4.024723e+00

> estima<-Doma*Employees
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 6.172568e+04 8.640141e+04
Variance   4.890882e+06 8.149935e+06
CVE        3.582842e+00 3.304123e+00

> estima<-Doma*Taxes
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 1.180943e+04 1.581442e+04
Variance   1.207738e+06 2.215550e+06
CVE        9.305880e+00 9.412124e+00

Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.

> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                 Income    Employees        Taxes
Estimation 9.989111e+05 1.481271e+05 2.762385e+04
Variance   9.139133e+08 1.304082e+07 3.423289e+06
CVE        3.026395e+00 2.437911e+00 6.697884e+00

See ya in da beach !!!

Bueno pues… este año la cita fue en Bogotá con el Workshop Bayesiano… ahora, nos vamos para las meetings 2011 en Miami… Ya se de 3 colombianos que van a ir… déjenme saber quién más piensa asistir para atenderlos como es debido allá en los miamis… Nos vemos allá parce !!!

 

We are pleased to inform you that your presentation (Abstract #301744, Hierarchical Design-Based Estimation in Stratified Multipurpose Surveys) has been accepted and is scheduled in Session # 413 on Tuesday, 8/2/2011 beginning at 2:00 PM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

We are pleased to inform you that your presentation (Abstract #301743, Student Paper Competitions) has been accepted and is scheduled in Session # 459 on Wednesday, 8/3/2011 beginning at 8:30 AM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel

Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.

Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadística

Efectivamente, el estimador de Horvitz-Thompson es insesgado (nuevas funciones en TeachingSampling)

En los parciales de muestreo, a veces acostumbro a pedirle al estudiante que demuestre o refute mediante un contraejemplo algunas afirmaciones. Por ejemplo, una de mis favoritas es la siguiente:

“Demuestre o refute: El estimador de Horvitz-Thompson es insesgado para cualquier diseño de muestreo”

Es claro que el estimador de Horvitz-Thompson es insesgado pues así lo dice un resultado cuya demostración es sencilla. Sin embargo, cuando el estudiante se encara con este tipo de ejercicios, debe pensar si la afirmación es correcta o si existe algún contraejemplo que pueda refutarla. En la búsqueda de contraejemplo, es posible plantearse diversos tipos de situaciones.

Por ejemplo, están los diseños de muestreo sin reemplazo de tamaño fijo, los diseños de muestreo sin reemplazo de tamaño aleatorio y los diseños de muestreo con reemplazo de tamaño fijo. En los dos primeros escenarios, no existe ningún inconveniente, puesto que el profesor siempre utilizará estos casos para ilustrar que efectivamente el estimador de Horvitz-Thompson es insesgado. Sin embargo, un desafío importante al que se enfrentan los estudiantes es al tratar de mostrar el insesgamiento de este estimador en diseños de muestreo con reemplazo.

Como resultado de esta búsqueda, muchos estudiantes se detienen en el escenario de muestras con reemplazo y concluyen que el estimador de Horvitz-Thompson es sesgado cuando se tienen diseños con reemplazo. La verdad, son muchos los estudiantes que llegan a esta conclusión. Ahora, no estoy diciendo que estos estudiantes no hayan comprendido efectivamente el funcionamiento del estimador. A lo que me refiero es que es un deber del docente, plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Tal vez este sencillo ejemplo sea de utilidad para docentes o estudiantes que quieran profundizar en la técnica de Horvitz-Thompson bajo muestreos con reemplazo. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.

A continuación ilustraré el razonamiento equivocado:

Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es con reemplazo de tamaño fijo m=2. En este escenario, el soporte contiene 6 posibles muestras. Dado que se trata de un muestreo con reemplazo, definamos la probabilidad de selección de las unidades como 0.9, 0.05 y 0.05 para cada elemento. Luego, es sencillo calcular las probabilidades de inclusión de primer orden, así como las probabilidades de selección de las muestras (dadas por la distribución multinomial). Para esto utilizamos la función pWr y comprobamos que, en efecto, la suma de estas probabilidades sea uno.

> library(TeachingSampling)
> pk <- c(0.9,0.05,0.05)
> pk
[1] 0.90 0.05 0.05
> pik <- 1-(1-pk)^m
> pik
[1] 0.9900 0.0975 0.0975
> p <- pWR(3,2,pk)
> p
[1] 0.8100 0.0900 0.0900 0.0025 0.0050 0.0025
> sum(p)
[1] 1

Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportWR se obtienen las posibles muestras de este diseño:

> Q <- SupportWR(N,m)
> Q
[,1] [,2]
[1,]    1    1
[2,]    1    2
[3,]    1    3
[4,]    2    2
[5,]    2    3
[6,]    3    3

La función nk arroja el número de veces que un elemento es selccionado en las muestras:

> IndWR <- nk(3,2)
> IndWR
     [,1] [,2] [,3]
[1,]    2    0    0
[2,]    1    1    0
[3,]    1    0    1
[4,]    0    2    0
[5,]    0    1    1
[6,]    0    0    2

 

Justo acá se presenta el inconveniente en donde es fácil confundirse. Alguien podría pensar: ok, el primer elemento ha sido seleccionado dos veces para la primera, luego el estimador debería incluir la información de este elemento dos veces. Con esto en mente, los posibles valores de la característica de interés son:

> Qy <- SupportWR(N,m, ID=y)
> Qy
[,1] [,2]
[1,]   10   10
[2,]   10   20
[3,]   10   30
[4,]   20   20
[5,]   20   30
[6,]   30   30

 

Por lo tanto, utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite, también se repite la información en el estimador:

 

> HT1<- HT(Qy[1,], pik[Q[1,]])
> HT2<- HT(Qy[2,], pik[Q[2,]])
> HT3<- HT(Qy[3,], pik[Q[3,]])
> HT4<- HT(Qy[4,], pik[Q[4,]])
> HT5<- HT(Qy[5,], pik[Q[5,]])
> HT6<- HT(Qy[6,], pik[Q[6,]])

> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(IndWR, Est, p)
  X1 X2 X3       Est      p
1  2  0  0  20.20202 0.8100
2  1  1  0 215.22922 0.0900
3  1  0  1 317.79332 0.0900
4  0  2  0 410.25641 0.0025
5  0  1  1 512.82051 0.0050
6  0  0  2 615.38462 0.0025

 

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos. Este valor difiere del parámetro de interés y por lo tanto el alumno concluye que el estimador de Horvitz-Thompson no es insesgado para diseños con reemplazo.

> sum(Est*p)
[1] 69.46387
> sum(y)
[1] 60

 

Pero, un momento, todo aquel que ha pasado por un curso de muestreo ha hecho aquella demostración en donde se expande la suma en la muestra al universo, se incluyen las variables Ik y se tiene que en esperanza, el estimador de Horvitz-Thompson reproduce el total de la población. Esa demostración no está supeditada al tipo de muestre que se realice.

A continuación expondré la forma correcta de ilustrar el insesgamiento en diseños con reemplazo. En primer lugar, la clave del ejemplo es darse cuenta que la fundamentación teórica del estimador está centrada en las variables aleatorias Ik que sólo toman dos valores: uno, si el individuo pertenece a la muestra y cero, en otro caso. Esto indica que si el elemento fue incluido en la muestra una vez, la variable Ik toma el valor uno, si el elemento fue incluido en la muestra más una vez, la variable Ik sigue tomando el valor uno. Lo anterior indica que el estimador de Horvitz-Thompson sólo incluye una vez la información de los elementos repetidos. Utilizando la función IkWR se tiene esta matriz de variables Ik para el muestreo con reemplazo.

> Ind <- IkWR(N,m)
> Ind
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    1    1    0
[3,]    1    0    1
[4,]    0    1    0
[5,]    0    1    1
[6,]    0    0    1

 

Utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite sólo se incluye esta información una sola vez:

> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])

> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(Ind, Est, p)
  X1 X2 X3       Est      p
1  1  0  0  10.10101 0.8100
2  1  1  0 215.22922 0.0900
3  1  0  1 317.79332 0.0900
4  0  1  0 205.12821 0.0025
5  0  1  1 512.82051 0.0050
6  0  0  1 307.69231 0.0025

 

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.

> sum(Est*p)
[1] 60
> sum(y)
[1] 60			

 

Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con reemplazo.

Consultorio estadístico para Hispanoamérica



 

Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.

Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.

PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.

El estimador de Horvitz-Thompson es insesgado II (nuevas funciones en TeachingSampling)

En una entrada anterior mostraba, con la ayuda del paquete TeachingSampling, que efectivamente, el estimador de Horvitz-Thompson es insesgado incluso en diseños con reemplazo. Bien, a petición del público y dados los buenos resultados de mis estudiantes en mi cátedra de muestreo, hoy voy a mostrar que este mismo estimador es insesgado en diseños de tamaño de muestra aleatorio. Por supuesto que no hay nada escondido detrás del funcionamiento de este estimador. Pero mi experiencia docente me ha mostrado que es mucho mejor aclarar todos los diversos escenarios de las muestras. Una vez más, es un deber del docente plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.

Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es sin reemplazo de tamaño de muestra aleatorio. Es decir que es posible seleccionar muestras nulas o muestras censo y toda la gama de configuraciones que existen entre estos dos escenarios. En este caso, el soporte contiene 8 posibles muestras. Con la función IkRS podemos averiguar cuál es la configuración de estas muestras.

 

> N=3
> y=c(10, 20, 30)
> Ind<-IkRS(3)
> Ind
     [,1] [,2] [,3]
[1,]    0    0    0
[2,]    1    0    0
[3,]    0    1    0
[4,]    0    0    1
[5,]    1    1    0
[6,]    1    0    1
[7,]    0    1    1
[8,]    1    1    1

 

> Q<-dim(Ind)[1]
> Q
[1] 8

 

Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportRS se obtienen las posibles muestras de este diseño:

 

> Qy <-SupportRS(3,ID=y)
> Qy
     [,1] [,2] [,3]
[1,]   NA   NA   NA
[2,]   10   NA   NA
[3,]   20   NA   NA
[4,]   30   NA   NA
[5,]   10   20   NA
[6,]   10   30   NA
[7,]   20   30   NA
[8,]   10   20   30

 

Supongamos que el diseño de muestreo es Bernoulli. La siguiente función arroja las probabilidades de selección para cada posible muestra. La suma de las probabilidades es la unidad. Sin embargo, usted puede asignarle cualquier tipo de probabilidades que sean mayores que cero y sumen uno.

 

> p=rep(NA,Q)
> for(k in 1:Q){
+ p[k]=((0.1)^(sum(Ind[k,])))*((1-0.1)^(N-sum(Ind[k,])))
+ }
> p
[1] 0.729 0.081 0.081 0.081 0.009 0.009 0.009 0.001
> sum(p)
[1] 1

Acudiendo a la función Pik se tiene que la probabilidad de inclusión para cada individuo es constante e igual a un décimo.

pik <- Pik(p, Ind)
> pik
     [,1] [,2] [,3]
[1,]  0.1  0.1  0.1

Por lo tanto, utilizando la función HT, se calculan los ocho posibles valores para el estimador de Horvitz-Thompson.

> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])
> HT7<- HT(y[Ind[7,]==1], pik[Ind[7,]==1])
> HT8<- HT(y[Ind[8,]==1], pik[Ind[8,]==1])
> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6, HT7, HT8)
> Est
[1]   0 100 200 300 300 400 500 600

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de las posibles muestras, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(Ind, Est, p)
  X1 X2 X3 Est     p
1  0  0  0   0 0.729
2  1  0  0 100 0.081
3  0  1  0 200 0.081
4  0  0  1 300 0.081
5  1  1  0 300 0.009
6  1  0  1 400 0.009
7  0  1  1 500 0.009
8  1  1  1 600 0.001

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.

> sum(Est*p)
[1] 60
> sum(y)
[1] 60			

Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con tamaño de muestra variable.

 

portada

Colombiano Daniel Guzmán en AMSTAT NEWS

 

Acabo de leer la publicación de Febrero de la American Statistical Association (que entre otras cosas pareciera que sólo publican encuestas de salarios) y me encontré en la página 32 con un artículo escrito por Ann Harrison, en donde se reconoce la labor del estadístico colombiano Daniel Guzmán, quien al parecer ha desarrollado una metodología de muestreo para testificar en el juicio de algunos policias incriminados de atentar contra los derechos humanos en Guatemala.

Congratulaciones a Daniel y nuestros mejores deseos desde su tierra, Colombia.

 

Daniel Guzmán

Submitted by Ann Harrison

In October 2010, Colombian statistician Daniel Guzmán took the witness stand to present expert testimony in the case of Edgar Fernando García, a 26-year-old Guatemalan union leader who vanished in 1984. Guzmán, who is a member of the Benetech Human Rights Data Analysis Group (HRDAG), was asked by the Guatemalan attorney general to submit his analysis of records in the Guatemalan National Police Archive, which documented García’s detention by police. García was one of tens of thousands of Guatemalans who disappeared during the country’s 36 years of armed internal conflict.

Guzmán’s testimony, given against two former police officers on trial for their alleged role in García’s disappearance, was based on quantitative results from HRDAG’s four-year analysis of the Guatemalan National Police Archive. Guzmán designed a coding strategy to catalog the contents of the archive. ASA advisers Paul Zador and Gary Shapiro helped Guzmán design a sampling protocol. Because the archive was too large and disorganized to be sampled directly, HRDAG analysts used a topographical sampling frame and multistaged random sample.

After three years of coding key variables from random samples of archive documents, Guzmán and his colleagues were able to calculate the percentage of documents known by different police units. Their findings helped support arguments by prosecutors that relatively high-level National Police officers were aware of the planning, design, and supervision of the type of operations that resulted in García’s disappearance.

Guzmán also calculated estimates comparing the 667 documents pertaining to the García case with the representative sample of all the documents in the archive. This comparison showed that the units responsible for direction and coordination of National Police policy were acquainted with proportionately more than twice the number of documents related to the García case than with the total of all documents in the archive. By calculating the percentage of documents known by different police command structures, these findings helped analysts reach conclusions about relationships among Guatemalan security forces and communications between the army and police.

Ten days after the start of the García trial, a tribunal of the Guatemalan Supreme Court found the two police officers guilty of forced disappearance and sentenced them each to a maximum term of 40 years in prison.

Guzmán’s testimony supported prosecutors’ arguments about how the officers’ actions against García took place within the context of National Police policies. This testimony also helped the Guatemalan judiciary and the public understand how statistical methods provide an objective approach to understanding massive collections of human rights data.