Muestreo

Nuestro artículo en la Revista Colombiana de Estadística: una solución directa al muestreo indirecto

Este artículo considera la estimación conjunta de los totales de población para las diferentes variables de interés en la polivalente encuestas mediante muestreo estratificado diseños. Cuando la población finita tiene una estructura jerárquica, diferentes métodos de estimación insesgada pueden ser aplicados. Sobre la base de simulaciones de Monte Carlo, se concluye que el enfoque propuesto es mejor, en términos de eficiencia relativa, que otros métodos adecuados, tales como el método de ponderación generalizada en el muestreo indirecto.

Guía metodológica para el diseño y análisis de encuestas en evaluación de políticas públicas

Este documento hará parte de un modulo que el Departamento Nacional de Planeación editará en los próximos meses y para el cual fui muy amablemente invitado a participar. Aunque traté de plasmar los criterios más importantes, puede que algunos tópicos los haya pasado por alto, o incluso que existan errores en la escritura o la notación. Por tanto, si a usted le gusta el muestreo o siente atracción por las políticas públicas, este documento puede ser de gran utilidad para usted. De paso, si encuentra algún error, o cree que la cobertura de tópicos es insuficiente, le agradecería que lo mencionara y me lo hiciera saber para incluirlo en el documento. Se trata de una publicación que será  de divulgación gratuita y que francamente pienso que nos beneficiará a todos nosotros. La verdad es que no hay mucha literatura, menos en español, mucho menos gratis, que combine el tema del muestreo y de las políticas públicas. Este modulo se lo dedico a todos los lectores, visitantes y comentaristas de este blog que representa un gran esfuerzo y una gran satisfacción.

Sobre los Nule, las chocolatinas con vidrios, Agro Ingreso Seguro y el muestreo

Andrés Gutiérrez - El papel del estadísico en las evaluaciones de políticas públicas - Conferencia Fundación Universitaria Los Libertadores

Mi artículo de encuestas en políticas públicas

El número 18 del Boletín Política Pública Hoy incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y su equipo deben tener en cuenta al momento de planear una encuesta en este contexto.

Sin ninguna, fórmula matemática y con mucha carreta para que genere una mayor comprensión, este artículo coadyuvará en la estandarización de las buenas prácticas que se deben generar desde nuestro gremio. El artículo lo pueden descargar acá.

Regalo de navidad para los apasionados del muestreo

Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de la ciencia estadística y los modelos. Pues nada más falso, el muestreo esta circunscrito dentro de la ciencia estadística y tiene como base a, nada más y nada menos, la probabilidad.

  1. El primer regalo es un compendio, que lo pueden encontrar gratis en el repositorio ArXiV, y es una publicación del Instituto Internacional de Estadística, llamada métodos bayesianos que los frecuentistas deberían conocer. Este compendio tiene temas tan interesantes como calibración bayesiana, distribuciones previas objetivas, métodos bayesianos en polítcas públicas, muestreo desde una perspectiva bayesiana, y el impacto de las técnicas bayesianas en el diseño y análisis de encuestas.
  2. El segundo regalo es otro compendio, que lo pueden encontrar gratis en la página del Pakistan Journal of Statistics, con sendas discusiones acerca de la contribución de Ken Brewer al muestreo. Ken Brewer es reconocido por tratar de unificar los modelos estadísticos con las técnicas de estimación estándares en muestreo, a través de sus llamados estimadores cosméticos.

Vale la pena que los imprima y los lea. Feliz navidad y un saludo desde Colombia.

My talk in Juiz de Fora

¿Qué hacer cuando se necesitan estimar cambios netos o gross flows (como por ejmeplo los cambios en el empleo/desempleo) en encuestas complejas tipo panel o panel rotativo y existe ausencia de respuesta no ignorable? Haciendo clic acá encontrará una metodología que establece el modelamiento conjunto de la ausencia de respuesta y la clasificación en dos periodos teniendo en cuenta los pesos del diseño muestral.

Pensamientos de un auditor en muestreo

Lo cierto es que tengo la convicción de que un auditor en muestreo en un país de América Latina realizaría un trabajo arduo, que no sería nada fácil. La idiosincrasia del gremio no lo hace fácil. Desafortunadamente hay muy pocos muestristas en nuestro país y, en realidad, hay muy pocas firmas licitando. Para nadie es un secreto que habrá más calidad si la competencia es mayor. Y más allá de las calificaciones, los conceptos y los comentarios técnicos, el trabajo se trata de asegurar la calidad en un contexto en donde ésta no es producida por la interacción entre las firmas.

Lo anterior es muy bueno, tanto desde el punto de vista de las directivas del gobierno, como desde el punto de vista de las firmas. Para el GOBIERNO se trata de certificar que las firmas efectivamente hacen lo que proponen y esto se traduce en una vigilancia permanente que redunda en que los procesos de licitación y ejecución, en materia de muestreo efectivamente se cumplen con eficacia. En términos de estadísticas públicas, es indispensable que exista una contraparte que garantice que las cifras estimadas efectivamente son confiables. Y no estoy queriendo decir que las firmas tratan de engañarnos, ni mucho menos. Pero, definitivamente al existir esa revisoría, la calidad va a aumentar, como efectivamente lo estamos viendo. Por otro lado, para las firmas también es muy bueno, puesto que cuentan prácticamente con un asesor experto que hace las veces de un coach. De esta forma, al existir esta interacción saludable entre las firmas y el gobierno, por medio de un experto en muestreo, hay un enriquecimiento claro en términos de la calidad de la evaluación y de sus cifras resultantes.

De alguna manera cuando surgen comentarios como este <<Hay que planear muy bien el diseño, porque están molestando en la calificación>> esto se traduce en calidad garantizada desde la propuesta. Y me parece que ese tipo de comentarios enriquecen sobremanera nuestro trabajo. Si la firma planea seriamente su trabajo desde la etapa de diseño, es una garantía de que las cifras resultantes serán efectivamente confiables. Por otro lado, que exista ese rumor de que la calidad está siendo medida y valorada en el gobierno es muy importante porque envía un mensaje inequívoco.

Para un estadístico no es una tarea fácil hacer caer en cuenta a un colega de las posibles falencias en el diseño metodológico de la evaluación. Sin embargo, la mayoría de las veces hay un ambiente receptivo y muy amable. Aunque también, en contadas ocasiones habrá ambientes no tan cordiales porque algunos expertos tomarán los comentarios a título personal. Pero, ese es el día a día de las evaluaciones y seguramente que usted no tendrá ninguna dificultad en superar esos pocos impases. En los conceptos, el estadístico debrería preocuparse por ponerse en el lugar del muestrista de la firma consultora (no es nada fácil hacer un muestreo) y tratar siempre de encontrarle el sentido de la contraparte. La primera instancia de la relación con una firma son los conceptos que siempre deben estar sustentados desde el punto de vista técnico. Para su redacción, es posible preguntase cómo lo hubiera hecho yo y también como lo están haciendo ellos. Así que, de esa manera, no habrá sesgo hacia ninguna de las partes. Pienso que los conceptos con argumentos técnicos deberían ser tan diáfanos como los derechos humanos, no tienen discusión… Hasta el momento, ninguna firma ha refutado mis conceptos y más bien las recomendaciones que se dan allí han sido acogidas rápidamente. Algo parecido sucede con las calificaciones a las propuestas. Se deben sustentar bastante bien porqué la firma recibe o no recibe una calificación y un indicador de esto es que deberá haber pocos reclamos de las firmas.

Concerniente a este tema, la colaboración intra-gobierno es fundamental. Debe haber un alineamiento completo entre el muestrista asesor y los responsables de la evaluación desde el principio para planear la estructuración de los estudios previos, los puntajes óptimos y sobretodo los criterios de evaluación. Por ejemplo, para un tamaño de muestra: los criterios no son los mismos en una evaluación de resultados que en una evaluación de impacto. En la evaluación de resultados, se busca un tamaño de muestra óptimo que minimice un error para parámetros simples como proporciones. Pero en la evaluación de resultados, se debe buscar un tamaño de muestra óptimo para diferencias entre proporciones; lo cual hace que se necesite un tamaño de muestra mayor. Todo esto debe ser especificado con cuidado en los estudios previos de cualquier evaluación. En esta parte, quisiera ser un poco más enfático en que la planeación de los criterios de calificación de las muestras para todas las evaluaciones sea un trabajo en equipo y que no se trate de copy-paste a criterios de otras evaluaciones.

Es muy interesante y pertinente la documentación de los procesos. Este debe ser un apartado fundamental y esencial para el muestrista, para las firmas y para el usuario final de las cifras. Entonces, dado que el día a día del gobierno son las estadísticas oficiales deberá existir un proceso de documentación continuo y por siempre. Es algo tan sencillo como esto: el <<deff>>, el efecto de diseño, que es una cifra que está implicada la mayoría de las veces en el cálculo del tamaño de muestra. Es increíble que haya que buscar tan a fondo para obtener esta cifra, porque se supone que para cada encuesta debe ser calculada. Por ejemplo, para realizar algún concepto preliminar sobre cuántas encuestas se necesitarían para obtener representatividad en un encuesta, se necesita esa cifra para realizar un cálculo aproximado y puede ser que en la documentación no se informe del efecto de diseño. Bueno, cosas como esas no deberían suceder, pero la gestión del auditor en muestreo asegura que, como todo debe estar documentado, jamás tengamos que preocuparnos por conseguir cifras que deberían estar a nuestro alcance, o metodologías que deberían estar disponibles para cualquiera.

Por otra parte, permítame hacer una comparación un poco ridícula para poner en contexto la importancia que tiene que un muestrista haga parte del equipo de evaluación de gobierno. Suponga usted que una encuesta tienen un costo de sesenta millones de pesos (treinta mil dólares). Con esa plata es posible comprarse un carro. Con esa plata es posible alimentar a muchos niños con hambre. Es posible hacer muchas cosas, pero nosotros decidimos hacer encuestas para verificar los resultados de una política pública. La comparación la voy a hacer en términos de posventa. Si el carro falla, yo voy al concesionario y me lo tienen que arreglar por garantía. En términos de lo niños, la garantía es la satisfacción de que ya no tienen hambre. Y si se fija, en este tipo de contexto de las encuestas, en donde los bienes son intangibles, pues se trata de cifras y resultados de indicadores, no existe ningún tipo de garantía, mucho menos si no hay alguien que revise la información metodológica de la encuesta. El quid del asunto es que debería existir una garantía. Más aún, la asesoría del muestrista consiste en ser garante de que los estudios sean representativos. Note que, desafortunadamente, si la muestra no es representativa, no existe ningún tipo de análisis estadístico o econométrico que permita corregir el sesgo causado por la mala praxis que se puede llegar a cometer. Obviamente, las implicaciones de lo anterior van mucho más allá de los sesenta millones, puesto que, con base en las cifras de la encuesta, el gobierno puede decidir si mantiene o no mantiene una intervención. Por lo tanto, si la muestra es mala y no es representativa de la población estamos bajo tres posibles escenarios: el primero, que por casualidad la encuesta arroje los resultados verdaderos; el segundo, que la encuesta arroje resultados malos, siendo que la intervención es buena; el tercero, que la encuesta arroje resultados buenos, siendo que la intervención es mala. De esta forma, bajo el segundo escenario, la afectación la llevan las personas que dejan de recibir la intervención, bajo el último escenario, la afectación la llevan los contribuyentes que financiamos una intervención que no sirve. Siendo así ¿por qué le vamos a dejar al azar esa responsabilidad?… ¡mejor me gasto la plata en el carro!

Fuera de chistes, existe una gran responsabilidad sobre las firmas, que no están ajenas a equivocarse, y sobre el gobierno, que debe garantizar una especie de interventoría diáfana, porque en nuestro contexto es muy grave que cualquiera de las dos situaciones se dé o que las dos se den al tiempo. Es decir, que las firmas se equivoquen, que el gobierno no controle o que las firmas se equivoquen y al gobierno se le pase revisar. Para el futuro inmediato recomiendo fuertemente las agencias del gobierno sigan disponiendo de expertos en muestreo y estadística que intervengan cuando sea necesario y que sigan realizando esta labor.

Finalmente, algunos de las labores anexas del auditor deberán también estar enfocadas en:

1.    Establecer una guía de criterios óptimos para la redacción de los estudios previos en los distintos tipos de evaluaciones.

2.    Brindar asesoramiento y acompañamiento al equipo y a las firmas.

3.    Establecer documentos y guías metodológicas documentadas para la calificación de las propuestas.

4.    Crear criterios de estimación de modelos econométricos que tengan en cuenta los pesos del muestreo.

Si las elecciones fueran hoy… Parody no gana

Claro, suponiendo mil cosas que no necesariamente se cumplen. Según este artículo, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: <<Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia. Peñalosa, que se postula por el Partido Verde y el Partido Social de Unidad Nacional (Partido de La U), se situó segundo con 21%, de acuerdo con el sondeo divulgado por el diario El Espectador. En el tercer lugar se ubicó la ex senadora Gina Parody, con 18%.>>

Si asumimos una distribución previa no informativa (Dirichlett con parámetros constantes e iguales y cercanos a la unidad), se tienen las siguientes estimaciones posteriores, en las cuales no involucré a los restantes candidatos porque no tuve tiempo de buscar la información.

Candidato

Estimación

Límite inferior

Límite superior

Parody

29%

24%

33%

Peñalosa

33%

28%

38%

Petro

38%

33%

43%

La anterior tabla da un resumen de la distribución posterior de la intención de voto para los anteriores candidatos. De alguna forma u otra, observando con detenimiento los límites de credibilidad, es posible concluir que… cualquier cosa podría pasar. Sin embargo, es claro que la menor opción la tiene Gina Parody. La siguiente figura da cuenta de la distribución posterior para cada candidato y es posible observar que efectivamente hay un empate técnico puesto que hay traslape entre las densidades poblacionales.

Bajo este escenario, la probabilidad posterior de que Gina Parody le gane a Peñalosa es de tan solo 0.126. La probabilidad posterior de que Parody le gane a Petro es aún más baja, 0.011. Por último la probabilidad posterior de que Peñalosa le gane a Petro es de 0.1286.

Por otro lado, acudiendo a la encuesta de Datexco y suponiendo que no se inventaron la mitad de las encuestas (no lo digo yo, lo dicen las denuncias suscitadas acá). Entonces, es posible utilizar esta información para crear un escenario más preciso incluyéndola a manera de información previa informativa. Puesto que, si observó bien en la tabla de estimaciones, existe mucha variabilidad en la distribución posterior y eso explica por qué los intervalos de credibilidad son tan anchos. La información de la encuesta de Datexco dice así: << En tanto, otra encuesta de la firma Datexco también divulgada el viernes y contratada por el diario El Tiempo, ubicó primero a Peñalosa, con 20,9%; segundo a Petro, con 16,4%, y tercera a Parody, con 14,1%. >>

Si asumimos una distribución previa informativa (Dirichlett con parámetros desiguales y relacionados con la intención de voto en la encuesta de Datexco), se tienen las siguientes estimaciones posteriores:

Candidato

Estimación

Límite inferior

Límite superior

Parody

28%

24%

31%

Peñalosa

37%

33%

40%

Petro

35%

31%

38%

Este escenario es un poco más claro, con menos variabilidad, puesto que la distribución posterior ha recogido los efectos de la distribución previa. Sin emabargo, aunque es má claro estadísticamente, no lo es políticamente. Bueno, dependiendo de la filiación política de cada quién. Por lo menos, a mí me parece un mal escenario. Puesto que yo voy a votar por … En fin, esto sea como sea, el siguiente gráfico muestra un panorámica más clara de la intención de voto posterior.

También es posible calcular la probabilidad posterior de que Parody le gane a Peñalosa, ese valor es de 0.00104. Muy pequeño. La probabilidad posterior de que Parody venza a Petro es de 0.00784. Y la probabilidad posterior de que Peñalosa obtenga una victoria sobre Petro es de 0.72. Bueno, como dicen por ahí, la verdadera encuesta es el día de las elecciones. Bla, bla, bla… Por supuesto, si salen más encuestas, haré más predicciones chimbas. No con el fin de predecir nada, sino con el de realizar un análisis de sensibilidad sobre las propuestas en las distribuciones previas. Estén sintonizados con el blog ese día de las elecciones. Con cada reporte de la registraduría estaré realizando una nueva estimación. Esto con el fin de cotejar el poder del enfoque bayesiano que permitiría proclamar al ganador con antelación al conteo total.

Por otro lado, quisiera saber cuál es la técnica súper avanzada para afirmar que hay un empate técnico. Dicen los gerentes de las encuestadoras que hay un empate técnico entre Peñalosa y Petro. Esta conclusión la realizan al sumar y restar el error de muestreo a las estimaciones puntuales. Pero bueno, desde mi humilde punto de vista, creo que falta multiplicar el error estándar (si es que es el error del que se está hablando) por un percentil relacionado con una distribución que dé cuenta del modelo probabilístico detrás del cálculo. Ahora, ese error de muestreo ¿qué es? ¿Cómo es posible hablar de error de muestreo cuando no hay ningún muestreo por detrás? Yo conozco las respuestas a esas preguntas, pero no creo que los gerentes de esas firmas lo sepan y por tanto el engañador ignorante engaña al más ignorante. Podemos estar haciendo negocios sucios… En fin, para no dejarlos preocupados, sí es posible hablar de error incluso cuando no hay ningún muestreo probabilístico. ¿Los dejé peor de asustados?

Por último… 1) Piense su voto… no se deje influenciar por propuestas populistas que ya mucho daño le hicieron a la ciudad. 2) Ayude a pensar en cómo hacemos para enseñarles a los ignorantes colombianos, en materia de estadística, cómo se interpreta un error y con qué cuidado se deberían interpretar estos resultados electorales. Mire que los ignorantes son muchos y que si lográramos permear los medios de comunicación con este mensaje, le haríamos un bien al pueblo a la hora de elegir. Además muchos se interesarían más por la estadística.

Estadística en los estrados judiciales

Ya en otra ocasión había advertido de la excelente labor que realizó el Colombiano Daniel Guzmán al testificar en un juicio en contra de algunos oficiales de la Policía Nacional de Guatemala por la desaparición de Edgar García, un líder estudiantil. El resultado de esta influyente declaración de Daniel, fue una pena máxima de 40 años de cárcel contra los agentes involucrados. Pues bien, fue muy grato para mí saber que la revista CHANCE ha publicado en su último número un vasto artículo escrito por Daniel en el que relata con pelos y señales cómo fue todo el proceso. Realmente vale la pena leerlo porque la forma en que lo escribe Daniel hace que la lectura sea muy entretenida. Felicitaciones a Daniel y esperemos que sus técnicas estadísticas sirvan algún día para esclarecer las actividades delictivas que han suscitado miles de desapariciones en Colombia. Esto lo digo a título personal, porque mi familia y yo hemos sido víctimas de este insuceso y por supuesto, entenderán mi emoción al saber que hay personas cercanas por ahí, trabajando e influyendo en los estrados judiciales para evitar la impunidad. Y lo mejor de todo el armamento y la munición estadística de Daniel fue el muestreo. Claro, no faltan los jueces que impiden que la ciencia tenga lugar en las decisiones judiciales.

Lo anterior lo digo porque hace pocos días un juez inglés tumbó la regla de Bayes como evidencia en cualquier clase de juicio criminal. Así es, se trata de un juicio por asesinato en el que el presunto asesino habría dejado en la escena del crimen las huellas de sus tennis Nike, que coincidencialmente eran idénticas a un par encontradas en su casa (la casa del sindicado). El teorema de Bayes habría entrado en acción al intentar calcular la probabilidad de coincidencia de las huellas con los tennis del acusado. Para esto, es necesario tener certeza acercad del número de existencias de esta clase específica de tennis. Como el abogado no pudo demostrar por qué se usan estimaciones gruesas en los cálculos, entonces el juez decidió no tener en cuenta al teorema de Bayes como evidencia contra el presunto asesino. Más aún, ordeno que para cualquier caso de estas características criminales en el Reino Unido, el teorema de Bayes no deberá ser tenido en cuenta. Y pues bien, tumbaron a Bayes.

Eso me hace pensar que aquellos que quieren tomarse un tinto y tumbar el muestreo posiblemente lo logren… Nooo, qué va, con tipos tan duros como Daniel y el reconocimiento que ha tenido les va a quedar muy difícil !!!

Calibración de razones

El método de calibración es uno de los más utilizados en términos de estadísticas oficiales. De hecho, el último censo en Colombia utilizó este método para calibrar las estimaciones en la población. Un momento, si se supone que es censo, ¿de qué estimaciones está hablando?… ¡Jum! … pues fue censo pero no todos respondimos los mismos cuestionarios y los encuestadores descubrieron cómo hacer trampa en sus dispositivos y hubo 800 doctores (PhD) en chocó y muchos apartamentos en el parque nacional. En fin, el tema no es el censo, el tema de esta entrada es esta técnica que nos permite hallar nuevos ponderadores que inducen una estrategia de muestreo muy eficiente e insesgada. Estos nuevos pesos, wk, se construyen de tal forma que sean muy cercanos a los pesos originales, que son el inverso de la probabilidades de inclusión. Esta cercanía asegura que el estimador resultante sea insesgado asintóticamente. Además, este método tiene otras agradables propiedades, como la consistencia. Es decir, dada una característica de información auxiliar, para la cual se conoce el total poblacional, tx, entonces, sin importar la muestra seleccionada, siempre el estimador de calibración para la información auxiliar, reproducirá el total verdadero. Mejor, dicho

Esta propiedad es buena porque si x está bien relacionada con y, entonces las estimaciones del total de y serán muy cercanas al total desconocido. Sin embargo, hace unos días leí este artículo de Eric Lesage, en donde advierte un resultado que me dejó “calibrado”… Tal vez ustedes ya lo sabían, pero como el artículo es de Junio de este año, entonces pienso que la mayoría de los lectores no lo saben. Así que voy a reproducir este resultado. Y espero que a usted también lo sorprenda.

De manera tradicional, para calibrar es necesario conocer el total auxiliar tx. Sin embargo, Imagínese que no se conoce ese total, pero sí se conoce la razón poblacional, R=ty/tx, que es un parámetro poblacional que es estable en el tiempo. Enfatizo en que lo que sí se conoce es la razón, pero no se conoce ni el numerador ni el denominador. Entonces, siendo así, es posible utilizar el método de calibración para estimar eficientemente tanto el numerador ty como el denominador tx. Entonces, si calibramos la razón, para cualquier muestra, sea cual sea, la división de con siempre será contante e igual a R.

Resultado: Calibrar sobre una razón R es equivalente a calibrar sobre el total de una nueva característica auxiliar zk=(y_k)-(R)(x_k). Es decir, después de calibrar surgen unos nuevos pesos wk inducidos por esta metodología. Esos pesos se utilizarán para estimar ty, mediante la siguiente expresión y esos mismos pesos se utilizan para estimar tx, mediante la siguiente expresión . Luego,

Ejemplo con Marco y Lucy: utilizaremos la base de datos propia del paquete computacional TeachingSampling para reproducir este resultado. Suponemos que se conoce la razón entre el ingreso y los impuestos de las empresas del sector industrial en un país. Además se asume que esta razón ha presentado muy poca variación durante los últimos años y que es igual a R=36.12. Lo que quiere decir que por cada peso que las empresas declaran como impuesto, existe una ganacia de 36 pesos. El siguiente código se utiliza para la selección de una uestra MAS de tamaño n=1000.

# Draws a simple random sample without replacement
require(TeachingSampling)
data(Marco)
data(Lucy)
attach(Lucy)

ty=sum(Income)
tx=sum(Taxes)
R=ty/tx

N <- dim(Marco)[1]
n <- 1000
sam <- S.SI(N,n)
# The information about the units in the sample is stored in an object called data
data <- Lucy[sam,]
attach(data)
names(data)
# Vector of inclusion probabilities for units in the selected sample
Pik<-rep(n/N,n)

Y el siguiente código se utiliza para hacer la calibración de las características de interés sabiendo que la razón entre las estimaciones de Ingreso e Impuestos será siempre 36.12. Note que el total tz es siempre cero porque se anulan algunas expresiones puesto que tz=ty-Rtx=ty-(ty/tx)tx=ty-ty=0.

estima<-data.frame(Income, Employees, Taxes)
z <- Income-R*Taxes
tz <- 0
b <- E.Beta(estima,z,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,z,tz, b, b0=FALSE)

                 Income    Employees        Taxes
Estimation 1.037084e+06 1.505399e+05 2.870518e+04
Variance   1.002338e+08 2.414943e+06 7.679034e+04
CVE        9.653684e-01 1.032290e+00 9.653684e-01

Por último, el siguiente código verifica que sí se presente la propiedad de calibración sobre la razón. Nótese que =0.

> GREG.SI(N,n,estima,z,tz, b, b0=FALSE)[1,1]/GREG.SI(N,n,estima,z,tz, b, b0=FALSE)[1,3]
[1] 36.12881
> R
[1] 36.12881

w <- Wk(z,tz,Pik,ck=1,b0=FALSE)
> sum(z*w)
[1] -2.875709e-10
> sum(Income*w)/sum(Taxes*w)
[1] 36.12881

Created by Pretty R at inside-R.org

Sobre Fan-Muller-Rezucha

El método de Fan-Muller-Rezucha (ver acá) constituye uno de los más utilizados en la obtención de muestras simples. Acá un pequeño intento para demostrar que efectivamente este algoritmo sí induce las probabilidades de selección de un muestreo aleatorio simple. Es la solución al último punto del segundo parcial de mi materia, Muestreo I. ¿qué opinan? ¿hay nivel en la USTA? yo creo que sí y mucho !!!

Encuestas multipropósito… no cambie su estimador y respete el diseño

En la mayoría de encuestas multipropóstio, el estadístico se enfrenta con el dilema de la utilización del estimador. Es decir, su encuesta tiene ciertos tópicos que son necesarios e importantes y con los cuales usted ha propuesto la mejor opción en términos del diseño de muestreo. En la mayoría de ocasiones este diseño de muestreo induce probabilidades de inclusión (o de selección) que guían la escogencia del estimador. De esta forma, usted decide utilizar esta estrategia para estimar todos los parámetros de interés. Sin embargo, usted puede preguntarse ¿por qué utilizar la misma estrategia de muestreo para la estimación de todos los parámetros?

Es una pregunta muy válida… De hecho, estoy seguro que todos los que hemos seleccionado muestras la hemos formulado, al menos de forma silenciosa. Yo he tenido esa pregunta desde hace mucho tiempo y la respuesta que encuentro es que no hay por qué considerar la misma estrategia de estimación para todos los parámetros. Por supuesto, con respecto al diseño de muestreo, es imposible cambiar nada. En primera instancia, no es plausible formular distintos diseños de muestreo para una misma encuesta. Ahora, es posible cambiar el estimador. Sin embargo, esta tarea debe realizarse con mucha precaución.

Suponga que su encuesta viene de un diseño de muestreo con probabilidad proporcional al tamaño de una característica de interés. Usted ha escogido hacer un diseño de muestreo PPT porque conoce la buena relación de la característica de interés con la característica auxiliar. Ahora, usted también conoce que no todas las características de interés están relacionadas con la característica auxiliar. Por tanto, usted cree que puede pensar que sería loable suponer que el diseño de muestreo no sea PPT sino MAS. Es decir, para algunos parámetros usted asume que es muy bueno usar el PPT, para otros usted asume que sería muy bueno el MAS. Hasta ahí no problema en asumir y suponer.

Sin embargo, si la solución que usted propone es cambiar el estimador inducido por el PPT, por el estimador de expansión (definido como N veces Y barra), inducido por el MAS, debe estar consciente de que eso induce sesgo en el estimador, sin importar si hay o no correlación con la característica auxiliar. El siguiente histograma muestra la distribución de muestreo del estimador inducido por el PPT, para una característica de interés que no tiene muy buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro (desconocido en el momento de la encuesta) y la línea azul indica la esperanza del estimador. Las dos líneas coinciden puesto que el estimador es insesgado.

Por otro lado, el siguiente histograma muestra la distribución de muestreo del estimador de expansión, para la misma característica de interés que no tiene buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro y la línea azul indica la esperanza del estimador. Las dos líneas no coinciden puesto que el estimador es sesgado bajo un diseño PPT; de hecho bajo cualquier diseño de muestreo que no sea MAS.

Así que, piénselo dos veces antes de hacer esta maniobra que puede hacer que, a pesar de su buena voluntad, las estimaciones sean malas. Ahora, existen otros enfoques para cambiar de estimador. Por ejemplo, los estimadores de calibración son una opción.

Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)

Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto. 

Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un copyright y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.

Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. El ejercicio es meramente académico y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.

El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.

En esta primera entrada, desarrollaremos un análisis básico con base en una primera encuesta realizada del 12 al 14 de Agosto por la firma Ipsos – Napoleón Franco, en donde según el portal WEB de la revista Semana se afirma que:

<<Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%>>.

Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis.

Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el portal WEB de ElTiempo.com afirma que:

<<Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%>>.

Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.

Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:

Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, aunque sea muy difícil, suponiendo que los datos son válidos, es de 0.97.

PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.

PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.

PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.

Otros comentarios sobre la estimación de la varianza en encuestas multi-etápicas

Siguiendo con la estimación de la varianza en encuestas multi-etápicas, los programas computacionales como SAS, WesVar, entre otros, utilizan una aproximación, sesgada, para obtener esta cifra. Esta aproximación, solo tienen en cuenta la varianza de los totales estimados en la primera etapa, suponiendo que el muestreo en la primera etapa es aleatorio simple. Para la estimación de un total, suponiendo un diseño de muestreo en dos etapas, la fórmula que induce una estimación insesgada es la siguiente:

La expresión que utilizan los paquetes computacionales es la primera parte de la anterior expresión, es decir:

Y existe otra aproximación común, que se tiene al suponer que el muestreo en la primera etapa fue con reemplazo. La expresión de la estimación (sesgada) de la varianza en este caso es la siguiente:

Retomando las ideas del ejercicio anterior, simulé dos escenarios que se pueden encontrar en la vida real, para características de interés en el contexto de investigación social y económica. El primer escenario, está conformado por mil unidades primarias de muestreo, dentro de las cuales hay contenidos diez mil individuos en cada una de ellas. La distribución de la característica de interés es simétrica con forma gaussiana.

Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, f1 y f2, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. Por supuesto, como ya se explicó antes, se quisiera llegar al mismo nivel de precisión, pero en caso de no poder alcanzarlo, el peor panorama corresponde a la subestimación de la varianza. Es decir, es mejor que la aproximación sobreestime la varianza y no al contrario. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.

Se nota que la aproximación es buena cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. Lo cual concuerda con el comentario que asegura lo siguiente: <<The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level>>. Ahora, como el estimador de SAS, y otros paquetes, es básicamente la primera parte del estimador insesgado, entonces también es posible calcular el porcentaje de varianza, y tener una idea del sesgo. Se ve claramente que esta aproximación es óptima para tamaños de muestra pequeños en la primera etapa.

De igual manera, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.

El segundo escenario, está conformado por cien unidades primarias de muestreo, dentro de las cuales hay contenidos cien mil individuos en cada una de ellas. La distribución de la característica de interés es sesgada, como es usual en muchas encuestas económicas y sociales.

Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, f1 y f2, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.

Se nota que la aproximación es decente cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. De igual forma, también es posible calcular el porcentaje de varianza. Se observa que esta aproximación es mejor para tamaños de muestra pequeños en la primera etapa.

Por último, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.

¡ESPERE UN MOMENTO!

Ahora, aunque los resultados anteriores son muy claros, no significa que el diseño de muestreo deba estar supeditado a la utilización de la aproximación de la varianza. Como lo muestra el siguiente cuadro, en términos de eficiencia, cuando se utiliza el estimador de Horvitz-Thompson, hay Menor varianza cuando la fracción de muestreo en la primera etapa es alta y, de igual forma, cuando la fracción de muestreo en la última etapa es alta. A continuación se presenta la razón de coeficientes de variación estimados entre el mínimo de la tabla y el resto. Se nota que el mínimo es coeficiente de variación se presenta cuando las dos fracciones de muestreo son altas. Cuando la fracción de muestreo de la primera etapa es baja, como el caso en donde las aproximaciones son buenas, el estimador es altamente variable y pierde eficiencia. A continuación se muestra los resultados de la razón de coeficientes de variación reales para ambos escenarios, 1 y 2, respectivamente.

Por lo tanto, lo primero que se debe plantar es una muy buena estrategia de muestreo que asegure que la varianza del estimador es pequeña, luego, si se da el caso, utilizar la aproximación de la varianza. Pero si no se da el caso, se debe omitir la utilización de estas expresiones que subestiman la varianza.

TEAM


Contenido (clic acá)

Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Obtenga una visualización del texto acá (Google books)

Compre el libro acá (Librería de la U)

Compre el libro acá (Lemoine editores)

Compre el libro acá (Librería Nacional)


Puntos de venta:

Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)

Muestreo inverso, no-respuesta y otros temas

Un colega me pregunta lo siguiente:

Suponga un universo de 10 individuos U={12,…,10} de los cuales se quiere seleccionar 3 por muestreo aleatorio simple (MAS). Para esto, se aplica el método de coordinado negativo el cual re-ordena los 10 individuos de la siguiente forma 7,2,9,10,5,1,4,3,6,8. Por supuesto, se selecciona la muestra {7,2,9} y el estadístico a cargo guarda el orden en el cual quedaron los individuos en un archivo. Por problemas operativos no se puede contactar a los individuos 7 y 9, y se decide reemplazarlos por los individuos 10 y 5 sin ninguna selección aleatoria entre los restantes… simplemente se consideran “los que siguen en la lista”. ¿Es correcto afirmar que esa muestra {2,10,5} es generada por un diseño MAS (10,3)?

Por supuesto, me parece que este ejemplo viene del día a día de las encuestas complejas. Antes de formular cualquier cosa hay varias consideraciones al respecto (algunas mías y la mayoría de otros colegas extranjeros con quiénes discutí el tema en el Survey Research Methods Section de la ASA):

  1. Existe un problema de ausencia de respuesta que no debe ser pasado por alto. Hay muchos métodos para modelar esta ausencia y es mandatorio ponerlos en práctica cuando este fenómeno (que cada vez se va convirtiendo en una regla, en vez de la excepción) de ausencia de respuesta aparece. En general, se trata de modelar la respuesta como un evento aleatorio con probabilidad P(R); por lo tanto la probabilidad de ausencia de respuesta es 1-P(R). Si después de analizar la información, el estadístico decide que la ausencia de respuesta sigue un patrón completamente aleatorio MCAR (missing completely at random, por sus siglas en inglés) y no es debida a comportamientos intrínsecos en los subgrupos poblacionales, entonces, bajo este supuesto, todos los individuos tendrán la misma probabilidad de responder y, por tanto, la misma probabilidad de no responder.
  2. El algoritmo coordinado negativo ordena la población de forma aleatoria. De hecho, se trata de una permutación aleatoria de los elementos de la población. De esta forma, si la población tiene N individuos, y se ordenan aleatoriamente, entonces los primeros (o los últimos) k elementos conforman una muestra aleatoria simple de tamaño k.
  3. Para evitar esos inconvenientes técnicos, en la fase de diseño, se acostumbra a extraer la muestra de reemplazo para permitir la ausencia de respuesta. Cuando uno no ordena toda la lista de forma aleatoria, la muestra de reemplazo es una muestra separada de la población que queda después de extraer la muestra principal.) Por lo tanto, si los individuos 7 y 9 fueron los que no respondieron porque no estaban disponibles (missing o faltantes), y se reemplazaron con los individuos 10 y 5, entonces es plausible suponer que se tiene una muestra aleatoria de tamaño 5 que incluye dos individuos que no respondieron. Por supuesto, el siguiente paso debe ser el ajuste de los pesos de los encuestados para tener en cuenta la falta de respuesta.
  4. El proceso de muestreo que se describe puede ser llamado “muestreo inverso” puesto que no se dejan de seleccionar individuos hasta obtener tres observaciones que efectivamente sí respondieron y que conforman la muestra válida. En este caso, el tamaño de la muestra no es 3 y se convierte en una cantidad aleatoria. Este método, descrito en Cochran (1977), fue propuesto por Haldane (1949). Sin embargo, los desarrollos para la estimación insesgada de totales, media y proporciones son recientes.

A continuación vamos a tratar de elaborar un poco más el tema. Si se decide que el modelo pertinente para la falta de respuesta es MCAR, entonces se puede suponer (muy importante… suponer es diferente a definir) que la muestra es de 5 observaciones aleatoria simple y reajustar los pesos de las dos observaciones faltantes. De esta forma, si los individuos 7 y 9 no respondieron, se puede utilizar esa información para estimar la proporción de la población que no responde. De esta forma, sea S1 la muestra en la primera selección (esta muestra es de tamaño 3). Sea S2 la muestra efectiva en la segunda selección (esta muestra es de tamaño 2). Por último, sea R el conjunto de respondientes en la primera selección. Luego, dado que las selecciones no son independientes (puesto que para obtener S2, se debió haber seleccionado S1 y definido R), la probabilidad de inclusión de un individuo en la muestra final es:

Bajo esta perspectiva, muestreo aleatorio simple de 5 unidades con 2 faltantes, cada individuo en la muestra final tiene la misma ponderación. Lo anterior no significa que la muestra final provenga de un muestreo aleatorio simple de tamaño 3. Con este desarrollo, es posible utilizar el estimador de Horvitz-Thompson para estimar sesgadamente (pero con sesgo moderado) funciones de totales. Dada esta configuración, se deben desarrollar expresiones para las probabilidades de inclusión de segundo orden para tener un acercamiento apropiado a la varianza de las estimaciones. También se pueden aplicar los principios de la estimación en dos fases, entre otros.

Por otra parte, nos podemos permitir ajustar esta situación al muestreo inverso, en donde para satisfacer un tamaño de muestra r (en nuestro ejemplo, r=3) se continúan seleccionado unidades en la población hasta que las r respondan. Para profundizar en algunos algoritmos de selección de muestras inversas, el lector puede remitirse al artículo de Hinkins, Lock Oh & Scheuren (1997). Si se pretende estimar la media de la población o la proporción de respondientes es posible utilizar las técnicas planteadas en la Sección 3 de Salehi & Seber (2001). Algunas expresiones acerca de la probabilidad de selección de muestras inversas sin reemplazo se pueden encontrar en el artículo de Espejo, Singh & Saxena (2008). Por último, si desea utilizar este diseño de muestreo para combinarlo con el estimador de Horvitz-Thompson, entonces le recomiendo este excelente artículo de Mohammadi & Salehi (2011).

Cuidado con la estimación de la varianza… ¡SAS, PC-Carp, Sudaan, Wesvar y R pueden arrojar malos resultados!

Y en principio no estoy insinuando que estos excelentes paquetes computacionales sean malos o que su programación esté errada, de ninguna manera… Sin embargo, en mi ejercicio como auditor de metodologías de muestreo, he encontrado que en algunas ocasiones, para diseños de muestreo complejos que involucran estratificación y varias etapas, los errores estándar (definidos como la raíz cuadrada de la varianza), los coeficientes de variación (definidos como el cociente entre el error estándar y la estimación puntual), la longitud de los intervalos de confianza (definida como el producto del error estándar y el percentil adecuado de la distribución del estimador) y hasta los efectos de diseño (definidos como el cociente entre la varianza del diseño complejo y la varianza del muestreo aleatorio simple) parecen ser sospechosos.

De repente, para alguna muestra que se sabe que debería tener un efecto de aglomeración bastante alto, aparecen efectos de diseño muy bajos y errores estándar muy bajos. De esa manera, al revisar los informes metodológicos uno se encuentra con excelentes formulaciones de estrategias de muestreo que no responden a la sospecha de esas cifras y entonces uno infiere que el problema debe ser computacional. De esa forma, sistemáticamente he encontrado que muchos estadísticos dejan el tema de la estimación de la varianza en manos del software computacional.

En particular, en alguna ocasión me encontré estimando el tamaño de muestra de una gran encuesta y mis cifras diferían un poco con los tamaños de muestra de una respetada firma. Después de revisar muy bien, me encontré con que su estimación de los errores estándar no coincidía con la mía. Así que indagué a profundidad y encontré que la expresión que se utilizó para este cálculo de los errores estándar dentro de un estrato (para una encuesta en varias etapas) es la siguiente:

Y ya… sin importar el número de etapas, sin importar si la selección dentro de las etapas haya sido proporcional o simple… sin importar nada más, esta es la fórmula que veo y veo y sigo viendo en los informes metodológicos. Ahora, por supuesto que se trata de un a aproximación a la varianza real. Por lo tanto, está bien que se utilice y me imagino que la seguiré viendo con frecuencia, máxime cuando el PROC SURVEY MEANS del SAS, el WESVAR 4.0, el SUDAAN, el PC-CARP, entre otros, utilizan dentro de sus procedimientos de estimación esta expresión para el cálculo de los errores estándar. Escribí acerca de la validez de esta aproximación en el Survey Research Methods Section de la ASA y un experto muy reconocido me respondió lo siguiente:

Most variance estimators work with municipality level estimates.  The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level.  See for example Appendix D of the WesVar 4.0 manual or chapter 3 of the SUDAAN manual.

Luego, lo discutí con Felipe Ortiz, un amigo y colega a quien respeto y admiro mucho por su amplia visión de la estadística y el muestreo, y quien dirige la cátedra de diseño de encuestas en la Facultad de Estadística de la Universidad Santo Tomás. Cuál sería mi sorpresa al saber que en la entidad en donde él trabaja se había realizado una simulación para evaluar la validez de esta misma aproximación. Los resultados del ejercicio están acá y al parecer son muy claros.

En conclusión, es muy plausible usar esta aproximación, pero se debe usar teniendo en cuenta que la fracción de muestreo dentro de la primera unidad de muestreo no debe ser grande… Esto implica que el factor de corrección para poblaciones finitas (1-f) debe ser pequeño, luego el submuestreo en las USM debería ser grande. Por otra parte, si se usan estas expresiones, sería muy enriquecedor para el informe aclarar que no se trata de una expresión exacta, sino lo que es, una aproximación de la varianza.

Estimación de la varianza con tamaños de muestra uno… La técnica de los estratos colapsados

Termina la clase de muestreo avanzado. Son las diez de la noche y una de mis mejores alumnas me hace una pregunta: <<profe, ¿el siguiente esquema de muestreo es adecuado?>> Le respondo que sí, convencido de que sí es procedente. Llego a mi casa y comienzo a pensar un poco más en ese esquema de muestreo. Es una situación intrincada y en verdad, aunque la respuesta que di, en primera instancia es acertada, también es cierto que está condicionada. Por lo tanto, de algunos vericuetos mentales, surge esta entrada que trata de dar una solución al problema de las varianzas con tamaño de muestra uno y afianza una vez más el consejo que les di a mis estudiantes en esa misma clase: lo importante no es aprenderse las fórmulas de memoria, sino darles sentido.

El tema es el siguiente: Se tiene una encuesta probabilística en varias etapas. En las primeras etapas se seleccionan municipios, sectores cartográficos, manzanas y por últimos viviendas. En cada vivienda, se entrevistan a todos los habitantes, pero se selecciona aleatoriamente a uno de ellos para que complete un registro más largo. En pocas palabras, todos contestan ciertas preguntas básicas y sólo uno de ellos contesta otra batería de preguntas.

Bajo este contexto, con esta poca información, en términos de estimación de la varianza, la situación se divide en dos. Por una parte, es posible que el entrevistado de la vivienda esté respondiendo cuestiones inherentes al hogar. Siendo así, la unidad de interés es la vivienda y no existe ningún problema en que haya sólo un respondiente, pues está contestando preguntas de la vivienda. De esta manera, la muestra en la última etapa, no estaría dada por una sola vivienda, sino que estaría conformada por el total de viviendas pertenecientes a las manzanas seleccionadas. Ese fue mi razonamiento a priori y por ende, no deduje nada extraño en el planteamiento del problema, puesto que el tamaño de muestra (viviendas) es mayor a uno y no existiría ninguna complicación al estimar la varianza.

Sin embargo, después de pensarlo un poco más, la situación cambia totalmente si se supone que el único individuo seleccionado en la muestra está respondiendo preguntas relacionadas con él mismo. De esta manera, la unidad de muestreo correspondería a la persona (no el hogar o vivienda) y por ende, la muestra de la última etapa efectivamente sería de sólo un individuo en las viviendas. En este escenario, existiría una gran complicación para estimar la varianza, puesto que es bien sabido que si el tamaño de muestra es uno (n=1), entonces la probabilidad de inclusión conjunta es nula (\pi_{kl}=0, para todo k\neq l ). Lo anterior se traduce en que es imposible obtener una estimación insesgada de la varianza del estimador.

Por supuesto, es una situación difícil, pero no es el fin del mundo. Es posible que no podamos acceder a una estimación insesgada, pero siempre es posible obtener una estimación sesgada. El problema con las varianzas es que la estimación sesgada debe sobre-estimar la varianza real. Por supuesto, es mucho más grave reportar coeficientes de variación menores a la cifra real, que coeficientes de variación mayores. De la misma forma, las complicaciones son mayores si se reportan intervalos de confianza más estrechos que en la realidad, que si se reportan intervalos de confianza más anchos que en la realidad. Por lo tanto, como los coeficientes de variación y los intervalos de confianza están en función de la estimación de la varianza, entonces definitivamente optaremos por encontrar expresiones que sobre-estimen el verdadero valor de la varianza.

Existen muchas técnicas que permiten obtener un estimador sesgado. Sin embargo, algunas de ellas inducen sub-estimación de la varianza real. Por lo tanto, creo que una solución viable para esta problemática es utilizar la técnica de los estratos colapsados, por supuesto, después de modificarla un poco y acomodarla al contexto de varias etapas (lo cual constituye una tarea muy sencilla). El lector interesado puede encontrar más información en Cochran (1977, pg 138), Raj (1968, pg 74) y Sarndal, et.al. (1992, pg 109). Lehtonen y Pahkinen (2004, pg 132) proveen un ejemplo práctico, similar al que originó esta discusión. Básicamente, se supone que en las últimas etapas, la encuesta tiene muchos estratos y, por conveniencia logística y/o económica, se decide seleccionar sólo un elemento dentro de cada estrato. Por supuesto, no es posible obtener una estimación insesgada de la varianza. Por lo tanto, se propone el agrupamiento de los estratos en pares. Es decir, se crean nuevos estratos uniendo pares y, de esta manera, cada nuevo estrato tendrá un tamaño de muestra igual a dos.

Bajo este esquema, y suponiendo que el submuestreo fue aleatorio simple, se tienen H/2 pares de estratos y se propone el siguiente estimador sesgado

\hat{V}_1(\hat{t}_y)=\sum_{h=1}^{H/2}(\hat{t}_{h1}-\hat{t}_{h2})^2

Nótese que en el h-ésimo par, se tiene que

\hat{t}_{h1}-\hat{t}_{h2}=({t}_{h1}-{t}_{h2})+(\hat{t}_{h1}-{t}_{h1})-(\hat{t}_{h2}-{t}_{h2})

Por lo tanto, promediando sobre todas las posibles muestras en ese par, se tiene que

E(\hat{t}_{h1}-\hat{t}_{h2})^2=({t}_{h1}-{t}_{h2})^2+N_{h1}^2(1-1/ N_{h1})S^2_{Uh1}+N_{h2}^2(1-1/ N_{h2})S^2_{Uh2}

Por lo tanto, la esperanza de la suma sobre todos los estratos, que coincide con la esperanza de \hat{V}_1(\hat{t}_y) es

\sum_{h=1}^{H/2}E (\hat{t}_{h1}-\hat{t}_{h2})^2=E(\hat{V}_1(\hat{t}_y))= \sum_{h=1}^{H} N_{h}^2(1-1/ N_{h})S^2_{Uh}+\sum_{h=1}^{H/2}({t}_{h1}-{t}_{h2})^2

El primer término del sumando corresponde a la varianza real con tamaño de muestra uno y el segundo término es el sesgo positivo del estimador. Se dice que el tamaño del sesgo depende de qué tanto difieran los pares. Es decir, a la hora de construir estos pares, se debe procurar que se parezcan al máximo.

¿Alguna otra idea?

Mi artículo de muestreo en Comunicaciones en Estadística 2011

Una estrategia de muestreo es una dupla compuesta de un diseño de muestreo y un estimador, en este artículo se tratará el problema de escoger una estrategia de muestreo representativa para las variables auxiliares con el fin de aumentar la precisión de las estimaciones del total de una variable de interés en una población finita. Aunque existen diseños de muestreo y estimadores que inducen estrategias representativas, se concluye, por medio de una simulación de Monte Carlo que, en términos de eficiencia, no siempre es mejor utilizar un estimador de calibración bajo un diseño de muestreo balanceado, como uno podría suponer.

El artículo lo pueden descargar haciendo clic acá.

My talk in JSM 2011

La presentación de esta charla la pueden descargar haciendo clic acá.

Comunicaciones en Estadística Volumen 4 No. 1

 

http://comunicacionesenestadistica.usta.edu.co/

En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.

Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.

Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.

El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.

Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.

Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.

Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.

Mi artículo de muestreo y políticas públicas

Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación Política Pública Hoy. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi correo.

El artículo lo pueden descargar acá.

Algunas afirmaciones no del todo ciertas (parte I)

En muchas ocasiones, debido a mi trabajo, reviso, evalúo y audito muchas propuestas de metodologías de encuestas que abordan una determinada problemática. Me he encontrado con algunas afirmaciones que si bien, pueden llegar a ser ciertas bajo el debido contexto, son utilizadas como clichés y relleno en la propuesta metodológicas. A continuación tres de ellas:

  1. <<El muestreo estratificado es el mejor método de muestreo>> No necesariamente, ya Leonardo Bautista había abordado este tema, esta afirmación la he encontrado en una gran cantidad de propuestas técnicas que utilizan, obviamente, este tipo de diseño de muestreo. Ahora, aunque en esas propuestas la opción de estratificar es adecuada, no es cierto estrictamente que el muestreo estratificado sea el mejor. De hecho, la varianza del diseño aleatorio estratificado puede llegar a ser más grande cuando no hay una clara homogeneidad en el comportamiento de la característica de interés dentro de los estratos.
  2. <<La asignación de probabilidades desiguales inducen sesgo al estimador>> Esta frase es cierta, siempre y cuando el estimador que se utilice sea el estimador de expansión, es decir N veces y barra. La frase pierde su validez cuando se utiliza el estimador de Hansen-Hurwitz, para el caso de muestreos con reemplazo, o cuando se utiliza el estimador de Horvitz-Thompson, en muestreos sin reemplazo. Ahora, lo natural es que si el diseño es con probabilidades desiguales, pues no se utilice el estimador de expansión.
  3. <<Los conglomerados de tamaño desigual aumentan la varianza de estimador>> Es por esto que, en encuestas probabilísticas, se crean conglomerados pequeños, a nivel de manzana, o subsección cartográfica, e incluso hogares. Esta es una práctica muy pertinente, siempre y cuando el muestreo de los conglomerados sea aleatorio simple sin reemplazo. Por supuesto, como la varianza del estimador de expansión está en función de la varianza de los totales de los conglomerados, entonces si hay harta variación en los tamaños, habrá harta variación en los totales y por consiguiente la varianza del estimador será alta. De otra forma, si se tiene conocimiento de una característica de información auxiliar a nivel de conglomerados, es posible definir un diseño de muestreo con conglomerados muy desiguales en tamaño, pero que al final induzcan una muy pequeña varianza en el estimador, incluso más pequeña que la del muestreo aleatorio simple con conglomerados iguales en tamaño.

PD: En algunos estudios de consumo, una característica de información auxiliar muy correlacionada con los totales (cantidad de consumo total) de los conglomerados es el tamaño mismo de los conglomerados. Es muy cierto que el consumo está correlacionado con el tamaño del conglomerado, pues entre más personas haya en el conglomerado, mayor el consumo, y viceversa. De hecho, en los libros clásicos de muestreo, a las características de información auxiliar se les llama variables de tamaño, justamente porque se derivan del tamaño de los conglomerados.

 

¡Que no y que no! No hay poblaciones infinitas

  • Después de 40, la población se considera como infinita.

Esta es la excusa perfecta a la que convergen los profesionales de todas las disciplinas cuando quieren defender sus ideas del tamaño de muestra o simplemente cuando su impertinencia hace que hablen más de la cuenta. Lo cierto es que esa regla de los cuarenta y las poblaciones infinitas se hace muy difícil de entender. Tal vez yo no sea demasiado avezado para comprender tal “teorema” del muestreo, pero a continuación expondré mis argumentos y con eso me daré por bien servido, porque será un medio para desfogar mi ira, no contra mis colegas de otras disciplinas, sino contra la idiosincrasia impertinente que domina estas latitudes.

Un buen ejemplo del dominio de este arte, diría yo oscura, de dominar el infinito, lo viví hace poco en una reunión en la que se negociaba la realización de un estudio con una firma encuestadora de renombre nacional. Uno de los presentes hizo un comentario que me hizo sentir todo un neófito en temas estadísticos. Se trataba de un profesional no estadístico, que de verdad admiro mucho por sus características administrativas, que exponía que cuando él estaba en la universidad, cursando el pregrado, tomó una clase de probabilidad en donde el profesor hacía referencia a la ley fuerte de los grandes números. Después de argumentar lo anterior, afirmó que el tamaño de muestra en el estudio en cuestión era adecuado porque después de cierto número de encuestas la población se consideraba infinita.

Otro ejemplo lo viví en el marco de una asesoría que realicé a una propuesta técnica en la que me disgustaba el tamaño de muestra que habían propuesto. Yo sugerí que debían aumentar el tamaño de muestra para que se alcanzaran los errores mínimos de muestreo. Craso error… Acto seguido, me citaron a una reunión a la que asistió hasta el gerente de la compañía para indagar más acerca de mi recomendación. En esa reunión, uno de los funcionarios de la firma, con marcador en mano, me < > que no se debía aumentar el tamaño de muestra, puesto que la población era grande y esto era equivalente a que la población pudiera ser considerada como infinita. Por tanto, el tamaño de muestra que ellos proponían no debía cambiar. Lo más valioso, en ese proceso de aprendizaje, ocurrió cuando el funcionario dibujó en el tablero una curva y me explicó el concepto de asíntota.

En primer lugar, y esto lo digo en mis clases, yo jamás he trabajado en estudios o investigaciones que involucren poblaciones infinitas. Realmente no creo que ninguno de mis colegas estadísticos lo haya hecho alguna vez. De hecho, si alguna vez me ofrecen trabajar en alguna investigación que tenga como objeto una población infinita, yo declinaría inmediatamente la oferta, simplemente porque el infinito es algo que yo no entiendo aún, incluso cuando algunos colegas estadísticos y no estadísticos parecen dominarlo con excelencia.

Mi segundo argumento puntual es el siguiente: no existen poblaciones infinitas. O.K., existen las estrellas, los átomos y demás. Pero ese tipo de poblaciones no son de interés en estudios sociales, o de mercadeo, que es donde se utiliza el muestreo. Como ese tipo de poblaciones no es de interés, entonces no me gusta que me salgan con argumentos traídos de los cabellos.

Tercero, aunque la teoría de probabilidad es la base del muestreo, no es posible afirmar que las poblaciones son infinitas. En realidad, si después de cuarenta, todas las poblaciones son infinitas, entonces todas las estrategias de muestreo serían iguales, todos los tamaños de muestra serían iguales y todos los errores de muestreo serían los mismos. En estudios por muestreo, el hecho de que la población sea grande, no garantiza nada.

Cuarto, la inferencia que nos enseñaron en el pregrado, no es apta para ningún diseño de muestreo, a excepción del diseño de muestreo aleatorio simple con reemplazo. Espero que esto quede claro, si usted o sus clientes realizan una muestra, la inferencia que se debe utilizar es diferente a la que nos han enseñado, y esto se debe tener en cuenta cuando se realizan los diseños del tamaño de muestra.

Quinto, no es cierto que entre más muestra haya, menos error de muestreo existe. Lo anterior, si bien es válido para estrategias de muestreo aleatorias simples, no es necesariamente lo que ocurre cuando se utilizan diseños de muestreo complejos. Por ejemplo, si se utiliza un diseño de muestreo de tamaño de muestra aleatorio, como Bernoulli o Poisson, así se realice un censo, va a existir error de muestreo. Por lo tanto, la asíntota en estos casos es simplemente un argumento que no aplica en nada.

Seis, que por favor, por misericordia, el que no sepa de muestreo que no se meta, que no opine y que no se inmiscuya en asuntos que no le conciernen. Yo, siendo estadístico, jamás opinaría acerca de un modelo de riesgo o de un modelo de series de tiempo. Así de sencillo, un curso en pregrado no es suficiente para licitar, no es suficiente para auditar y no es suficiente para siquiera pretender dar una estimación del tamaño de muestra en un estudio. Si se quiere ser efectivo, hay que especializarse en el tema. Afortunadamente, cada vez son más los muchachos que se interesan por el muestreo. Alguien me dijo que hay más de sesenta alumnos en la UNAL-Bogotá en muestreo II y en la USTA-Bogotá la cifra, si bien no es tan alta, no es nada despreciable y es una de las electivas más pedidas.

Respuestas al manifiesto

Algún lector anónimo escribe lo siguiente:

Andrés,

Para impulsar estas ideas, hay que empezar por el principio.

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.

¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

Saludes!

Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:

¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?

Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.

¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?

 

No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.

¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?

 

No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.

 

¿Para quién va dirigido el Workshop que hace la USTA?

 

Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.

 

Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.

 

Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.

 

No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.

 

¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.

Manifiesto: quiero ser cabeza de ratón

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:

  1. Impulsar la creación de la Asociación Colombiana de Estadísticos.
  2. Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
  3. Promover la institucionalización de la tarjeta profesional para los estadísticos.
  4. Motivar la creación de un programa de posgrado en metodología de encuestas.
  5. Posicionar la Revista Comunicaciones en Estadística.
  6. Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
  7. Crear una editorial de libros de texto en estadística.

Y lo más ambicioso y controvertido:

8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.

Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.

El principio de representatividad (My talk in Ibague)

La teoría y práctica de la inferencia basada en el diseño de muestreo descansa en el principio de la representatividad de las muestras; este artículo discute el papel que este principio juega en la consideración de la mejor estrategia de muestreo para la consecución de estadísticas oficiales. En algunas ocasiones, el estadístico puede diseñar un excelente plan de muestreo que al final no es considerado en la etapa de estimación debido a la escogencia de un determinado estimador; en algunas otras ocasiones, el estadístico puede agotar todos sus recursos en la búsqueda de un excelente estimador y restar importancia a la forma de consecución de la información. Aunque la práctica estadística es difícil en el sentido de determinar cuál es el mejor diseño de muestreo y cuál es el mejor estimador, el estadístico debe paliar este tipo de situaciones considerando que en realidad se trata de escoger una estrategia óptima para cada tipo de investigación. Descargar la presentación acá.

La entropía de un diseño muestral

Suponga que se desea seleccionar una muestra aleatoria de una población finita de tamaño N. Para esto, usted escoge la mejor estrategia de muestreo que le permite hacer todo tipo de inferencias precisas sobre los parámetros de interés. Una estrategia de muestreo tiene dos componentes: la primera, el diseño de muestreo y la segunda, el estimador utilizado. Como ya lo he repetido en diferentes ocasiones, la planeación de un estudio por muestreo tiene que estar condicionada a la estrategia y no a l diseño o al estimador por separados. Es así como la estrategia, siguiendo la regla de oro del muestreo y el principio de representatividad, debería inducir ponderaciones cuyo comportamiento estructural sean directamente proporcional al comportamiento de la característica de interés.

En esta ocasión, voy a referirme a una propiedad bastante útil, pero desconocida de un diseño de muestreo, la entropía. Recalco que un diseño de muestreo no es otra cosa que una medida de probabilidad discreta definida sobre un conjunto aleatorio (o si se quiere, sobre un vector aleatorio) que toma distintas realizaciones sobre un soporte Q. A una realización de la muestra aleatoria se le conoce con el nombre de muestra seleccionada y el soporte Q contiene todas las posibles realizaciones. De esta forma, la entropía se define como

-\sum_{s \in Q}p(s)log p(s)

La entropía es una medida contraria a la información. Entre más entropía exista en un diseño de muestreo, se dice que hay más incertidumbre. Por el contrario, cuando hay baja entropía, hay más información y menos dispersión. Tillé (2010) afirma que un diseño de muestreo tiene alta entropía cuando existe una gran cantidad de “sorpresa” en la muestra seleccionada y que cuando un diseño de muestreo tiene alta entropía es muy difícil predecir el tipo de muestra que se obtendrá.

En algunas ocasiones es deseable que un diseño de muestreo tenga alta entropía. En muchas consultorías, el cliente suele estar preocupado por el tipo de muestra que se va a seleccionar: que si es posible que la muestra esté sesgada, que si es posible que la muestra contenga sólo a personas de estratos altos, que si la muestra va a llegar a todos los grupos etarios, que cómo hacemos para garantizar la representatividad de la muestra. Entre otro tipo de comentarios, lo que el cliente expresa en las primeras etapas del estudio es su afán porque la muestra sea “representativa”. Cuando esto sucede, simplemente le digo que confíe en el experto y que el principio de aleatorización es muy acertado y seguramente la muestra tendrá la dispersión que el cliente está esperando. Por supuesto que lo anterior, es simplemente un paliativo y una muy sutil explicación de la entropía.

De hecho, haciendo un paréntesis, una de las causas de éxito en esta profesión de consultor es poder expresar sin tecnicismos los conceptos inherentes a la teoría que sustenta nuestro trabajo. Si quiere perder el próximo contrato, le sugiero que le diga al cliente que no debe estar preocupado porque la entropía es una medida de la información de diseño de muestreo definida sobre un soporte… bla, bla, bla… El cliente no le va a entender nada de esas explicaciones técnicas y me va a contratar a mí J . Es en serio, un consultor es un profesional altamente adiestrado para transmitir conceptos y para aplicarlos en su área de experticia, un consultor no es un entrenador y no es un profesor.

Volviendo al tema de la entropía, un muestreo aleatorio simple tiene una alta entropía. Es muy útil este diseño en las últimas etapas de una investigación puesto que garantiza que la muestra no estará concentrada en ciertos subgrupos de la población (la muestra no estará “sesgada”). El diseño de muestreo sistemático, es un diseño que tiene muy poca entropía, puesto que si la población está ordenada sistemáticamente en el marco de muestreo, por ejemplo, un hombre, una mujer, un hombre, una mujer, etc., entonces si se escoge un arranque aleatorio cualquiera, la muestra estará conformada por sólo hombres o sólo mujeres, que sería precisamente lo que queremos evitar.

Bajo la familia de diseños de muestreo exponenciales, también llamados piPT y que no tienen nada que ver con la familia exponencial de la inferencia estadística clásica, caracterizados por tener probabilidades de inclusión desiguales, ser de tamaño de muestra fijo y sin reemplazo, el diseño con más alta entropía es el de Poisson condicional (que es un muestreo Poisson con tamaño de muestra fijo, que se implementa fijando el tamaño de muestra y seleccionando muestras Poisson hasta llegar a una muestra con el tamaño deseado). Así que, cuando utilice diseños proporcionales al tamaño, tenga en cuenta que tal vez la propiedad de alta entropía no es deseable. En otras palabras, cuando se tiene información auxiliar de tipo continúo y se sabe que tiene una muy buena correlación con la característica de interés, debemos sacrificar entropía por eficiencia. El uso de la información auxiliar hace que la muestra tenga un bajo nivel de sorpresa, pues lo que uno espera es que la muestra contenga los elementos con probabilidades de inclusión más altas y por lo tanto, un bajo nivel de entropía. Bajo estas condiciones, el estimador resultante será muy concentrado y con poca varianza produciendo coeficientes de variación más bajos y mayor eficiencia.

¡Me tomo un tinto y tumbo el muestreo!

El título de este post refleja literalmente las palabras de algunos obstinados colegas que, además de arribistas, muestran su ignorancia tratando de enmarcarlo todo dentro de modelos de probabilidad, despreciando la teoría de la aleatorización. Está bien que no les guste el muestreo, pero una cosa es la antipatía por una materia y otra es llegar a tal punto de negar la realidad.

Definitivamente se debe tener muy poco sentido común para afirmar que al tomarse un tinto, es posible invalidar una teoría con décadas de existencia, que ha sido formulada por las mentes más brillantes de la estadística. A lo que me refiero es que existe una actitud incorrecta de parte de un pequeño cúmulo de profesionales, que desestiman el muestreo.

Quiero traer a colación las palabras de uno de los estadísticos más importantes del mundo, Andrew Gelman. Este tipo adora los modelos, es un bayesiano de ultra-derecha, ha escrito muchos libros y atículos en temas de modelos y fíjense en lo que dice:

… el muestreo es más que una metáfora, es crucial en muchos aspectos de la estadística. Esto es evidente en los estudios de opinión pública y salud, donde los análisis se basan en muestras aleatorias, y en las estadísticas del medio ambiente, donde variables continuas de naturaleza física se estudian a partir de muestras del espacio-tiempo. Pero, incluso en las zonas donde el muestreo es menos evidente, puede ser importante. Considere la posibilidad de experimentos médicos, donde el objetivo siempre es la inferencia de la población en general, no sólo para los pacientes en el estudio. Del mismo modo, el objetivo de los neurocientíficos es conocer los aspectos generales de los cerebros de humanos y animales, no sólo para estudiar las criaturas en particular de las que se dispone de datos. En última instancia, la muestra es sólo otra palabra para subconjunto, y en ambas inferencia bayesiana y clásica, la generalización adecuada de la muestra a la población depende de un modelo para la toma de muestras o el proceso de selección. No tengo ningún problema con el uso del muestreo como marco para la inferencia, y yo creo que esto funcionará aún mejor si se hace hincapié en la generalización a partir de muestras reales de las poblaciones reales - no sólo construcciones matemáticas - que son esenciales para gran parte de nuestras inferencias aplicadas.


Soy parte de los 300mil

Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.

¡¡¡Una vez más gracias!!!

 

Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)

Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.

Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.

Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio U_d, para cualquier diseño de muestreo, es

Var(hat{t}_{dpi})=sumsum_{U_d}Delta_{kl}frac{y_k}{pi_k}frac{y_l}{pi_l}

Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra n para una población de tamaño N, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es

Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}

Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre U_d, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño N y con una muestra de tamaño n. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra n_d para una población de tamaño N_d. La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:

Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}

En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que N_d y N no son semejante; de la misma manera n_d y n tampoco lo son. La expresión S^2_{yU_d} implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio U_d. Por otro lado, S^2_{y_dU}, implica una cuasi-varianza entre los valores de la característica de interés en el dominio U_d y muchos ceros para los individuos de la muestra que no pertenezcan al dominio U_d. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.

No estoy diciendo que la fórmula Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d} no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, N_d, y se controla el tamaño de la muestra del mismo, n_d, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, n_d, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU} que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra n_d. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, N_d, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:

AVar(tilde{t}_{d})=sumsum_{U_d}Delta_{kl}frac{y_k-bar{y}_{U_d}}{pi_k}frac{y_l-bar{y}_{U_d}}{pi_l}

La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:

AVar_{MAS}(tilde{t}_{d})=frac{N^2}{n}(1-frac{n}{N}) S^2_{yU_d}

Nótese que, si bien se siguen manteniendo las cantidades N y n, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio U_d. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco & Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:

> data(Marco)
> data(Lucy)

> N <- dim(Marco)[1]
> n <- 400
> Pik<-rep(n/N,n)
> sam <- S.SI(N,n)
> data <- Lucy[sam,]
> attach(data)

Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.

> Doma <- Domains(SPAM)
> estima <- data.frame(Income, Employees, Taxes)
> SPAM.no <- estima*Doma[,1]
> SPAM.yes <- estima*Doma[,2]

Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.

> E.SI(N,n,SPAM.no)
                 Income    Employees        Taxes
Estimation 3.799757e+05 5.721648e+04 1.094673e+04
Variance   8.821093e+08 1.691118e+07 1.647727e+06
CVE        7.816376e+00 7.187301e+00 1.172623e+01

> E.SI(N,n,SPAM.yes)
                 Income    Employees        Taxes
Estimation 6.166226e+05 9.045499e+04 1.655636e+04
Variance   1.013343e+09 1.786384e+07 2.540981e+06
CVE        5.162485e+00 4.672560e+00 9.627995e+00

Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.

> E.SI(N,n,estima)
                 Income    Employees        Taxes
Estimation 9.965982e+05 1.476715e+05 2.750309e+04
Variance   9.170756e+08 1.316354e+07 3.431910e+06
CVE        3.038662e+00 2.456913e+00 6.735759e+00

Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.

> estima<-Doma*Income
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 4.099213e+05 5.889897e+05
Variance   3.519767e+08 5.619366e+08
CVE        4.576742e+00 4.024723e+00

> estima<-Doma*Employees
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 6.172568e+04 8.640141e+04
Variance   4.890882e+06 8.149935e+06
CVE        3.582842e+00 3.304123e+00

> estima<-Doma*Taxes
> tx <- c(937, 1459)
> b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE)
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                     no          yes
Estimation 1.180943e+04 1.581442e+04
Variance   1.207738e+06 2.215550e+06
CVE        9.305880e+00 9.412124e+00

Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.

> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE)
                 Income    Employees        Taxes
Estimation 9.989111e+05 1.481271e+05 2.762385e+04
Variance   9.139133e+08 1.304082e+07 3.423289e+06
CVE        3.026395e+00 2.437911e+00 6.697884e+00

See ya in da beach !!!

Bueno pues… este año la cita fue en Bogotá con el Workshop Bayesiano… ahora, nos vamos para las meetings 2011 en Miami… Ya se de 3 colombianos que van a ir… déjenme saber quién más piensa asistir para atenderlos como es debido allá en los miamis… Nos vemos allá parce !!!

 

We are pleased to inform you that your presentation (Abstract #301744, Hierarchical Design-Based Estimation in Stratified Multipurpose Surveys) has been accepted and is scheduled in Session # 413 on Tuesday, 8/2/2011 beginning at 2:00 PM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

We are pleased to inform you that your presentation (Abstract #301743, Student Paper Competitions) has been accepted and is scheduled in Session # 459 on Wednesday, 8/3/2011 beginning at 8:30 AM during the Joint Statistical Meetings in Miami Beach, Florida, July 30–August 4, 2011.

 

Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel

Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.

Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadística

Efectivamente, el estimador de Horvitz-Thompson es insesgado (nuevas funciones en TeachingSampling)

En los parciales de muestreo, a veces acostumbro a pedirle al estudiante que demuestre o refute mediante un contraejemplo algunas afirmaciones. Por ejemplo, una de mis favoritas es la siguiente:

“Demuestre o refute: El estimador de Horvitz-Thompson es insesgado para cualquier diseño de muestreo”

Es claro que el estimador de Horvitz-Thompson es insesgado pues así lo dice un resultado cuya demostración es sencilla. Sin embargo, cuando el estudiante se encara con este tipo de ejercicios, debe pensar si la afirmación es correcta o si existe algún contraejemplo que pueda refutarla. En la búsqueda de contraejemplo, es posible plantearse diversos tipos de situaciones.

Por ejemplo, están los diseños de muestreo sin reemplazo de tamaño fijo, los diseños de muestreo sin reemplazo de tamaño aleatorio y los diseños de muestreo con reemplazo de tamaño fijo. En los dos primeros escenarios, no existe ningún inconveniente, puesto que el profesor siempre utilizará estos casos para ilustrar que efectivamente el estimador de Horvitz-Thompson es insesgado. Sin embargo, un desafío importante al que se enfrentan los estudiantes es al tratar de mostrar el insesgamiento de este estimador en diseños de muestreo con reemplazo.

Como resultado de esta búsqueda, muchos estudiantes se detienen en el escenario de muestras con reemplazo y concluyen que el estimador de Horvitz-Thompson es sesgado cuando se tienen diseños con reemplazo. La verdad, son muchos los estudiantes que llegan a esta conclusión. Ahora, no estoy diciendo que estos estudiantes no hayan comprendido efectivamente el funcionamiento del estimador. A lo que me refiero es que es un deber del docente, plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Tal vez este sencillo ejemplo sea de utilidad para docentes o estudiantes que quieran profundizar en la técnica de Horvitz-Thompson bajo muestreos con reemplazo. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.

A continuación ilustraré el razonamiento equivocado:

Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es con reemplazo de tamaño fijo m=2. En este escenario, el soporte contiene 6 posibles muestras. Dado que se trata de un muestreo con reemplazo, definamos la probabilidad de selección de las unidades como 0.9, 0.05 y 0.05 para cada elemento. Luego, es sencillo calcular las probabilidades de inclusión de primer orden, así como las probabilidades de selección de las muestras (dadas por la distribución multinomial). Para esto utilizamos la función pWr y comprobamos que, en efecto, la suma de estas probabilidades sea uno.

> library(TeachingSampling)
> pk <- c(0.9,0.05,0.05)
> pk
[1] 0.90 0.05 0.05
> pik <- 1-(1-pk)^m
> pik
[1] 0.9900 0.0975 0.0975
> p <- pWR(3,2,pk)
> p
[1] 0.8100 0.0900 0.0900 0.0025 0.0050 0.0025
> sum(p)
[1] 1

Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportWR se obtienen las posibles muestras de este diseño:

> Q <- SupportWR(N,m)
> Q
[,1] [,2]
[1,]    1    1
[2,]    1    2
[3,]    1    3
[4,]    2    2
[5,]    2    3
[6,]    3    3

La función nk arroja el número de veces que un elemento es selccionado en las muestras:

> IndWR <- nk(3,2)
> IndWR
     [,1] [,2] [,3]
[1,]    2    0    0
[2,]    1    1    0
[3,]    1    0    1
[4,]    0    2    0
[5,]    0    1    1
[6,]    0    0    2

 

Justo acá se presenta el inconveniente en donde es fácil confundirse. Alguien podría pensar: ok, el primer elemento ha sido seleccionado dos veces para la primera, luego el estimador debería incluir la información de este elemento dos veces. Con esto en mente, los posibles valores de la característica de interés son:

> Qy <- SupportWR(N,m, ID=y)
> Qy
[,1] [,2]
[1,]   10   10
[2,]   10   20
[3,]   10   30
[4,]   20   20
[5,]   20   30
[6,]   30   30

 

Por lo tanto, utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite, también se repite la información en el estimador:

 

> HT1<- HT(Qy[1,], pik[Q[1,]])
> HT2<- HT(Qy[2,], pik[Q[2,]])
> HT3<- HT(Qy[3,], pik[Q[3,]])
> HT4<- HT(Qy[4,], pik[Q[4,]])
> HT5<- HT(Qy[5,], pik[Q[5,]])
> HT6<- HT(Qy[6,], pik[Q[6,]])

> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(IndWR, Est, p)
  X1 X2 X3       Est      p
1  2  0  0  20.20202 0.8100
2  1  1  0 215.22922 0.0900
3  1  0  1 317.79332 0.0900
4  0  2  0 410.25641 0.0025
5  0  1  1 512.82051 0.0050
6  0  0  2 615.38462 0.0025

 

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos. Este valor difiere del parámetro de interés y por lo tanto el alumno concluye que el estimador de Horvitz-Thompson no es insesgado para diseños con reemplazo.

> sum(Est*p)
[1] 69.46387
> sum(y)
[1] 60

 

Pero, un momento, todo aquel que ha pasado por un curso de muestreo ha hecho aquella demostración en donde se expande la suma en la muestra al universo, se incluyen las variables Ik y se tiene que en esperanza, el estimador de Horvitz-Thompson reproduce el total de la población. Esa demostración no está supeditada al tipo de muestre que se realice.

A continuación expondré la forma correcta de ilustrar el insesgamiento en diseños con reemplazo. En primer lugar, la clave del ejemplo es darse cuenta que la fundamentación teórica del estimador está centrada en las variables aleatorias Ik que sólo toman dos valores: uno, si el individuo pertenece a la muestra y cero, en otro caso. Esto indica que si el elemento fue incluido en la muestra una vez, la variable Ik toma el valor uno, si el elemento fue incluido en la muestra más una vez, la variable Ik sigue tomando el valor uno. Lo anterior indica que el estimador de Horvitz-Thompson sólo incluye una vez la información de los elementos repetidos. Utilizando la función IkWR se tiene esta matriz de variables Ik para el muestreo con reemplazo.

> Ind <- IkWR(N,m)
> Ind
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    1    1    0
[3,]    1    0    1
[4,]    0    1    0
[5,]    0    1    1
[6,]    0    0    1

 

Utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite sólo se incluye esta información una sola vez:

> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])

> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(Ind, Est, p)
  X1 X2 X3       Est      p
1  1  0  0  10.10101 0.8100
2  1  1  0 215.22922 0.0900
3  1  0  1 317.79332 0.0900
4  0  1  0 205.12821 0.0025
5  0  1  1 512.82051 0.0050
6  0  0  1 307.69231 0.0025

 

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.

> sum(Est*p)
[1] 60
> sum(y)
[1] 60			

 

Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con reemplazo.

Consultorio estadístico para Hispanoamérica



 

Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.

Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.

PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.

El estimador de Horvitz-Thompson es insesgado II (nuevas funciones en TeachingSampling)

En una entrada anterior mostraba, con la ayuda del paquete TeachingSampling, que efectivamente, el estimador de Horvitz-Thompson es insesgado incluso en diseños con reemplazo. Bien, a petición del público y dados los buenos resultados de mis estudiantes en mi cátedra de muestreo, hoy voy a mostrar que este mismo estimador es insesgado en diseños de tamaño de muestra aleatorio. Por supuesto que no hay nada escondido detrás del funcionamiento de este estimador. Pero mi experiencia docente me ha mostrado que es mucho mejor aclarar todos los diversos escenarios de las muestras. Una vez más, es un deber del docente plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.

Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es sin reemplazo de tamaño de muestra aleatorio. Es decir que es posible seleccionar muestras nulas o muestras censo y toda la gama de configuraciones que existen entre estos dos escenarios. En este caso, el soporte contiene 8 posibles muestras. Con la función IkRS podemos averiguar cuál es la configuración de estas muestras.

 

> N=3
> y=c(10, 20, 30)
> Ind<-IkRS(3)
> Ind
     [,1] [,2] [,3]
[1,]    0    0    0
[2,]    1    0    0
[3,]    0    1    0
[4,]    0    0    1
[5,]    1    1    0
[6,]    1    0    1
[7,]    0    1    1
[8,]    1    1    1

 

> Q<-dim(Ind)[1]
> Q
[1] 8

 

Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportRS se obtienen las posibles muestras de este diseño:

 

> Qy <-SupportRS(3,ID=y)
> Qy
     [,1] [,2] [,3]
[1,]   NA   NA   NA
[2,]   10   NA   NA
[3,]   20   NA   NA
[4,]   30   NA   NA
[5,]   10   20   NA
[6,]   10   30   NA
[7,]   20   30   NA
[8,]   10   20   30

 

Supongamos que el diseño de muestreo es Bernoulli. La siguiente función arroja las probabilidades de selección para cada posible muestra. La suma de las probabilidades es la unidad. Sin embargo, usted puede asignarle cualquier tipo de probabilidades que sean mayores que cero y sumen uno.

 

> p=rep(NA,Q)
> for(k in 1:Q){
+ p[k]=((0.1)^(sum(Ind[k,])))*((1-0.1)^(N-sum(Ind[k,])))
+ }
> p
[1] 0.729 0.081 0.081 0.081 0.009 0.009 0.009 0.001
> sum(p)
[1] 1

Acudiendo a la función Pik se tiene que la probabilidad de inclusión para cada individuo es constante e igual a un décimo.

pik <- Pik(p, Ind)
> pik
     [,1] [,2] [,3]
[1,]  0.1  0.1  0.1

Por lo tanto, utilizando la función HT, se calculan los ocho posibles valores para el estimador de Horvitz-Thompson.

> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])
> HT7<- HT(y[Ind[7,]==1], pik[Ind[7,]==1])
> HT8<- HT(y[Ind[8,]==1], pik[Ind[8,]==1])
> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6, HT7, HT8)
> Est
[1]   0 100 200 300 300 400 500 600

Teniendo cada estimación se tiene la siguiente salida, que da cuenta de las posibles muestras, los valores del estimador y la probabilidad de selección de las muestras:

> data.frame(Ind, Est, p)
  X1 X2 X3 Est     p
1  0  0  0   0 0.729
2  1  0  0 100 0.081
3  0  1  0 200 0.081
4  0  0  1 300 0.081
5  1  1  0 300 0.009
6  1  0  1 400 0.009
7  0  1  1 500 0.009
8  1  1  1 600 0.001

El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.

> sum(Est*p)
[1] 60
> sum(y)
[1] 60			

Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con tamaño de muestra variable.

 

portada

Colombiano Daniel Guzmán en AMSTAT NEWS

 

Acabo de leer la publicación de Febrero de la American Statistical Association (que entre otras cosas pareciera que sólo publican encuestas de salarios) y me encontré en la página 32 con un artículo escrito por Ann Harrison, en donde se reconoce la labor del estadístico colombiano Daniel Guzmán, quien al parecer ha desarrollado una metodología de muestreo para testificar en el juicio de algunos policias incriminados de atentar contra los derechos humanos en Guatemala.

Congratulaciones a Daniel y nuestros mejores deseos desde su tierra, Colombia.

 

Daniel Guzmán

Submitted by Ann Harrison

In October 2010, Colombian statistician Daniel Guzmán took the witness stand to present expert testimony in the case of Edgar Fernando García, a 26-year-old Guatemalan union leader who vanished in 1984. Guzmán, who is a member of the Benetech Human Rights Data Analysis Group (HRDAG), was asked by the Guatemalan attorney general to submit his analysis of records in the Guatemalan National Police Archive, which documented García’s detention by police. García was one of tens of thousands of Guatemalans who disappeared during the country’s 36 years of armed internal conflict.

Guzmán’s testimony, given against two former police officers on trial for their alleged role in García’s disappearance, was based on quantitative results from HRDAG’s four-year analysis of the Guatemalan National Police Archive. Guzmán designed a coding strategy to catalog the contents of the archive. ASA advisers Paul Zador and Gary Shapiro helped Guzmán design a sampling protocol. Because the archive was too large and disorganized to be sampled directly, HRDAG analysts used a topographical sampling frame and multistaged random sample.

After three years of coding key variables from random samples of archive documents, Guzmán and his colleagues were able to calculate the percentage of documents known by different police units. Their findings helped support arguments by prosecutors that relatively high-level National Police officers were aware of the planning, design, and supervision of the type of operations that resulted in García’s disappearance.

Guzmán also calculated estimates comparing the 667 documents pertaining to the García case with the representative sample of all the documents in the archive. This comparison showed that the units responsible for direction and coordination of National Police policy were acquainted with proportionately more than twice the number of documents related to the García case than with the total of all documents in the archive. By calculating the percentage of documents known by different police command structures, these findings helped analysts reach conclusions about relationships among Guatemalan security forces and communications between the army and police.

Ten days after the start of the García trial, a tribunal of the Guatemalan Supreme Court found the two police officers guilty of forced disappearance and sentenced them each to a maximum term of 40 years in prison.

Guzmán’s testimony supported prosecutors’ arguments about how the officers’ actions against García took place within the context of National Police policies. This testimony also helped the Guatemalan judiciary and the public understand how statistical methods provide an objective approach to understanding massive collections of human rights data.

Estadística en los comics

¿Será que EM cabría en esta convocatoria?

Pues les comento que hace rato estoy pensando en la publicación en inglés de EM… Por supuesto que no es una tarea fácil, y  seguramente conseguir un editor interesado no es fácil para un latino colombiano… Pero me parece que nada se pierde si intento participar en esta convocatoria. Les estaré comentando acerca de lo que suceda. Y gracias por hacer de EM un éxito editorial. La verdad, hay que decir que acá en Colombia ya se convirtió en un éxito de piratería. Pero eso me halaga, si alguien no puede comprarlo (aunque valga la pena decir que 30 dólares no es un precio elevado para este libro) que se lo consiga en PDF… Por ahí anda… Gracias a Dios y a todos ustedes una vez más.

Call for proposals for writing a book about R (via Chapman & Hall/CRC)

Rob Calver wrote an interesting invitation on the R mailing list today, inviting potential authors to submit their vision of the next great book about R. The announcement originated from the Chapman & Hall/CRC publishing houses, backed up by an impressive team of R celebrities, chosen as the editors of this new R books series, including:

Bellow is the complete announcement:

————————————–
We are pleased to announce the launch of a new series of books on R.

Chapman & Hall/CRC: The R Series

Aims and Scope

This book series reflects the recent rapid growth in the development and application of R, the programming language and software environment for statistical computing and graphics. R is now widely used in academic research, education, and industry. It is constantly growing, with new versions of the core software released regularly and more than 2,600 packages available. It is difficult for the documentation to keep pace with the expansion of the software, and this vital book series provides a forum for the publication of books covering many aspects of the development and application of R.

  • The scope of the series is wide, covering three main threads:
  • Applications of R to specific disciplines such as biology, epidemiology, genetics, engineering, finance, and the social sciences.
  • Using R for the study of topics of statistical methodology, such as linear and mixed modeling, time series, Bayesian methods, and missing data.
  • The development of R, including programming, building packages, and graphics.

The books will appeal to programmers and developers of R software, as well as applied statisticians and data analysts in many fields. The books will feature detailed worked examples and R code fully integrated into the text, ensuring their usefulness to researchers, practitioners and students.

Series Editors

  • John M. Chambers (Department of Statistics, Stanford University, USA; jmc@stat.stanford.edu)
  • Torsten Hothorn (Institut f?r Statistik, Ludwig-Maximilians-Universit?t, M?nchen, Germany; torsten.hothorn@stat.uni-muenchen.de)
  • Duncan Temple Lang (Department of Statistics, University of California, Davis, USA; duncan@wald.ucdavis.edu)
  • Hadley Wickham (Department of Statistics, Rice University, Houston, Texas, USA; hadley@rice.edu)

Call for Proposals

We are interested in books covering all aspects of the development and application of R software. If you have an idea for a book, please contact one of the series editors above or one of the Chapman & Hall/CRC statistics acquisitions editors below.Please provide brief details of topic, audience, aims and scope, and include an outline if possible.

We look forward to hearing from you.

Best regards,

  • Rob Calver (rob.calver@informa.com)
  • David Grubbs (david.grubbs@taylorandfrancis.com)
  • John Kimmel (john.kimmel@taylorandfrancis.com)

Mi artículo en la Revista ib del DANE

Este artículo – publicado por la Revista ib virtual del DANE – está dirigido a todos los profesionales involucrados en la consecución de estadísticas oficiales para poblaciones grandes y relaciona el uso de la inferencia inversa con el principio de la representatividad. Después de una breve introducción, la segunda sección de este artículo define conceptos básicos que son necesarios para desarrollar el tema central del mismo; en la tercera y cuarta sección se expone el concepto de la representatividad en el diseño de muestreo y en la escogencia de estimadores representativos, respectivamente. En la quinta sección se presentan algunas ilustraciones de la práctica estadística, y finalmente en la última sección se dan algunas recomendaciones.

Para bajar el artículo haga clic acá.

Declaración sobre Ética Profesional del Instituto Internacional de Estadística

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.

Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden
enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión. La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.

La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:

• de la sociedad,
• de empleadores, clientes y financiadores,
• de colegas,
• de los grupos a los que se aplica su trabajo.

En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.

La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia.  La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.

En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.

Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)

Comunicaciones en Estadística Volumen 3 No. 2

Comunicaciones en estadística Vol. 1 No. 1

En este quinto número consecutivo de la revista Comunicaciones en Estadísti­ca nos encontramos frente a un cisma generado por la globalización del conoci­miento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una inicia­tiva de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los insti­tutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.

En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacio­nal, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este pro­cedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.

El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la iden­tificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de co­varianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.

Jiménez propone en su trabajo una nueva función de densidad simétrica que pue­de ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena al­ternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.

En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyen­tes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.

Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.

Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febre­ro de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el partici­pante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Apli­cadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el In­ternational Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.

Desde la Facultad de Estadística de la Universidad Santo Tomás les agradece­mos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.

Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)

Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)

Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.

En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.

Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.

En la página de Colombia es pasión, es posible leer lo siguiente:

Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.

Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:

… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…

En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.

Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.

En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.

Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.

En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:

En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.

Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.

En materia de estabilidad social

Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país

En materia de compromiso estatal

La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.

En materia de buen gobierno por la gente

Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.

En materia de seguridad

El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios

Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.

Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis


La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:

Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…

Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:

  • Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
  • Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
  • Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.

Entre los invitados nacionales están:

  • Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
  • Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá

Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.

  1. Estudiantes de pregrado: 100 mil pesos
  2. Profesionales: 150 mil pesos
  3. Participantes con poster o ponencia aprobada: 100 mil

La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:

heivarrodriguez@usantotomas.edu.co

La regla de oro del muestreo

La verdad no recuerdo si el sobrenombre <<regla de oro>> me lo inventé o lo leí en alguna parte. Pudo haber sido resultado de haber combinado la lectura del libro <<Foundations of Inference in Survey Sampling>> con la lectura de algún evangelio mientras meditaba en la conclusión del sermón del monte. Lo que recuerdo bien es que ese libro hablaba acerca de que una estrategia de muestreo es óptima siempre y cuando el vector de probabilidades de inclusión de primer orden fuese proporcional a la característica de interés. A eso es a lo que yo llamo la regla de oro del muestreo.

Al respecto, debo aclarar que, a mi modo de ver, lo de la proporcionalidad se debe entender como la similaridad en el comportamiento estructural de los dos conjuntos de datos (el vector de probabilidades de inclusión y el vector de valores observados de la característica de información auxiliar). Por ejemplo, suponga una encuesta de establecimientos en un país latino en donde hay pocas tiendas supergigantes que venden muchísimo, hay muchas tiendas grandes que venden mucho y hay muchísimas tienditas de barrio que venden poco. Ahora suponga tres diseños de muestreo para el mismo problema: el primero, que asigna probabilidades de inclusión iguales a cada elemento de la población, el segundo que asigna mayores probabilidades de inclusión a las tienditas que venden menos y menores probabilidades de inclusión a las supertiendas que venden muchísimo, y el tercer diseño que asigna probabilidades de inclusión mayores a las supertiendas y menores a las tienditas. Teniendo en cuenta la regla de oro del muestreo, el mejor diseño es este último pues más ventas implica mayores probabilidades de inclusión y menos ventas implica menores probabilidades de inclusión.

¿Por qué? Por el principio de representatividad sobre el cual se basa todo el andamiaje epistemológico de la inferencia en poblaciones finitas. Palabras más, palabras menos, se dice que a pesar de la variación per se de todas la poblaciones, algunos individuos son capaces de representarse a sí mismos y a algún otro conjunto de individuos. Es por lo anterior que en estadística se utilizan ponderadores para representar a la población de interés y, como es bien sabido, un ponderador natural es el inverso de la probabilidad de inclusión. Por tanto, un individuo con una probabilidad de inclusión máxima igual a uno, sólo es capaz de representarse a sí mismo y a nadie más, puesto que el inverso de la unidad es la unidad. Un individuo con una probabilidad de inclusión baja, se representará a si mismo y a un conjunto grande de individuos. Si se utiliza el primer diseño muestral, se está incurriendo en un error puesto que se le está asignando el mismo peso a las supertiendas gigantes que a las tienditas de barrio. Pero si se utiliza el segundo diseño muestral se está incurriendo en un error más grave aún puesto que se está afirmando que la supertienda gigante se representa a si misma y a muchas otras y a la vez las tienditas no tienen mucha representación en la población. Lo anterior es obviamente incorrecto. Así que, la regla de oro del muestreo, no es otra cosa que sentido común. Y contra el sentido común no hay mucho que pelear. Por eso a mi me gusta afirmar en mis clases que el diseño muestral y el estimador deben ser igualmente importantes. De qué sirve un mal diseño combinado con el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados….. sirve de nada.

Échantillonnage et estimation

Je voudrais remercier les personnes qui, d’une maniere ou d’une autre, m’ont aidé à introduit le monde des enquêtes et échantillonnage… Mes remerciements à David Ospina Botero, Ana Milena Salamanca, Leonardo Bautista et à Leonardo Trujillo.

Nuevo portal WEB de la Revista Comunicaciones en Estadística

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.

http://comunicacionesenestadistica.usta.edu.co

La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.

La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:

  • Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
  • Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
  • Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
  • Una revisión de los modelos de volatilidad estocástica.
  • Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.

Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a

revistaestadistica@usantotomas.edu.co

Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.

Meta-Análisis estadístico de encuestas electorales en Colombia: El fenómeno de Familias en Acción

Hace varios días quería escribir esta entrada que, aunque al día de hoy puede parecer un poco desactualizada, tiene una connotación estadística interesante. Si no la escribí en su tiempo pertinente fue por dos motivos: el primero emocional, causado por la decepción que me produjo los resultados electorales en Colombia y el segundo terrenal, pues estaba ausente de mi sitio regular de trabajo (aunque seguía trabajando, por supuesto). Ahora que en mi vida todo vuelve a la normalidad y la interesante rutina toma su lugar, es tiempo de reflexionar y comentar este interesante fenómeno, no sin antes agradecer a mi maestro LGDM por haberme transmitido desde la distancia su parecer, el cual motivo esta entrada. En primer lugar quiero introducir algunos conceptos que el lector desprevenido debe interiorizar para un mejor entendimiento del tema y luego de contextualizar la coyuntura electoral colombiana pasaré a exponer la idea principal y las conclusiones de este fugaz estudio.

Para entrar en materia es necesario exponer que mucho descubrimientos de la ciencia médica han tenido lugar debido a que la estadística ha incorporado entre su arsenal de herramientas una técnica basada en la recopilación de observaciones de diferentes estudios en diferentes tiempos e incluso en diferentes países y regiones. Se trata del meta-análisis, que según información de la red, fue empleado por primera vez por Eugene V. Glass en 1976 y es usado con autoridad y como evidencia en muchas publicaciones científicas médicas de renombre internacional. Para los escépticos, hay que afirmar que esta técnica fue utilizada por primera vez por el señor por Karl Pearson a principios del siglo pasado para palear los problemas que se presentan cuando se trabaja con tamaños de muestra pequeños.

El lector se preguntará cuál es la relación entre estos estudios clínicos con el título de esta entrada. Pues bien, se trata de analizar rápida y empíricamente el comportamiento de la tendencia electoral en Colombia para luego contrastarla con los resultados reales de las votaciones… El análisis se hará teniendo en cuenta los resultados de las encuestas electorales de los últimos meses, tal y como lo haría un investigador médico con un conjunto de experimentos, tal y como lo sugiere el meta-análisis. Es claro que no se tienen experimentos controlados pero dado que el tamaño de muestra final es elevado, este supuesto se puede omitir, máxime cuando los resultados de las encuestadoras no fueron disimiles.

Yo siempre he afirmado que no soy dogmático de ninguna rama de la estadística; aunque como conocedor de los temas de muestreo presté poca importancia a la validez individual de cada resultado que las firmas encuestadoras colombianas presentaban en sus sondeos de opinión. Sin embargo, la tendencia de un empate técnico era clara, continua y contundente. Ahora, apelando a la teoría estadística de la inferencia en poblaciones finitas basada en modelos poblacionales y reuniendo las observaciones de las distintas encuestas – justo como en el meta-análisis – se llega no sólo a un tamaño de muestra alto, sino a conclusiones similares, pero esta vez respaldadas por las técnicas estadísticas. El lector estará de acuerdo conmigo en que, bajo este escenario, la reunión de tantas y tantas observaciones no es una cuestión de poca importancia.

Con base en lo anterior, se podría afirmar que existe evidencia estadística de que la votación de la primera vuelta de las elecciones presidenciales en Colombia no sería otra cosa que una reñida puja entre el candidato del oficialismo y el candidato independiente. Sin embargo, la realidad de las votaciones arrojó otro escenario muy distinto al que sugería la estadística. El candidato oficialista obtuvo una ventaja de tres millones de votos frente a su inmediato contendor independiente… ¿Qué paso?, esa fue la pregunta que, con seguridad, fue planteada por más de tres millones de votantes simpatizantes del candidato independiente. Si por un lado, y con poca validez estadística, las encuestas realizadas pronosticaban un empate y por el otro, y con harta validez estadística, el meta-análisis parece concluir de la misma manera, ¿qué diantres pasó?

Yo no sé con seguridad si lo que voy a afirmar a continuación sea la respuesta a la pregunta, pero si sé que explica muy bien el fenómeno. Dos argumentos, los siguientes:

Primero: en Colombia existe un programa gubernamental de ayuda a la población menos favorecida del país (que lamentablemente es la gran mayoría). Cifras oficiales indican que unas tres millones de familias están activas en este programa que provee una ayuda de entre 10 a 15 dólares mensuales. Para recibir esta ayuda es necesario demostrar que la familia es pobre, muy pobre. Segundo: volviendo a los supuestos del meta-análisis, la mayoría de las encuestas fue realizada en los principales municipios y ciudades del país de forma telefónica y unas pocas se hicieron por interceptación en la calle. Lo anterior no garantiza la homogeneidad y control de un experimento de laboratorio. A todas las encuestadoras se les olvidó que la gran mayoría de Colombianos con teléfono no pertenece a ese cúmulo de familias que reciben ese beneficio del estado; si no tienen dinero para comer mucho menos para pagar las cuentas del teléfono… Grave error si se quieren realizar pronósticos en un país en donde la regla es la pobreza… A todas las firmas de sondeos de opinión se les olvidó que la política de este gobierno está basada en la mano dura y que es de todos conocida la injerencia indirecta del estado en la contienda electoral… Grave error porque ya era bien sabido que se había amenazado a los beneficiarios de Familias en Acción de que el candidato independiente anularía este programa y los perjudicaría directamente… Grave error si se tiene en cuenta que tres millones de votantes pobres y desesperados pueden hacer una gran diferencia en las elecciones.

Muy a pesar mío sé que esta entrada tendrá el mismo efecto que tiene un grito debajo del agua y que muy pocas personas oirán el clamor que las ocho millones de personas que en este mismo instante tienen hambre en mi país.

PD: como conclusión se puede afirmar que en estadística no todo vale, no todo vale, no todo vale y que las muestras son sagradas, las muestras son sagradas, las muestras son sagradas.

Muestreo y análisis de encuestas en R (Parte III)

En este enlace usted encontrará la tercera parte del curso seminario de muestreo y análisis de encuestas en R. Esta presentación profundiza en algunos diseños estratificados con estimación en dominios y con la utilización de una característica de información auxiliar continua.

El objetivo de la presentación es utilizar la información auxiliar discreta de manera adecuada en la implementación de una estrategia de muestreo con marcos de muestreo estratificados. El contenido está relacionado con la definición y puesta en práctica del muestreo estratificado, muestreo aleatorio estratificado, muestreo estratificado PPT  y otras estrategias de muestreo.