“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Posts tagged Muestreo
Diplomado en metodología de encuestas
Jun 10th
La empresa IntStat (International Statistics), dictará un seminario de diseño y metodología de encuestas dirigido a todos aquellos profesionales de las diferentes ramas del saber cuyo desarrollo profesional y/o proyecto de vida esté encaminado en el diseño, análisis y estimación de encuestas.
El enfoque del seminario es el diseño práctico de encuestas en diferentes escenarios y campos profesionales como investigación de mercados, encuestas gubernamentales, políticas y de negocios, estudios ambientales. Sin embargo, no se deja de lado la robustez teórica en la estimación de los parámetros.
La inscripción y petición de información está disponible al escribir al siguiente correo electrónico:
spad@cable.net.co
Mi libro de muestreo
May 13th
No es un secreto para nadie que si existe algo que me apasiona es la inferencia en poblaciones finitas y el muestreo. Basta con ojear la nube de etiquetas para darse cuenta de ello. En mi biblioteca personal cuento 16 libros de muestreo, todos de ellos muy pero muy buenos. Desde Raj (1968), el griego, hasta Tillé (2007). Desde el design-based hasta el model-based. La realidad es que este mundo del muestreo es muy amplio y sería una muy linda tarea, aunque utópica, unificar algunos de los temas más importantes del muestreo.
Si el encargado de tal tarea fuera yo, el prefacio de mi libro sería el siguiente:
Aunque tremendamente poderoso, el término estrategia de muestreo no ha tenido la trascendencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades están ligadas al diseño de muestreo que se haya utilizado en la recolección de la información. Para mí, el aprendizaje de esta materia es más sencillo cuando se valora de igual manera el diseño de muestreo junto con el estimador del parámetro de interés utilizado en la población finita. No se puede desconocer la regla de oro del muestreo que clama: “Utilizar diseños de muestreo que induzcan probabilidades de inclusión (o selección, según sea el caso) proporcionales al valor de la característica de interés en la población y utilizar estimadores que involucren dichas probabilidades”. Por la anterior razón he decido intitular este texto como: Estrategias de muestreo, diseño de encuestas y estimación de parámetros.
En la búsqueda combinada de una mejor estrategia de muestreo he querido dividir este texto en cuatro partes que pueden ser utilizadas en los distintos niveles de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. La división del libro corresponde al desarrollo teórico del muestreo a través de su corta historia.
La primera parte del libro es un recuento de las estrategias de muestreo más comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemática, el lector será introducido en el ámbito de la inferencia basada en el diseño de muestreo, que considera a los valores de la característica de interés como pseudo-parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada estrategia planteada. A diferencia de la mayoría de los libros de mi biblioteca, considerados obras clásicas, he querido proponer la revisión de todas las estrategias de muestreo con un solo Marco de muestreo, en algunas ocasiones más generoso que en otras, y una sola población (Lucy) con el fin de plantear al lector un problema que puede ser resuelto desde diversos ángulos y no, como en todos los libros de muestreo, proponer ejemplos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca del desarrollo de la estrategia. En esta parte expongo tres conceptos totalmente determinantes al momento de plantear una estrategia de muestreo. El primero y más importante de ellos: el soporte que define la realización de una muestra probabilística y por consiguiente la validez en la inferencia. El lector puede darse cuenta del marcado interés que tengo en este concepto al diferenciarlo, de una vez y por todas, de la muestra aleatoria, que no es más que un vector aleatorio. En segundo lugar he hecho énfasis en el concepto de diseño de muestreo tratándolo como una distribución de probabilidad multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta primera parte se demuestra que efectivamente el diseño de muestreo propuesto verifica las propiedades de una distribución de probabilidad. Por supuesto, el último concepto es el de estimador cuya definición y uso es más difundido entre los usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico (gran legado del maestro Leonardo Bautista) y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desarrollo computacional del paquete muestreo creado en el ambiente del software de uso libre R de la manera más amigable posible.
La segunda parte, corresponde a la utilización y aprovechamiento de la información auxiliar disponible en el marco de muestreo. No sólo se desarrollan nuevos estimadores que mejoran la eficiencia de la estrategia, sino que también se adjunta al proceso de estimación el uso de un modelo que permite describir el comportamiento de la característica de interés en la población dando un paso muy importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a la característica de interés como una variable aleatoria en el modelo propuesto.
La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. Entre otros selectos temas, se consideran los estimadores de calibración, el muestreo balanceado y el muestreo indirecto. Estos contenidos están sujetos a un gran sesgo personal inducido por los años de asistencia al seminario de muestreo de la Universidad Nacional de Colombia conducido por el maestro Leonardo Bautista.
La cuarta y última parte del texto intenta dar una muy breve introducción a la inferencia en poblaciones finitas bajo un enfoque basado en el modelo supuesto. Es interesante observa que, con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en la estimación de dominios raros más conocidos como áreas pequeñas. Esta parte empieza con la famosa discusión de Basú (1971) que aún hoy sigue siendo la piedra de tropiezo entre las dos corrientes de la estadística. Este tipo de inferencia no considera el diseño de muestreo ni la forma en la que la información fue recolectada, sino que se basa en el modelo poblacional propuesto para realizar la inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán las estimaciones.
Por último, deseo expresar mis agradecimientos al Dios de mi padre, que me ha dado todo lo que tengo y me ha seleccionado para pertenecer en la muestra. De no ser así, no estaría escribiendo estas líneas. Agradezco el infinito apoyo que encontré en Winny en la corrección de las demostraciones así como en la invaluable motivación que me brindó. Agradezco el continuo ánimo de Oscar Ortega y de sus valiosos consejos. A mis amigos, Yesid, Ronne y Daniel.
Este libro está dedicado al maestro Leonardo Bautista, quién me enseñó que lo importante no es la memorización de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la mejor estrategia. Lo anterior tiene sentido, no sólo en estadística, sino en el diario vivir.
Bogotá, Colombia.
La bolsa de dulces
May 10th
Gelman y Nolah (2002), en su libro titulado Teaching Statistics inducen una buena práctica estadística que debería ser implementada en las aulas (Por cierto, si usted es docente, le aconsejo obtener una copia de este libro. Es el fruto de años de recolección, invención y experimentación de estos veteranos). Se deben seguir los siguientes pasos:
Preparación
Compre 100 dulces de diferentes tamaños y formas y colóquelos en una bolsa. Puede comprar algo como 20 barras de dulce tamaño grande, 20 o 30 dulces medianos como las barras mini Snickers y 50 o 60 dulces individuales, realmente pequeños. Cuéntelos y asegúrese de que sean exactamente 100 dulces. También necesitará una pesa que pueda medir el peso de los dulces en gramos y con precisión.
Dentro de un sobre escribirá una nota (detalles más abajo) y lo sellará. Cuando entre en el aula, ponga el sobre en algún lugar.
Montaje
Sostenga la bolsa de dulces y la pesa y escriba lo siguiente en el tablero:
Cada par de estudiantes deberá:
- Tomar 5 dulces de la bolsa
- Pesar los dulces
- Registrar el peso de los dulces
- Devolver los dulces a la bolsa!!!
- Pasar la pesa y la bolsa a sus vecinos
En silencio, multiplicar el peso de los 5 dulces por 20.
Los estudiantes deberán trabajar en parejas. Explique que el objetivo es estimar el peso total de la bolsa de dulces. La selección de los dulces puede ser hecha por cualquier método – muestreo aleatorio simple, sistemático, etc. La pareja cuya estimación se acerque más al peso verdadero se lleva la bolsa de dulces!!!
Acción
La demostración procederá por el resto de la clase. Eche un vistazo y asegúrese de que la bolsa y la pesa estén en movimiento a través del aula. Después de 30 o 40 minutes, el ejercicio se completará.
En este punto, pregunte a cada pareja, una a la vez, sus estimaciones. Escríbalas en el tablero. Éstas serán números como 3080, 2400, 4340, etc. Una vez que todas las estimaciones están escritas, haga un histograma sencillo (por ejemplo, forme clases de 2000-3000 gramos, 3000-4000, 4000-5000, etc.). Éste representa la distribución de muestreo de las estimaciones.
Ahora, escoja a una pareja para que, habiendo visto el histograma, busque las mejores estimaciones. Pregunte a la clase si está de acuerdo con lo que dice la pareja. Ahora, entregue la bolsa a los estudiantes para que la pese.
Resultados
El peso de los 100 dulces estará alrededor de 1650 gramos. Es siempre, siempre, siempre, siempre, siempre, siempre, siempre menor que las estimaciones individuales escritas en el tablero. Escriba el verdadero peso como una barra vertical en el histograma. Este ejercicio resulta de bastante utilidad para enseñar los conceptos de sesgo y error estándar de un estimador.
Ahora abra el sobre: “Mmmm, uh, ¿qué es eso? … ¿es un sobre?”. Lea lo que dice en la nota al interior del sobre: “Sus estimaciones están demasiado altas!!!”
¿Por qué?
Ahora es tiempo de hablar un poco sobre muestreo. Los dulces grandes son fáciles de ver y de agarrar, mientras que los dulces pequeños caen entre los grandes y terminan al final de la bolsa. Pregunte, cómo seleccionar una muestra aleatoria. No será obvio, para los estudiantes, que una forma de hacerlo es numerar los dulces de 1 a 100 y adjuntar un número aleatorio, después ordenar y seleccionar los cinco primeros.
Nuevas técnicas de muestreo
Mar 27th
Un poco de memoria (2)
Nov 19th
La inferencia inversa procede de lo particular a lo general, la inferencia directa de lo general a lo particular
En esta época, la tendencia es usar la inferencia basada en el diseño para la estimación en grandes dominios y muestreo sintético (inferencia basada en modelos) para la estimación en dominios pequeños dentro del mismo estudio… hace alusión al uso de los estimadores de calibración cosméticos que combinan los dos tipos de inferencias simultáneamente.
El hecho de que un estimador pueda ser visto o interpretado como un predictor obtenido de una regresión lo hace muy atractivo.
Un poco de memoria
Nov 7th

Hagamos un poco de memoria… en 1977, Godambe sugirió, en el curso de una discusión en el congreso internacional de estadística en Nueva Delhi, que se debía buscar una manera de encontrar estimadores que tuvieran sentido en ambos tipos de inferencia. Más adelante Särndal y Wright (1984) y Brewer (1999) llevaron a cobo la implementación de esta sugerencia.
El tipo de inferencia dominante después de la segunda guerra mundial fue la inferencia basada en el diseño de muestreo (Neyman, 1934); sin embargo, a comienzos de los años 70’s, Richard royal, con la ayuda de muchos coautores, cambiaron rotundamente esa tendencia con gran determinación. Él afirmó que la inferencia basada en el diseño, aunque no hace supuestos acerca de las probabilidades y parece ser no paramétrica (distribution free) y robusta, estaba sujeta a importantes defectos. Algunas de las limitaciones que cita Royall (1971) son:
- Las sorprendentes complicaciones encontradas en el estudio y ejecución de los diseños de probabilidad proporcional al tamaño y
- Las torpezas y equivocaciones de casi todos las estimaciones probabilísticas concernientes a la estimación de razones
La sugerencia de Royall fue aún más radical. Él propuso abandonar la inferencia basada en el diseño de muestreo a favor de estimadores cuyas útiles propiedades (insesgamiento, consistencia, optimalidad, etc) estuvieran definidas en términos del modelo predictivo apropiado. Esto significa que conceptos como el sesgo y la varianza ya no están definidos como esperanzas a través de todas las posibles muestras, sino como promedios de las realizaciones de las unidades poblacionales (estén en la muestra o no) bajo el modelo predictivo establecido. Desde el punto de vista de Royall, el proceso de aleatorización se convierte en irrelevante y propone que la muestra sea escogida a conveniencia (lo que en la práctica significa escoger las unidades más grandes).
Acerca de los modelos predictivos Box (1979) dice que “todos los modelos son errados, pero algunos son útiles”. El hecho de que todos los modelos están equivocados se hace más y más claro cuando el tamaño de la muestra se incrementa… por eso las estimaciones resultantes de un modelo predictivo errado son muy malas.
De una cosa hay que estar seguros… la inferencia basada en modelos predictivos y la inferencia basada en el diseño de muestreo no se deben ver como competencia sino como puntos de vista que pueden llegar a ser complementarios, es así como nace la inferencia basada en el diseño de muestreo, pero asistida por modelos predictivos (model assited survey sampling).
Pero estos dos tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su filosofía es literalmente distinta (continuara…)
Entendiendo la diferencia
Oct 26th
-
La inferencia basada en el diseño muestral, que utiliza las probabilidades de inclusión de cada elemento en la muestra para estimar las cantidades de interés.
-
La inferencia basada en modelos predictivos, que utiliza los datos de la muestra para construir un modelo que permita predecir los valores no observados en la muestra y así llegar a una estimación de las cantidades de interés. Este tipo de inferencia no utiliza las probabilidades de inclusión
Eh lector, lector que hasta este momento del post no conocías alguno de los dos tipos de inferencia, permíteme representar esta discusión con los profesores L y E, cada uno acérrimo defensor de su punto de vista.
E: Creo que usted sigue viviendo en los ochentas. No tenga la menor duda de que las cosas han cambiado un poco. Muchos estadísticos académicos están a favor de la inferencia basada en modelos predictivos
L: Es cierto, pero ese tipo de inferencias no es usado en la vida práctica profesional. ¡Dígame al menos una entidad estatal que la utilice!
E: Claro que las hay, al tratar de estimar parámetros en dominios pequeños se utilizan estimadores sintéticos. Esos estimadores están basados en modelos predictivos.
L: Ah, pero sólo se utilizan en dominios pequeños. De lo contrario no se utilizan. Bien, si usted está tratando de estimar un parámetro en un dominio pequeño, la inferencia basada en modelos predictivos puede ser particularmente útil…
E: No, es más que eso, se trata de que la inferencia basada en el diseño muestral es particularmente mala para muestras pequeñas. Fíjese que con una muestra probabilística usted puede seleccionar las unidades más grandes y dejar a las chicas de lado, con la inferencia basada en el diseño tendría unas malas estimaciones. Una manera más segura de evadir esa posibilidad es dividir la población en grupos y hacer una selección de unidades en cada grupo
L: Cómo una clase de estratificación
E: Mmm estratificación si, digamos que sí. La estratificación por el tamaño de las unidades es muy útil, pero el punto es que debería conocer muy bien la población.
L: Precisamente, y si usted no conoce muy bien la población, podría ajustarle un modelo totalmente equivocado y como resultado tendría unas malas estimaciones…
Lector asombrado, está discusión se ha prolongado desde hace veinte años, en los próximos posts trataremos de develar cada uno de sus secretos.
La fábula de los elefantes de Basu
Sep 25th

En en estos días he estado reflexionando sobre el porqué algunos pintorescos personajes se ven influenciados por el lado oscuro de la fuerza. Alguna vez un socio de negocios me advirtió sobre la posibilidad de que en la marcha él pudiera volverse al lado oscuro de la fuerza; en ese momento no le presté atención, pero más adelante entendería muy bien a lo que se refería.
-
El enfoque tradicional y clásico basado en una inferencia hacia el infinito, en donde se asumen poblaciones hipotéticas (y si se le quiere utópicas). En este enfoque se tiene una muestra de n observaciones independientes sobre una variable aleatoria X que tiene una función de densidad.
-
El enfoque basado en una inferencia hacia la población finita en donde una muestra es seleccionada con respecto a un diseño de muestreo.
En realidad, aunque existe conflicto, estos dos enfoque no son opuestos ni contradictorios; simplemente, son dos enfoques… Me permito citar la siguiente fábula de Basu (una vez más, el profesor Trujillo disculpará mi deficiente inglés) que, desde su publicación, removió la bases de la inferencia basada en el segundo enfoque.
El dueño de un circo está planeando transportar sus 50 elefantes adultos, para este propósito él necesita una buena estimación del peso total de los elefantes. Como pesar un elefante es una tarea muy incomoda, el dueño del circo quiere estimar el peso total pesando sólo un elefante. ¿Cuál elefante debería pesar? El dueño del circo decide echar un vistazo a sus registros y descubre una antigua lista de los pesos de los elefantes, elaborada hace tres años. Él encuentra que tres años atrás Sambo, un elefante mediano, era el promedio (en peso) de su manada. El dueño del circo verifica la información con el entrenador quien le asegura que Sambo todavía puede considerarse como el promedio de la manada.
Así, el dueño del circo planea pesar a Sambo y tomar a 50x (donde x es el peso de Sambo) como una estimación del peso total X=X_1+…+X_50 de la manada. Pero el estadístico del circo se aterra al conocer el plan de muestreo del dueño (con un diseño de muestreo no probabilístico).
- ¿Cómo puede obtener una estimación insesgada de X? – protesta el estadístico
Así, ellos trabajan juntos en la elaboración de un plan de muestreo. Con la ayuda de una tabla de números aleatorios, diseñan un plan que asigna una probabilidad de inclusión de 99/100 a Sambo y probabilidades de 1/4900 al resto de la manada. Naturalmente, Sambo es seleccionado y el dueño del circo está feliz.
- ¿Cómo va a estimar X? – pregunta el estadístico
- ¿Por qué? La estimación debería ser 50x, por supuesto – responde el dueño
- ¡Oh¡ no, eso es incorrecto – responde el estadístico – recientemente, yo leí en un artículo de Annals of Mathematical Statistics, en donde se prueba que el estimador de Horvitz-Thompson es el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados.
- ¿Cuál sería la estimación de Horvitz-Thompson en este caso? – pregunta el impresionado dueño – Dado que la probabilidad de inclusión de Sambo fue de 99/100 – dice el estadístico – el estimador es 100/99x y no 50x
- ¿Y cuál sería nuestra estimación si el plan de muestreo hubiese seleccionado a Jumbo? – pregunta el incrédulo dueño
- De acuerdo a lo que yo entiendo acerca del método de Horvitz-Thompson – dice el infeliz estadístico – el estimador de X sería 4900x donde x es el peso de Jumbo.De esta forma, el estadístico perdió su empleo (y quizás se convirtió en profesor de estadística).
Sharon Lohr se pregunta si fue justo despedir o no al estadístico; esa pregunta se me antoja irrelevante (para mí la “falla” se presenta en el astuto empresario), simplemente mi comentario es que un buen diseño de muestreo debe tener la característica de inducir probabilidades de inclusión que tengan una buena correlación con la variable de interés.
Muestras representativas
Sep 3rd
Uno de los objetivos de este blog es traer a discusión algunos conceptos estadísticos y profundizar no sólo en su significado sino también en su interpretación. Bien, en este post vamos a tratar un concepto que, por estos días de campañas electorales, está en boca de muchas personas: las muestras representativas.Tille (2006) cita el siguiente ejemplo: Suponga que el objetivo es estimar la producción de hierro en un país y que nosotros sabemos que el hierro es producido, por dos compañías gigantes con miles de empleados y por cientos de pequeñas compañías con pocos empleados. ¿La mejor forma de seleccionar la muestra consiste en asignar la misma probabilidad a cada compañía? Claro que no. Primero averiguamos la producción de las grandes compañías. Después, seleccionamos una muestra de las compañías pequeñas.
La muestra no debe ser un modelo reducido de la población; debe ser una herramienta usada para obtener estimaciones. Es así como el concepto de muestra representativa pierde peso. Más aún, para Hájek (1981), una estrategia de muestreo es una dupla: diseño de muestreo (distribución de probabilidad sobre todas las posibles muestras) y estimador. La teoría de muestreo se ha ocupado de estudiar estrategias óptimas que permitan asegurar la calidad de las estimaciones. Entonces, el concepto de representatividad debería estar asociado con las estrategias de muestreo y no sólo con las muestras.
Siguiendo con Tille (2006), una estrategia se dice representativa si permite estimar un total poblacional exactamente; es decir, sin sesgo y con varianza nula. Si se utiliza el estimador de Horvitz-Thompson junto con un diseño de muestreo apropiado, esta estrategia es representativa sólo si, junto con la muestra seleccionada, el estimador reproduce algunos totales de la población; tales muestras se llaman muestras balanceadas. Existen también, estimadores que brindan a la estrategia el calificativo de representativa, algunos de ellos son conocidos como estimadores de calibración.
Conclusión: La muestra es una herramienta que no admite el calificativo de representativa. La estrategia de muestreo se dice representativa si el estimador aplicado en la muestra seleccionada tiene la capacidad de reproducir algunos totales poblaciones.









Comentarios