Mi libro de muestreo

No es un secreto para nadie que si existe algo que me apasiona es la inferencia en poblaciones finitas y el muestreo. Basta con ojear la nube de etiquetas para darse cuenta de ello. En mi biblioteca personal cuento 16 libros de muestreo, todos de ellos muy pero muy buenos. Desde Raj (1968), el griego, hasta Tillé (2007). Desde el design-based hasta el model-based. La realidad es que este mundo del muestreo es muy amplio y sería una muy linda tarea, aunque utópica, unificar algunos de los temas más importantes del muestreo.

Si el encargado de tal tarea fuera yo, el prefacio de mi libro sería el siguiente:

Aunque tremendamente poderoso, el término estrategia de muestreo no ha tenido la trascendencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades están ligadas al diseño de muestreo que se haya utilizado en la recolección de la información. Para mí, el aprendizaje de esta materia es más sencillo cuando se valora de igual manera el diseño de muestreo junto con el estimador del parámetro de interés utilizado en la población finita. No se puede desconocer la regla de oro del muestreo que clama: “Utilizar diseños de muestreo que induzcan probabilidades de inclusión (o selección, según sea el caso) proporcionales al valor de la característica de interés en la población y utilizar estimadores que involucren dichas probabilidades”. Por la anterior razón he decido intitular este texto como: Estrategias de muestreo, diseño de encuestas y estimación de parámetros.

En la búsqueda combinada de una mejor estrategia de muestreo he querido dividir este texto en cuatro partes que pueden ser utilizadas en los distintos niveles de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. La división del libro corresponde al desarrollo teórico del muestreo a través de su corta historia.

La primera parte del libro es un recuento de las estrategias de muestreo más comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemática, el lector será introducido en el ámbito de la inferencia basada en el diseño de muestreo, que considera a los valores de la característica de interés como pseudo-parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada estrategia planteada. A diferencia de la mayoría de los libros de mi biblioteca, considerados obras clásicas, he querido proponer la revisión de todas las estrategias de muestreo con un solo Marco de muestreo, en algunas ocasiones más generoso que en otras, y una sola población (Lucy) con el fin de plantear al lector un problema que puede ser resuelto desde diversos ángulos y no, como en todos los libros de muestreo, proponer ejemplos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca del desarrollo de la estrategia. En esta parte expongo tres conceptos totalmente determinantes al momento de plantear una estrategia de muestreo. El primero y más importante de ellos: el soporte que define la realización de una muestra probabilística y por consiguiente la validez en la inferencia. El lector puede darse cuenta del marcado interés que tengo en este concepto al diferenciarlo, de una vez y por todas, de la muestra aleatoria, que no es más que un vector aleatorio. En segundo lugar he hecho énfasis en el concepto de diseño de muestreo tratándolo como una distribución de probabilidad multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta primera parte se demuestra que efectivamente el diseño de muestreo propuesto verifica las propiedades de una distribución de probabilidad. Por supuesto, el último concepto es el de estimador cuya definición y uso es más difundido entre los usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico (gran legado del maestro Leonardo Bautista) y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desarrollo computacional del paquete muestreo creado en el ambiente del software de uso libre R de la manera más amigable posible.

La segunda parte, corresponde a la utilización y aprovechamiento de la información auxiliar disponible en el marco de muestreo. No sólo se desarrollan nuevos estimadores que mejoran la eficiencia de la estrategia, sino que también se adjunta al proceso de estimación el uso de un modelo que permite describir el comportamiento de la característica de interés en la población dando un paso muy importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a la característica de interés como una variable aleatoria  en el modelo propuesto.

La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. Entre otros selectos temas, se consideran los estimadores de calibración, el muestreo balanceado y el muestreo indirecto. Estos contenidos están sujetos a un gran sesgo personal inducido por los años de asistencia al seminario de muestreo de la Universidad Nacional de Colombia conducido por el maestro Leonardo Bautista.

La cuarta y última parte del texto intenta dar una muy breve introducción a la inferencia en poblaciones finitas bajo un enfoque basado en el modelo supuesto. Es interesante observa que, con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en la estimación de dominios raros más conocidos como áreas pequeñas. Esta parte empieza con la famosa discusión de Basú (1971) que aún hoy sigue siendo la piedra de tropiezo entre las dos corrientes de la estadística. Este tipo de inferencia no considera el diseño de muestreo ni la forma en la que la información fue recolectada, sino que se basa en el modelo poblacional propuesto para realizar la inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán las estimaciones.

Por último, deseo expresar mis agradecimientos al Dios de mi padre, que me ha dado todo lo que tengo y me ha seleccionado para pertenecer en la muestra. De no ser así, no estaría escribiendo estas líneas. Agradezco el infinito apoyo que encontré en Winny en la corrección de las demostraciones así como en la invaluable motivación que me brindó. Agradezco el continuo ánimo de Oscar Ortega y de sus valiosos consejos. A mis amigos, Yesid, Ronne y Daniel.

Este libro está dedicado al maestro Leonardo Bautista, quién me enseñó que lo importante no es la memorización de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la mejor estrategia. Lo anterior tiene sentido, no sólo en estadística, sino en el diario vivir.

Bogotá, Colombia.

Acerca de la estadística Bayesiana

 

 

 

En la página web del autor del éxito en ventas “Bayesian Data Analysis” se encuentra un punto de vista acerca de la inferencia realizada por los estadístico Bayesianos.

La inferencia Bayesiana es una teoría matemática coherente pero no brinda la suficiente confianza en usos científicos. Las distribuciones a priori subjetivas no inspiran confianza porque ni siquiera existe algún principio objetivo para elegir una a distribución a priori no informativa (incluso si ese concepto estuviera definido matemáticamente, pues no lo está). ¿De dónde vienen las distribuciones a priori? No confío en ellas y no veo ninguna razón para recomendarlas a otra gente, apenas me siento cómodo acerca de su coherencia filosófica.

La teoría Bayesiana requiere un pensamiento mucho más profundo sobre la situación y recomendar el teorema de Bayes para el uso de los científicos es como darle al hijo del vecino la llave de un F-16. De veras que, yo comenzaría con algo de métodos probados y confiables, y entonces generalizaría la situación utilizando los principios estadísticos y la teoría del minimax, que no dependen de ninguna creencia subjetiva. Especialmente cuando las distribuciones a priori que veo en la práctica toman formas conjugadas. ¡Qué coincidencia!

Dejando de lado las preocupaciones matemáticas: Me gustan las estimaciones insesgadas, los intervalos de confianza con un nivel real de cobertura. Pienso que la manera correcta de inferir es acercarse al parámetro tanto como sea posible y desarrollar métodos robustos que trabajen con supuestos mínimos. El acercamiento Bayesiano intenta aproximar el insesgamiento, mientras asume supuestos más y más fuertes. En los viejos tiempos, los métodos Bayesianos por lo menos tenían la virtud de estar matemáticamente limpios. Hoy en día, cualquier inferencia se realiza mediante el uso de las cadenas de Markov mediante métodos de Monte Carlo (MCMC). Lo anterior significa que, no sólo no se pueden evaluar las características estadísticas del método, sino que tampoco se puede asegurar su convergencia.

La gente tiende a creer los resultados que apoyan sus preconceptos y descreen los resultados que los sorprenden, ésta es una forma errada y sesgada de pensar. Pues bien, los métodos Bayesianos animan este modo indisciplinado de pensamiento. Estoy seguro que muchos estadísticos Bayesianos están actuando de buena fe. Sin embargo; al mismo tiempo, están proporcionando estímulo a científicos descuidados y poco éticos por todas partes, porque el investigador queda estancado al momento de escoger una distribución a priori.

Y para no pasar a temas más críticos, termino la discusión con lo que los Bayesianos piensan acerca de la recolección de los datos. Los cálculos de la teoría Bayesiana de la decisión guían a la idea de que el muestreo probabilístico y la asignación aleatoria de tratamientos son ineficaces, de que los mejores diseños y muestras son los deterministas. No tengo ninguna conflictos con estos cálculos matemáticos — el conflicto es más profundo, en los fundamentos filosóficos, en la idea de que el objetivo de la estadística consiste en tomar una decisión óptima. Un estimador Bayesiano es un estimador estadístico que reduce al mínimo el riesgo promedio. Sin embargo, cuando hacemos estadística, no estamos intentando “reducir al mínimo el riesgo promedio“, estamos intentando hacer estimación y juzgamiento de hipótesis.

No puedo estar al tanto de lo que están haciendo todos esos Bayesianos hoy en día –desafortunadamente, toda clase de personas están siendo seducidas por las promesas de la inferencia automática con la “magia de MCMC “– pero desearía que todos paráramos de una vez y por todas y empezáramos, de nuevo, a hacer estadística de la forma en que debe ser hecha, volviendo a los viejos tiempos en que un p-valor era utilizado para algo, cuando un intervalo de confianza tenía significado, y el sesgo estadístico era algo que se quería eliminar y no algo que se debiera abrazar.

El autor de este blog, comparte algunas ideas de la anterior disertación. Sin embargo, reconoce la magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría estadística sino también en el pensamiento estadístico del autor. La estadística Bayesiana debe ser utilizada con expertise. Al ser utilizada por investigadores neófitos puede ser tergiversada. Sin embargo, el mal uso que se le dé a un método no involucra su credibilidad, sino la ignorancia del investigador.

La muerte de los mínimos cuadrados

Muerte

 

Un estudiante recién graduado se pregunta preocupadamente: “¿Todo lo que sé son mínimos cuadrados (MC)?, estos resultados no convencerán a nadie”. Un profesor pone en su puerta un letrero de MC encerrado en un círculo rojo con la raya negativa. Un gurú en modelamiento alaba la estimación máxima verosímil y maldice el método de MC. Todos ellos se están preguntando ¿Están muertos lo mínimos cuadrados (MC)? En el artículo de Krueger y Lewis-Beck se discute el estado del arte en relación a la estimación MC con base en ciencias políticas.

El análisis de regresión, en algunas versiones, ha servido como caballo de batalla en ciencia política. Dados los supuestos clásicos, existen dos corrientes en cuanto a la optimalidad del estimador MC. Unos argumentan que el estimador es robusto, pero otros argumentan que es un estimador muy frágil. Partiendo desde la perspectiva de fragilidad, entonces el uso del método MC puede resultar problemático. Tomando en cuenta estos argumentos, además de la incrementada atención en nuevos métodos de estimación, lo que esperaríamos es que los MC hayan cesado de aparecer en las investigaciones recientes.

Para asegurarse de esto, se han examinado una gran cantidad de publicaciones recientes (en el contexto de ciencia política) en los journals más leídos. En total N = 1756 artículos publicados. La tabla siguiente muestra la frecuencia de uso para diferentes técnicas cuantitativas. Esas técnicas pueden ser clasificadas como más o menos sofisticadas que los MC.

 

Uso de los m�nimos cuadrados

De acuerdo a esta clasificación, los MC es la técnica más popular, apareciendo en casi el 31% de los artículos. Tomando juntos, los estimadores que parecen ser más sofisticados – logit, probit, series de tiempo, técnicas de máximo verosimilitud, variables latentes, simulación, regresión avanzada – aparecen con un 43%. Los demás métodos cuantitativos que son menos sofisticados que los MC tienen un 21% de aparición.

Los MC no están muertos. Por el contrario, parece ser la principal técnica de análisis multivariado de los investigadores que publican en los principales journals. La academia debe tener en cuenta el buen funcionamiento de estos estimadores y las ventajas putativas de éste método debe estar siempre presente pues los MC ofrecen una lengua común interdisciplinaria à Es un método de fácil cálculo, de fácil entendimiento y de fácil interpretación. Por otra parte, no hay que olvidar que sigue siendo el mejor estimador lineal insesgado (BLUE, por sus siglas en inglés) cuando los supuestos clásicos de la regresión son satisfechos.

 

Un poco de memoria (2)

… Pero estos dos tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su filosofía es literalmente distinta.

 

La inferencia basada en el diseño de muestreo difiere radicalmente de la inferencia basada en los modelos predictivos y quizás de cualquier otro modelo estadístico, porque está basada exclusivamente en las observaciones muestrales y no hace supuestos a priori, además su dirección de análisis va en contravía con la dirección de la inferencia basada en modelos.
Kyburg (1987) escribe en su artículo una defensa y vindicación sobre la inferencia basada en modelos y hace un comentario con respecto al tipo de inferencias estadísticas que existen; él dice:

 

La inferencia inversa procede de lo particular a lo general, la inferencia directa de lo general a lo particular

Desde este punto de vista, la inferencia basada en el diseño de muestreo es inversa y la inferencia basada en modelos predictivos es directa. Nótese que la inferencia bayesiana también pertenece al grupo de las inferencias inversas. Brewer (1999) argumenta que

 

En esta época, la tendencia es usar la inferencia basada en el diseño para la estimación en grandes dominios y muestreo sintético (inferencia basada en modelos) para la estimación en dominios pequeños dentro del mismo estudio… hace alusión al uso de los estimadores de calibración cosméticos que combinan los dos tipos de inferencias simultáneamente. 

La idea de los estimadores cosméticos nace con Särndal y Wrigth (1984) y el argumento para utilizar esa palabra es

 

El hecho de que un estimador pueda ser visto o interpretado como un predictor obtenido de una regresión lo hace muy atractivo.

Finalmente desde la aparición del clásico libro de muestreo de Särndal, Swensson y Wretman, la historia de la inferencia en poblaciones finitas ha tomado otro matiz, definiendo no solamente al blanco y el negro sino que también una especie arcoíris entre estas dos corrientes del pensamiento inferencial.

Un poco de memoria


Hagamos un poco de memoria… en 1977, Godambe sugirió, en el curso de una discusión en el congreso internacional de estadística en Nueva Delhi, que se debía buscar una manera de encontrar estimadores que tuvieran sentido en ambos tipos de inferencia. Más adelante Särndal y Wright (1984) y Brewer (1999) llevaron a cobo la implementación de esta sugerencia. 

El tipo de inferencia dominante después de la segunda guerra mundial fue la inferencia basada en el diseño de muestreo (Neyman, 1934); sin embargo, a comienzos de los años 70’s, Richard royal, con la ayuda de muchos coautores, cambiaron rotundamente esa tendencia con gran determinación. Él afirmó que la inferencia basada en el diseño, aunque no hace supuestos acerca de las probabilidades y parece ser no paramétrica (distribution free) y robusta, estaba sujeta a importantes defectos. Algunas de las limitaciones que cita Royall (1971) son:

  1. Las sorprendentes complicaciones encontradas en el estudio y ejecución de los diseños de probabilidad proporcional al tamaño y
  2. Las torpezas y equivocaciones de casi todos las estimaciones probabilísticas concernientes a la estimación de razones

La sugerencia de Royall fue aún más radical. Él propuso abandonar la inferencia basada en el diseño de muestreo a favor de estimadores cuyas útiles propiedades (insesgamiento, consistencia, optimalidad, etc) estuvieran definidas en términos del modelo predictivo apropiado. Esto significa que conceptos como el sesgo y la varianza ya no están definidos como esperanzas a través de todas las posibles muestras, sino como promedios de las realizaciones de las unidades poblacionales (estén en la muestra o no) bajo el modelo predictivo establecido. Desde el punto de vista de Royall, el proceso de aleatorización se convierte en irrelevante y propone que la muestra sea escogida a conveniencia (lo que en la práctica significa escoger las unidades más grandes).

Acerca de los modelos predictivos Box (1979) dice que “todos los modelos son errados, pero algunos son útiles”. El hecho de que todos los modelos están equivocados se hace más y más claro cuando el tamaño de la muestra se incrementa… por eso las estimaciones resultantes de un modelo predictivo errado son muy malas.

De una cosa hay que estar seguros… la inferencia basada en modelos predictivos y la inferencia basada en el diseño de muestreo no se deben ver como competencia sino como puntos de vista que pueden llegar a ser complementarios, es así como nace la inferencia basada en el diseño de muestreo, pero asistida por modelos predictivos (model assited survey sampling).

Pero estos dos tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su filosofía es literalmente distinta (continuara…)

Entendiendo la diferencia

Es muy común encontrar en ambientes académicos este tipo de diálogos cuando se trata de estimar una cantidad de interés (parámetro) en una población finita. La siguiente discusión se da entre dos distinguidos profesores del departamento de estadística de una distinguida universidad de un país muy impopular…
El contexto de la discusión es que al seleccionar una muestra de manera probabilística existen dos posibles tipos de inferencia:
  1. La inferencia basada en el diseño muestral, que utiliza las probabilidades de inclusión de cada elemento en la muestra para estimar las cantidades de interés.
  2.  

  3. La inferencia basada en modelos predictivos, que utiliza los datos de la muestra para construir un modelo que permita predecir los valores no observados en la muestra y así llegar a una estimación de las cantidades de interés. Este tipo de inferencia no utiliza las probabilidades de inclusión

Eh lector, lector que hasta este momento del post no conocías alguno de los dos tipos de inferencia, permíteme representar esta discusión con los profesores L y E, cada uno acérrimo defensor de su punto de vista.

E: Creo que usted sigue viviendo en los ochentas. No tenga la menor duda de que las cosas han cambiado un poco. Muchos estadísticos académicos están a favor de la inferencia basada en modelos predictivos
L: Es cierto, pero ese tipo de inferencias no es usado en la vida práctica profesional. ¡Dígame al menos una entidad estatal que la utilice!
E: Claro que las hay, al tratar de estimar parámetros en dominios pequeños se utilizan estimadores sintéticos. Esos estimadores están basados en modelos predictivos.
L: Ah, pero sólo se utilizan en dominios pequeños. De lo contrario no se utilizan. Bien, si usted está tratando de estimar un parámetro en un dominio pequeño, la inferencia basada en modelos predictivos puede ser particularmente útil…
E: No, es más que eso, se trata de que la inferencia basada en el diseño muestral es particularmente mala para muestras pequeñas. Fíjese que con una muestra probabilística usted puede seleccionar las unidades más grandes y dejar a las chicas de lado, con la inferencia basada en el diseño tendría unas malas estimaciones. Una manera más segura de evadir esa posibilidad es dividir la población en grupos y hacer una selección de unidades en cada grupo
L: Cómo una clase de estratificación
E: Mmm estratificación si, digamos que sí. La estratificación por el tamaño de las unidades es muy útil, pero el punto es que debería conocer muy bien la población.
L: Precisamente, y si usted no conoce muy bien la población, podría ajustarle un modelo totalmente equivocado y como resultado tendría unas malas estimaciones…

Lector asombrado, está discusión se ha prolongado desde hace veinte años, en los próximos posts trataremos de develar cada uno de sus secretos.

Una paradoja instructiva

A excepción de el juzgamiento de hipótesis, las inferencias que hacen los estadísticos bayesianos, acerca de poblaciones normales, son muy similares a las que los estadísticos de la tradición frecuentista, de Neyman y Pearson, hacen.
Consideremos la siguiente situación. Un instrumento mide la posición de un objeto con un determinado error. Éste error está distribuido de manera uniforme en el intervalo (-1cm, 1cm). Supongamos que el instrumento midió la posición de un objeto en +0.9999cm del origen. Planteamos la siguiente hipótesis nula, H: La posición real del objeto es exactamente el origen. Imagine que planteamos este problema de inferencia estadística a los profesores López (frecuentista clásico) y Cepeda (acérrimo bayesiano).
Razonamiento del frecuentista: Si la hipótesis nula es verdadera, ha ocurrido un evento con una probabilidad (a dos colas) de ocurrencia de 0.0001 o menos. Mediante un criterio razonable (nivel de significación), este es un evento muy raro y por lo tanto rechaza H.
Razonamiento del bayesiano: El bayesiano ve las cosas desde un punto de vista diferente. Dada una observación, la verosimilitud asociada con la posición del objeto en el intervalo -0.0001 y +1.9999 es la misma, 0.5. Fuera de esos límites la verosimilitud es nula. Ahora, el origen está dentro de la región en donde la verosimilitud es máxima; por lo tanto sea cual sea la distribución a priori asociada al parámetro de posición, la distribución a posteriori tomara el valor cero en cualquier lugar fuera del intervalo -0.0001 y +1.9999. Así, con la observación disponible, no hay evidencia para el rechazo de H.
Bajo esta paradoja, Brewer (2002) sugiere que ambos estadísticos tienen razón, pero a la vez están equivocados. El frecuentista tiene razón en afirmar que, con la evidencia disponible, ha ocurrido un evento extraordinariamente extraño o que la hipótesis nula es falsa. El bayesiano tiene razón en argumentar que, en términos de la situación, no hay evidencia en contra de la hipótesis nula.
Esta paradoja se presenta porque los bayesianos tienden a trabajar dentro de la situación que ellos creen que existe (o al menos creen que ellos creen que existe) y la lógica bayesiana se mueve en ese marco de referencia. Los bayesianos hacen las inferencias en términos de la verosimilitud de los eventos observados, mientras que los frecuentistas hacen inferencias en términos de eventos que ni siquiera han ocurrido. .

PD: Con mucha emoción, vemos como la cifra de visitas aumenta cada día. En un mes hemos completado 2000 visitas… Una vez más gracias por visitarnos.

Dios les bendiga!!!