Muestreo

Muestreo y análisis de encuestas en R (Parte III)

En este enlace usted encontrará la tercera parte del curso seminario de muestreo y análisis de encuestas en R. Esta presentación profundiza en algunos diseños estratificados con estimación en dominios y con la utilización de una característica de información auxiliar continua.

El objetivo de la presentación es utilizar la información auxiliar discreta de manera adecuada en la implementación de una estrategia de muestreo con marcos de muestreo estratificados. El contenido está relacionado con la definición y puesta en práctica del muestreo estratificado, muestreo aleatorio estratificado, muestreo estratificado PPT  y otras estrategias de muestreo.

Ejercicios EM (capítulos 2, 3 y 4)

Haciendo clic acá y acá encontrará algunos ejercicios que he preparado para mi cátedra de muestreo en la Facultad de Estadística de la Universidad Santo Tomás. Los ejercicios están basados en el libro EM y están planeados para que el estudiante interiorice que un buen <<muestrista>>  debe pensar en las ventajas y desventajas de las estrategias (diseño de muestreo y estimador) que pueda implementar con ayuda del marco de muestreo de elementos y al final, con la mejor estrategia, selecciona un única muestra y realizar el proceso de estimación con el mejor estimador.

Sampling and analysis of survey data in R

A few years ago when I was attending sampling I and sampling II at Universidad Nacional de Colombia, in Bogotá, I wondered if, as in traditional statistical methods – such as regression, correlation analysis or t tests – there would be some software that would make estimation of totals or means for different sampling designs. My search began in SPSS, Minitab, Statgraphics, among others. The result was disappointing but motivating. Indeed, at that time did not exist a friendly software to make inferences about the total or means. Now, thanks to the advantages of R and SAS there are multiple choices that allows you to focus on the survey design and overlook the difficult task of programming.

By clicking here, you will find a presentation that includes, in this first installment, the design and analysis of a survey for basic sampling designs. The inference is implemented with the help of a sampling frame of elements. This can be a useful aid for both students and teachers of sampling surveys, but can also be used by professionals in the design and analysis of surveys.

The aim of the presentation is to know the advantages and disadvantages of the main strategies of sampling when elements sampling frames are available. Topics: R, Marco and Lucy, Bernoulli sampling, simple random sampling, simple random sampling with replacement, systematic sampling.

Muestreo y análisis de encuestas en R (Parte I)

Hace algunos años cuando cursaba las materias de muestreo I y II en mi alma máter, la Universidad Nacional de Colombia, Sede Bogotá, me preguntaba si al igual que en los métodos estadísticos tradicionales – como la regresión, el análisis de correspondencias o las pruebas t – habría algún software que permitiera realizar estimación de totales o medias para distintos diseños de muestreo. Mi búsqueda comenzó en SPSS, Minitab, Statgraphics, entre otros. El resultado fue desalentador aunque motivador. En efecto, en ese entonces no existía, y dudo que ahora exista, un paquete computacional de clic-clic amigable con el cual realizar inferencias sobre los totales o medias. Ahora, gracias a las ventajas de R y SAS existen varios paquetes de muestreo que si bien no son de clic-clic, si permiten enfocarse en el diseño de las encuestas y dejan de lado la difícil tarea de la programación.

Haciendo clic acá encontrará una presentación que incluye, en esta primera entrega, el diseño y análisis de una encuesta contemplando diseños de muestreo básicos que se implementan con la ayuda de un marco de muestreo de elementos. Esta puede ser una ayuda útil tanto para estudiantes y docentes del curso de muestreo, aunque también puede ser utilizado por los profesionales del diseño y análisis de encuestas.

El objetivo de la presentación es conocer las bondades y desventajas de las principales estrategias de muestreo cuando se tienen marcos de muestreo de elementos utilizando programación en R. Los temas tratados: R, Marco y Lucy, estrategias para muestreo Bernoulli, estrategias para muestreo aleatorio simple, estrategias para muestreo aleatorio simple con reemplazo, estrategias para muestreo sistemático.

Actualización 1: La presentación puede ser descargada también desde acá. (TeachingSampling)

El gremio se pronuncia acerca de las recientes encuestas electorales de las elecciones en Colombia

Empiezo esta entrada con un vínculo que el Doctor Daniel Diaz me hizo llegar… Se trata de un comentario con aíres de jocosidad acerca de una situación que se presentó la semana pasada con un estudio de opinión que realizó una empresa de investigación de mercados y que conmovió profundamente la situación electoral en Colombia. Al respecto la revista semana afirma que:

Cuando se hizo la tabulación arrojó el desconcertante resultado de que Mockus estaba ligeramente por encima de Juan Manuel Santos. Los directivos de la firma se sorprendieron tanto que pensaron que se podía tratar de un error metodológico o de trabajo de campo y, ante la duda, decidieron volverla a hacer. El resultado es el conocido: Santos 29,5 por ciento y Mockus 24,8 por ciento. Lo curioso es que ambos resultados son compatibles y coherentes estadísticamente, pues en los dos casos hay un empate técnico si se tiene en cuenta el margen de error.

Acerca de lo anterior, tengo que compartir mi alegría porque según estas cifras es posible que el candidato de mi preferencia logre la primera magistratura en los comicios presidenciales que se acercan. Sin embargo, debo también compartir mi profunda tristeza y decepción por las grandes fallas técnicas que se presentan en esos estudios de opinión, tan familiares en nuestra sociedad, los cuales no pueden ser catalogados ni siguiera como una imitación de encuesta (mucho menos se puede decir que hay muestreo en la selección de los individuos).

Desde la perspectiva del ojo experto, la anécdota que comparte la revista semana debería ser suficiente para desacreditar cualquier informe técnico de estas empresas encuestadoras… “eh, repitamos la encuesta, ya que no hay nada mejor que hacer…” Para los lectores de este blog, debe ser bien conocida la apatía que promulgo por estas prácticas… Desde mi punto de vista, el desconocimiento de las buenas prácticas estadísticas me parecen una oportunidad para jugar a voluntad con la opinión pública, ligada directamente con los destinos de nuestro país. Póngase una vez más en el lugar del gerente de marca de una empresa privada que ha contratado una investigación de mercados… Se realiza el estudio y el procesamiento arroja que su producto está por debajo de lo esperado… La solución con este tipo de prácticas es: “No digan nada y repitamos la encuesta hasta que cuadren los resultados.” Por Dios, a cuánta gente habrán engañado estos tíos… Es obvio que al pueblo se le engaña fácilmente, pero estas personas son capaces de engañar a gerentes de mercadeo instruidos en las mejores universidades. ¡Eso debe acabar!

Aparte de los detalles éticos, los inconvenientes técnicos de estos mediocres estudios son inconmensurables… Al respecto, por medio de mi colega Laura Amaranta Carrillo León, he podido tener acceso a un pronunciamiento realizado por varios expertos en muestreo y análisis de encuestas en Colombia. Haciendo clic acá podrá tener acceso a este valioso comunicado que muy honrosamente se me permitió difundir por este blog. Al respecto, basta decir que cada día nuestro gremio debe estar más unido y debe pronunciarse, así como en esta ocasión, seriamente en temas concernientes con el análisis de datos (no solo provenientes de encuestas). Mis comentarios son de solidaridad con esta misiva y no me queda más que agradecer a mis colegas por su sentido patriótico de pertenencia y por el excelente trabajo que hicieron al plasmar en palabras del día a día los detalles técnicos. Comedidamente invito a los lectores a estudiar detenida y cuidadosamente cada una de las diapositivas que conforman el informe y a difundirlo entre sus allegados.

Nuestro libro de estadística: Teoría Estadística, Aplicaciones y Métodos


Hace unos pocos días hemos terminado un trabajo que desde hace unos años empezamos a gestar en la Facultad de Estadística de la Universidad Santo Tomás… se trata de un libro de teoría estadística que recoge la rigurosidad teórica y al mismo tiempo conduce al lector por el apasionante destino de la práctica estadística la cual ciertamente debe estar fundamentada en la teoría. Con este enfoque empezamos a divagar sobre cuál debería ser el orden de los contenidos y qué tópicos debería abordar el texto. Después de poco tiempo, propuse que debería ser el sentido común quien le diera el orden a los contenidos. El sentido común al que tanto apelaba Leslie Kish cuando, a grandes rasgos, afirmaba que las muestras no estaban dadas sino que debían ser recolectadas y analizadas.

Con base en lo anterior, verificamos que el análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución beta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque… tiene la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría que se desarrolla rigurosamente.

El libro está en proceso editorial y esperamos que en pocos meses esté disponible en el mercado hispanoamericano. Haciendo clic acá encontrará una visualización del texto. A continuación reproduzco el prologo, que muy amablemente fue escrito por Fabio Nieto, reconocido profesor e investigador del Departamento de Estadística de la Universidad Nacional de Colombia, sede Bogotá.

Sobre teoría estadística se han escrito muchos libros, indudablemente más en el concierto internacional que en el nacional. Sin embargo, cada vez que un lector se enfrenta a una nueva publicación sobre el tema, él quisiera detectar qué es lo nuevo, diferente o atractivo que se presenta o desarrolla en la obra que tiene en sus manos. Desde esta premisa, es muy agradable presentar este libro en el cual se marcan diferencias importantes con respecto a muchos otros escritos sobre la materia. En las líneas siguientes explicaré estas características significativas, para usar un término muy “estadístico”.

En virtud de la gran experiencia y habilidad en el manejo del lenguaje R por parte de los autores, el libro incluye muchos ejemplos ilustrativos de los conceptos fundamentales de la inferencia estadística, los cuales se han desarrollado con este lenguaje. Esto permite al lector comprender, por ejemplo entre muchas otras,  la noción intuitiva de distribución muestral (o de muestreo).

Se incluye la teoría estadística básica de la inferencia multivariada, crucial en el entendimiento del comportamiento probabilístico de un vector de variables aleatorias y de las relaciones entre ellas. No es usual encontrar un trabajo en donde se incluyan conjuntamente, los contextos univariado y multivariado de la inferencia estadística.

Este libro es un buen punto de partida para el conocimiento e interiorización de la teoría estadística, por parte de estudiantes de una carrera de estadística, en el entendido de hacer de la práctica estadística una profesión. Además, podrá ser un gran soporte para la realización de estudios de posgrado, bien sea a nivel de profundización de conocimientos o a nivel de investigación.

En forma muy general, se puede afirmar que en la presente obra, la teoría y sus aplicaciones son presentadas de manera muy coherente y equilibrada; es decir, sin profundizar en lo teórico más allá de lo necesario y sin exagerar en la inclusión de las aplicaciones. Por esto y todo lo expresado anteriormente, me siento muy complacido de presentar este libro y de recomendarlo a un amplio conglomerado de lectores o usuarios de la estadística.

Fabio Nieto

Cosas que debo hacer este semestre…

Recibo ideas…
  1. Publicar <<Inferencia Estadística, un enfoque integral>> (alguien tiene un mejor nombre?, todavía no me convenzo de ese título… este libro es pura estadística matemática aplicada a las ciencias sociales… modelos univariados y multivariados, ejemplos en R y datos reales, 350 pags!!!!)
  2. Empezar my thesis PhDs (Modelamiento Bayesiano para datos longitudinales en media y varianza, mi tutor me dice que debo entregar en año y medio… ojalá, Dios me ayude!!!)
  3. Terminar el libro de Bayesiano (En principio se llama Introducción a los modelos Bayesianos… ¿un mejor nombre?… ya terminé toda la parte teórica, pero falta que los coautores me ayuden con los ejemplos en R… Modelos univariados, multivariados, regresión, modelos lineales generalizados, modelos jerárquicos, series de tiempo, muestreo y sobrevida.)
  4. Darle forma a las notas de Análisis de Sobrevida (Esta será una linda aventura… todo empezó con el curso de doctorado y ahora ya tenemos unas notas que carecen de estructura, pero que muy seguramente saldrán a la vida en un libro introductorio de esta linda materia.)
  5. Patinar con mis amigos!!! skating with my hommies.

R y LaTex unidos en la generación automática de reportes de muestreo

Se acerca navidad y esta vez el regalo es para aquellos estadísticos que trabajan generando cuadros de estimaciones de muestreo (aunque no necesariamente de muestreo probabilístico) y lo hacen utilizando R (no necesariamente el paquete TeachingSampling). Una vez más, Jorge Ortiz vuelve a sorprender al gremio con su creatividad y su perspicacia para automatizar las tareas en las que el estadístico no es tan hábil. En esta ocasión, se propone un procedimiento para y una función en lenguaje R para preparar la edición automática de grandes cantidades de tablas con estructuras similares que se generan durante las aplicaciones de encuestas.

Se trata de las nuevas funciones TbLatex y DataFr, incorporadas en la nueva versión del paquete TeachingSampling (v. 1.1.9), las cuales permiten definir la implementación de variables, categorías, subgrupos poblacionales, rótulos, estimaciones, coeficientes de variación, títulos, encabezados y notas de las tablas resultantes de un estudio que se van a incluir en un reporte de trabajo estadístico. Esta engorrosa labor es llevada a cabo, la mayoría de las veces, utilizando MS Excel o MS Access y su implementación final puede tomar varias semanas, si se cuenta con un equipo de varios digitadores. Además de evadir el error humano, la presentación de las tablas es muy importante. El formato resultante de la aplicación de estas funciones (ver imagen y ver acá) es limpio, diáfano y estándar. Además que mejor que presentar unos buenos cuadros de salida venidos de LaTeX.

El resultado de las funciones es un archivo con extensión .tex. Se trata de un archivo que se encuentra listo para compilar en su editor preferido de LaTeX. Si se trata de un reporte técnico, usted puede generar un informe vertical. Si se trata de una presentación con diapositivas, lo puede hacer de forma horizontal. Si sólo necesita los cuadros de salida, por ejemplo para un apéndice, sólo tiene que ejecutar la función en R y compilar y listo. Si quiere añadirle texto y explicaciones y referenciarlas, sólo tiene que abrir el archivo generado y, antes de compilar, añadirle sus explicaciones o lo que sea que le quiera añadir.

Esta implementación, es fruto de este artículo del profesor Ortiz que saldrá en pocos días en la revista comunicaciones en Estadística. En ese manuscrito, el profesor Ortiz utiliza un ejemplo ficticio para la generación de tablas automáticas. Por otro lado, está este manual de las funciones que estará en pocas semanas en el CRAN de R, disponible en el paquete TeachingSampling. En este manual, se integraron las funciones en cuestión con las del paquete y como resultado se tiene un software que selecciona muestras de la mayoría de diseños de muestreo más conocidos, que estima totales, medias, cuantiles y coeficientes de regresión – para múltiples variables de interés – mediante expansión, o calibración y todas esas estimaciones se concentran en LaTeX para la generación diáfana de reportes de muestreo.

Esperamos que disfruten esta nueva característica del paquete y Feliz Navidad… Volveré a escribir, si Dios lo permite, a principios del otro año. Feliz y próspero año nuevo… Tome un momento y recapacite en todas las cosas buenas de la vida… Bien, esas cosas se las dio Dios… sea agradecido. De esta manera, me despido de ustedes, agradeciéndole a Dios por tantos lectores y comentaristas.

Estrategias de muestreo: Diseño de encuestas y estimación de parámetros

100_2166

Es un honor poder compartir con ustedes mi primer libro… pueden estar seguros que este es el comienzo de una nueva cultura de la estadística aplicada en Colombia y en hispanoamericana… vendrán más, muchísimos más.   Como había anunciado antes, este libro está divido en tres partes. La primera parte trata con rigurosidad los diseños de muestreo para elementos y conglomerados y es apta para el aprendizaje exhaustivo del muestreo. La segunda parte trata con la incorporación de información auxiliar en la etapa de estimación en donde surgen los estimadores de regresión, los estimadores de calibración, el método de raking y el IPFP. Además, esta parte adjunta un muy buen capítulo de estimación de parámetros finitos  bajo modelos (model-based survey sampling). La tercera parte trata con temas más complejos como diseño de muestreo y  estimación en encuestas multi-propósito, muestreo balanceado, muestreo indirecto y muestreo en dos fases.

Mi objetivo es que este libro se convierta en una guía no sólo académica sino práctica y que el profesional, estadístico o no, que se encuentre involucrado en el diseño, implementación y ejecución de encuestas encuentre en este texto un baluarte que le permita relizar su trabajo profesional con mejor eficiencia.

Gracias, muchas gracias, en primer lugar a Dios, y a ustedes…Todos ustedes son la razón de este blog, de las publicaciónes en revistas y de este libro y los otros que vendrán.

PD1: En la foto, al lado izquierdo este servidor, en el centro mi libro y al lado derecho Pedro Silva, profesor de la universidad de Southampton en Inglaterra y expresidente del InterAmerican Statistical institute (IASI), el personaje latinoamericano más influyente en el mundo del muestreo.

PD2: La página oficial del libro es esta. Allí encontraran las soluciones a los ejercicios, el paquete base en R (TeachingSampling package), las erratas y las actualizaciones que haré.

Vacío en muestreo

42-18049000

Esta entrada debió haberse escrito hace mucho tiempo, cuando el maestro Leonardo Bautista aun vivía. Suponga que se realiza un diseño de muestreo en un población finita U de tamaño N. Suponga que el diseño de muestreo de es Bernoullí, en donde cada elemento es seleccionado con la misma probabilidad p. En general, se asigna a cada individuo un número aleatorio mediante una distribución uniforme, y para cada individuo se decide su pertenencia en la muestra si este número es menor que la probabilidad p. Es claro que el tamaño d emuestra para este diseño es aleatorio; por supuesto, es posible que la muestra seleccionada sea vacía.

Por otro lado, es bien sabido que una medida de probabilidad bien definida es tal que la probabilidad de vacío es nula. Ahora, la probabilidad de selección de una muestra vacía en un diseño de muestreo Bernoulli es  (1-p)^N, la cual es claramente distinta de cero. La explicación es sencilla, en muestreo es posible la selección de muestras que no contengan ningún elemento. Sin embargo, lo anterior es diferente al evento vacío. El evento vacío no es la selección de una muestra vacía. Es más, el evento vacío sería como nunca realizar la selección. Pensemos en una moneda: la probabilidad de cara es un medio, la probabilidad de sello es un medio. La probabilidad de vacio es nula.

Para evitar la confusión, yo recomiEndo que en los cursos de muestreo, se defina la muestra como un vector multivariado de tamaño N, con entradas: uno, si pertenece a la muestra y cero si no pertence a la muestra – en un diseño sin reemplazo. Ahotra, si la muestra es vacía entonces el vector será (0,0,…,0) y, es claro que, cero es muy distinto de vacío.

My talks in Medellín

El XIX simposio de estadìstica acaba de culminar con un rotundo éxito. Tuve la oportunidad de viajar y participar en este evento con investigaciones involucradas específicamente en mis áreas de interés: Muestreo e Inferencia Bayesiana.

La primera charla se llama Frequentist performance of confidence and credibility intervals for the difference of two proportions y trata de la comparación, en términos de estadística clásica, de varios intervalos de confianza, entre ls que se destacan el intervalo de Newcombe y varios intervalos de credibilidad con información previa no informativa

La segunda charla se titula A multiparametric approach in multipurpose surveys y es la base teórica del paquete TeachingSampling y está motivada por el pensamiento de T. M. F. Smith acerca de la brecha entre los estadísticos teóricos y los prácticos en términos de encuestas que involucran la estimación de muchos parámetros y por consiguiente incorporan muchas variables en el estudio.

Encuestas multi-propósito

Si los estad¶³sticos te¶oricos hacen caso omiso al reto de enfrentar las

encuestas multi-prop¶osito, entonces el vac¶³o existente entre ellos y
los estad¶³sticos pr¶acticos se har¶a cada vez m¶as grande. El dise~no y
an¶alisis de encuestas multivariantes debe ser una de las pr¶oximas
¶areas de mayor investigaci¶on.

T. M. F. Smith (1976)


42-21546829

Si los estadísticos teóricos hacen caso omiso al reto de enfrentar las encuestas multi-propósito, entonces el vacío existente entre ellos y los estadísticos prácticos se hará cada vez más grande. El diseño y análisis de encuestas multivariantes debe ser una de las próximas áreas de mayor investigación.

T. M. F. Smith (1976)

Haciendo clic acá encontrará un reciente artículo que reúne una introducción a la motivación de investigación que hizo uno de los personajes más influyentes en la escena estadística mundial, el profesor Smith, quien discutió acerca de los fundamentos de la teoría del muestreo, desde sus primeros años hasta las últimas tendencias en cuanto a predicción y estimación en poblaciones finitas. En sus múltiples artículos, Smith afirmó que en el muestreo, los problemas univariados (estimación de un parámetro desconocido para una sola característica de interés) se encuentran en unas cuantas ramas de aplicación, limitadas a encuestas de opinión pública, muestreo industrial de aceptación y muestreo en auditorías. Sin embargo, la gran mayoría de encuestas que se realizan alrededor del mundo son de tipo multi-propósito (estimación de varios parámetros desconocidos para varias características de interés). El profesor Smith tuvo en cuenta la limitación que presentan los grandes textos clásicos del muestreo al no considerar este tipo de estudios ni incluirlos en sus páginas y llamó la atención a los teóricos del muestreo a realizar investigación formal en este tipo de tópicos como lo muestra la motivación al principio de esta entrada.

Estimadores de máxima cuasiverosimilitud en muestreo bifásico

Los estimadores ¶optimos de calibraci¶on utilizan informaci¶on auxiliar completa para
producir estimaciones m¶as e¯cientes. Cuando no se dispone de este recurso, una
alternativa es realizar un muestreo en dos fases para recopilar la informaci¶on auxi-
liar en una primera fase y despu¶es utilizarla en el dise~no o estimaci¶on de la segunda
fase. Se compara la e¯ciencia de los estimadores ¶optimos de calibraci¶on, cuando
la relaci¶on entre la variable de estudio y las variables de informaci¶on auxiliar es
lineal y log-lineal. En este ¶ultimo caso se utilizan m¶etodos de cuasi-verosimilitud
para la estimaci¶on de los par¶ametros del modelo de super-poblaci¶on.

Los estimadores óptimos de calibración (Wu & Sitter) utilizan información auxiliar completa para producir estimaciones más eficientes. Cuando no se dispone de este recurso, una alternativa es realizar un muestreo en dos fases para recopilar la información auxiliar en una primera fase y después utilizarla en el diseño o estimación de la segunda fase. Haciendo clic acá encontrará un reciente artículo (a manera de revisión) en donde se compara la eficiencia de los estimadores óptimos de calibración, cuando la relación entre la variable de estudio y las variables de información auxiliar es lineal y log-lineal. En este último caso se utilizan métodos de cuasi-verosimilitud para la estimación de los parámetros del modelo de super-población.

Seleccionando muestras de café

O-029-0741

Acabo de salir de una reunión corta pero sustanciosa…

Érase una vez, una gentil mujer, de unos cuarenta años de edad, que me contactó a mi teléfono personal acudiendo a la necesidad de que le “ayudara” en la selección de una muestra para un estudio de investigación de mercados… Por supuesto, yo mostré toda mi disposición y acepté atenderla en mi oficina. La mujer me respondió que era mejor encontrarnos en un café en el centro de la ciudad. ¿Un café? – me pregunté – mejor sería en su oficina… La gentil y necesitada dama accedió a que la reunión se efectuara en sus instalaciones.

Hoy llegué puntual a la cita, pero para mi sorpresa el celador que atendía me recibió con una desafortunada noticia… <<Si no me dice el nombre completo de la señora, no lo anuncio>> – ¿Qué qué? – La señora se llama fulanita de tal – le respondí con afán… ¿Si? ¿y el segundo apellido? – me respondió el ingrato celador… Desde allí las cosas comenzaron al revés… Llamé a la gentil dama a su celular, le informe que acerca del insuceso en portería y así me dejó acceder a las instalaciones.

El guarda de seguridad, me guió a lo que parecía ser un salón comunal… una mesa de plástico y dos sillas VaniplaX… ¿En dónde estoy? – me pregunté y reflexioné en que hubiese sido mejor haber accedido a tener la entrevista en el café. Después de un treinta minutos, la señora se apareció con el cabello… cabello mojado y cara lavada… Hola, se me hizo tarde, siéntate… (Yeah right!!!)

Empezó contándome acerca de lo “exitosa” que era su empresa, en donde la costumbre era contratar <<freelanceros>> para que hicieran el trabajo (¿sucio?). En ese justo instante me sentí desafortunado y quería concretar el diseño de muestreo rápidamente. La gentil dama escuchaba atentamente cuando le hablé de mi experiencia y del proceso científico que había detrás de la selección de cualquier  muestra. Cuánto llegamos a la parte contractual, yo le hice mi propuesta económica y fijé las condiciones de pago.

Fin de la reunión.

¿Cómo? ¿Por qué? ¡¡¡Ni que la muestra tuviera oro!!!… los argumentos de la gentil dama – psicóloga de profesión – rayaban en lo ridículo. Aclaro que la muestra necesitaba de información auxiliar y que la propuesta económica era bastante asequible. ¿Cuánto tiempo se demora seleccionando la muestra?, yo tengo un estadístico que me hace eso gratis – argumentaba la señora.

Mi reflexión: 1) Yo no soy un <<FreeLancer>>, soy un profesiona.l 2) Quisiera conocer al estadístico que hace muestras gratis, me suena a psicólogo. 3) ¿Cuánto cuesta hacer un <<focus group>>? Mínimo unos treinta millones de pesos ¿Habrá que estudiar siete años para hacer que unas personas conversen en el focus group?. 4) Estas gerentes de empresitas de barrio se ufanan de que están haciendo patria y empresa… No lo creo, no están haciendo patria, están lucrándose y aprovechándose de tanto administrador desempleado. Si quisieran hacer patria y empresa, entonces ni siquiera mencionarían la palabra <<FreeLancer>> y la cambiarían por <<empleado con contrato indefinido más prestaciones de ley más prima extralegal>>. 5) Necesitamos una ley de verdad que cobije nuestra profesión. No más ingenieros, ni administradores, ni psicólogos seleccionando muestras gratis, muestras de café, muestras de café con mala leche… Zapatero a tus zapatos ¿Qué diría el gremio de los médicos si un administrador quisiese realizar una cirugia de miocardio?

Homenaje a Leonardo Bautista

En los últimos años, el maestro Leonardo Bautista fue uno de los personajes más importantes e influyentes en la escena estadística colombiana. Como discípulos suyos, creemos que nuestro cometido con la ciencia requiere que como publicación se haga un homenaje al profesor Bautista, no con lamentos sobre su partida sino como a él más le hubiese gustado: divulgando las investigaciones que él realizó en conjunto con sus pupilos.

El segundo número de la Revista Comunicaciones en Estadística será un homenaje al maestro Bautista. Varios colegas, algunos desde el extranjero, participarán con sus valiosos artículos y aportes generados en conjunto con el maestro Bautista. En particular, quisiera resaltar la participación editorial del estadístico José Fernando Zea Castro quien escribió el siguiente ensayo desde su perspectiva como estudiante.  

Leonardo Bautista: Perspectiva del estudiante

El profesor Leonardo Bautista falleció el 20 de Enero del 2009.  Este hecho es muy doloroso para la comunidad estadística y el país pierde una figura controvertida que no tenía miedo de decir la verdad y de ser honesto en sus planteamientos. Sin embargo, su legado y sus enseñanzas permanecerán por mucho tiempo. Él Creó un estilo y una manera única de ejercer su profesión, fue una persona de odios y de amores, con una personalidad radical, fuerte y apasionada, fue un luchador incansable, un poeta, un maestro que hizo con su profesión los mejores versos, excelente representante de lo que debe ser un estadístico: responsable, disciplinado, creativo, ilustrado, ordenado, comunicador, diáfano en sus planteamientos, locuaz y divertido.

 Tuve el honor de conocer al profesor y de tomar con él tres cursos en el pregrado: Muestreo I, Muestreo II, y Diseño y Desarrollo de Encuestas. Son muchas las  enseñanzas que dejó para mi vida profesional y laboral.  A comienzos de Febrero del año 2005,  tuve mi primera clase de Muestreo I, el profesor llegó puntualmente y el salón se encontraba en silencio, expectante y se respiraba una atmósfera de tensión; ya teníamos cierta información proporcionada por algunos de sus estudiantes anteriores que nos hacía pensar que aprobar y sobresalir en este curso no iba a ser nada fácil. Sin embargo, también sabíamos de la excelente calidad de éste docente.

Hasta ese día, la mayoría de mis compañeros y yo, nos habíamos desplazado por el mundo abstracto de las matemáticas, nuestros conocimientos estadísticos y la aplicación de éstos en la vida real, eran vagos, confusos o inexistentes. Comenzó la clase y el maestro indagó por nuestros nombres y por las asignaturas que íbamos a cursar ese semestre, no transcurrió mucho tiempo y él abordó a uno de mis compañeros preguntándole: “¿vas a ver cinco materias y muestreo?”, mi compañero intimidado asintió afirmativamente con la cabeza, a lo cual el profesor respondió –“muestreo requiere dedicación de tiempo completo incluso hasta en los sueños”, esta fue la primera pista de lo exigente que iba a ser. Desde el primer día de clases el profesor tuvo la capacidad de inferir la personalidad y el carácter de muchos de sus estudiantes, su mirada intimidaba pero a la vez motivaba e invitaba a poner atención a cada una de sus palabras y gestos.

En esa primera clase, nos presentó el programa del curso y mencionó nombres incomprensibles e indescifrables  para mí en ese momento: probabilidad de inclusión,  estimador de Horvitz-Thompson, diseño de muestreo multietápico, conglomerados, unidad primaria de muestreo, etc. Aunque me sentía confundido, me quedó muy claro la seriedad y profesionalismo que iban a tener sus clases, efectivamente no me equivoqué. Desde este día, Leonardo Bautista puso las reglas muy claras, no valía enfermarse, ni la ocurrencia de ningún evento extraordinario (ni siquiera la ocurrencia de otro 5-0 de Colombia sobre Argentina) para aplazar parciales o eludir nuestras responsabilidades.

Transcurrían los días y sus clases cada vez se iban tornando más interesantes, enriquecedoras y divertidas, éstas eran de una alta exigencia, ricas de anécdotas y por supuesto no faltaba el humor negro hacia algunos de sus estudiantes más desorientados. Leonardo Bautista era un psicólogo, sí que lo era, en unas pocas clases ya tenía identificado a sus pupilos más complicados, confiados, de peor carácter y más desorientados, así mismo tenía una broma y una observación jocosa para sus estudiantes más particulares.

Leonardo Bautista tenía el ejemplo adecuado, la anécdota interesante y el comentario acertado para cada una de las preguntas que nos iban surgiendo, eran frecuentes los ejemplos que nos trasmitía de sus experiencias. Siempre nos exigió que planteáramos bien las preguntas que nos surgían y nos enseñó la metodología y el orden en que se plantea y se resuelve un problema estadístico.

Muchos de nosotros tuvimos el primer contacto con un paquete estadístico en este curso, nos enseñó SAS de la manera más sencilla posible o como a él le gustaba decir de “manera picapedrera”, implementamos en este paquete desde los diseños de muestreo más sencillos: Bernoulli, muestreo aleatorio simple, hasta diseños más complejos como los diseños multietápicos. Nunca fue reacio a que exploráramos otras herramientas y motivó el uso de otras alternativas como R,  paquete estadístico que empezaba a ser popular en el departamento de estadística gracias a varios profesores, entre ellos los de computación estadística: Álvaro Montenegro y Jorge Ortiz, este último quien tomó como asistente en esa ocasión el curso de muestreo.

Aún están en mi mente las tareas extensas que él nos dejaba cada martes para la siguiente semana; éstas eran bien planteadas, interesantes, ricas en conceptos,  prácticas y muy laboriosas, muchos entendimos al realizarlas conceptos tan importantes como probabilidad de inclusión, probabilidad de cobertura, insesgamiento, varianza de un estimador, boostrap, jacknife y otras nociones de estadística multivariada, modelos lineales e inferencia estadística.

La biblia del profesor Leonardo Bautista era el libro de muestreo de Särndal, Wretman y Swensson: “Model Assisted Survey Sampling”, en sus palabras descubrir este libro fue encontrar la luz, el camino y la senda correcta de la enseñanza del muestreo,  según él,  otros autores clásicos no abordaban de manera tan clara el muestreo como lo hacía este libro. Nos exigía una lectura detallada de cada uno de los párrafos del libro y para muchos de sus estudiantes ésta fue la primera inmersión en la lectura de un libro en lengua extranjera.

La diversión se acababa cuando ya se acercaba el parcial, las perspectivas de responder un examen en el cual todo estaba dado para perderlo no nos entusiasmaba mucho. En primer lugar, el examen era un sábado, la primera parte de éste era un control de lectura de la biblia del profesor Bautista a través de varias preguntas de tipo opción múltiple con penalización de dos puntos negativos para aquellas de éstas que estuvieran mal contestadas.

La segunda parte del examen se hacía en unas sala de cómputo, muchos de nosotros llegábamos con una sonrisa victoriosa, con la satisfacción de haber realizado un programa con un ingenioso código en SAS o R, con el  cual implementábamos los diseños de muestreo enseñados hasta ese momento por el profesor; sin embargo por alguna razón desconocida, en muchas ocasiones nuestros programas no funcionaban al aplicarlo al conjunto de datos entregados por él, o bien, funcionaban sólo después de haber terminado el examen. Por lo tanto era posible que algún estudiante, habiéndose dejado llevar por los nervios y sumado a esto el no haber estudiado ni preparado de manera adecuada su programa, tuviera una nota inferior a cero, es decir, se podía quedar  debiendo nota Este asunto lo resolvía el profesor plasmando en la hoja de dicho estudiante un cero con todo el cuidado.

Se perdía siempre con 2.5, así que si alguien sacaba un doloroso 2.9 no había posibilidad alguna de redondeo, la nota era contundente: 2.5.

Su fuerte exigencia nos forjó y nos hizo más fuertes, si algo nos transmitió el profesor Bautista fue el sentirnos orgullosos de nuestra profesión, pero nunca despreciando o subestimando las demás profesiones u oficios. El profesor nos hizo concientes de la importancia de nuestra labor en la toma de decisiones en el quehacer económico, social, político y científico.

Fue inolvidable la experiencia que tuvimos con él en el curso de Diseño y Desarrollo de Encuestas que impartió en Julio del año 2005, en esa ocasión se quería realizar una investigación en Soacha acerca del riesgo de cáncer de cuello uterino en las mujeres mayores de 25 años. Cada uno de los detalles, desde el planteamiento con un médico de cada una de las preguntas del cuestionario hasta la creación de los cuadros de salida  de la encuesta, entre otras muchas minucias, fueron explicadas de manera clara y precisa por él. Fue una experiencia totalmente enriquecedora e inolvidable, llena de anécdotas e historias.

De ese curso recordamos un dolor en su espalda aparentemente insignificante, el cual empezó a manifestársele cuando había transcurrido unos días del inicio del curso; ese dolor día a día lo afectaba más y se hizo evidente que algo grave lo aquejaba, pues bien, fue por esos días que se le diagnóstico cáncer en la medula. Pese a sus dolores y dificultades para movilizarse él nunca se rindió ni eludió sus responsabilidades académicas. por el contrario siempre estuvo dispuesto a colaborarnos y nos transmitió conocimientos invaluables, finalmente y pese a las dificultades que hubo a raíz de sus problemas de salud se logró culminar con éxito el curso.

Pasaron seis meses en los cuales supimos de la lucha incesante del profesor contra el cáncer. Luego de éstos regresó a las aulas, en esa ocasión el iba a impartir el curso de Muestreo II. Por sus dolores ya no podía escribir en un tablero, así que empezó a preparar diapositivas para cada clase. Pese a los constantes dolores del profesor el curso logró terminarse con éxito y con la exigencia a la que él nos tenía acostumbrado.

El legado que deja Leonardo Bautista es invaluable, muchos estadísticos aprendimos muestreo y estadística con él, nos enamoramos de nuestra profesión, nos dejó un libro de muestreo en el cual sintetizó de manera muy clara sus enseñanzas y en donde plasmó algunos de sus pensamientos. Dirigió varios trabajos de grado e influenció varios  artículos e investigaciones y muchas personas siguen ahora sus pasos y transitan por los senderos que él dejó despejados. 

Sus aportes tuvieron un alcance mucho más allá de la academia, fueron muy reconocidos sus cursos de censos y encuestas para funcionarios del DANE. En esta institución e indirectamente en muchas otras él  también dejó su huella. Su laboriosidad y dedicación marcó también a muchos estadísticos que actualmente laboran en el sector público y privado. Leonardo Bautista nos dejó varias lecciones para nuestra vida: la pasión por servir a la sociedad, el amor por la profesión y nunca rendirnos ni siquiera ante las adversidades más grandes; nos enseñó la fuerza de la argumentación y nos mostró como hay que defender nuestras ideas con estilo y respeto hacia los demás.

 Gracias maestro.

 José Fernando Zea Castro

 “Yo no se lo que es el destino, caminando fui lo que fui” Leonardo Bautista citando a Silvio Rodríguez…

(El anterior texto fue tomado de la editorial del segundo número de la Revista Comunicaciones en Estadística y se reproduce con autorización del comité editorial)

Pearson, Fisher, Bayes y …

Desde la revolución estadística de Pearson y Fisher, la inferencia estadística busca encontrar los valores que parametrizan a la distribución desconocida de los datos. El primer enfoque, propuesto por Pearson, afirmaba que si era posible observar a la variable de interés en todos y cada uno de los individuos de una población, entonces era posible calcular los parámetros de la distribución de la variable de interés; por otro lado, si sólo se tenía acceso a una muestra representativa, entonces era posible calcular una estimación de tales parámetros. Sin embargo, Fisher discrepó de tales argumentos, asumiendo que las observaciones están sujetas a un error de medición y por lo tanto, así se tuviese acceso a toda la población, es imposible calcular los parámetros de la distribución de la variable de interés.

Del planteamiento de Fisher resultaron una multitud de métodos estadísticos para la estimación de los parámetros poblacionales. Es decir, si la distribución de X está parametrizada por \theta \in \Theta, con \Theta el espacio paramétrico inducido por el comportamiento de la variable de interés, el objetivo de la teoría estadística inferencial es calcular una estimación \hat{\theta} del parámetro \theta por medio de los datos observados. En este enfoque, los parámetros se consideran cantidades fijas y constantes. Sin embargo, en la última mitad del siglo XX, algunos investigadores estadísticos comenzaron a reflexionar acerca de la naturaleza de \theta y enfocaron la inferencia estadística de una manera distinta: asumiendo que la distribución de la variable de interés está condicionada a valores específicos de los parámetros. Es decir, en términos de notación, si la variable de interés es X, su distribución condicionada a los parámetros toma la siguiente forma f_X(X|\theta). Esto implica claramente que en este nuevo enfoque la naturaleza de los parámetros no es constante sino estocástica.

Ahora, en este justo instante, vienen pequeños susurros desde Brasil, que mencionan que un grupo de estadísticos ha empezado a trabajar en un nuevo enfoque. Amanecerá y veremos.

Breve historia del muestreo (Design-based & Model-based)

Haciendo clic acá encontrarán un breve ensayo de la historia del muesreo y de la inferencia en poblaciones finitas… corresponde al primer boceto de la introducción del capitulo 15 del libro Estrategias de Muestreo: diseño de encuestas y estimación de parámetros.

El paquete TeachingSampling

¡Ojalá él estuviera aquí! Seguro que se sentiría muy feliz al saber que unos de nuestros sueños se ha cumplido…

Estimado colega, estimado profesor, estimado lector. Con mucha alegría permítanme presentarles el nuevo paquete TeachingSampling, desarrollado por mí en la Facultad de Estadística de la Universidad Santo Tomás, aunque un poco lejos de sus oficinas. En el CRAN de R existen un par de paquetes complementarios con respeto al muestreo; éstos son el paquete Survey escrito por Thomas Lumley, de la Universidad de Washington y el paquete Sampling escrito por Yves Tillé de la Universidad de Neuchatel. Excelentes paquetes, excelente programación y excelentes ejemplos. Sin embargo ninguno de ellos tiene el enfoque con el que yo aprendí muestreo y con el que quiero enseñarlo.

La documentación del paquete, haciendo clic acá y el archivo ZIP para la instalación manual, haciendo clic acá.

Es cierto, el muestreo y la inferencia en poblaciones finitas se distancian un poco de la estadística clásica y del pensamiento tradicional. Precisamente, por esta razón, el estudiante debe aprender, no sólo a manejar un software, sino a implementar los procesos muestrales en su mente sin que se pueda dar lugar a la confusión. ¿Cómo hacerlo? Mi respuesta es empezar desde lo básico… desde la medida, la probabilidad, las sigma-álgebras y el espacio muestral. En algunas cátedras de muestreo y en algunos textos, ni siquiera se menciona el concepto de Soporte. A mi entender, el estudiante debe asimilar en primer lugar este concepto para adentrase, después, en temas más complejos como las estrategias de muestreo y sus posibles variaciones.

Otro tema de suprema importancia es separar el diseño muestral del algoritmo de muestreo. Un diseño muestral es simplemente una distribución de probabilidad multivariante sobre un soporte, mientras que un algoritmo de muestreo es una manera de seleccionar muestras aleatorias que respeten el diseño de muestreo. Esto conlleva a que para un diseño de muestreo específico puedan existir múltiples algoritmos muestreo. Por supuesto, la forma de seleccionar la muestra implica directamente que la forma matemática del estimador que se utilice se vea alterada automáticamente por la escogencia de un diseño de muestreo, formándose así una dupla que se conoce como estrategia de muestreo.

El proceso no termina en memorizar qué es una estrategia de muestreo y sus infinitas variaciones. Una vez que se ha planteado el diseño de muestreo, que se ha seleccionado una muestra, mediante un algoritmo de muestreo, que se ha recopilado la información de las unidades seleccionadas en la muestra, se deben computar las estimaciones resultantes. Sin embargo, cuando yo hablo de estimaciones estoy inmediatamente refiriéndome a variación estadística. Por tanto junto con las estimaciones de los totales o las medias, es indispensable también publicar el coeficiente de variación estimado. Este concepto es vital para la buena práctica del muestreo.

Por otra parte, como lo asegura Sharon Lohr, una estrategia muestral siempre es susceptible de mejora. En particular, cuando se trata de incorporar información auxiliar (discreta o continua), ya sea en la etapa de diseño o en la etapa de estimación. El estudiante debe entender que la incorporación de información auxiliar no siempre es viable ya sea por motivos logísticos o porque con ésta no se logra mejorar la estrategia de muestreo en términos de la eficiencia estadística.

En ocasiones, la cátedra de muestreo se me antoja muy, pero muy matizada con la cátedra de programación computacional. Aunque no es posible hablar de investigación en muestreo sin habilidades computacionales, sí es posible lograr que el estudiante aprenda la teoría y ejecute una buena práctica sin necesidad de recorrer ese tortuoso camino de programación, que no a todos se nos facilita de la misma manera. La suma de las anteriores razones me llevó a plantear este programa en R, que ahora es una realidad y, que ejecuta los cálculos computacionales necesarios para la enseñanza del muestreo, respetando los conceptos arriba expuestos.

  1. Distintos algoritmos de muestreo para diseños muestrales específicos
  2. Estimaciones resultantes junto con la varianza y el coeficiente de variación estimado para las estrategias de muestreo
  3. Incorporación de información auxiliar discreta. Muestreo estratificado y estimador de post-estratificación.
  4. Incorporación de información auxiliar discreta. Muestreo de probabilidad proporcional y estimador de regresión general.
  5. Requerimientos de estimaciones en dominios. Estimación en subgrupos poblacionales. Dominios o post-estratos
  6. Diseños muestrales por conglomerados y en varias etapas
  7. Calibración de estimadores. Método IPFP y de regresión

Espero que este paquete pueda servirles de mucha utilidad, ya sea enseñando, aprendiendo o utilizándolo en sus propias investigaciones.

PD: Agradezco al profesor Campo Elías Pardo por su apoyo y paciencia incondicional para la compilación del paquete y a Daniel Rodríguez, en primer lugar por su gran amistad, y por su interés, motivación y ayuda en el desarrollo de este paquete a pesar de la gran distancia.

Subgrupos poblacionales en muestreo

42-19754858

Aunque el marco de referencia de la teoría de muestreo es la estimación de un parámetro de interés sobre alguna característica de interés, lo cierto es que en la práctica no solo se necesitan estimaciones que cobijen la población entera sino que también son indispensable estimaciones que involucren subgrupos poblacionales puesto que éstos inducen una partición de la población definida de la siguiente manera. Sean U_1,\ldots,U_g,\ldots,U_G los subgrupos poblacionales tales que

\bigcup_{g=1}^GU_g=U

Además si N_g es el tamaño absoluto de U_g se tiene que \sum_{g=1}^GN_g=N.

En general, es bien sabido que cuando se habla de subgrupos poblacionales se está haciendo referencia a dominios de interés, estratos o postestratos. Cuando el investigador se enfrenta a una encuesta que tiene en cuenta algunos subgrupos poblacionales, es indispensable conocer en qué se diferencian cada uno de ellos pues de esto depende que la investigación arroje resultados confiables mediante el planteamiento de la mejor estrategia de muestreo. Las definiciones y diferencias de cada uno de ellos se expresan a continuación.

  • Dominios de interés: Este tipo de subgrupos poblacionales son aquellos para los cuales se requieren estimaciones separadas del parámetro de la característica de interés. Estos requerimientos se planean en la etapa de diseño para asegurar que el diseño de la muestra sea tal que al momento de la recolección de la información exista una buena cobertura en cada uno de los dominios de interés. Lo anterior sólo se puede lograr ampliando el tamaño de muestra n puesto que el marco de muestreo no informa acerca de la pertenencia de los individuos a los dominios de interés. Los aspectos más importante de esta clase de subgrupos poblacionales es que el número de individuos en la muestra que pertenecen a un dominio n_d de interés es siempre aleatorio, y para algunos dominios particulares puede llegar a ser muy pequeño. Por otro lado el tamaño absoluto de cada dominio N_d no se conoce ni antes de la etapa de diseño ni después de la etapa de estimación.
  • Estratos: Cuando el marco de muestreo permite conocer la pertenencia de todos los individuos de la población a un subgrupo poblacional, se dice que esta clase de subgrupos se llaman estratos. Más aun, cuando se sabe que la característica de interés tiene un comportamiento distinto en cada uno de los estratos y se planea un diseño de muestreo que tenga en cuenta este aspecto mediante la selección aleatoria de unidades en cada uno de los estratos, se dice que el diseño de muestreo es estratificado. El aspecto fundamental de esta clase de subgrupos poblacionales es que el conocimiento de la pertenencia de los individuos a los estratos se incorpora en la etapa de diseño de la muestra. Nótese que a diferencia de los dominios, en los estrato se conoce tanto N_h como n_h antes de la etapa de estimación.
  • Postestratos: La propiedad que caracteriza a este tipo de subgrupos poblacionales es que aunque en la etapa de diseño el tamaño del postestrato N_g es conocido, se desconoce el número de individuos que pertenecerán al postestrato n_g en la muestra realizada. Al respecto Sarndal, Swensson & Wretman (1992) afirma que existen dos situaciones en las cuales se presenta esta situación, llamada comúnmente postestratificación:
  1. El marco de muestreo es tal que se conoce la pertenencia de todos los elementos a los subgrupos poblacionales pero el investigador decide no utilizar esta información en la etapa de diseño. Las razones para esto son diversas pero principalmente se decide obviar este tipo de información por practicidad logística. Una vez que se ha realizado la selección de la muestra, se observa la característica de interés y_k en los individuos tales que k in s. El investigador decide utilizar la información auxiliar de pertenencia a los postestratos en la etapa de estimación para mejorar la eficiencia de la estrategia de muestreo, en particular del estimador propuesto.
  2. Mediante alguna fuente de información confiable se conocen los tamaños absolutos N_g de cada subgrupo poblacional aunque se desconoce la pertenencia de los individuos a los subgrupos pues el marco de muestreo presenta esta deficiencia. Después de la etapa de diseño, se observa la característica de interés y se pregunta acerca de la pertenencia de los individuos seleccionados en los postestratos de tal forma que en la etapa estimación se utiliza esta información para mejorar la eficiencia de los estimadores de los parámetros de interés.

Eficiencia del PPT

La regla de oro de una buena muestra reza que para que la inferencia basada en el diseño de muestreo arroje estimaciones que sean (abusando del lenguaje) de varianza mínima e insesgadas, las probabilidades de inclusión (o selección, según sea el caso) que arroje el diseño de muestreo utilizado deben ser directamente proporcionales a los valores que toma la característica de interés en la población.

En 1954, Des Raj demostró que: Si x es la información auxiliar utilizada en la etapa de diseño, la resta de la varianza de la estrategia de muestreo aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado una expresión directamente proporcional a la covarianza entre (x, y^2/x).

Este resultado condiciona el comportamiento estructural de la información auxiliar que debe cumplir dos condiciones para que la eficiencia de la estrategia PPT sea mayor que la del diseño aleatorio simple con reemplazo.

  • En primer lugar, el resultado indica que para que la estrategia de muestreo PPT sea más eficiente en términos de varianza que la estrategia de muestreo MRAS, además de que las probabilidades de selección de los individuos sean proporcionales a los valores que toma la información auxiliar, es necesario que la correlación entre (x, y^2/x)
    debe ser positiva (lo cual es obvio dada la definición de correlación). Sin embargo, nótese que si la razón entre y y x es contante para todos los elementos, entonces esta correlación es igual a la correlación existente entre (x, y). Por tanto, una condición necesaria para que el diseño PPT sea más eficiente que el diseño de muestreo aleatorio simple con reemplazo es que exista una correlación positiva entre la característica de interés y la información auxiliar; pero, una condición suficiente para la optimalidad del diseño PPT, es que la razón entre (x/y) sea constante.
  • Segundo, Lehtonen (2004) muestra que la eficiencia del diseño de muestreo PPT está directamente relacionada con un modelo de regresión simple con intercepto. Concluye que para que el diseño de muestreo PPT sea más eficiente, el intercepto debe ser una cantidad pequeña. Es decir, que la línea de regresión ajuste cerca del origen. Como corolario del resultado, se tiene que incluso si la correlación entre la característica de interés y la información auxiliar fuera perfecta e igual a uno, entonces no habría ningún término de error en la regresión, pero aún así si el intercepto fuera grande entonces la estrategia de muestreo PPT podría arrojar una eficiencia menor.

Por supuesto, la eficiencia de cualquier diseño de muestreo dependerá del parámetro que se quiera estimar, no es lo mismo estimar promedios que razones o que funciones de distribución. Está claro que bajo una buena planeación del diseño de muestreo, el PPT funciona mejor para totales que para razones. De hecho, cuando se utiliza el PPT para estimar una razón entre dos variables, es necesario encontrar una variable correlacionada con la transformada de Taylor (tarea ardua y confusa). Que, para los conocedores del tema, se trata de encontrar una variable correlacionada con cero.