“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Muestreo
Muestreo y análisis de encuestas en R (Parte III)
Jun 1st
En este enlace usted encontrará la tercera parte del curso seminario de muestreo y análisis de encuestas en R. Esta presentación profundiza en algunos diseños estratificados con estimación en dominios y con la utilización de una característica de información auxiliar continua.
El objetivo de la presentación es utilizar la información auxiliar discreta de manera adecuada en la implementación de una estrategia de muestreo con marcos de muestreo estratificados. El contenido está relacionado con la definición y puesta en práctica del muestreo estratificado, muestreo aleatorio estratificado, muestreo estratificado PPT y otras estrategias de muestreo.
Ejercicios EM (capítulos 2, 3 y 4)
May 8th
Haciendo clic acá y acá encontrará algunos ejercicios que he preparado para mi cátedra de muestreo en la Facultad de Estadística de la Universidad Santo Tomás. Los ejercicios están basados en el libro EM y están planeados para que el estudiante interiorice que un buen <<muestrista>> debe pensar en las ventajas y desventajas de las estrategias (diseño de muestreo y estimador) que pueda implementar con ayuda del marco de muestreo de elementos y al final, con la mejor estrategia, selecciona un única muestra y realizar el proceso de estimación con el mejor estimador.
Sampling and analysis of survey data in R
May 2nd
A few years ago when I was attending sampling I and sampling II at Universidad Nacional de Colombia, in Bogotá, I wondered if, as in traditional statistical methods – such as regression, correlation analysis or t tests – there would be some software that would make estimation of totals or means for different sampling designs. My search began in SPSS, Minitab, Statgraphics, among others. The result was disappointing but motivating. Indeed, at that time did not exist a friendly software to make inferences about the total or means. Now, thanks to the advantages of R and SAS there are multiple choices that allows you to focus on the survey design and overlook the difficult task of programming.
By clicking here, you will find a presentation that includes, in this first installment, the design and analysis of a survey for basic sampling designs. The inference is implemented with the help of a sampling frame of elements. This can be a useful aid for both students and teachers of sampling surveys, but can also be used by professionals in the design and analysis of surveys.
The aim of the presentation is to know the advantages and disadvantages of the main strategies of sampling when elements sampling frames are available. Topics: R, Marco and Lucy, Bernoulli sampling, simple random sampling, simple random sampling with replacement, systematic sampling.
Muestreo y análisis de encuestas en R (Parte I)
Apr 29th
Hace algunos años cuando cursaba las materias de muestreo I y II en mi alma máter, la Universidad Nacional de Colombia, Sede Bogotá, me preguntaba si al igual que en los métodos estadísticos tradicionales – como la regresión, el análisis de correspondencias o las pruebas t – habría algún software que permitiera realizar estimación de totales o medias para distintos diseños de muestreo. Mi búsqueda comenzó en SPSS, Minitab, Statgraphics, entre otros. El resultado fue desalentador aunque motivador. En efecto, en ese entonces no existía, y dudo que ahora exista, un paquete computacional de clic-clic amigable con el cual realizar inferencias sobre los totales o medias. Ahora, gracias a las ventajas de R y SAS existen varios paquetes de muestreo que si bien no son de clic-clic, si permiten enfocarse en el diseño de las encuestas y dejan de lado la difícil tarea de la programación.
Haciendo clic acá encontrará una presentación que incluye, en esta primera entrega, el diseño y análisis de una encuesta contemplando diseños de muestreo básicos que se implementan con la ayuda de un marco de muestreo de elementos. Esta puede ser una ayuda útil tanto para estudiantes y docentes del curso de muestreo, aunque también puede ser utilizado por los profesionales del diseño y análisis de encuestas.
El objetivo de la presentación es conocer las bondades y desventajas de las principales estrategias de muestreo cuando se tienen marcos de muestreo de elementos utilizando programación en R. Los temas tratados: R, Marco y Lucy, estrategias para muestreo Bernoulli, estrategias para muestreo aleatorio simple, estrategias para muestreo aleatorio simple con reemplazo, estrategias para muestreo sistemático.
Actualización 1: La presentación puede ser descargada también desde acá. (TeachingSampling)
El gremio se pronuncia acerca de las recientes encuestas electorales de las elecciones en Colombia
Apr 12th

Empiezo esta entrada con un vínculo que el Doctor Daniel Diaz me hizo llegar… Se trata de un comentario con aíres de jocosidad acerca de una situación que se presentó la semana pasada con un estudio de opinión que realizó una empresa de investigación de mercados y que conmovió profundamente la situación electoral en Colombia. Al respecto la revista semana afirma que:
Cuando se hizo la tabulación arrojó el desconcertante resultado de que Mockus estaba ligeramente por encima de Juan Manuel Santos. Los directivos de la firma se sorprendieron tanto que pensaron que se podía tratar de un error metodológico o de trabajo de campo y, ante la duda, decidieron volverla a hacer. El resultado es el conocido: Santos 29,5 por ciento y Mockus 24,8 por ciento. Lo curioso es que ambos resultados son compatibles y coherentes estadísticamente, pues en los dos casos hay un empate técnico si se tiene en cuenta el margen de error.
Acerca de lo anterior, tengo que compartir mi alegría porque según estas cifras es posible que el candidato de mi preferencia logre la primera magistratura en los comicios presidenciales que se acercan. Sin embargo, debo también compartir mi profunda tristeza y decepción por las grandes fallas técnicas que se presentan en esos estudios de opinión, tan familiares en nuestra sociedad, los cuales no pueden ser catalogados ni siguiera como una imitación de encuesta (mucho menos se puede decir que hay muestreo en la selección de los individuos).
Desde la perspectiva del ojo experto, la anécdota que comparte la revista semana debería ser suficiente para desacreditar cualquier informe técnico de estas empresas encuestadoras… “eh, repitamos la encuesta, ya que no hay nada mejor que hacer…” Para los lectores de este blog, debe ser bien conocida la apatía que promulgo por estas prácticas… Desde mi punto de vista, el desconocimiento de las buenas prácticas estadísticas me parecen una oportunidad para jugar a voluntad con la opinión pública, ligada directamente con los destinos de nuestro país. Póngase una vez más en el lugar del gerente de marca de una empresa privada que ha contratado una investigación de mercados… Se realiza el estudio y el procesamiento arroja que su producto está por debajo de lo esperado… La solución con este tipo de prácticas es: “No digan nada y repitamos la encuesta hasta que cuadren los resultados.” Por Dios, a cuánta gente habrán engañado estos tíos… Es obvio que al pueblo se le engaña fácilmente, pero estas personas son capaces de engañar a gerentes de mercadeo instruidos en las mejores universidades. ¡Eso debe acabar!
Aparte de los detalles éticos, los inconvenientes técnicos de estos mediocres estudios son inconmensurables… Al respecto, por medio de mi colega Laura Amaranta Carrillo León, he podido tener acceso a un pronunciamiento realizado por varios expertos en muestreo y análisis de encuestas en Colombia. Haciendo clic acá podrá tener acceso a este valioso comunicado que muy honrosamente se me permitió difundir por este blog. Al respecto, basta decir que cada día nuestro gremio debe estar más unido y debe pronunciarse, así como en esta ocasión, seriamente en temas concernientes con el análisis de datos (no solo provenientes de encuestas). Mis comentarios son de solidaridad con esta misiva y no me queda más que agradecer a mis colegas por su sentido patriótico de pertenencia y por el excelente trabajo que hicieron al plasmar en palabras del día a día los detalles técnicos. Comedidamente invito a los lectores a estudiar detenida y cuidadosamente cada una de las diapositivas que conforman el informe y a difundirlo entre sus allegados.
Nuestro libro de estadística: Teoría Estadística, Aplicaciones y Métodos
Apr 7th
Hace unos pocos días hemos terminado un trabajo que desde hace unos años empezamos a gestar en la Facultad de Estadística de la Universidad Santo Tomás… se trata de un libro de teoría estadística que recoge la rigurosidad teórica y al mismo tiempo conduce al lector por el apasionante destino de la práctica estadística la cual ciertamente debe estar fundamentada en la teoría. Con este enfoque empezamos a divagar sobre cuál debería ser el orden de los contenidos y qué tópicos debería abordar el texto. Después de poco tiempo, propuse que debería ser el sentido común quien le diera el orden a los contenidos. El sentido común al que tanto apelaba Leslie Kish cuando, a grandes rasgos, afirmaba que las muestras no estaban dadas sino que debían ser recolectadas y analizadas.
Con base en lo anterior, verificamos que el análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución beta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque… tiene la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría que se desarrolla rigurosamente.
El libro está en proceso editorial y esperamos que en pocos meses esté disponible en el mercado hispanoamericano. Haciendo clic acá encontrará una visualización del texto. A continuación reproduzco el prologo, que muy amablemente fue escrito por Fabio Nieto, reconocido profesor e investigador del Departamento de Estadística de la Universidad Nacional de Colombia, sede Bogotá.
Sobre teoría estadística se han escrito muchos libros, indudablemente más en el concierto internacional que en el nacional. Sin embargo, cada vez que un lector se enfrenta a una nueva publicación sobre el tema, él quisiera detectar qué es lo nuevo, diferente o atractivo que se presenta o desarrolla en la obra que tiene en sus manos. Desde esta premisa, es muy agradable presentar este libro en el cual se marcan diferencias importantes con respecto a muchos otros escritos sobre la materia. En las líneas siguientes explicaré estas características significativas, para usar un término muy “estadístico”.
En virtud de la gran experiencia y habilidad en el manejo del lenguaje R por parte de los autores, el libro incluye muchos ejemplos ilustrativos de los conceptos fundamentales de la inferencia estadística, los cuales se han desarrollado con este lenguaje. Esto permite al lector comprender, por ejemplo entre muchas otras, la noción intuitiva de distribución muestral (o de muestreo).
Se incluye la teoría estadística básica de la inferencia multivariada, crucial en el entendimiento del comportamiento probabilístico de un vector de variables aleatorias y de las relaciones entre ellas. No es usual encontrar un trabajo en donde se incluyan conjuntamente, los contextos univariado y multivariado de la inferencia estadística.
Este libro es un buen punto de partida para el conocimiento e interiorización de la teoría estadística, por parte de estudiantes de una carrera de estadística, en el entendido de hacer de la práctica estadística una profesión. Además, podrá ser un gran soporte para la realización de estudios de posgrado, bien sea a nivel de profundización de conocimientos o a nivel de investigación.
En forma muy general, se puede afirmar que en la presente obra, la teoría y sus aplicaciones son presentadas de manera muy coherente y equilibrada; es decir, sin profundizar en lo teórico más allá de lo necesario y sin exagerar en la inclusión de las aplicaciones. Por esto y todo lo expresado anteriormente, me siento muy complacido de presentar este libro y de recomendarlo a un amplio conglomerado de lectores o usuarios de la estadística.
Fabio Nieto
Cosas que debo hacer este semestre…
Feb 14th
- Publicar <<Inferencia Estadística, un enfoque integral>> (alguien tiene un mejor nombre?, todavía no me convenzo de ese título… este libro es pura estadística matemática aplicada a las ciencias sociales… modelos univariados y multivariados, ejemplos en R y datos reales, 350 pags!!!!)
- Empezar my thesis PhDs (Modelamiento Bayesiano para datos longitudinales en media y varianza, mi tutor me dice que debo entregar en año y medio… ojalá, Dios me ayude!!!)
- Terminar el libro de Bayesiano (En principio se llama Introducción a los modelos Bayesianos… ¿un mejor nombre?… ya terminé toda la parte teórica, pero falta que los coautores me ayuden con los ejemplos en R… Modelos univariados, multivariados, regresión, modelos lineales generalizados, modelos jerárquicos, series de tiempo, muestreo y sobrevida.)
- Darle forma a las notas de Análisis de Sobrevida (Esta será una linda aventura… todo empezó con el curso de doctorado y ahora ya tenemos unas notas que carecen de estructura, pero que muy seguramente saldrán a la vida en un libro introductorio de esta linda materia.)
- Patinar con mis amigos!!! skating with my hommies.
R y LaTex unidos en la generación automática de reportes de muestreo
Dec 14th

Se acerca navidad y esta vez el regalo es para aquellos estadísticos que trabajan generando cuadros de estimaciones de muestreo (aunque no necesariamente de muestreo probabilístico) y lo hacen utilizando R (no necesariamente el paquete TeachingSampling). Una vez más, Jorge Ortiz vuelve a sorprender al gremio con su creatividad y su perspicacia para automatizar las tareas en las que el estadístico no es tan hábil. En esta ocasión, se propone un procedimiento para y una función en lenguaje R para preparar la edición automática de grandes cantidades de tablas con estructuras similares que se generan durante las aplicaciones de encuestas.
Se trata de las nuevas funciones TbLatex y DataFr, incorporadas en la nueva versión del paquete TeachingSampling (v. 1.1.9), las cuales permiten definir la implementación de variables, categorías, subgrupos poblacionales, rótulos, estimaciones, coeficientes de variación, títulos, encabezados y notas de las tablas resultantes de un estudio que se van a incluir en un reporte de trabajo estadístico. Esta engorrosa labor es llevada a cabo, la mayoría de las veces, utilizando MS Excel o MS Access y su implementación final puede tomar varias semanas, si se cuenta con un equipo de varios digitadores. Además de evadir el error humano, la presentación de las tablas es muy importante. El formato resultante de la aplicación de estas funciones (ver imagen y ver acá) es limpio, diáfano y estándar. Además que mejor que presentar unos buenos cuadros de salida venidos de LaTeX.
El resultado de las funciones es un archivo con extensión .tex. Se trata de un archivo que se encuentra listo para compilar en su editor preferido de LaTeX. Si se trata de un reporte técnico, usted puede generar un informe vertical. Si se trata de una presentación con diapositivas, lo puede hacer de forma horizontal. Si sólo necesita los cuadros de salida, por ejemplo para un apéndice, sólo tiene que ejecutar la función en R y compilar y listo. Si quiere añadirle texto y explicaciones y referenciarlas, sólo tiene que abrir el archivo generado y, antes de compilar, añadirle sus explicaciones o lo que sea que le quiera añadir.
Esta implementación, es fruto de este artículo del profesor Ortiz que saldrá en pocos días en la revista comunicaciones en Estadística. En ese manuscrito, el profesor Ortiz utiliza un ejemplo ficticio para la generación de tablas automáticas. Por otro lado, está este manual de las funciones que estará en pocas semanas en el CRAN de R, disponible en el paquete TeachingSampling. En este manual, se integraron las funciones en cuestión con las del paquete y como resultado se tiene un software que selecciona muestras de la mayoría de diseños de muestreo más conocidos, que estima totales, medias, cuantiles y coeficientes de regresión – para múltiples variables de interés – mediante expansión, o calibración y todas esas estimaciones se concentran en LaTeX para la generación diáfana de reportes de muestreo.
Esperamos que disfruten esta nueva característica del paquete y Feliz Navidad… Volveré a escribir, si Dios lo permite, a principios del otro año. Feliz y próspero año nuevo… Tome un momento y recapacite en todas las cosas buenas de la vida… Bien, esas cosas se las dio Dios… sea agradecido. De esta manera, me despido de ustedes, agradeciéndole a Dios por tantos lectores y comentaristas.
Estrategias de muestreo: Diseño de encuestas y estimación de parámetros
Nov 13th
Es un honor poder compartir con ustedes mi primer libro… pueden estar seguros que este es el comienzo de una nueva cultura de la estadística aplicada en Colombia y en hispanoamericana… vendrán más, muchísimos más. Como había anunciado antes, este libro está divido en tres partes. La primera parte trata con rigurosidad los diseños de muestreo para elementos y conglomerados y es apta para el aprendizaje exhaustivo del muestreo. La segunda parte trata con la incorporación de información auxiliar en la etapa de estimación en donde surgen los estimadores de regresión, los estimadores de calibración, el método de raking y el IPFP. Además, esta parte adjunta un muy buen capítulo de estimación de parámetros finitos bajo modelos (model-based survey sampling). La tercera parte trata con temas más complejos como diseño de muestreo y estimación en encuestas multi-propósito, muestreo balanceado, muestreo indirecto y muestreo en dos fases.
Mi objetivo es que este libro se convierta en una guía no sólo académica sino práctica y que el profesional, estadístico o no, que se encuentre involucrado en el diseño, implementación y ejecución de encuestas encuentre en este texto un baluarte que le permita relizar su trabajo profesional con mejor eficiencia.
Gracias, muchas gracias, en primer lugar a Dios, y a ustedes…Todos ustedes son la razón de este blog, de las publicaciónes en revistas y de este libro y los otros que vendrán.
PD1: En la foto, al lado izquierdo este servidor, en el centro mi libro y al lado derecho Pedro Silva, profesor de la universidad de Southampton en Inglaterra y expresidente del InterAmerican Statistical institute (IASI), el personaje latinoamericano más influyente en el mundo del muestreo.
PD2: La página oficial del libro es esta. Allí encontraran las soluciones a los ejercicios, el paquete base en R (TeachingSampling package), las erratas y las actualizaciones que haré.
Vacío en muestreo
Sep 10th
Esta entrada debió haberse escrito hace mucho tiempo, cuando el maestro Leonardo Bautista aun vivía. Suponga que se realiza un diseño de muestreo en un población finita U de tamaño N. Suponga que el diseño de muestreo de es Bernoullí, en donde cada elemento es seleccionado con la misma probabilidad p. En general, se asigna a cada individuo un número aleatorio mediante una distribución uniforme, y para cada individuo se decide su pertenencia en la muestra si este número es menor que la probabilidad p. Es claro que el tamaño d emuestra para este diseño es aleatorio; por supuesto, es posible que la muestra seleccionada sea vacía.
Por otro lado, es bien sabido que una medida de probabilidad bien definida es tal que la probabilidad de vacío es nula. Ahora, la probabilidad de selección de una muestra vacía en un diseño de muestreo Bernoulli es (1-p)^N, la cual es claramente distinta de cero. La explicación es sencilla, en muestreo es posible la selección de muestras que no contengan ningún elemento. Sin embargo, lo anterior es diferente al evento vacío. El evento vacío no es la selección de una muestra vacía. Es más, el evento vacío sería como nunca realizar la selección. Pensemos en una moneda: la probabilidad de cara es un medio, la probabilidad de sello es un medio. La probabilidad de vacio es nula.
Para evitar la confusión, yo recomiEndo que en los cursos de muestreo, se defina la muestra como un vector multivariado de tamaño N, con entradas: uno, si pertenece a la muestra y cero si no pertence a la muestra – en un diseño sin reemplazo. Ahotra, si la muestra es vacía entonces el vector será (0,0,…,0) y, es claro que, cero es muy distinto de vacío.
My talks in Medellín
Jul 21st
El XIX simposio de estadìstica acaba de culminar con un rotundo éxito. Tuve la oportunidad de viajar y participar en este evento con investigaciones involucradas específicamente en mis áreas de interés: Muestreo e Inferencia Bayesiana.
La primera charla se llama Frequentist performance of confidence and credibility intervals for the difference of two proportions y trata de la comparación, en términos de estadística clásica, de varios intervalos de confianza, entre ls que se destacan el intervalo de Newcombe y varios intervalos de credibilidad con información previa no informativa
La segunda charla se titula A multiparametric approach in multipurpose surveys y es la base teórica del paquete TeachingSampling y está motivada por el pensamiento de T. M. F. Smith acerca de la brecha entre los estadísticos teóricos y los prácticos en términos de encuestas que involucran la estimación de muchos parámetros y por consiguiente incorporan muchas variables en el estudio.
Encuestas multi-propósito
Jul 7th
Si los estad¶³sticos te¶oricos hacen caso omiso al reto de enfrentar las
T. M. F. Smith (1976)
Si los estadísticos teóricos hacen caso omiso al reto de enfrentar las encuestas multi-propósito, entonces el vacío existente entre ellos y los estadísticos prácticos se hará cada vez más grande. El diseño y análisis de encuestas multivariantes debe ser una de las próximas áreas de mayor investigación.
T. M. F. Smith (1976)
Haciendo clic acá encontrará un reciente artículo que reúne una introducción a la motivación de investigación que hizo uno de los personajes más influyentes en la escena estadística mundial, el profesor Smith, quien discutió acerca de los fundamentos de la teoría del muestreo, desde sus primeros años hasta las últimas tendencias en cuanto a predicción y estimación en poblaciones finitas. En sus múltiples artículos, Smith afirmó que en el muestreo, los problemas univariados (estimación de un parámetro desconocido para una sola característica de interés) se encuentran en unas cuantas ramas de aplicación, limitadas a encuestas de opinión pública, muestreo industrial de aceptación y muestreo en auditorías. Sin embargo, la gran mayoría de encuestas que se realizan alrededor del mundo son de tipo multi-propósito (estimación de varios parámetros desconocidos para varias características de interés). El profesor Smith tuvo en cuenta la limitación que presentan los grandes textos clásicos del muestreo al no considerar este tipo de estudios ni incluirlos en sus páginas y llamó la atención a los teóricos del muestreo a realizar investigación formal en este tipo de tópicos como lo muestra la motivación al principio de esta entrada.
Estimadores de máxima cuasiverosimilitud en muestreo bifásico
Jun 30th
Los estimadores óptimos de calibración (Wu & Sitter) utilizan información auxiliar completa para producir estimaciones más eficientes. Cuando no se dispone de este recurso, una alternativa es realizar un muestreo en dos fases para recopilar la información auxiliar en una primera fase y después utilizarla en el diseño o estimación de la segunda fase. Haciendo clic acá encontrará un reciente artículo (a manera de revisión) en donde se compara la eficiencia de los estimadores óptimos de calibración, cuando la relación entre la variable de estudio y las variables de información auxiliar es lineal y log-lineal. En este último caso se utilizan métodos de cuasi-verosimilitud para la estimación de los parámetros del modelo de super-población.
Seleccionando muestras de café
Jun 16th
Acabo de salir de una reunión corta pero sustanciosa…
Érase una vez, una gentil mujer, de unos cuarenta años de edad, que me contactó a mi teléfono personal acudiendo a la necesidad de que le “ayudara” en la selección de una muestra para un estudio de investigación de mercados… Por supuesto, yo mostré toda mi disposición y acepté atenderla en mi oficina. La mujer me respondió que era mejor encontrarnos en un café en el centro de la ciudad. ¿Un café? – me pregunté – mejor sería en su oficina… La gentil y necesitada dama accedió a que la reunión se efectuara en sus instalaciones.
Hoy llegué puntual a la cita, pero para mi sorpresa el celador que atendía me recibió con una desafortunada noticia… <<Si no me dice el nombre completo de la señora, no lo anuncio>> – ¿Qué qué? – La señora se llama fulanita de tal – le respondí con afán… ¿Si? ¿y el segundo apellido? – me respondió el ingrato celador… Desde allí las cosas comenzaron al revés… Llamé a la gentil dama a su celular, le informe que acerca del insuceso en portería y así me dejó acceder a las instalaciones.
El guarda de seguridad, me guió a lo que parecía ser un salón comunal… una mesa de plástico y dos sillas VaniplaX… ¿En dónde estoy? – me pregunté y reflexioné en que hubiese sido mejor haber accedido a tener la entrevista en el café. Después de un treinta minutos, la señora se apareció con el cabello… cabello mojado y cara lavada… Hola, se me hizo tarde, siéntate… (Yeah right!!!)
Empezó contándome acerca de lo “exitosa” que era su empresa, en donde la costumbre era contratar <<freelanceros>> para que hicieran el trabajo (¿sucio?). En ese justo instante me sentí desafortunado y quería concretar el diseño de muestreo rápidamente. La gentil dama escuchaba atentamente cuando le hablé de mi experiencia y del proceso científico que había detrás de la selección de cualquier muestra. Cuánto llegamos a la parte contractual, yo le hice mi propuesta económica y fijé las condiciones de pago.
Fin de la reunión.
¿Cómo? ¿Por qué? ¡¡¡Ni que la muestra tuviera oro!!!… los argumentos de la gentil dama – psicóloga de profesión – rayaban en lo ridículo. Aclaro que la muestra necesitaba de información auxiliar y que la propuesta económica era bastante asequible. ¿Cuánto tiempo se demora seleccionando la muestra?, yo tengo un estadístico que me hace eso gratis – argumentaba la señora.
Mi reflexión: 1) Yo no soy un <<FreeLancer>>, soy un profesiona.l 2) Quisiera conocer al estadístico que hace muestras gratis, me suena a psicólogo. 3) ¿Cuánto cuesta hacer un <<focus group>>? Mínimo unos treinta millones de pesos ¿Habrá que estudiar siete años para hacer que unas personas conversen en el focus group?. 4) Estas gerentes de empresitas de barrio se ufanan de que están haciendo patria y empresa… No lo creo, no están haciendo patria, están lucrándose y aprovechándose de tanto administrador desempleado. Si quisieran hacer patria y empresa, entonces ni siquiera mencionarían la palabra <<FreeLancer>> y la cambiarían por <<empleado con contrato indefinido más prestaciones de ley más prima extralegal>>. 5) Necesitamos una ley de verdad que cobije nuestra profesión. No más ingenieros, ni administradores, ni psicólogos seleccionando muestras gratis, muestras de café, muestras de café con mala leche… Zapatero a tus zapatos ¿Qué diría el gremio de los médicos si un administrador quisiese realizar una cirugia de miocardio?
Homenaje a Leonardo Bautista
May 4th
En los últimos años, el maestro Leonardo Bautista fue uno de los personajes más importantes e influyentes en la escena estadística colombiana. Como discípulos suyos, creemos que nuestro cometido con la ciencia requiere que como publicación se haga un homenaje al profesor Bautista, no con lamentos sobre su partida sino como a él más le hubiese gustado: divulgando las investigaciones que él realizó en conjunto con sus pupilos.
El segundo número de la Revista Comunicaciones en Estadística será un homenaje al maestro Bautista. Varios colegas, algunos desde el extranjero, participarán con sus valiosos artículos y aportes generados en conjunto con el maestro Bautista. En particular, quisiera resaltar la participación editorial del estadístico José Fernando Zea Castro quien escribió el siguiente ensayo desde su perspectiva como estudiante.
Leonardo Bautista: Perspectiva del estudiante
El profesor Leonardo Bautista falleció el 20 de Enero del 2009. Este hecho es muy doloroso para la comunidad estadística y el país pierde una figura controvertida que no tenía miedo de decir la verdad y de ser honesto en sus planteamientos. Sin embargo, su legado y sus enseñanzas permanecerán por mucho tiempo. Él Creó un estilo y una manera única de ejercer su profesión, fue una persona de odios y de amores, con una personalidad radical, fuerte y apasionada, fue un luchador incansable, un poeta, un maestro que hizo con su profesión los mejores versos, excelente representante de lo que debe ser un estadístico: responsable, disciplinado, creativo, ilustrado, ordenado, comunicador, diáfano en sus planteamientos, locuaz y divertido.
Tuve el honor de conocer al profesor y de tomar con él tres cursos en el pregrado: Muestreo I, Muestreo II, y Diseño y Desarrollo de Encuestas. Son muchas las enseñanzas que dejó para mi vida profesional y laboral. A comienzos de Febrero del año 2005, tuve mi primera clase de Muestreo I, el profesor llegó puntualmente y el salón se encontraba en silencio, expectante y se respiraba una atmósfera de tensión; ya teníamos cierta información proporcionada por algunos de sus estudiantes anteriores que nos hacía pensar que aprobar y sobresalir en este curso no iba a ser nada fácil. Sin embargo, también sabíamos de la excelente calidad de éste docente.
Hasta ese día, la mayoría de mis compañeros y yo, nos habíamos desplazado por el mundo abstracto de las matemáticas, nuestros conocimientos estadísticos y la aplicación de éstos en la vida real, eran vagos, confusos o inexistentes. Comenzó la clase y el maestro indagó por nuestros nombres y por las asignaturas que íbamos a cursar ese semestre, no transcurrió mucho tiempo y él abordó a uno de mis compañeros preguntándole: “¿vas a ver cinco materias y muestreo?”, mi compañero intimidado asintió afirmativamente con la cabeza, a lo cual el profesor respondió –“muestreo requiere dedicación de tiempo completo incluso hasta en los sueños”, esta fue la primera pista de lo exigente que iba a ser. Desde el primer día de clases el profesor tuvo la capacidad de inferir la personalidad y el carácter de muchos de sus estudiantes, su mirada intimidaba pero a la vez motivaba e invitaba a poner atención a cada una de sus palabras y gestos.
En esa primera clase, nos presentó el programa del curso y mencionó nombres incomprensibles e indescifrables para mí en ese momento: probabilidad de inclusión, estimador de Horvitz-Thompson, diseño de muestreo multietápico, conglomerados, unidad primaria de muestreo, etc. Aunque me sentía confundido, me quedó muy claro la seriedad y profesionalismo que iban a tener sus clases, efectivamente no me equivoqué. Desde este día, Leonardo Bautista puso las reglas muy claras, no valía enfermarse, ni la ocurrencia de ningún evento extraordinario (ni siquiera la ocurrencia de otro 5-0 de Colombia sobre Argentina) para aplazar parciales o eludir nuestras responsabilidades.
Transcurrían los días y sus clases cada vez se iban tornando más interesantes, enriquecedoras y divertidas, éstas eran de una alta exigencia, ricas de anécdotas y por supuesto no faltaba el humor negro hacia algunos de sus estudiantes más desorientados. Leonardo Bautista era un psicólogo, sí que lo era, en unas pocas clases ya tenía identificado a sus pupilos más complicados, confiados, de peor carácter y más desorientados, así mismo tenía una broma y una observación jocosa para sus estudiantes más particulares.
Leonardo Bautista tenía el ejemplo adecuado, la anécdota interesante y el comentario acertado para cada una de las preguntas que nos iban surgiendo, eran frecuentes los ejemplos que nos trasmitía de sus experiencias. Siempre nos exigió que planteáramos bien las preguntas que nos surgían y nos enseñó la metodología y el orden en que se plantea y se resuelve un problema estadístico.
Muchos de nosotros tuvimos el primer contacto con un paquete estadístico en este curso, nos enseñó SAS de la manera más sencilla posible o como a él le gustaba decir de “manera picapedrera”, implementamos en este paquete desde los diseños de muestreo más sencillos: Bernoulli, muestreo aleatorio simple, hasta diseños más complejos como los diseños multietápicos. Nunca fue reacio a que exploráramos otras herramientas y motivó el uso de otras alternativas como R, paquete estadístico que empezaba a ser popular en el departamento de estadística gracias a varios profesores, entre ellos los de computación estadística: Álvaro Montenegro y Jorge Ortiz, este último quien tomó como asistente en esa ocasión el curso de muestreo.
Aún están en mi mente las tareas extensas que él nos dejaba cada martes para la siguiente semana; éstas eran bien planteadas, interesantes, ricas en conceptos, prácticas y muy laboriosas, muchos entendimos al realizarlas conceptos tan importantes como probabilidad de inclusión, probabilidad de cobertura, insesgamiento, varianza de un estimador, boostrap, jacknife y otras nociones de estadística multivariada, modelos lineales e inferencia estadística.
La biblia del profesor Leonardo Bautista era el libro de muestreo de Särndal, Wretman y Swensson: “Model Assisted Survey Sampling”, en sus palabras descubrir este libro fue encontrar la luz, el camino y la senda correcta de la enseñanza del muestreo, según él, otros autores clásicos no abordaban de manera tan clara el muestreo como lo hacía este libro. Nos exigía una lectura detallada de cada uno de los párrafos del libro y para muchos de sus estudiantes ésta fue la primera inmersión en la lectura de un libro en lengua extranjera.
La diversión se acababa cuando ya se acercaba el parcial, las perspectivas de responder un examen en el cual todo estaba dado para perderlo no nos entusiasmaba mucho. En primer lugar, el examen era un sábado, la primera parte de éste era un control de lectura de la biblia del profesor Bautista a través de varias preguntas de tipo opción múltiple con penalización de dos puntos negativos para aquellas de éstas que estuvieran mal contestadas.
La segunda parte del examen se hacía en unas sala de cómputo, muchos de nosotros llegábamos con una sonrisa victoriosa, con la satisfacción de haber realizado un programa con un ingenioso código en SAS o R, con el cual implementábamos los diseños de muestreo enseñados hasta ese momento por el profesor; sin embargo por alguna razón desconocida, en muchas ocasiones nuestros programas no funcionaban al aplicarlo al conjunto de datos entregados por él, o bien, funcionaban sólo después de haber terminado el examen. Por lo tanto era posible que algún estudiante, habiéndose dejado llevar por los nervios y sumado a esto el no haber estudiado ni preparado de manera adecuada su programa, tuviera una nota inferior a cero, es decir, se podía quedar debiendo nota Este asunto lo resolvía el profesor plasmando en la hoja de dicho estudiante un cero con todo el cuidado.
Se perdía siempre con 2.5, así que si alguien sacaba un doloroso 2.9 no había posibilidad alguna de redondeo, la nota era contundente: 2.5.
Su fuerte exigencia nos forjó y nos hizo más fuertes, si algo nos transmitió el profesor Bautista fue el sentirnos orgullosos de nuestra profesión, pero nunca despreciando o subestimando las demás profesiones u oficios. El profesor nos hizo concientes de la importancia de nuestra labor en la toma de decisiones en el quehacer económico, social, político y científico.
Fue inolvidable la experiencia que tuvimos con él en el curso de Diseño y Desarrollo de Encuestas que impartió en Julio del año 2005, en esa ocasión se quería realizar una investigación en Soacha acerca del riesgo de cáncer de cuello uterino en las mujeres mayores de 25 años. Cada uno de los detalles, desde el planteamiento con un médico de cada una de las preguntas del cuestionario hasta la creación de los cuadros de salida de la encuesta, entre otras muchas minucias, fueron explicadas de manera clara y precisa por él. Fue una experiencia totalmente enriquecedora e inolvidable, llena de anécdotas e historias.
De ese curso recordamos un dolor en su espalda aparentemente insignificante, el cual empezó a manifestársele cuando había transcurrido unos días del inicio del curso; ese dolor día a día lo afectaba más y se hizo evidente que algo grave lo aquejaba, pues bien, fue por esos días que se le diagnóstico cáncer en la medula. Pese a sus dolores y dificultades para movilizarse él nunca se rindió ni eludió sus responsabilidades académicas. por el contrario siempre estuvo dispuesto a colaborarnos y nos transmitió conocimientos invaluables, finalmente y pese a las dificultades que hubo a raíz de sus problemas de salud se logró culminar con éxito el curso.
Pasaron seis meses en los cuales supimos de la lucha incesante del profesor contra el cáncer. Luego de éstos regresó a las aulas, en esa ocasión el iba a impartir el curso de Muestreo II. Por sus dolores ya no podía escribir en un tablero, así que empezó a preparar diapositivas para cada clase. Pese a los constantes dolores del profesor el curso logró terminarse con éxito y con la exigencia a la que él nos tenía acostumbrado.
El legado que deja Leonardo Bautista es invaluable, muchos estadísticos aprendimos muestreo y estadística con él, nos enamoramos de nuestra profesión, nos dejó un libro de muestreo en el cual sintetizó de manera muy clara sus enseñanzas y en donde plasmó algunos de sus pensamientos. Dirigió varios trabajos de grado e influenció varios artículos e investigaciones y muchas personas siguen ahora sus pasos y transitan por los senderos que él dejó despejados.
Sus aportes tuvieron un alcance mucho más allá de la academia, fueron muy reconocidos sus cursos de censos y encuestas para funcionarios del DANE. En esta institución e indirectamente en muchas otras él también dejó su huella. Su laboriosidad y dedicación marcó también a muchos estadísticos que actualmente laboran en el sector público y privado. Leonardo Bautista nos dejó varias lecciones para nuestra vida: la pasión por servir a la sociedad, el amor por la profesión y nunca rendirnos ni siquiera ante las adversidades más grandes; nos enseñó la fuerza de la argumentación y nos mostró como hay que defender nuestras ideas con estilo y respeto hacia los demás.
Gracias maestro.
José Fernando Zea Castro
“Yo no se lo que es el destino, caminando fui lo que fui” Leonardo Bautista citando a Silvio Rodríguez…
(El anterior texto fue tomado de la editorial del segundo número de la Revista Comunicaciones en Estadística y se reproduce con autorización del comité editorial)
Pearson, Fisher, Bayes y …
Apr 28th
Desde la revolución estadística de Pearson y Fisher, la inferencia estadística busca encontrar los valores que parametrizan a la distribución desconocida de los datos. El primer enfoque, propuesto por Pearson, afirmaba que si era posible observar a la variable de interés en todos y cada uno de los individuos de una población, entonces era posible calcular los parámetros de la distribución de la variable de interés; por otro lado, si sólo se tenía acceso a una muestra representativa, entonces era posible calcular una estimación de tales parámetros. Sin embargo, Fisher discrepó de tales argumentos, asumiendo que las observaciones están sujetas a un error de medición y por lo tanto, así se tuviese acceso a toda la población, es imposible calcular los parámetros de la distribución de la variable de interés.
Del planteamiento de Fisher resultaron una multitud de métodos estadísticos para la estimación de los parámetros poblacionales. Es decir, si la distribución de está parametrizada por
, con
el espacio paramétrico inducido por el comportamiento de la variable de interés, el objetivo de la teoría estadística inferencial es calcular una estimación
del parámetro
por medio de los datos observados. En este enfoque, los parámetros se consideran cantidades fijas y constantes. Sin embargo, en la última mitad del siglo XX, algunos investigadores estadísticos comenzaron a reflexionar acerca de la naturaleza de
y enfocaron la inferencia estadística de una manera distinta: asumiendo que la distribución de la variable de interés está condicionada a valores específicos de los parámetros. Es decir, en términos de notación, si la variable de interés es
, su distribución condicionada a los parámetros toma la siguiente forma
. Esto implica claramente que en este nuevo enfoque la naturaleza de los parámetros no es constante sino estocástica.
Ahora, en este justo instante, vienen pequeños susurros desde Brasil, que mencionan que un grupo de estadísticos ha empezado a trabajar en un nuevo enfoque. Amanecerá y veremos.
Breve historia del muestreo (Design-based & Model-based)
Apr 15th
Haciendo clic acá encontrarán un breve ensayo de la historia del muesreo y de la inferencia en poblaciones finitas… corresponde al primer boceto de la introducción del capitulo 15 del libro Estrategias de Muestreo: diseño de encuestas y estimación de parámetros.
El paquete TeachingSampling
Mar 16th

¡Ojalá él estuviera aquí! Seguro que se sentiría muy feliz al saber que unos de nuestros sueños se ha cumplido…
Estimado colega, estimado profesor, estimado lector. Con mucha alegría permítanme presentarles el nuevo paquete TeachingSampling, desarrollado por mí en la Facultad de Estadística de la Universidad Santo Tomás, aunque un poco lejos de sus oficinas. En el CRAN de R existen un par de paquetes complementarios con respeto al muestreo; éstos son el paquete Survey escrito por Thomas Lumley, de la Universidad de Washington y el paquete Sampling escrito por Yves Tillé de la Universidad de Neuchatel. Excelentes paquetes, excelente programación y excelentes ejemplos. Sin embargo ninguno de ellos tiene el enfoque con el que yo aprendí muestreo y con el que quiero enseñarlo.
La documentación del paquete, haciendo clic acá y el archivo ZIP para la instalación manual, haciendo clic acá.
Es cierto, el muestreo y la inferencia en poblaciones finitas se distancian un poco de la estadística clásica y del pensamiento tradicional. Precisamente, por esta razón, el estudiante debe aprender, no sólo a manejar un software, sino a implementar los procesos muestrales en su mente sin que se pueda dar lugar a la confusión. ¿Cómo hacerlo? Mi respuesta es empezar desde lo básico… desde la medida, la probabilidad, las sigma-álgebras y el espacio muestral. En algunas cátedras de muestreo y en algunos textos, ni siquiera se menciona el concepto de Soporte. A mi entender, el estudiante debe asimilar en primer lugar este concepto para adentrase, después, en temas más complejos como las estrategias de muestreo y sus posibles variaciones.
Otro tema de suprema importancia es separar el diseño muestral del algoritmo de muestreo. Un diseño muestral es simplemente una distribución de probabilidad multivariante sobre un soporte, mientras que un algoritmo de muestreo es una manera de seleccionar muestras aleatorias que respeten el diseño de muestreo. Esto conlleva a que para un diseño de muestreo específico puedan existir múltiples algoritmos muestreo. Por supuesto, la forma de seleccionar la muestra implica directamente que la forma matemática del estimador que se utilice se vea alterada automáticamente por la escogencia de un diseño de muestreo, formándose así una dupla que se conoce como estrategia de muestreo.
El proceso no termina en memorizar qué es una estrategia de muestreo y sus infinitas variaciones. Una vez que se ha planteado el diseño de muestreo, que se ha seleccionado una muestra, mediante un algoritmo de muestreo, que se ha recopilado la información de las unidades seleccionadas en la muestra, se deben computar las estimaciones resultantes. Sin embargo, cuando yo hablo de estimaciones estoy inmediatamente refiriéndome a variación estadística. Por tanto junto con las estimaciones de los totales o las medias, es indispensable también publicar el coeficiente de variación estimado. Este concepto es vital para la buena práctica del muestreo.
Por otra parte, como lo asegura Sharon Lohr, una estrategia muestral siempre es susceptible de mejora. En particular, cuando se trata de incorporar información auxiliar (discreta o continua), ya sea en la etapa de diseño o en la etapa de estimación. El estudiante debe entender que la incorporación de información auxiliar no siempre es viable ya sea por motivos logísticos o porque con ésta no se logra mejorar la estrategia de muestreo en términos de la eficiencia estadística.
En ocasiones, la cátedra de muestreo se me antoja muy, pero muy matizada con la cátedra de programación computacional. Aunque no es posible hablar de investigación en muestreo sin habilidades computacionales, sí es posible lograr que el estudiante aprenda la teoría y ejecute una buena práctica sin necesidad de recorrer ese tortuoso camino de programación, que no a todos se nos facilita de la misma manera. La suma de las anteriores razones me llevó a plantear este programa en R, que ahora es una realidad y, que ejecuta los cálculos computacionales necesarios para la enseñanza del muestreo, respetando los conceptos arriba expuestos.
-
Distintos algoritmos de muestreo para diseños muestrales específicos
-
Estimaciones resultantes junto con la varianza y el coeficiente de variación estimado para las estrategias de muestreo
-
Incorporación de información auxiliar discreta. Muestreo estratificado y estimador de post-estratificación.
-
Incorporación de información auxiliar discreta. Muestreo de probabilidad proporcional y estimador de regresión general.
-
Requerimientos de estimaciones en dominios. Estimación en subgrupos poblacionales. Dominios o post-estratos
-
Diseños muestrales por conglomerados y en varias etapas
-
Calibración de estimadores. Método IPFP y de regresión
Espero que este paquete pueda servirles de mucha utilidad, ya sea enseñando, aprendiendo o utilizándolo en sus propias investigaciones.
PD: Agradezco al profesor Campo Elías Pardo por su apoyo y paciencia incondicional para la compilación del paquete y a Daniel Rodríguez, en primer lugar por su gran amistad, y por su interés, motivación y ayuda en el desarrollo de este paquete a pesar de la gran distancia.
Subgrupos poblacionales en muestreo
Feb 7th
Aunque el marco de referencia de la teoría de muestreo es la estimación de un parámetro de interés sobre alguna característica de interés, lo cierto es que en la práctica no solo se necesitan estimaciones que cobijen la población entera sino que también son indispensable estimaciones que involucren subgrupos poblacionales puesto que éstos inducen una partición de la población definida de la siguiente manera. Sean los subgrupos poblacionales tales que
Además si es el tamaño absoluto de
se tiene que
.
En general, es bien sabido que cuando se habla de subgrupos poblacionales se está haciendo referencia a dominios de interés, estratos o postestratos. Cuando el investigador se enfrenta a una encuesta que tiene en cuenta algunos subgrupos poblacionales, es indispensable conocer en qué se diferencian cada uno de ellos pues de esto depende que la investigación arroje resultados confiables mediante el planteamiento de la mejor estrategia de muestreo. Las definiciones y diferencias de cada uno de ellos se expresan a continuación.
- Dominios de interés: Este tipo de subgrupos poblacionales son aquellos para los cuales se requieren estimaciones separadas del parámetro de la característica de interés. Estos requerimientos se planean en la etapa de diseño para asegurar que el diseño de la muestra sea tal que al momento de la recolección de la información exista una buena cobertura en cada uno de los dominios de interés. Lo anterior sólo se puede lograr ampliando el tamaño de muestra
puesto que el marco de muestreo no informa acerca de la pertenencia de los individuos a los dominios de interés. Los aspectos más importante de esta clase de subgrupos poblacionales es que el número de individuos en la muestra que pertenecen a un dominio
de interés es siempre aleatorio, y para algunos dominios particulares puede llegar a ser muy pequeño. Por otro lado el tamaño absoluto de cada dominio
no se conoce ni antes de la etapa de diseño ni después de la etapa de estimación.
- Estratos: Cuando el marco de muestreo permite conocer la pertenencia de todos los individuos de la población a un subgrupo poblacional, se dice que esta clase de subgrupos se llaman estratos. Más aun, cuando se sabe que la característica de interés tiene un comportamiento distinto en cada uno de los estratos y se planea un diseño de muestreo que tenga en cuenta este aspecto mediante la selección aleatoria de unidades en cada uno de los estratos, se dice que el diseño de muestreo es estratificado. El aspecto fundamental de esta clase de subgrupos poblacionales es que el conocimiento de la pertenencia de los individuos a los estratos se incorpora en la etapa de diseño de la muestra. Nótese que a diferencia de los dominios, en los estrato se conoce tanto
como
antes de la etapa de estimación.
- Postestratos: La propiedad que caracteriza a este tipo de subgrupos poblacionales es que aunque en la etapa de diseño el tamaño del postestrato
es conocido, se desconoce el número de individuos que pertenecerán al postestrato
en la muestra realizada. Al respecto Sarndal, Swensson & Wretman (1992) afirma que existen dos situaciones en las cuales se presenta esta situación, llamada comúnmente postestratificación:
- El marco de muestreo es tal que se conoce la pertenencia de todos los elementos a los subgrupos poblacionales pero el investigador decide no utilizar esta información en la etapa de diseño. Las razones para esto son diversas pero principalmente se decide obviar este tipo de información por practicidad logística. Una vez que se ha realizado la selección de la muestra, se observa la característica de interés
en los individuos tales que
. El investigador decide utilizar la información auxiliar de pertenencia a los postestratos en la etapa de estimación para mejorar la eficiencia de la estrategia de muestreo, en particular del estimador propuesto.
- Mediante alguna fuente de información confiable se conocen los tamaños absolutos
de cada subgrupo poblacional aunque se desconoce la pertenencia de los individuos a los subgrupos pues el marco de muestreo presenta esta deficiencia. Después de la etapa de diseño, se observa la característica de interés y se pregunta acerca de la pertenencia de los individuos seleccionados en los postestratos de tal forma que en la etapa estimación se utiliza esta información para mejorar la eficiencia de los estimadores de los parámetros de interés.
Muestreo indirecto
Aug 11th
En este enlace encontrará la charla, de caracter divulgativo, acerca de las nuevas técnicas de muestreo. Específicamente, la charla está centrada en el muestreo indirecto y en el método de ponderación generalizada propuestos por Lavallée.
El artículo que da soporte a esta charla se puede descargar haciendo clic aquí. Esta comunicación está enmarcada en el ciclo de conferencias, cursillos, comunicaciones y posters del XVIII simposio de estadística: Estadística en la Industria y los Negocios: Encuentro conjunto organizado por la Universidad Nacional de Colombia.
Inferencia: Modelos o Aleatorización
Jul 27th

Las nociones de la inferencia en poblaciones finitas fueron expresadas hace más de 60 años en muchos libros clásicos como Cochran, Hansen, Hurwitz y Madow, Deming, Muthy, Des Raj y otros. La teoría de muestreo era aplicada desde la perspectiva misma de la selección aleatorizada de posibles muestras en la población finita. Dependiendo de las circunstancias prácticas, la selección se hacía de distintas maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como la actividad primaria y la estimación nunca fue considerada como una práctica separada sino como una consecuencia automática. Lo anterior se debía a que cada tipo de diseño de muestreo inducía un estimador cuyas propiedades estadísticas como el insesgamiento y la varianza eran establecidas de antemano con el diseño y así, la varianza era calculable y estimable.
Así que, para la década de los 60′s, muchos creyeron que la investigación en el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta porque se deberían inventar nuevas formas de selección de muestras (tarea ardua y difícil), más allá de las que se cubrían en los libros clásicos del muestreo. Aunque el estimador de razón fue considerado en algún detalle por los textos de referencia, la inclusión de varias variables de información auxiliar no se vio como un tópico que prometiera rédito alguno para emprender el camino de la investigación en esa vía.
En la década de los 70′s, varios autores dieron un viraje en su perspectiva epistemológica de la inferencia en poblaciones finitas. Es así como Basú, Brewer, Godambe y Royall, entre otros, consideraron los modelos estadísticos (en sintonía con la estadística clásica Fisheriana) como los verdaderos fundamentos de la estimación e inferencia en poblaciones finitas. Su trabajo se cimentó alrededor de la posibilidad de tener una inferencia que dependiera estrictamente del modelo propuesto y no tuviera nada que ver con el diseño de muestreo utilizado en la recolección de los datos. Como consecuencia, la atención se tornó alrededor de la estimación y se dejo de lado el muestreo por la relación existente o propuesta entre la característica de interés y las variables de información auxiliar.
El camino que tomó la historia del muestreo fue, precisamente, la incorporación de las dos corrientes de pensamiento bajo una sola sombrilla. Así que, fue posible combinar la Aleatorización clásica con un percepción más general de la relación de y con x. No hubo necesidad de sacrificar los principios basados en la aleatorización. Así nació la inferencia asistida por modelos pero basada en ala aleatorización (model assited desig-based inference por su original en inglés). Este nuevo tipo de inferencia se hizo muy atractiva porque la regresión y los modelos acompañan al estadístico desde sus primeros cursos y van tomando más fuerzas a medida que se avanza en el camino universitario. Así que, este pensamiento “asistido por modelos” es un matrimonio efectivo y tolerante que permite las ideas de la regresión junto con el paradigma de la aleatorización.
Jan Wrettman opina que el ajuste de un modelo se ha convertido en parte integral de la teoría clásica del muestreo, aunque los principios de la misma deben permanecer intocables porque as propiedades de los estimadores son evaluadas con respecto al mecanismo de probabilidad que genera la muestra y no con respecto a cualquier modelo asumido.
Adaptado de JOS (2005)
Eficiencia del PPT
Jul 26th
La regla de oro de una buena muestra reza que para que la inferencia basada en el diseño de muestreo arroje estimaciones que sean (abusando del lenguaje) de varianza mínima e insesgadas, las probabilidades de inclusión (o selección, según sea el caso) que arroje el diseño de muestreo utilizado deben ser directamente proporcionales a los valores que toma la característica de interés en la población.
En 1954, Des Raj demostró que: Si x es la información auxiliar utilizada en la etapa de diseño, la resta de la varianza de la estrategia de muestreo aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado una expresión directamente proporcional a la covarianza entre (x, y^2/x).
Este resultado condiciona el comportamiento estructural de la información auxiliar que debe cumplir dos condiciones para que la eficiencia de la estrategia PPT sea mayor que la del diseño aleatorio simple con reemplazo.
-
En primer lugar, el resultado indica que para que la estrategia de muestreo PPT sea más eficiente en términos de varianza que la estrategia de muestreo MRAS, además de que las probabilidades de selección de los individuos sean proporcionales a los valores que toma la información auxiliar, es necesario que la correlación entre (x, y^2/x)
debe ser positiva (lo cual es obvio dada la definición de correlación). Sin embargo, nótese que si la razón entre y y x es contante para todos los elementos, entonces esta correlación es igual a la correlación existente entre (x, y). Por tanto, una condición necesaria para que el diseño PPT sea más eficiente que el diseño de muestreo aleatorio simple con reemplazo es que exista una correlación positiva entre la característica de interés y la información auxiliar; pero, una condición suficiente para la optimalidad del diseño PPT, es que la razón entre (x/y) sea constante. -
Segundo, Lehtonen (2004) muestra que la eficiencia del diseño de muestreo PPT está directamente relacionada con un modelo de regresión simple con intercepto. Concluye que para que el diseño de muestreo PPT sea más eficiente, el intercepto debe ser una cantidad pequeña. Es decir, que la línea de regresión ajuste cerca del origen. Como corolario del resultado, se tiene que incluso si la correlación entre la característica de interés y la información auxiliar fuera perfecta e igual a uno, entonces no habría ningún término de error en la regresión, pero aún así si el intercepto fuera grande entonces la estrategia de muestreo PPT podría arrojar una eficiencia menor.
Por supuesto, la eficiencia de cualquier diseño de muestreo dependerá del parámetro que se quiera estimar, no es lo mismo estimar promedios que razones o que funciones de distribución. Está claro que bajo una buena planeación del diseño de muestreo, el PPT funciona mejor para totales que para razones. De hecho, cuando se utiliza el PPT para estimar una razón entre dos variables, es necesario encontrar una variable correlacionada con la transformada de Taylor (tarea ardua y confusa). Que, para los conocedores del tema, se trata de encontrar una variable correlacionada con cero.
Muestreo bla, bla, bla.
May 29th
En la primera página de cualquier libro de texto clásico de inferencia estadística se lee lo siguiente:
Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas, para estimar el parámetro…
Cada palabra en el anterior enunciado es engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más, en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.
Esta afirmación fue hecha por una de las cabezas más brillantes (no sólo por su capacidad intelectual) del muestreo, el respetado Dr. Leslie Kish quien, también sugirió que se debería realizar una acotación en la academia en el momento de analizar la información con cualquier software de tipo estadístico como SPSS o TESI. Se debe tener conciencia de que los datos que se están analizando no han sido seleccionados mediante muestreo aleatorio simple con reemplazo y por lo tanto el cálculo de errores estándar que arrojaría el software resulta ser inapropiado. Es hora de que los paquetes estadísticos incluyan en sus análisis rutinas que permitan el ajuste del diseño de muestreo utilizado en la recolección de los datos, por ejemplo por conglomerados o estratos, que no han sido seleccionados mediante muestreo aleatorio simples con reemplazo.
Kish motivó a los estadísticos aplicados a entender completamente la relación existente entre conceptos tales como estratificación y regresión lineal. El lector debe notar que Kish ayudó a crear un departamento de Bio-estadística en los Estados Unidos que combina el diseño experimental y el muestreo, él afirma que estas dos ramas están ligadas en sus raíces por el principio de aleatorización.
Así mismo, afirmó que los libros actuales de muestreo no cumplen el cometido de enseñar el análisis adecuado de la información para la selección de muestras en una población, en vez de esto se dedican a enseñar fórmulas sin preocuparse realmente por la enseñanza del diseño de muestreo que ha venido siendo reemplazado por la inferencia basada en modelos poblacionales sin tener en cuenta el principio de aleatorización. Como Tukey dijo: Abrace a sus datos no al modelo. Los modelos pueden jugar papeles muy importantes en problemas de tipo genético o físico, pero juegan roles menos importantes en las ciencias sociales. No podemos vivir enteramente sin modelos, porque en un ejercicio práctico existe ausencia de respuesta y problemas del marco de muestreo. Los modelos deberían decir qué variables se tienen que incluir en una regresión y posiblemente la forma funcional de las ecuaciones. Sin embargo, los modelos no dicen el valor que los coeficientes de regresión toman y estas estimaciones están sujetas a variaciones de muestreo y efectos de diseño.
De todos los universos que se puedan suponer, en la vida práctica no existe ninguno que siga el patrón de la urna con bolas bien revueltas. En la práctica se trata con universos complejos y por tanto se deben utilizar diseños de muestreo complejos que contemplen el efecto de diseño.
Mi libro de muestreo
May 13th
No es un secreto para nadie que si existe algo que me apasiona es la inferencia en poblaciones finitas y el muestreo. Basta con ojear la nube de etiquetas para darse cuenta de ello. En mi biblioteca personal cuento 16 libros de muestreo, todos de ellos muy pero muy buenos. Desde Raj (1968), el griego, hasta Tillé (2007). Desde el design-based hasta el model-based. La realidad es que este mundo del muestreo es muy amplio y sería una muy linda tarea, aunque utópica, unificar algunos de los temas más importantes del muestreo.
Si el encargado de tal tarea fuera yo, el prefacio de mi libro sería el siguiente:
Aunque tremendamente poderoso, el término estrategia de muestreo no ha tenido la trascendencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades están ligadas al diseño de muestreo que se haya utilizado en la recolección de la información. Para mí, el aprendizaje de esta materia es más sencillo cuando se valora de igual manera el diseño de muestreo junto con el estimador del parámetro de interés utilizado en la población finita. No se puede desconocer la regla de oro del muestreo que clama: “Utilizar diseños de muestreo que induzcan probabilidades de inclusión (o selección, según sea el caso) proporcionales al valor de la característica de interés en la población y utilizar estimadores que involucren dichas probabilidades”. Por la anterior razón he decido intitular este texto como: Estrategias de muestreo, diseño de encuestas y estimación de parámetros.
En la búsqueda combinada de una mejor estrategia de muestreo he querido dividir este texto en cuatro partes que pueden ser utilizadas en los distintos niveles de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. La división del libro corresponde al desarrollo teórico del muestreo a través de su corta historia.
La primera parte del libro es un recuento de las estrategias de muestreo más comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemática, el lector será introducido en el ámbito de la inferencia basada en el diseño de muestreo, que considera a los valores de la característica de interés como pseudo-parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada estrategia planteada. A diferencia de la mayoría de los libros de mi biblioteca, considerados obras clásicas, he querido proponer la revisión de todas las estrategias de muestreo con un solo Marco de muestreo, en algunas ocasiones más generoso que en otras, y una sola población (Lucy) con el fin de plantear al lector un problema que puede ser resuelto desde diversos ángulos y no, como en todos los libros de muestreo, proponer ejemplos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca del desarrollo de la estrategia. En esta parte expongo tres conceptos totalmente determinantes al momento de plantear una estrategia de muestreo. El primero y más importante de ellos: el soporte que define la realización de una muestra probabilística y por consiguiente la validez en la inferencia. El lector puede darse cuenta del marcado interés que tengo en este concepto al diferenciarlo, de una vez y por todas, de la muestra aleatoria, que no es más que un vector aleatorio. En segundo lugar he hecho énfasis en el concepto de diseño de muestreo tratándolo como una distribución de probabilidad multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta primera parte se demuestra que efectivamente el diseño de muestreo propuesto verifica las propiedades de una distribución de probabilidad. Por supuesto, el último concepto es el de estimador cuya definición y uso es más difundido entre los usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico (gran legado del maestro Leonardo Bautista) y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desarrollo computacional del paquete muestreo creado en el ambiente del software de uso libre R de la manera más amigable posible.
La segunda parte, corresponde a la utilización y aprovechamiento de la información auxiliar disponible en el marco de muestreo. No sólo se desarrollan nuevos estimadores que mejoran la eficiencia de la estrategia, sino que también se adjunta al proceso de estimación el uso de un modelo que permite describir el comportamiento de la característica de interés en la población dando un paso muy importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a la característica de interés como una variable aleatoria en el modelo propuesto.
La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. Entre otros selectos temas, se consideran los estimadores de calibración, el muestreo balanceado y el muestreo indirecto. Estos contenidos están sujetos a un gran sesgo personal inducido por los años de asistencia al seminario de muestreo de la Universidad Nacional de Colombia conducido por el maestro Leonardo Bautista.
La cuarta y última parte del texto intenta dar una muy breve introducción a la inferencia en poblaciones finitas bajo un enfoque basado en el modelo supuesto. Es interesante observa que, con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en la estimación de dominios raros más conocidos como áreas pequeñas. Esta parte empieza con la famosa discusión de Basú (1971) que aún hoy sigue siendo la piedra de tropiezo entre las dos corrientes de la estadística. Este tipo de inferencia no considera el diseño de muestreo ni la forma en la que la información fue recolectada, sino que se basa en el modelo poblacional propuesto para realizar la inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán las estimaciones.
Por último, deseo expresar mis agradecimientos al Dios de mi padre, que me ha dado todo lo que tengo y me ha seleccionado para pertenecer en la muestra. De no ser así, no estaría escribiendo estas líneas. Agradezco el infinito apoyo que encontré en Winny en la corrección de las demostraciones así como en la invaluable motivación que me brindó. Agradezco el continuo ánimo de Oscar Ortega y de sus valiosos consejos. A mis amigos, Yesid, Ronne y Daniel.
Este libro está dedicado al maestro Leonardo Bautista, quién me enseñó que lo importante no es la memorización de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la mejor estrategia. Lo anterior tiene sentido, no sólo en estadística, sino en el diario vivir.
Bogotá, Colombia.
Nuevas técnicas de muestreo
Mar 27th
Un poco de memoria (2)
Nov 19th
La inferencia inversa procede de lo particular a lo general, la inferencia directa de lo general a lo particular
En esta época, la tendencia es usar la inferencia basada en el diseño para la estimación en grandes dominios y muestreo sintético (inferencia basada en modelos) para la estimación en dominios pequeños dentro del mismo estudio… hace alusión al uso de los estimadores de calibración cosméticos que combinan los dos tipos de inferencias simultáneamente.
El hecho de que un estimador pueda ser visto o interpretado como un predictor obtenido de una regresión lo hace muy atractivo.
Un poco de memoria
Nov 7th

Hagamos un poco de memoria… en 1977, Godambe sugirió, en el curso de una discusión en el congreso internacional de estadística en Nueva Delhi, que se debía buscar una manera de encontrar estimadores que tuvieran sentido en ambos tipos de inferencia. Más adelante Särndal y Wright (1984) y Brewer (1999) llevaron a cobo la implementación de esta sugerencia.
El tipo de inferencia dominante después de la segunda guerra mundial fue la inferencia basada en el diseño de muestreo (Neyman, 1934); sin embargo, a comienzos de los años 70’s, Richard royal, con la ayuda de muchos coautores, cambiaron rotundamente esa tendencia con gran determinación. Él afirmó que la inferencia basada en el diseño, aunque no hace supuestos acerca de las probabilidades y parece ser no paramétrica (distribution free) y robusta, estaba sujeta a importantes defectos. Algunas de las limitaciones que cita Royall (1971) son:
- Las sorprendentes complicaciones encontradas en el estudio y ejecución de los diseños de probabilidad proporcional al tamaño y
- Las torpezas y equivocaciones de casi todos las estimaciones probabilísticas concernientes a la estimación de razones
La sugerencia de Royall fue aún más radical. Él propuso abandonar la inferencia basada en el diseño de muestreo a favor de estimadores cuyas útiles propiedades (insesgamiento, consistencia, optimalidad, etc) estuvieran definidas en términos del modelo predictivo apropiado. Esto significa que conceptos como el sesgo y la varianza ya no están definidos como esperanzas a través de todas las posibles muestras, sino como promedios de las realizaciones de las unidades poblacionales (estén en la muestra o no) bajo el modelo predictivo establecido. Desde el punto de vista de Royall, el proceso de aleatorización se convierte en irrelevante y propone que la muestra sea escogida a conveniencia (lo que en la práctica significa escoger las unidades más grandes).
Acerca de los modelos predictivos Box (1979) dice que “todos los modelos son errados, pero algunos son útiles”. El hecho de que todos los modelos están equivocados se hace más y más claro cuando el tamaño de la muestra se incrementa… por eso las estimaciones resultantes de un modelo predictivo errado son muy malas.
De una cosa hay que estar seguros… la inferencia basada en modelos predictivos y la inferencia basada en el diseño de muestreo no se deben ver como competencia sino como puntos de vista que pueden llegar a ser complementarios, es así como nace la inferencia basada en el diseño de muestreo, pero asistida por modelos predictivos (model assited survey sampling).
Pero estos dos tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su filosofía es literalmente distinta (continuara…)
Entendiendo la diferencia
Oct 26th
-
La inferencia basada en el diseño muestral, que utiliza las probabilidades de inclusión de cada elemento en la muestra para estimar las cantidades de interés.
-
La inferencia basada en modelos predictivos, que utiliza los datos de la muestra para construir un modelo que permita predecir los valores no observados en la muestra y así llegar a una estimación de las cantidades de interés. Este tipo de inferencia no utiliza las probabilidades de inclusión
Eh lector, lector que hasta este momento del post no conocías alguno de los dos tipos de inferencia, permíteme representar esta discusión con los profesores L y E, cada uno acérrimo defensor de su punto de vista.
E: Creo que usted sigue viviendo en los ochentas. No tenga la menor duda de que las cosas han cambiado un poco. Muchos estadísticos académicos están a favor de la inferencia basada en modelos predictivos
L: Es cierto, pero ese tipo de inferencias no es usado en la vida práctica profesional. ¡Dígame al menos una entidad estatal que la utilice!
E: Claro que las hay, al tratar de estimar parámetros en dominios pequeños se utilizan estimadores sintéticos. Esos estimadores están basados en modelos predictivos.
L: Ah, pero sólo se utilizan en dominios pequeños. De lo contrario no se utilizan. Bien, si usted está tratando de estimar un parámetro en un dominio pequeño, la inferencia basada en modelos predictivos puede ser particularmente útil…
E: No, es más que eso, se trata de que la inferencia basada en el diseño muestral es particularmente mala para muestras pequeñas. Fíjese que con una muestra probabilística usted puede seleccionar las unidades más grandes y dejar a las chicas de lado, con la inferencia basada en el diseño tendría unas malas estimaciones. Una manera más segura de evadir esa posibilidad es dividir la población en grupos y hacer una selección de unidades en cada grupo
L: Cómo una clase de estratificación
E: Mmm estratificación si, digamos que sí. La estratificación por el tamaño de las unidades es muy útil, pero el punto es que debería conocer muy bien la población.
L: Precisamente, y si usted no conoce muy bien la población, podría ajustarle un modelo totalmente equivocado y como resultado tendría unas malas estimaciones…
Lector asombrado, está discusión se ha prolongado desde hace veinte años, en los próximos posts trataremos de develar cada uno de sus secretos.
La fábula de los elefantes de Basu
Sep 25th

En en estos días he estado reflexionando sobre el porqué algunos pintorescos personajes se ven influenciados por el lado oscuro de la fuerza. Alguna vez un socio de negocios me advirtió sobre la posibilidad de que en la marcha él pudiera volverse al lado oscuro de la fuerza; en ese momento no le presté atención, pero más adelante entendería muy bien a lo que se refería.
-
El enfoque tradicional y clásico basado en una inferencia hacia el infinito, en donde se asumen poblaciones hipotéticas (y si se le quiere utópicas). En este enfoque se tiene una muestra de n observaciones independientes sobre una variable aleatoria X que tiene una función de densidad.
-
El enfoque basado en una inferencia hacia la población finita en donde una muestra es seleccionada con respecto a un diseño de muestreo.
En realidad, aunque existe conflicto, estos dos enfoque no son opuestos ni contradictorios; simplemente, son dos enfoques… Me permito citar la siguiente fábula de Basu (una vez más, el profesor Trujillo disculpará mi deficiente inglés) que, desde su publicación, removió la bases de la inferencia basada en el segundo enfoque.
El dueño de un circo está planeando transportar sus 50 elefantes adultos, para este propósito él necesita una buena estimación del peso total de los elefantes. Como pesar un elefante es una tarea muy incomoda, el dueño del circo quiere estimar el peso total pesando sólo un elefante. ¿Cuál elefante debería pesar? El dueño del circo decide echar un vistazo a sus registros y descubre una antigua lista de los pesos de los elefantes, elaborada hace tres años. Él encuentra que tres años atrás Sambo, un elefante mediano, era el promedio (en peso) de su manada. El dueño del circo verifica la información con el entrenador quien le asegura que Sambo todavía puede considerarse como el promedio de la manada.
Así, el dueño del circo planea pesar a Sambo y tomar a 50x (donde x es el peso de Sambo) como una estimación del peso total X=X_1+…+X_50 de la manada. Pero el estadístico del circo se aterra al conocer el plan de muestreo del dueño (con un diseño de muestreo no probabilístico).
- ¿Cómo puede obtener una estimación insesgada de X? – protesta el estadístico
Así, ellos trabajan juntos en la elaboración de un plan de muestreo. Con la ayuda de una tabla de números aleatorios, diseñan un plan que asigna una probabilidad de inclusión de 99/100 a Sambo y probabilidades de 1/4900 al resto de la manada. Naturalmente, Sambo es seleccionado y el dueño del circo está feliz.
- ¿Cómo va a estimar X? – pregunta el estadístico
- ¿Por qué? La estimación debería ser 50x, por supuesto – responde el dueño
- ¡Oh¡ no, eso es incorrecto – responde el estadístico – recientemente, yo leí en un artículo de Annals of Mathematical Statistics, en donde se prueba que el estimador de Horvitz-Thompson es el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados.
- ¿Cuál sería la estimación de Horvitz-Thompson en este caso? – pregunta el impresionado dueño – Dado que la probabilidad de inclusión de Sambo fue de 99/100 – dice el estadístico – el estimador es 100/99x y no 50x
- ¿Y cuál sería nuestra estimación si el plan de muestreo hubiese seleccionado a Jumbo? – pregunta el incrédulo dueño
- De acuerdo a lo que yo entiendo acerca del método de Horvitz-Thompson – dice el infeliz estadístico – el estimador de X sería 4900x donde x es el peso de Jumbo.De esta forma, el estadístico perdió su empleo (y quizás se convirtió en profesor de estadística).
Sharon Lohr se pregunta si fue justo despedir o no al estadístico; esa pregunta se me antoja irrelevante (para mí la “falla” se presenta en el astuto empresario), simplemente mi comentario es que un buen diseño de muestreo debe tener la característica de inducir probabilidades de inclusión que tengan una buena correlación con la variable de interés.
Muestras representativas
Sep 3rd
Uno de los objetivos de este blog es traer a discusión algunos conceptos estadísticos y profundizar no sólo en su significado sino también en su interpretación. Bien, en este post vamos a tratar un concepto que, por estos días de campañas electorales, está en boca de muchas personas: las muestras representativas.Tille (2006) cita el siguiente ejemplo: Suponga que el objetivo es estimar la producción de hierro en un país y que nosotros sabemos que el hierro es producido, por dos compañías gigantes con miles de empleados y por cientos de pequeñas compañías con pocos empleados. ¿La mejor forma de seleccionar la muestra consiste en asignar la misma probabilidad a cada compañía? Claro que no. Primero averiguamos la producción de las grandes compañías. Después, seleccionamos una muestra de las compañías pequeñas.
La muestra no debe ser un modelo reducido de la población; debe ser una herramienta usada para obtener estimaciones. Es así como el concepto de muestra representativa pierde peso. Más aún, para Hájek (1981), una estrategia de muestreo es una dupla: diseño de muestreo (distribución de probabilidad sobre todas las posibles muestras) y estimador. La teoría de muestreo se ha ocupado de estudiar estrategias óptimas que permitan asegurar la calidad de las estimaciones. Entonces, el concepto de representatividad debería estar asociado con las estrategias de muestreo y no sólo con las muestras.
Siguiendo con Tille (2006), una estrategia se dice representativa si permite estimar un total poblacional exactamente; es decir, sin sesgo y con varianza nula. Si se utiliza el estimador de Horvitz-Thompson junto con un diseño de muestreo apropiado, esta estrategia es representativa sólo si, junto con la muestra seleccionada, el estimador reproduce algunos totales de la población; tales muestras se llaman muestras balanceadas. Existen también, estimadores que brindan a la estrategia el calificativo de representativa, algunos de ellos son conocidos como estimadores de calibración.
Conclusión: La muestra es una herramienta que no admite el calificativo de representativa. La estrategia de muestreo se dice representativa si el estimador aplicado en la muestra seleccionada tiene la capacidad de reproducir algunos totales poblaciones.















Comentarios