“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Posts tagged Libros
Significación estadística no es lo mismo que relevancia científica
Apr 16th
He empezado la lectura de un libro que me recomendaron: The cult of statistical significance de Ziliak & McCloskey (2008)… simplemente estoy chequeando algunos de sus apartados. En general, el libro tiene un buen punto y es el que le da el nombre al título de esta entrada… aunque definitivamente los autores son enemigos de todas las ideas de Fisher, el libro se basa en una crítica científica a la mala costumbre de los estadísticos en el juzgamiento de hipótesis. Y tiene razón. ¿Por qué las decisiones científicas están restringidas a un espacio discreto binario inducido por una regla de decisión? Los autores del libro sugieren que tendría más sentido científico que las decisiones estuvieran sujetas a una función de perdida continua en el intervalo
.
Tiene sentido, máxime cuando a la hora de realizar contrastes sea cual sea la rama de aplicación (econometría, mercadeo, epidemiología, ciencia política, etc.), siempre se utiliza la misma regla de decisión que Fisher impuso hace varias décadas: Si el valor es menor que 0.05, entonces rechace la hipótesis. Pero la verdad que todos sabemos, y a veces no queremos aceptar, es otra. A continuación un ejemplo detallado adaptado de las primeras páginas del libro.
Imagínese que usted y su pequeño niño de cuatro años caminan por una de las aceras de la ciudad. Se detienen en una esquina y compran un perro caliente (hot dog). El vendedor del carrito de perros lo atiende muy amablemente y le da justo lo que usted pidió. El semáforo se va a poner en rojo pero usted se atreve a cruzar la calle. Situación número uno: cuando va a llegar a la otra acera, usted se da cuenta que el vendedor olvidó colocar mostaza en su perro. Si usted y su hijo se atreven a devolverse y cruzar la calle esquivando carros, motos y tracto mulas, existe una probabilidad – digamos 0.95 – de que logren tener la mostaza en su perro caliente sin que haya ocurrido ningún accidente. Situación número dos: cuando usted va a llegar a la otra acera, usted se da cuenta que olvido a su hijo y cuando voltea su mirada, el niño está intentando cruzar la calle. Inmediatamente usted se devuelve esquivando carros, motos y tracto mulas. Existe una probabilidad de 0.95 de que usted alcance a su hijo y llegue a la otra acera de la calle sano y salvo.
Dos situaciones con dos premios distintos, la mostaza o su hijo, y con la misma probabilidad. La significación estadística ignora esta diferencia puesto que las dos decidiones son iguales en cuanto a la probabilidad de “éxito”. Ambas variables NIÑO y MOSTAZA son significativas si y la conclusión sería: Existen dos razones, que son igualmente importantes, para cruzar la calle.
Tiene su punto, un muy buen punto.
Mi libro de muestreo
May 13th
No es un secreto para nadie que si existe algo que me apasiona es la inferencia en poblaciones finitas y el muestreo. Basta con ojear la nube de etiquetas para darse cuenta de ello. En mi biblioteca personal cuento 16 libros de muestreo, todos de ellos muy pero muy buenos. Desde Raj (1968), el griego, hasta Tillé (2007). Desde el design-based hasta el model-based. La realidad es que este mundo del muestreo es muy amplio y sería una muy linda tarea, aunque utópica, unificar algunos de los temas más importantes del muestreo.
Si el encargado de tal tarea fuera yo, el prefacio de mi libro sería el siguiente:
Aunque tremendamente poderoso, el término estrategia de muestreo no ha tenido la trascendencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades están ligadas al diseño de muestreo que se haya utilizado en la recolección de la información. Para mí, el aprendizaje de esta materia es más sencillo cuando se valora de igual manera el diseño de muestreo junto con el estimador del parámetro de interés utilizado en la población finita. No se puede desconocer la regla de oro del muestreo que clama: “Utilizar diseños de muestreo que induzcan probabilidades de inclusión (o selección, según sea el caso) proporcionales al valor de la característica de interés en la población y utilizar estimadores que involucren dichas probabilidades”. Por la anterior razón he decido intitular este texto como: Estrategias de muestreo, diseño de encuestas y estimación de parámetros.
En la búsqueda combinada de una mejor estrategia de muestreo he querido dividir este texto en cuatro partes que pueden ser utilizadas en los distintos niveles de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. La división del libro corresponde al desarrollo teórico del muestreo a través de su corta historia.
La primera parte del libro es un recuento de las estrategias de muestreo más comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemática, el lector será introducido en el ámbito de la inferencia basada en el diseño de muestreo, que considera a los valores de la característica de interés como pseudo-parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada estrategia planteada. A diferencia de la mayoría de los libros de mi biblioteca, considerados obras clásicas, he querido proponer la revisión de todas las estrategias de muestreo con un solo Marco de muestreo, en algunas ocasiones más generoso que en otras, y una sola población (Lucy) con el fin de plantear al lector un problema que puede ser resuelto desde diversos ángulos y no, como en todos los libros de muestreo, proponer ejemplos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca del desarrollo de la estrategia. En esta parte expongo tres conceptos totalmente determinantes al momento de plantear una estrategia de muestreo. El primero y más importante de ellos: el soporte que define la realización de una muestra probabilística y por consiguiente la validez en la inferencia. El lector puede darse cuenta del marcado interés que tengo en este concepto al diferenciarlo, de una vez y por todas, de la muestra aleatoria, que no es más que un vector aleatorio. En segundo lugar he hecho énfasis en el concepto de diseño de muestreo tratándolo como una distribución de probabilidad multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta primera parte se demuestra que efectivamente el diseño de muestreo propuesto verifica las propiedades de una distribución de probabilidad. Por supuesto, el último concepto es el de estimador cuya definición y uso es más difundido entre los usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico (gran legado del maestro Leonardo Bautista) y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desarrollo computacional del paquete muestreo creado en el ambiente del software de uso libre R de la manera más amigable posible.
La segunda parte, corresponde a la utilización y aprovechamiento de la información auxiliar disponible en el marco de muestreo. No sólo se desarrollan nuevos estimadores que mejoran la eficiencia de la estrategia, sino que también se adjunta al proceso de estimación el uso de un modelo que permite describir el comportamiento de la característica de interés en la población dando un paso muy importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a la característica de interés como una variable aleatoria en el modelo propuesto.
La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. Entre otros selectos temas, se consideran los estimadores de calibración, el muestreo balanceado y el muestreo indirecto. Estos contenidos están sujetos a un gran sesgo personal inducido por los años de asistencia al seminario de muestreo de la Universidad Nacional de Colombia conducido por el maestro Leonardo Bautista.
La cuarta y última parte del texto intenta dar una muy breve introducción a la inferencia en poblaciones finitas bajo un enfoque basado en el modelo supuesto. Es interesante observa que, con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en la estimación de dominios raros más conocidos como áreas pequeñas. Esta parte empieza con la famosa discusión de Basú (1971) que aún hoy sigue siendo la piedra de tropiezo entre las dos corrientes de la estadística. Este tipo de inferencia no considera el diseño de muestreo ni la forma en la que la información fue recolectada, sino que se basa en el modelo poblacional propuesto para realizar la inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán las estimaciones.
Por último, deseo expresar mis agradecimientos al Dios de mi padre, que me ha dado todo lo que tengo y me ha seleccionado para pertenecer en la muestra. De no ser así, no estaría escribiendo estas líneas. Agradezco el infinito apoyo que encontré en Winny en la corrección de las demostraciones así como en la invaluable motivación que me brindó. Agradezco el continuo ánimo de Oscar Ortega y de sus valiosos consejos. A mis amigos, Yesid, Ronne y Daniel.
Este libro está dedicado al maestro Leonardo Bautista, quién me enseñó que lo importante no es la memorización de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la mejor estrategia. Lo anterior tiene sentido, no sólo en estadística, sino en el diario vivir.
Bogotá, Colombia.
Malditas estadísticas
Mar 20th
Inauguramos nuestra sección mensual de revisión de literatura estadística … Esta vez, traemos a colación un libro mencionado por muchos profesores cuyo título está directamente vínculado con una frase del escritor Mark Twain: “Existen mentiras, malditas mentiras y estadísticas”. De Joel Best, malditas mentiras y estadísticas (traducción del título en inglés: damned lies and statistics).
Este es un libro acerca de las malas estadísticas, de dónde vienen y por qué no van a ningún lado. Algunos apartes del libro a continuación:
Algunas estadísticas son malas desde su nacimiento, no son buenas porque desde el principio están basadas en especulaciones y datos dudosos. Algunas otras mutan; se van dañando hasta que llega el punto en que son totalmente desechadas. De cualquier manera, las malas estadísticas son potencialmente importantes: pueden ser usadas para crear rabia o pánico en el público, pueden distorsionar nuestro entendimiento del mundo y nos pueden guiar a tomar malas decisiones políticas…
Las estadísticas tienen una mala reputación. Se sospechas que si las estadísticas están equivocadas, la gente que las usa está mintiendo – tratando de manipularnos usando números que distorsionan la verdad. Ahora, al mismo tiempo, las estadísticas son necesarias; nosotros dependemos de ellas para resumir y aclarar la naturaleza de nuestra compleja sociedad y se ve reflejado cuando de problemas sociales se trata…
Pero, ¿ podemos probar cualquier cosa con estadísticas?. Depende de lo que probar pueda significar. Si deseamos saber, por ejemplo, cuántos niños han muerto por tiroteos cada año, no podemos simplemente adivinar. Es posible usar los reportes del departamento de policía o de los hospitales para seguir de cerca este fenómeno. Si al final, ese número parece ser lo suficientemente preciso, podemos considerarlo como una evidencia fuerte – o una prueba…
La solución al problema de las malas estadísticas no es ignorar todas las estadísticas o asumir que todas las cifras están equivocadas… La solución es ser mejores jueces de los números que encontramos… Las estadísticas sociales describen la sociedad, pero al mismo tiempo son el resultado de acuerdos sociales. Las personas que nos informan acerca de las estadísticas sociales, inevitablemente desean algo, así como los periodistas y los medios que repiten cómo se han logrados los objetivos de gobierno mediante estadísticas.
Las estadísticas son herramientas usadas para propósitos particulares. Pensar críticamente acerca de las estadísticas, requiere entender su lugar en la sociedad.





Comentarios