El tamaño sí importa

Attractive young woman sitting on white background

Con el tiempo deja de fastidiarme la pregunta que se hacen todos y cada uno de los usuarios y “clientes” de una encuesta: ¿cuál es el tamo de muestra para este estudio? De hecho, esta pregunta a veces surge sin plantear el problema de investigación, ¡a veces sin siquiera saludar! El dueño de la investigación llega muy orondo y de repente cuestiona: ¿cuál es el tamaño de muestra para evaluar esta política pública? ¿cuál es el tamaño de muestra para esta investigación de mercados? ¿cuál es el tamaño de muestra para este estudio farmacológico? Por supuesto, el tamaño importa porque dependiendo de esta cifra se tiene un costeo previo del monto del estudio.

Además de lidiar con estas actitudes automatizadas, el estadístico debe guiar al “cliente”, muchas veces con preguntas sagaces, hacía un lugar que les permita tener un acercamiento exhaustivo al problema en cuestión. A algunos les parecerá aburrido e innecesario, pero les aseguro que es un ejercicio que hará valorar más el papel del estadístico frente al medio. Esto llega a tener implicaciones éticas muy profundas porque una buena concienciación del problema puede ahorrarle dinero al estado. Por ejemplo, considere que un estudio quiera tener representatividad (nivel de confianza predefinido, asegurar un margen de error previo y acotar el error estándar relativo) con un nivel de confianza del 95% y un error estándar relativo máximo del 3%. Ahora piense en esto: si con tres mil encuestas se logra un error estándar relativo del 2% y con dos mil encuestas se logra un error estándar relativo del 2.9%, entonces la escogencia de tamaño de muestra debería ser dos mil encuestas, en vez de tres mil. El estadístico novato dirá que tres mil es mejor que dos mil. En términos de inferencia estadística los dos escenarios son similares (ambos con la misma confianza y un error estándar relativo menor al 3%), se toman las mismas decisiones con ambas cifras, pero la diferencia en dinero puede ser abrumadora.

Sin embargo, aparte de lo anterior, el estadístico debe sondear si el problema de investigación se refiere a la estimación de un parámetro o al contraste de una hipótesis que el investigador haya definido como importante.  En principio son dos escenarios distintos, pero hay una delgada línea entre uno y el otro. Por ejemplo, suponga que se plantea un estudio que va a comparar dos grupos: un grupo de tratamiento y grupo de control. El investigador quiere conocer si existen diferencias significativas entre un grupo y otro. Es justo en este instante cuando comienza la encrucijada. Eso suena a prueba de hipótesis. Es más suena a prueba de hipótesis bilateral. Sin embargo, es aquí en donde el papel del estadístico debe sobresalir. Y no porque sea avezado en sugerir expresiones matemáticas inmediatas para el cálculo del tamaño de muestra, sino porque debe seguir ahondando más en el problema. Antes de sugerir alguna fórmula, debe realizar la siguiente pregunta ¿cuánto es diferente? Si las diferencias son de medias o de proporciones, los investigadores deben saber desde qué cantidad esa diferencia comienza a ser importante. La respuesta a esta pregunta determina el rumbo de estudio y por consiguiente la fórmula correcta para determinar el tamaño de muestra.

Entonces, si la respuesta es: “déjeme pensar, no sé, dígame usted”; este es un problema de estimación y no de pruebas de hipótesis. Si todavía está leyendo pues no pare de hacerlo, porque esto se pone más interesante. No es una herejía, cuando el investigador no conoce la respuesta a la pregunta ¿cuánto es diferente?, entonces al diablo con las pruebas de hipótesis y bienvenida la confianza estadística (Z_{1-\alpha/2}), el margen de error (\varepsilon) y el efecto de diseño del muestreo (Deff). En este caso, la expresión adecuada para el tamaño de muestra es: (Ver acá)

n>\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{e^2}{Z_{1-\alpha/2}^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

Por el contrario, si el investigador responde: “yo quiero saber si la diferencia absoluta entre las proporciones es mayor a 0.2″; entonces el problema sí es de pruebas de hipótesis y no de estimación. Nótese lo ambigua que es la afirmación “quiero saber si hay diferencias significativas.” No, de lo que se trata es de que el investigador afirme “quiero saber si el grupo de tratamiento tiene una proporción mayor que la del grupo control. Es más quiero saber si esa diferencia es mayor a 0.2″ En el anterior escenario, es claro que ni siquiera se trataba de una hipótesis bilateral, sino unilateral y que el efecto que al investigador le importa ya está cualificado y es de 0.2. Este sí es un escenario de pruebas de hipótesis (unilateral) y debe involucrar a la confianza (Z_{1-\alpha}), la potencia (Z_{\beta}) y el efecto que quiere contrastar en la prueba (D=P_1-P_2). En este caso, la expresión correcta para el tamaño de muestra es: (Ver acá)

n=\dfrac{Deff(P_1Q_1+P_2Q_2)}{\dfrac{D^2}{(Z_{1-\alpha}+Z_{\beta})^2}+\dfrac{Deff(P_1Q_1+P_2Q_2)}{N}}

En la práctica, esto significa que para una población de un millón de personas, divida en dos grupos de interés, en donde se supone un diseño de muestreo complejo para la recolección de la información con un Deff=4, y asumiendo que la varainza de la diferencia de proporciones es máxima (con P_1=P_2=0.5), se tiene que:

1.  El tamaño de muestra mínimo en cada subgrupo, para realizar una estimación de la diferencia de proporciones cuyo intervalo de confianza al 95% sea tal que su margen de error no supere el 3%, es de 2130 personas.

2. El tamaño de muestra mínimo en cada subgrupo, para realizar una prueba de hipótesis sobre la diferencia de proporciones para detectar un efecto de D=15%, un nivel de significación del 5% y una potencia del 80%, es de 933 personas.

Espero que con esta lectura usted esté descubriendo esa delgada línea en su área de trabajo. Por lo demás, tómese siempre su tiempo para reflexionar en las características de su estudio y en hacer las preguntas correctas a las personas correctas en el momento correcto. Esto le da una ventaja competitiva invaluable.

Cambiemos las estadísticas

Un gran error: utilizar Excel para realizar análisis estadísticos

NewImage

Hace poco leí una discusión que debo traer a colación en este espacio. Lo hago porque sé que muchos de nosotros utilizamos hojas de cálculo para realizar nuestros análisis estadísticos. Aunque el título de la entrada se refiere a MS Excel, usted también puede caer en este error si usa hojas de cálculo en programas estadísticos más sofisticados como Minitab, SPSS, StatGraphics, entre otros.

Sin embargo, el estadístico que utiliza MS Excel está cometiendo, quizás sin saberlo, un gran error puesto que se ha mostrado (acá y acá) que MS Excel no arroja estimaciones correctas para algunos modelos estadísticos. En particular, el NIS (National Institute of Standards and Technology) provee varios conjuntos de datos para que los analistas de información estadística corroboren que sus modelos y sus herramientas están calibrados y por ende, el proceso de estimación e inferencia se correcto. En algunos modelos de regresión nolineal, entre otros, el desempeño de MS Excel no es el mejor. 

Ahora, los usuarios de hojas de cálculo en MS Excel, o en cualquier otro software estadístico, deben saber que existen políticas de análisis estandarizadas, como las normas ISO, entre otras, que propenden por el buen uso de los modelos estadísticos. Entre estas características están la reproducibilidad (replicar o reproducir un análisis por cualquier persona ajena al estudio) de los resultados obtenidos y la trazabilidad (serie de procedimientos que permiten seguir  el proceso de evolución de un producto en cada una de sus etapas). Es decir que, aunque el software sea correcto en sus estimaciones, se debe garantizar las anteriores características, lo cual es imposible a no ser que el error humano sea minimizado. 

Por lo anterior, si en su empresa o institución usted quiere cumplir a satisfacción con los estándares internacionales de análisis de datos, es menester que empiece a documentar todos sus procesos con la utilización de sintaxis estadística que le permita reproducir sus análisis repetidas veces y obtener siempre los mismos resultados. 

Esto es fundamental, por ejemplo, en el sector de evaluación de políticas públicas, en donde todo debería estar documentado. Hace algunos años, como asesor del gobierno en temas de muestreo, me enfrenté a una situación parecida. El consultor privado, había seleccionado una muestra, a mi juicio no probabilística (puesto que algunos municipios del país sospechosamente había ya sido seleccionados en varios ejercicios anteriores), aunque él declaraba que en efecto era probabilística. Yo requerí que por favor me enviase los códigos computacionales que había utilizado para inducir esa muestra. La respuesta del consultor: “no tengo el código”. Además de sospechoso, todo el asunto culminó con una política interna en donde se exige que el consultor, no sólo socialice los códigos de los análisis estadísticos (como regresiones, método multivariados, etc.) sino que, sustente incluso la selección de una muestra.

Por último, como un ejemplo actual de esta problemática, tenemos a dos reconocidos investigadores de Harvard, Reinhart y Rogoff (este último en la foto del encabezado de esta entrada), que utilizaron hojas de cálculo para sustentar una teoría económica de austeridad que ha impactado todo el mundo occidental. Ellos concluyeron en 2010, con ayuda de MS Excel, que cuando la deuda de un país alcanza el 90% de su producto interno bruto, el crecimiento económico decrece significativamente. Tiempo después, un estudiante los desmintió y esto ha generado una respuesta mediática bastante grande.

¡Piénselo dos veces cuando abra el MS Excel! No quisiera usted estar en los zapatos desacreditados de estos dos investigadores que ahora, andan dando entrevistas de porqué sí o porqué no omitieron en el análisis algunos datos.

Descripción de los cursillos en el 3er IWAS – Data Mining en Colombia – Universidad Santo Tomás

Si desean más información no duden en escribirnos. La página oficial de la Facultad es http://estadistica.usta.edu.co/. La página oficial del evento en donde se pueden inscribir es http://eventos.usta.edu.co/inscripcion_web.cfm?evento=66

La Facultad de Estadística de la Universidad Santo Tomás tiene el gusto de extenderles la invitación para que nos acompañen en el evento denominado “Third International Workshop on Applied Statistics”, cuyo tema es la minería de datos. Para esta ocasión tendremos los siguientes entrenadores y capacitaciones:

Entrenamiento #1

Práctica del análisis estadístico de datos textuales

Ludovic Lebart, PhD.

 El curso consta de 6 sesiones de 1 hora y 30 minutos aproximadamente cada una, repartidas en tres mañanas y los estudiantes deben tener computadora personal (equipo portátil). En la primera sesión se descargará (o copiará desde una memoria USB) el software gratuito, el manual de uso del software (en castellano), y de los datos utilizados para los ejemplos en todo el curso.

Los temas incluirán: 

  • Listado de análisis estadísticos de los textos.
  • El caso particular de las preguntas abiertas en las encuestas.
  • La elección de las unidades estadísticas.
  • Herramientas para la descripción multidimensional (análisis de componentes principales, análisis de correspondencias simples y múltiples, clasificación, Mapas de Kohonen).
  • Los diferentes niveles de segmentación del texto.
  • Las unidades características (palabras, frases, respuestas).
  • La “lematización” de los textos.
  • Los procedimientos de validación estadística: aplicación específica del “bootstrap“ en el caso de los datos textuales.
  • Estrategia de análisis.

 Los ejemplos serán discutidos en cada sesión (ambos cálculos e interpretaciones).

 

Entrenamiento #2

Introducción al análisis de redes sociales

Emanuel Viennet, PhD.

El curso consta de 6 sesiones de 1 hora y 30 minutos aproximadamente cada una, repartidas en tres mañanas y los estudiantes deben tener computadora personal (equipo portátil). Las numerosas aplicaciones de las plataformas de redes sociales en Internet plantean nuevos desafíos, tanto a nivel teórico como tecnológico. Dichos sistemas generan datos de gran volumen, asociando contenidos multimedia (imágenes, videos, textos) e informaciones relacionales (“amigos”, “followers”, etc.). Estos datos se modelan como redes complejas (complex networks), las cuales se caracterizan por propiedades específicas, compartidas con muchas redes encontradas en otros contextos: redes de transporte, redes biológicas, etc. En esta entrenamiento, presentaremos las bases del análisis de las redes sociales, ilustrados con ejemplos reales y descripción de aplicaciones modernas.

Temas abordados:

  • Redes sociales y ciencia de redes (network science);
  • Teoría de los grafos; extracción de datos y construcción de grafos;
  • Características estructurales de los grafos sociales;
  • Visualización de grafos;
  • Identificación de comunidades globales y locales;
  • Aplicaciones con software libre de uso general;
  • Difusión de información y “viralidad” (viral marketing);
  • Data mining y aprendizaje  automático en las redes sociales;
  • Ejemplos de aplicaciones reales: detección del fraude en e-comercio, previsión de churn, animación de comunidades en el Web 2.0.

Prerequisitos: el curso se destina a un público con cultura general científica, pero no requiere conocimientos avanzados en matemáticas o informática. Se aprovechará de los computadores de los participantes para instalar software (libre) específico y hacer unos ejercicios de aplicación. 

 

Entrenamiento #3

New advances in data mining: large-scale, streaming and distributed data

George Hebrail, PhD.

El curso consta de 6 sesiones de 1 hora y 30 minutos aproximadamente cada una, repartidas en tres mañanas y los estudiantes deben tener una computadora personal (equipo portátil). Este entrenamiento será impartido en el idioma inglés.

We have entered now in the era of ‘Big Data’. According to Gartner, Big Data is related to the 3V’s challenges:

  • Volume (the amount of data to process is huge),
  • Velocity (data arrives online and must be processed in real time) and,
  • Variety (data is produced by multiple sources and is of various types – structured, text, image, audio, etc.).

In this course, we will first introduce the basic concepts related to some solutions to face the 3V’s, i.e. Map Reduce framework for large scale data processing, data stream management, and distributed processing frameworks such as P2P or agents-based. Then, we will show how standard data mining algorithms can be adapted to these frameworks. The course will also present some applications.

Como pueden evidenciar la didáctica de nuestro evento está enfocada en proveer un entrenamiento intensivo de un experto en la temática. Es decir, se trata, no de un cursillo de dos o tres horas, sino de una capacitación brindada por autoridades internacionales y reconocidas en el medio estadístico. Los cursos serán en las mañanas y tendremos ciclos de conferencias en la noche con invitados internacionales y nacionales. El evento empezará el día 10 de abril y finalizará el 13 de abril. Para su información, los costos son los siguientes:

Estudiante de la USTA: $COL 150.000

Estudiante externo: $COL 180.000

Profesor de la USTA: $COL 200.000

Profesor externo: $COL 250.000

Profesional: $COL 250.000

Participantes con ponencias: $COL 120.000

 

Si desean más información no duden en escribirnos. La página oficial de la Facultad es http://estadistica.usta.edu.co/. La página oficial del evento en donde se pueden inscribir es http://eventos.usta.edu.co/inscripcion_web.cfm?evento=66

Por favor no dejen que se agoten los cupos, pues son limitados.

Cordial saludo,

Comité Organizador

International Workshop on Applied Statistics (IWAS)

Facultad de Estadística

Universidad Santo Tomás

http://estadistica.usta.edu.co

OpenIntro Statistics para cursos de servicios

Si usted es estudiante de estadística y/o profesor, le encantará saber que existe un proyecto muy interesante que pretende llevar la estadística a cualquier lugar con un libro (en su versión digital) gratuito. Este proyecto se denomina OpenIntro Statistics y está liderado por tres autoridades en el tema: David M Diez, Quantitative Analyst de Google/YouTube; Christopher D Barr, profesor del departamento de bioestadística de Harvard School of Public Health y Mine C ̧etinkaya-Rundel, profesor del departamento de estadística de Duke University.

El libro ya tiene su segunda edición y cuenta con todos los recursos necesarios (incluso el código fuente en LaTeX) para hacer un excelente curso de estadística. La página oficial del proyecto es http://www.openintro.org/stat/

SQL en R (para usuarios de Mac y PC)

Existen varias formas de realizar consultas en R sirviéndose del SQL. Sin embargo, algunas librerías son más complicadas que otras. En mi corta percepción de este tema, puedo decir que la menos complicada es la librería sqldf, que no necesita interactuar con ningún motor de consulta como MySQL. Esto trae ventajas pues si MySQL ha sufrido alguna actualización, entonces es posible que la librería de R no se ejecute correctamente.

Sin embargo, la librería sqldf depende de la interfaz Tcl/Tk. Se supone que al instalar la librería, se instala también la interfaz, pero no siempre es así. Por lo menos, a mí me ha pasado en Windows y ahora también en Mac.

La situación es más dramática en Mac, puesto que con las actualizaciones del sistema operativo, se han dejado de lado aplicaciones importantes (específicamente la X11, que permite ejecutar la función View de R). Si usted es usuario de R, y se ha cambiado recientemente a Mac, encontrará que la librería sqldf no se ejecuta correctamente a no ser que usted:

1) instale la aplicación XQuartz y,

2) instale la interfaz Tcl/Tk.

El primer paso es obligatorio y no puede ser pasado por alto. Sin embargo, el segundo paso puede ser obviado, puesto que usted puede disponer que el motor sobre el cual se ejecute la consulta sea el propio R y no cargar la interfaz Tck/Tl. Lo anterior, se realiza con la siguiente instrucción:

options(gsubfn.engine = "R")

Big Data

Bombilla 3

Hace algunos días, un amigo (no estadístico) me llamó para preguntarme algo acerca de R. Después de charlar un poco me contó que tenía un proyecto muy interesante con uno de los bancos más importantes de Brasil para rehacer sus procesos de riesgo, que obviamente dependen de algunas metodologías estadísticas. En pocas palabras, se trata de desechar SAS y entrar en la onda de procesamiento paralelo mediante Hadoop, usando a R como plataforma estadística.

Yo quedé muy sorprendido. Mi primera reacción ante este acontecimiento que se va a dar en el mercado de América Latina es que realmente el estadístico debe ser entrenado un poco más en las ciencias de la computación. Por supuesto, zapatero a sus zapatos, pero no es una habilidad que sobra. Estoy seguro que en unos años el papel del estadístico será otro y los que no saben (o no quieren, o no pueden) interactuar con los ingenieros de sistemas, simplemente quedaran relegados en una posición más ejecutiva (jejeje, de ejecutar procesos). Vaticino, además, que esas posiciones ejecutivas pasarán a la historia en unos años.

Es cierto, aceptemos la realidad. Escogimos una profesión en donde el nivel de actualización es feroz. El estadístico debe estar muy al tanto, no solamente de las nuevas metodologías y modelos estadísticos, sino que también debe saber y conocer cómo se implementan en los sistemas computacionales de vanguardia.

Espero no ofender ni preocupar a ninguno de mis lectores, pero así como van las cosas, los únicos “seguros en sus sitios de confort” serán los profesores de planta de las universidades. Al resto de los estadísticos (que conforman la gran mayoría) que trabajan en las oficinas de empresas privadas, o instituciones del sector publico, les tocará enfrentar la deliciosa tarea de la actualización. Y digo deliciosa porque para mí, y espero que para muchos de mis lectores, es una gran satisfacción saber que estoy al filo del abismo siempre. Saber que no me puedo quedar atrás, es un constante aliciente para enfrentar el devenir de los días.

Quiero recomendar dos excelentes entradas de dos blogs españoles que hace tiempo vienen hablando de “Big Data”. El título de la primera entrada es totalmente directa y complementa lo que he expuesto hasta acá: Nos hemos terminado de reinventar. Acabamos con el Data Mining y empezamos con el Big Data. La segunda entrada se intitula Siete consejos para expertos en análisis de datos. Además de lo anterior, les dejo este Webinar que la compañía Revolutions ha puesto en su Web para acceder de manera gratuita.

Y para quienes quieren ser entrenados por un experto mundial destacado en este tipo de procesos, la Facultad de Estadística de la Universidad Santo Tomás en Bogotá, Colombia, ha organizado un workshop en Data Mining que contará con un cursillo intensivo de 12 horas (en donde el Dr George Hebrail va a enseñarle a hacer lo que él sabe) que se llama “New Advances in Data Mining: Streaming and Distributed Data”. Recuerde que el Workshop es en Bogotá del 10 al 13 de abril de este año. Las inscripciones al curso son limitadas, así que no tarde mucho en realizar el pago.

INSCRIPCIONES AL WORKSHOP

USTA y UNAL sobre la Sociedad Colombiana de Estadística: debate sobre la agremiación… (SMART – Podcast #2)

Sociedad Colombiana de Estadística: debate sobre la agremiación

Continua la discusión y debate sobre la SCE. Esta vez enfocados en la agremiación y la no viabilidad de los estatutos actuales. Este es el segundo programa de SMART (Statistics, Mathematics and Academic Radio Transmission), producido por la Facultad de Estadística de la Universidad Santo Tomás.

USTA y UNAL sobre la Sociedad Colombiana de Estadística: discusión sobre sus directrices… (SMART – Podcast #1)

Sociedad Colombiana de Estadística: discusión sobre sus directrices

La semana pasada se transmitió el primer programa de SMART (Statistics, Mathematics, Academics and Radio Transmission) con un nuevo formato de debate  Este programa es producido por la Facultad de Estadística de la Universidad Santo Tomás. Los siguientes, fueron los invitados al programa:

  • Profesor Luis Alberto López Pérez (UNAL), PosDoctor en la universidad de California y doctor en estadística experimental de la universidad de sao Paulo, con experiencia en la docencia de mas de 20 años. Investigador y ex director curricular de la carrera de estadística en la universidad nacional.
  • Profesor Jorge Ortiz Pinilla (USTA), Doctor en informática – opción estadística – de la universidad de Nancy en Francia, Docente de la Universidad Santo Tomás sede Bogotá y por mas de 30 años docente de la universidad nacional de Colombia, con investigaciones y libros publicados.
  • Profesora Violeta Rosa Zuluaga (USTA), Cadena Administradora de Empresas de la Universidad Javeriana, especialista en Finanzas, especialista en mercadeo de capitales y Magister en Administración. Experiencia en áreas comerciales, y del mercado del sector real y financiero. Diez años de experiencia docente tanto en posgrado como en pregrado.
  • Profesor Andrés Gutiérrez (USTA), Decano de la Facultad de Estadística de la Universidad Santo Tomás, candidato a Doctor y Magister de estadística de la Universidad Nacional, autor de artículos y producción bibliográfica, con experiencia como consultor estadístico en el sector público y privado.
  • Denis López, estadístico de la Universidad Nacional, con mas de 25 años de experiencia laboral del sector público y privado, promotor del software libre y miembro de la fundación corre libre. Asesor en temas de aseguramiento de la calidad estadística del DANE.
  • Jose Fernando Zea (USTA), magister en estadística, experiencia laboral en el sector público y privado docente de la Universidad Santo Tomás.
  • J. Andrés Flórez Gutíerrez (USTA), estudiante de estadística de la Universidad Santo Tomás de séptimo semestre.

3rd International Workshop on Applied Statistics (Entrenamiento en minería de datos) Bogotá – Colombia)

Imagen1

INSCRIPCIONES ABIERTAS YA

Luego de cinco años de iniciado su funcionamiento, y de haber organizado ya los dos primeros eventos internacional en el área estadística, denominados First and Second International Workshop on Applied Statistics, los cuales han sido muy exitosos, gracias a la calidad de los docentes internacionales que participaron, a los múltiples acercamientos con diferentes instituciones académicas y privadas, también las jornadas académicas con invitados locales las cuales han permitido dar una mayor visibilidad a la facultad y a la investigación en el país. Además, se ha tenido la oportunidad de presentar en diversos eventos ponencias a nivel nacional e internacional, la Facultad de Estadística de la Universidad Santo Tomás, desea realizar su tercer evento de carácter internacional, aportando al proceso de consolidación académica tanto del programa como de la institución.

El evento, estará enmarcado en uno de los temas de mayor auge a nivel mundial en el área estadística, como lo es la minería de datos (o Data Mining), para ello contamos con cuatro invitados internacionales dominadores del tema y de sus diversas aplicaciones. También, le permitirá a la facultad de estadística realizar un acercamiento a diversas empresas y universidades reconocidas a nivel mundial como la Universida de París, Ecole Nationale Supérieure des Télécommunications de Paris y TELECOM-ParisTech.

 

Entrenadores invitados 

 

Georges Hébrail

Professeur Ecole Nationale Supérieure des Télécommunications de Paris Département Informatique et Réseaux

Doctorat d’Informatique (Université Paris XI Orsay) (1987) - DEA d’Informatique de l’Université Paris XI Orsay (1983) - Diplôme d’Ingénieur de l’Ecole Nationale Supérieure des Télécommunications de Paris (1984) - Diplôme de l’Ecole Polytechnique (1982)

 

Emmanuel Viennet

 

Professeur des Universités Chef du département Réseaux et Télécommunications (IUT de Villetaneuse) Institut Galilée – Université Paris 13

Mes activités de recherche se déroulent dans l’équipe Analyse et Traitement d’Informations Visuelles du L2TI et portent sur la fouille de données (data mining), la reconnaissance statistique des formes, l’apprentissage numérique et les réseaux connexionnistes. Ces derniers temps, je m’intéresse en particulier à la fouille de données dans les réseaux sociaux.

 

Ludovic Lebart

 

Formación: Doctor (de Estado) en Ciencias Matemáticas. (U. Pierre et Marie Curie, Paris, 1976) Doctor 3r ciclo, Estadística Matemática. (Paris, 1966) Ingeniero civil (1964)

PROGRAMA

 

DÍA 1. (10 de abril)

  • Inscripciones y entrega de materiales. (8:00 am – 5:00 pm)
  • Conferencia 1. (5:00 pm – 6:00 pm) (Andrés Gutiérrez. Decano Facultad de Estadística. Universidad Santo Tomás)
  • Conferencia 2. (6:30 pm – 7:30 pm) (Jorge Ortiz. Docente – Investigador. Universidad Santo Tomás)

DÍA 2. (11 de abril)

8:00 am – 9:30 am

  • Cursillo1. Ludovic Lebart. … Minería de textos y semiometría.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr. … Análisis de redes sociales con minería de datos.

9:30 am – 10:00 am

  • Refrigerio

10:00 am – 12:00 pm

  • Cursillo1. Ludovic Lebart –Fr. … Minería de textos y semiometría.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr…. Análisis de redes sociales con minería de datos.

6:00 pm – 7:00 pm

  • Inauguración del evento

7:00 pm – 8:00 pm

  • Conferencia inaugural (Ludovic Lebart – Fr)

8:00 pm – 8:30 pm

  • Acto social

DÍA 3. (12 de abril)

8:00 am – 9:30 am

  • Cursillo1. Ludovic Lebart –Fr. … Minería de textos y semiometría.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr. … Análisis de redes sociales con minería de datos.

9:30 am – 10:00 am

  • Refrigerio

10:00 am – 12:00 pm

  • Cursillo1. Ludovic Lebart –Fr. … Text Mining.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr. … Análisis de redes sociales con minería de datos.

4:00 pm – 6:00 pm

  • Ciclo de ponencias

6:00 pm – 7:00 pm

  • Conferencia Georges Hebrail –Fr. … Mining data in smart grids.

7:00 pm – 7:30 pm

  • Refrigerio

7:30 pm – 8:30 pm

  • Derly Almanza – Col. Minería de datos en el sector financiero.

DIA 4. (13 de abril)

8:00 am – 9:30 am

  • Cursillo1. Ludovic Lebart –Fr. … Minería de textos y semiometría.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr … Análisis de redes sociales con minería de datos.

9:30 am – 10:00 am

  • Refrigerio

10:00 am – 11:30 pm

  • Cursillo1. Ludovic Lebart –Fr. … Text Mining.
  • Cursillo 2. Georges Hebrail –Fr. … New advances in data mining: streaming and distributed data.
  • Cursillo 3. Emmanuel Viennet – Fr. … Análisis de redes sociales con minería de datos.

11:30 am – 12:30 pm

  • Conferencia de cierre. Emmanuel Viennet – Fr … Detección de comunidades y aprendizaje en redes sociales.

12:30 – 1:00 pm

  • Acto social

Valor de la inversión

 

 

Tipo de asistente Valor Individual
Estudiante USTA $COL     150.000
Estudiante Externo $COL     180.000
Profesor USTA $COL     200.000,00
Profesores y profesionales externos $COL     250.000,00
Participante con ponencia* $COL 120.000,00

* Las ponencias deben estar enmarcadas en cualquier área de la disciplina estadística (no necesariamente en Data Mining)

 

 

Truco del mes: ordenar una base de datos en R

Los lunes en la tarde es un tiempo de ocio administrativo para mí… Cierro las puertas de la oficina y me concentro en asesorar a los estudiantes que realizan investigaciones conmigo… Cada lunes sucede lo mismo… es una de esas cosas que me sacan de quicio, pero a la vez me hacen reír: “¿es order o es sort?” – le pregunto al estudiante de turno. “Jum” – responde el estudiante.

Es sistemático, la misma pregunta, la misma respuesta, el mismo profesor, diferentes estudiantes. Y es que resulta que, dado que me gusta el muestreo, las bases de datos son el pan de cada lunes. Por supuesto, el software de rigor es R.

Mi reacción ante esa situación siempre es la misma: llamar a Jorge Ortiz, para que me refresque la memoria. La reacción de Jorge, curiosamente, también es exactamente igual en cada ocasión: “Andrés, le envié un correo con un ejemplo”… Ahora que lo pienso bien, siempre es el mismo correo, y el mismo ejemplo.

Para todos ustedes, desde mi correo electrónico, el ejemplo de Jorge:

# ---- Ejemplo de base de datos Base con 4 variables: Id, A, B, C
N = 100
Base = data.frame(Id = 1:N, A = rbinom(N, 5, 0.5), B = rnorm(N, 160, 10), C = runif(N, 100, 200))

View(Base)

Imagen1

Como pueden notar, esta base de datos tiene cuatro variables y el objetivo es ordenarla por la variable B. Ahora, viene lo que realmente es importante, la función que hace el ordenamiento es order.

# ---- Se quiere ordenar la base por por la columna B
Orden_B = order(Base$B)
BaseOrdenada = Base[Orden_B,]

View(BaseOrdenada)

Imagen2

Y listo… Además, para ordenar de forma anidada sólo se debe añadir una segunda variable (o tantas variables como sea necesario) a la función order:

Orden_AC = order(Base$A, Base$C)
BaseOrdenada_AC = Base[Orden_AC,]

View(BaseOrdenada_AC)

Imagen1

My article in RCE… Modelación paramétrica de factores de expansión en encuestas complejas

El principio de representatividad afirma que el vector de probabilidades de inclusión debe tener un comportamiento estructural similar al del vector de observaciones de la característica de interés. En encuestas complejas, en donde se utilizan procesos de conglomeración y estratificación, generalmente no se cumple tal principio.Por lo anterior, y dado el carácter multipropósito de las encuestas que brindan estadísticas oficiales, se hace necesario profundizar acerca de la forma como se ponderan las observaciones para cumplir con los requisitos de mínima variación en la estimación de totales poblaciones. En este artículo se explora una metodología que permite modelar los factores de expansión, inducidos por el diseño de muestreo, para cumplir con el principio de representatividad y mejorar los coeficientes de variación para unos nuevos estimadores de totales de las variables que conforman una encuesta compleja.

Para acceder al artículo completo, dar clicl en el siguiente link.

Publicando cifras con CVE mayor al 15% (la técnica de la transformación logit)

Empieza este nuevo año y asimismo la actividad bloguera. Quiero retomar un tema que había generado controversia el año pasado. A grandes rasgos, un par de personas me preguntaban acerca de qué hacer con los estimativos que tienen un coeficiente de variación (definido como el error estándar sobre el valor del estimativo) mayor al 15%. En términos generales, las directrices de algunas agencias que brindan estadísticas oficiales en Colombia y en América Latina van en la dirección de omitir la cifra y no publicarla.

En el último post de este tema habíamos concluido que el mejor indicativo era el intervalo de confianza y con algún ejemplo, mostramos que en realidad hay estimativos de proporciones pequeñas que tienen un error estándar pequeño, pero un coeficiente de variación muy elevado (mayor al 15%) y por lo tanto, la cifra – aunque buena – no era publicada. Creo que lo anterior sucede por tratar de automatizar los procesos antes de tener una estructura mental muy clara de lo que se quiere. En esta entrada voy a referirme a un algoritmo que se utiliza, entre otras encuestas, en la National Household Survey on Drug Abuse en EE.UU. en sus procesos de publicación de cifras.

Como se discutió anteriormente, cuando los estimativos son pequeños – en particular en proporciones, razones y tasas – se generan coeficientes de variación muy grandes que realmente no describen con efectividad el nivel de precisión de la cifra. Es más, cuando la proporción estimada (notada como \hat{p}) es cercana a cero o a uno, los intervalos de confianza podrían contener cifras negativas o mayores a uno, que por supuesto no tendrían sentido lógico. Cuando se presenta esta situación, es mejor optar por una transformación de los límites de confianza. Esta transformación está definida como

\hat{L}=\ln (\hat{p}/1-\hat{p})=logit(\hat{p})

Luego, haciendo uso de la aproximación de Taylor de primer orden en el punto p, se tiene que

\hat{L}\approx L(p) + \frac{\partial L}{\partial \hat{p}}(\hat{p}-p)

En donde \frac{\partial \hat{L}}{\partial \hat{p}} corresponde a la derivada de L con respecto a p y L=logit(p). Por lo tanto, la varianza aproximada de \hat{L} estará dada por

AVar(\hat{L})=(\frac{\partial \hat{L}}{\partial \hat{p}})^2Var(\hat{p})=\frac{1}{(1-p)^2}Var(\hat{p})

Entonces, un intervalo de confianza aproximado para L estará dado por:

(A,B)

En donde,

A=\hat{L}-Z \frac{\sqrt{Var(\hat{p})}}{\hat{p}(1-\hat{p})}

B=\hat{L}+Z \frac{\sqrt{Var(\hat{p})}}{\hat{p}(1-\hat{p})}

En donde Z representa el percentil de la distribución normal estándar escogido para satisfacer los niveles de confianza escogido en el estudio (que muchas veces se toma como Z=1.64 para un 90% de confianza). Finalmente, teniendo en cuenta que

p = \frac{exp(L)}{1+exp(L)}

Entonces, se obtienen los nuevos límites del intervalo de confianza aproximado para p al tomar la inversa de la función logit:

A^* = \frac{exp(A)}{1+exp(A)}

B^*=\frac{exp(B)}{1+exp(B)}

En donde A^* denota el límite inferior y B^* denota el límite superior del intervalo de confianza. Es decir, el nuevo intervalo de confianza para p será (A^*, B^*)

Lo anterior resuelve el problema de los intervalos de confianza para proporciones con valores negativos para el límite inferior. Debe notarse que este intervalo de confianza no es simétrico. Ahora, el criterio utilizado para la publicación o eliminación de la cifra está basado en el CVE de -ln(\hat{p}):

CVE(-ln(\hat{p}))=\frac{\sqrt{Var(-ln(\hat{p}))}}{-ln(\hat{p})}=\frac{\sqrt{Var(\hat{p})/\hat{p}^2}}{-ln(\hat{p})}= CVE(\hat{p})/-ln(\hat{p})

Nótese que, una vez más utilizando la aproximación de Taylor de primer orden, Var(-ln(\hat{p}))= Var(\hat{p})/\hat{p}^2. Por lo tanto, la nueva regla de decisión estará dada en términos de este nuevo criterio. En general, si el umbral de eliminación de la cifra es 15%, entonces la cifra no se publica si el nuevo CVE es mayor al 15%.

A continuación se presenta un ejemplo, para una población de tamaño N=un millón con una muestral aleatoria simple de tamaño n=mil, en donde la proporción estimada es del 0.10% y el intervalo de confianza clásico está dado por (-0.10%, 0.30%). Aún más, el CVE es del 99.70%, razón por la cual la cifra no sería publicable (según el criterio que afirma que si el CVE es mayor al 15%, entonces la cifra no se publica). Sin embargo, en esta misma situación, utilizando la transformación logit, el intervalo de confianza estaría dado por (0.01%, 0.71%) y el CVE es de 14.5%, y por lo tanto la cifra sí debería publicarse.

Aún más, este enfoque representa una excelente aproximación al enfoque clásico cuando las proporciones estimadas no son pequeñas. Por ejemplo, para la misma población del ejemplo anterior, con una proporción estimada del 30%, el intervalo de confianza clásico es de (27.16%, 32.84%) con un CVE de 4.83%. Utilizando la transformación logit, el intervalo de confianza estaría dado por (27.24%, 32.91%) y el CVE es de 4.01%. Haciendo clic acá pueden descargar una hoja de Excel para verificar las anteriores cantidades.

Por último, insto a las diferentes instancias técnicas en América Latina a utilizar enfoques como este, con el fin de no malgastar los recursos públicos. Si se siguen utilizando reglas de eliminación de cifras que tienen en cuenta el CVE clásico, entonces nos quedaremos siempre sin cifras pequeñas que, en realidad, si deberían ser publicadas.

Discurso de posesión

Estas fueron las palabras con las que empecé este periodo de decanatura en la Facultad de Estadística de la Universidad Santo Tomás:

Permítanme expresar mi agradecimiento a Dios, que me ha dado la visión, fortaleza y seguridad para enfrentar este nuevo reto. Las sagradas escrituras afirman que Dios da la sabiduría y de su boca viene el conocimiento (Pr 2). Así que hoy, al empezar mi decanatura, le pido a Dios que me acompañe,  me guíe y me de sabiduría para hacer una buena labor como decano de la Facultad de Estadística. Agradezco también a las directivas de la Universidad Santo Tomás, en cabeza de su rector Padre Carlos Mario Alzate, quienes han depositado su confianza en mí para liderar la Facultad. Deben saber que daré todo de mí para que esta facultad se fortalezca y sea un ejemplo de buena administración y liderazgo, no solo en la comunidad tomasina, sino a nivel nacional e hispanoamericano. Agradezco al decano académico de la división de ciencias económicas y administrativas, padre Marco Antonio Peña, por su compromiso diario con la división. Porque con su gestión, nuestra Facultad se ha consolidado y ha crecido. Una vez más, agradezco al decano saliente el Doctor Sander Rangel, con quien tengo una sincera admiración. Fue el primer decano de la Facultad de Estadística y ha dejado una huella que perdurará en el tiempo. Agradezco a los profesores de la Facultad, de la división y de la Universidad, quienes cada día de este año me han expresado su compromiso y con quienes seguiremos realizando una excelente labor académica, que hasta el momento nos ha posicionado como una Facultad seria y comprometida con la visión de la Universidad. Por último, permítanme expresar mi gratitud a mi esposa Hanwen, quien me ha apoyado sin condiciones y al profesor Yesid Rodríguez, con quien hemos trabajado desde hace cinco años en los procesos de investigación de la Facultad.

El visionario H.G. Wells afirmó hace más de un siglo que: “llegará el día en que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir.” Hoy, en pleno siglo 21, esta es una verdad tangible. El profesional que requiere nuestra sociedad no puede ser ajeno al pensamiento y al análisis estadístico. El padre Peña ha descrito esta característica con una frase que se ha convertido en nuestro lema “el poder de la información para la toma de decisiones.” El profesional tomasino, a lo largo de su trayectoria académica se relaciona con la estadística y con el análisis de la información todos los días. Después de su grado, al empezar su carrera como profesional en nuestra sociedad, este hecho se hace más claro. No me estoy refiriendo solamente a los muchachos de nuestra facultad. No. Me estoy refiriendo a todos los profesionales y estudiantes de nuestra universidad. Desde el estudiante de sociología, hasta el estudiante de negocios internacionales y de psicología. En toda nuestra comunidad académica el pensamiento estadístico y la capacidad de análisis de la información debe ser una habilidad que se de por sentado. De esta manera, nuestra Facultad de Estadística deberá convertirse, y ya lo está logrando, en una Facultad que se relacione día a día con todas las otras Facultades y en todas las instancias de nuestra Universidad.

Lo anterior, revela mi visión de Facultad. Yo quiero liderar una Facultad transdisciplinar, que se posicione como un acompañante en los procesos académicos y de investigación. Una Facultad cercana a la Universidad, a sus estudiantes, profesores e investigadores. Una Facultad que impacte en los importantes procesos que día a día se deben surtir para que nuestra universidad se siga consolidando a nivel nacional e internacional.

En mi visión de Facultad, quiero liderar un proceso de acercamiento frente a las instituciones gubernamentales que día a día piden a gritos un acompañamiento técnico en sus labores de evaluación e investigación de políticas públicas y de servicios. Quiero liderar un Facultad cercana al estado en sus estudios técnicos y cercana a la empresa privada que requiere de nuestros servicios. Una facultad que brinde capacitación técnica a sus profesionales. Y esto implica una ampliación en nuestra visión y un giro hacia la apertura de programas de educación continuada, en modalidad de diplomados y cursos de extensión, en la modalidad de especializaciones y de maestría. Soñamos con una escuela de posgrados que brinde un servicio necesario para la sociedad de hoy en día y que alimente los procesos de investigación de la Universidad.

Estos serán los pilares de mi gestión: la creación y consolidación de un centro de consultoría en la Facultad, con miembros de todas las disciplinas, que sea capaz de presentarse a licitaciones públicas y que pueda responder de manera adecuada a las expectativas de la sociedad. Un centro de consultorías cercano a la empresa privada. Y en segundo lugar, la creación de los programas de posgrados, vistos como una respuesta de la universidad a las necesidades de la sociedad Colombiana.

No vamos a dejar de lado los procesos que ya están consolidados. Al contrario, vamos a reforzarlos. La labor investigativa de nuestra facultad, también es importante. Con alegría recibo la noticia de que en esto primeros días del año, nos aceptado artículos de investigación en dos revista del Canadá y en una revista de la India. Vamos a posicionar nuestros grupos de investigación que en la última convocatoria de Colciencias han quedado reconocidos y estamos en espera de nuestra categorización en los próximos meses.

Tenemos una revista que desde hace cuatro años ha salido regularmente cada seis meses y en la cual hemos tenido la presencia de autores internaciones, así como participación colombiana de otras universidades. Nuestra revista, comunicaciones en estadística se ha consolidado como un espacio de investigación en Colombia, ya es reconocida por Colciencias, y este año esperamos su indexación. Además, nuestra Facultad ha ya tiene su propia colección de textos, con más de cinco libros y los estudiantes reconocen esta bonita gestión y eso hace que el cariño por nuestra universidad crezca en ellos cada día.

Este 2013 es el año mundial de la estadística y vamos a tener nuestro tercer evento internacional, que desde hace cuatro años se denomina el “International Workshop on Applied Statistics.” Tendremos la participación de cuatro profesores europeos, uno de ellos vino el semestre pasado y quedo impactado con nuestra Universidad. En este 2013 seguiremos haciendo presencia institucional en eventos internacionales y daremos a conocer a nuestra excelente universidad. Estoy seguro que nuestros docentes investigadores cuando participan como conferencistas en eventos nacionales e internacionales siente un fuerte orgullo al representar a nuestra universidad y al decir yo pertenezco a la familia tomasina.

Nuestro cuerpo docente es un equipo y más que un equipo, es una familia. No en vano tenemos, en promedio, una de las mejores evaluaciones docentes de nuestra Universidad. Ayer tuve la oportunidad de citar a nuestro cuerpo docente y a lo largo del día me entrevisté con cada uno de ellos. Lo que encontré fue compromiso, amor por la institución y una calidad humana insuperable. Eso hace que nuestra Facultad sea reconocida por su exigencia académica y asegura que nuestros profesionales cumplan una excelente labor en la sociedad pues ellos, los estudiantes son nuestra razón de ser y son el porqué de todos estos procesos en la Facultad.

Muchas gracias.

Reactivando el proyecto de la Sociedad Colombiana de Estadística

Invito a todos los lectores del blog a unirse a este grupo de LinkedIn para llevar este proyecto a feliz término.

  • Grupo de miembros potenciales para reactivar la Sociedad Colombiana de Estadística: estadísticos, profesores universitarios de Estadística, personas con tí­tulo universitario que desarrollen una labor cientí­fica estrechamente relacionada con la Estadística. Pueden ser Colombianos (residentes en Colombia o en el Exterior), extranjeros residentes en Colombia o con vínculos académicos con Colombia.

Estadísticas del blog y resumen del 2012

Screen Shot 2013-01-07 at 2.44.12 PM

En el 2012 tuvimos más de 200mil visitas. Esta y otras estadísticas del blog las pueden encontrar al hacer clic acá. Muchas gracias por su participación en este espacio que ya se consolidó como uno de los lugares virtuales en estadística más importantes de Hispanoamérica. Espero que este 2013 le traiga muchas cosas lindas y que Dios los bendiga.

Saludos,

AG

My article in ib… Calibración de razones en encuestas complejas

Los estimadores de calibración se han convertido en una técnica robusta y eficiente en la estimación de totales en encuestas complejas. En este trabajo se considera y aplica un importante resultado que afirma que es posible calibrar con algunos otros parámetros complejos, diferentes a totales auxiliares, como la mediana, la media, la media geométrica o incluso una razón, logrando obtener estimaciones de totales con las mismas características de no tener sesgo y poseer varianza pequeña. Mediante simulaciones de Monte Carlo se aplicó este resultado a poblaciones empíricas, mostrando un buen desempeño. También, se utilizó esta técnica en la Gran Encuesta Integrada de Hogares realizada por el Departamento Administrativo Nacional de Estadística, lo cual permitió concluir acerca de la eficiencia de la técnica.

El artículo completo lo pueden descargar haciendo clic acá… En verdad espero que las personas que trabajan en los Institutos Nacionales de Estadística en América Latina (y por supuesto en Colombia en el DANE) encuentren en este artículo una valiosa herramienta para sus procesos de análisis de encuestas. Se agradecen todo tipo de comentarios al respecto.

¿Está seguro de su tamaño de muestra?

Permítame asegurar que una de las tareas más importantes del estadístico es la del cálculo del tamaño de muestra. De la misma manera, creo que no me equivoco al afirmar que es una de las tareas a las cuales se le presta menos atención. De hecho, en muchas ocasiones el investigador entra a una página de internet, o incluso a su teléfono celular, y carga una aplicación para la determinación del tamaño de muestra, que supone poblaciones infinitas y bla, bla, bla… Se imaginarán el resultado.

En otras ocasiones el investigador decide contar con el estadístico como apoyo para el cálculo del tamaño de muestra. Este a su vez, debe implementar un camino correcto para esta importante tarea. Muchas veces ese camino está dado por una expresión matemática que vio en algún libro de muestreo o en algún artículo. Hoy quiero abordar el tema del tamaño de muestra para una diferencia de proporciones, que se utiliza en muchas ocasiones, por ejemplo en el levantamiento de una línea de base en la evaluación de alguna política pública, entre otros.

Antes de abordar el tema, quiero que el lector (ya sea estudiante, profesor, consultor, asesor o empleado) tome consciencia de la importancia de utilizar una fórmula. Muchos profesores a veces no le prestamos atención a las fórmulas para los tamaños de muestra y las despreciamos, como si se tratara de una simpleza. Sin embargo, en la vida real, fuera del aula de clase, los profesionales podrían seguir esta práctica y tomar a la ligera el uso de las fórmulas. Lo que a veces olvida el profesor, que está en su burbuja académica, es que la correcta evaluación de las políticas públicas, de los estudios epidemiológicos, entre otros, depende en gran manera de este cálculo. Es tan increíblemente grande esta responsabilidad, que no encuentro las palabras para plasmarla en esta entrada. Imagínese que por negligencia o desconocimiento uno puede afectar a millones de personas. La tarea del estadístico es gigante. Por ejemplo, con un mal tamaño de muestra, la evaluación de una política pública podría arrojar resultados negativos, cuando en realidad son positivos, y de esta manera podría acabarse una intervención que sí está beneficiando a millones de niños. Pero claro, a veces no tenemos ni idea de que hay niños con hambre que necesitan ser nutridos y pasamos por alto las fórmulas y su correcto uso.

Bueno, creo que no hay tantos profesores así, pero es necesario que usted no haga esto y genere cultura estadística en sus pupilos. Volviendo al tema, creo que muchos conocen la siguiente expresión para el cálculo del tamaño de muestra cuando se quiere indagar por una proporción de interés:

n> \dfrac{PQ}{\dfrac{e^2}{z^2}+\dfrac{PQ}{N}}

En donde, e es el error relativo que uno quiere minimizar y z es el percentil de una normal estándar. Aquí no hay mucho misterio, simplemente el resultado de esta expresión es una cifra, y esta cifra induce un tamaño de muestra para un muestreo aleatorio simple sin reeemplazo.

Sin embargo, cuando el interés se centra en la diferencias de proporciones entre dos subpoblaciones, entonces es común encontrar esta fórmula, para un diseño de muestreo aleatorio simple sin reemplazo.

n> \dfrac{P_1Q_1+P_2Q_2}{\dfrac{e^2}{z^2}+\dfrac{P_1Q_1+P_2Q_2}{N}}

y el resultado es una cifra, una cifra que induce un tamaño de muestra. Pero espere, esta cifra no indica un tamaño de muestra total. Esta cifra induce un tamaño de muestra para las dos subpoblaciones de interés; es decir, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación. La razón de lo anterior está en que para llegar a esta expresión, se debe realizar una cantidad de supuestos, uno de los cuales es que el tamaño de muestra sea igual en cada subpoblación. Algo así como n1=n2=n.

Muchos investigadores hacen sus cálculos y en vez de duplicar el tamaño de muestra, lo dividen a la mitad. Recuerde, se debe seleccionar n elementos de la primera subpoblación y otros n elementos de la segunda subpoblación.

Si tiene curiosidad por la demostración y los supuestos utilizados, puede leer este documento que he preparado para usted.

¿Le gustaría recibir entrenamiento virtual certificado en estadística aplicada?

Estamos por montar una plataforma virtual única respaldada por una excelente Universidad en América Latina. Se trata de hacer algo muy serio y efectivo para el entrenamiento de los profesionales que a diario están aplicando técnicas estadísticas en sus diferentes disciplinas. Los seminarios, cursos, diplomados y conferencias serán virtuales y estarán disponibles para todos nuestros profesionales de la región. Los inscritos recibirán una certificación válida por la Universidad.

Imagínese la cantidad de oportunidades que podrían generar con estos entrenamientos. Los temas son muy variados, por ejemplo, ¿le gustaría aprender estadística bayesiana? ¿le gustaría aprender a hacer macros en SAS o en SPSS o en R? Las opciones son ilimitadas y usted podría capacitarse, entre otros en: Bioestadística, Causalidad, Control de calidad, Data Mining, Diseño experimental, Econometría, Diseño de encuestas, Inferencia, LaTeX, Marketing, Métodos multivariados, Modelos estadísticos, Muestreo, Probabilidad, Psicometría, Software estadístico, Series de tiempo, Simulación, etc.

Para que este proyecto tenga éxito, le pido que por favor llene una encuesta muy breve que no le llevará más de dos minutos.

Haga clic aquí para completar la encuesta.

Cifras sospechosas con un CVE mayor al 15%

En esta entrada critico las políticas absurdas de algunas entidades oficiales a la hora de reportar las estadísticas oficiales. Después de la crítica hago una serie de recomendaciones para evitar el desgaste de las cifras.

Tal vez me equivoque cuando afirmo que, tal vez, debido a la insistencia de nuestros maestros (de muestreo) en tener un sistema de estadísticas oficiales confiables, apareció una política, en algunas entidades que brindan estadísticas oficiales en Colombia, que consiste en no publicar las cifras que tengan un coeficiente de variación estimado (CVE) mayor al 15%. La razón de lo anterior está basada en la confiabilidad que se debe garantizar en un proceso de publicación de cifras para la toma de decisiones en el sector público.

Cualquier lector externo diría: “qué bien, están garantizando la calidad de las cifras oficiales”… Sin embargo, yo digo: “mmmmm”. El coeficiente de variación es una medida que los profesores de muestreo hemos vendido como un indicador de la precisión de las cifras en las encuestas. sin embargo, es deber del maestro (yo lo comencé a hacer este semestre y espero que mis alumnos anteriores lean esto) hacer una aclaración sobre las deficiencias de este indicador. A continuación cito algunas de ellas:

  1.  ¿Tiene sentido un coeficiente de variación negativo? Claro que sí. Cuando la estimación es negativa el CVE también lo es. Por ejemplo, cuando se estiman diferencias, cambios netos, cambios brutos, impactos, etc. ¿Es interpretable un CVE negativo? No, no lo es.
  2. Suponga que la estimación del parámetro es exactamente cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación no está definido.
  3. Suponga que la estimación del parámetro de interés es muy cercana a cero. Para esta configuración, sin importar que tan grande o pequeña sea la varianza, el coeficiente de variación será muy grande y no representará la calidad de la estrategia de muestreo.

Específicamente, si se siguiera la política de no reportar la cifra que tenga un CVE mayor al 15%, las estimaciones que tienen una magnitud pequeña (muy cercana a cero) son automáticamente castigadas por este indicador. Incluso si la variabilidad de la cifra es pequeña pequeña (cercana a cero), el coeficiente de variación será gigante. 

Por ejemplo, suponga que un estudio se plantea para estimar la proporción de niños que desertan de las aulas de clase y no vuelven a la escuela. Después de realizar el muestreo, se encontró que la proporción de niños desertores es de P=0.06 con un coeficiente de variación del 25%. Si seguimos la regla del 15%, entonces la cifra no sería publicable.

 Por lo anterior, el CVE no debe ser una medida de calidad de la cifra cuando las estimaciones son negativas o cercanas a cero. No es posible concebir que se adopten políticas de restricciones a las cifras basados en un indicador que no puede ser generalizado para todos los casos. Entonces, ¿qué medida de variabilidad debe adoptarse? En particular a mi gusta muchísimo el intervalo de confianza que envuelve dos medidas de calidad importantes: el error estándar (definido como la raíz cuadrada de la varianza del estimador) y el margen de error (definido como la multiplicación del error estándar por el percentíl adecuado de la distribución del estimador). Con el intervalo de confianza sí se puede decidir si una cifra es confiable o no, y si se procede a la publicación de la misma.

Ahora, en general lo del intervalo de confianza es un poco más engorroso puesto que sería preciso evaluar todas las cifras (una por una) y tomar la decisión después de un estudio juicioso. Entonces, si de generar un proceso automático se trata, el siguiente algoritmo sería una buena opción para que sea incorporado como factor decisivo en la publicación de las cifras oficiales.

Siguiendo con el ejemplo de estudiantes desertores, un CVE del 25%, para una proporción estimada de P=0.06, da como resultado un error estándar de 1.5% (dado por 0.25X0.06=0.015) y un margen de error cercano al 3% (dado por 0.015X1.96=0.029). Por lo tanto el intervalo de confianza de la proporción estaría dado por [3%,9%] (dado por 6%-3% y 6%+3% ) Esas cifras no son despreciables y deberían ser publicadas por cualquier entidad que genere estadísticas oficiales.

Estimando la prevalencia de una infección con métodos Bayesianos en presencia de dos pruebas diagnósticas

Siguiendo con nuestra aproximación epidemiológica a la estimación de la prevalencia de una infección (ver acá y acá), tenemos el caso en donde se tiene al alcance la realización de dos pruebas diagnósticas para la misma enfermedad. Cada prueba diagnóstica es realizada en todos los individuos de la muestra aleatoria.

En este escenario, surgen muchos más parámetros de interés: el primero y más importante sigue siendo la prevalencia de la enfermedad, que puede ser estimada con los datos de las dos pruebas; también están las sensibilidades de las dos pruebas, y las especificidades de las pruebas. Además, surgen nuevas variables latentes representando el número de individuos que en realidad sí están enfermos, y a la vez clasificados en la siguiente tabla:

De esta manera, Yi representa el número real de enfermos de Xi, para todo i=1,2,3,4. Antes de abordar la verosimilitud, examinemos algunos parámetros básicos y su definición en este contexto. El parámetro principal es la prevalencia de la enfermedad dado por:

\pi=Pr(D=1)

En donde D es una variable dicotómica que toma el valor cero, si el individuo no está enfermo, y uno, si el individuo realmente está enfermo. Los dos siguientes son las probabilidades de que el resultado de las pruebas sea positivo. Por tanto,

p_1=Pr(T_1=1)
p_2=Pr(T_2=1)

Ahora, las sensibilidades de las pruebas diagnósticas se definen como:

\eta_1=Pr(T_1=1|D=1)
\eta_2=Pr(T_2=1|D=1)

Por último, las especificidades de las pruebas se definen como:

\theta_1=Pr(T_1=0|D=0)
\theta_2=Pr(T_2=0|D=0)

Ahora, es necesario encontrar las distribuciones condicionales de las variables latentes. Es fácil notar que Z_i|X_i (para i=1,2,3,4) tiene distribución binomial. Para i=1, se tiene que la probabilidad de éxito en Z_1|X_1 está dada por:

Pr(D=1|t_1=1, T_2=1)=\frac{\pi\eta_1\eta_2}{Pr(T_1=1, T_2=2)}

Ahora, utilizando el teorema de probabilidad total y suponiendo independencia entre las pruebas diagnósticas, se tiene que:

Pr(T_1=1, T_2=2)= Pr(T_1=1, T_2=2|D=1)Pr(D=1)+Pr(T_1=1, T_2=2|D=0)Pr(D=0)
= Pr(T_1=1|D=1)Pr(T_2=2|D=1)Pr(D=1)+Pr(T_1=1|D=0)Pr(T_2=2|D=0)Pr(D=0)
= \eta_1\eta_2\pi+(1-\pi)(1-\theta_1)(1-\theta_2)

Retomando, la probabilidad de éxito en ese primer caso estaría dada por

P_{111}=Pr(D=1|T_1=1, T_2=1)=\frac{\pi\eta_1\eta_2}{\eta_1\eta_2\pi+(1-\pi)(1-\theta_1)(1-\theta_2)}.

Similarmente, la probabilidad de éxito en Z_2|X_2 está dada por:

P_{110}=Pr(D=1|T_1=1, T_2=0)=\frac{\pi\eta_1(1-\eta_2)}{\eta_1(1-\eta_2)\pi+(1-\pi)(1-\theta_1)\theta_2}

La probabilidad de éxito en Z_3|X_3 está dada por:

P_{101}=Pr(D=1|T_1=0, T_2=1)=\frac{\pi(1-\eta_1)\eta_2}{(1-\eta_1)(1-\eta_2)\pi+(1-\pi)(1-\theta_2)\theta_1}

Por último, la probabilidad de éxito en Z_4|X_4 está dada por:

P_{100}=Pr(D=1|T_1=0, T_2=0)=\frac{\pi(1-\eta_1)(1-\eta_2)}{(1-\eta_1)(1-\eta_2)\pi+(1-\pi)\theta_2\theta_1}

En resumen, se tiene la siguiente distribución para las variables latente:

Z_1|X_1 \sim Binom(X_1,P_{111})
Z_2|X_2 \sim Binom(X_2,P_{110})
Z_3|X_3 \sim Binom(X_3,P_{101})
Z_4|X_4 \sim Binom(X_4,P_{100})

Ahora, volvamos a nuestra tabla de eventos de pruebas y enfermedad. ¿Cuántos posible resultados hay en la anterior tabla de contingencia? En realidad existen ocho, puesto un individuo puede ser clasificado en cada una de las cuatro celdas (resultantes del cruce de las pruebas diagnósticas) y además el individuo puede estar o no enfermo. Luego, la verosimilitud será necesariamente un producto de ocho factores. No voy a realizar toda el álgebra para estos ocho casos, pero sí quiero revisarla para el primero. Entonces, para esta celda la probabilidad de éxito está dada por:

Pr(T_1=1, T_2=1, D=1)=Pr(T_1=1,T_2=1|D=1)Pr(D=1)
=Pr(T_1=1|D=1)Pr(T_2=1|D=1)Pr(D=1)=\eta_1\eta_2\pi

Haciendo un análisis similar para los restantes siete casos de la tabla de contingencias, se tienen las siguientes probabilidades en cada celda

Pr(T_1=1, T_2=1, D=1)=\eta_1\eta_2\pi
Pr(T_1=1, T_2=1, D=0)=(1-\theta_1)(1-\theta_2)(1-\pi)
Pr(T_1=1, T_2=0, D=1)=\eta_1(1-\eta_2)\pi
Pr(T_1=1, T_2=0, D=0)=(1-\theta_1)\theta_2(1-\pi)
Pr(T_1=0, T_2=1, D=1)=(1-\eta_1)\eta_2\pi
Pr(T_1=0, T_2=1, D=0)=\theta_1(1-\theta_2)(1-\pi)
Pr(T_1=0, T_2=0, D=1)=(1-\eta_1)(1-\eta_2)\pi
Pr(T_1=0, T_2=0, D=0)=\theta_1\theta_2(1-\pi)

Por lo anterior, la verosimilitud de la distribución multinomial es proporcional a la siguiente expresión

l(\mathbf{X},\mathbf{Z}|\mathbf{\eta}, \mathbf{\theta}, \pi)\propto (\pi\eta_1\eta_2)^{Z_1}((1-\theta_1)(1-\theta_2)(1-\pi))^{X_1-Z_1}(eta_1(1-eta_2)\pi)^{Z_2}((1-\theta_1)\theta_2(1-\pi))^{X_2-Z_2}((1-eta_1)eta_2\pi)^{Z_3}(\theta_1(1-\theta_2)(1-\pi))^{X_3-Z_3}((1-\eta_1)(1-\eta_2)\pi)^{Z_4}(\theta_1\theta_2(1-\pi))^{X_4-Z_4}

Vamos al análisis Bayesiano de esta problemática que incluye el modelamiento de las sensibilidades y especificidades de las pruebas, la prevalencia de la infección y las variables latentes. Como se acostumbra, para todos los parámetros vamos a definir distribuciones previas en la familia beta, así:

\eta_1 \sim Beta(a_{\eta_1}, b_{\eta_1})
\eta_2 \sim Beta(a_{\eta_2}, b_{\eta_2})
\theta_1 \sim Beta(a_{\theta_1}, b_{\theta_1})
\theta_2 \sim Beta(a_{\theta_2}, b_{\theta_2})
\pi \sim Beta(a_{\pi}, b_{\pi})

Por lo tanto, siguiendo la regla de Bayes, la distribución posterior de los parámetros está dada por el producto de la verosimilitud con todas las distribuciones previas de los parámetros de interés. Luego, recurriendo a los principios de simulación mediante métodos de Monte Carlo y al aplicar el muestreo de Gibbs, podemos simular desde las condicionales posteriores que sí tienen una forma cerrada. De esta manera, se tiene que:

1. Las distribuciones posteriores de las sensibilidades están dadas por:

\eta_1|\mathbf{X},\mathbf{Z} \sim Beta(Z_1+Z_2+a_{\eta_1},Z_3+Z_4+b_{\eta_1},)
\eta_2|\mathbf{X},\mathbf{Z} \sim Beta(Z_1+Z_3+a_{\eta_2},Z_2+Z_4+b_{\eta_2},)

2. Las distribuciones posteriores de las especificidades están dadas por:

\theta_1|\mathbf{X},\mathbf{Z} \sim Beta(X_3+X_4-Y_3-Y_4+a_{\theta_1},X_1+X_2-Z_1-Z_2+b_{\theta_1},)
\theta_2|\mathbf{X},\mathbf{Z} \sim Beta(X_2+X_4-Y_2-Y_4+a_{\theta_2},X_1+X_3-Z_1-Z_3+b_{\theta_2},)

3. La distribución posterior de la prevalencia de la enfermedad está dada por:

\pi|\mathbf{X},\mathbf{Z} \sim Beta(Y_1+Y_2+Y_3+Y_4+a_{\pi}, N-Y_1-Y_2-Y_3-Y_4+b_{\pi})

Haciendo uso de los anteriores resultados, se ejecuta el procedimiento de inferencia mediante métodos de Monte Carlo con el muestreo de Gibbs.

Regresión Beta (modelando la media y la precisión)

Si su variable de interés toma valores en el intervalo (0,1), puede ser correctamente modelada con la distribución Beta. Por ejemplo, las proporciones, tasas, y porcentajes que muchas veces se consideran distribuidas normales, deberían ser consideradas como realizaciones de variables aleatorias con distribución Beta. Ahora, según Cribari-Neto & Zeileis (2010), es natural que estas regresiones sean heterocedásticas pues los datos muestran más variación cerca de la media y menos dispersión en los límites del intervalo.

La regresión se lleva a cabo al realizar una reparametrización de la distribución, de la siguiente manera:

f(y,\mu,\phi)=\frac{\Gamma(\phi)}{\Gamma(\mu\phi)\Gamma((1-\mu)\phi)}y^{\mu\phi-1}(1-y)^{(1-\mu)\phi-1}

 Luego, la media y la precisión se modelan de la siguiente manera, respectivamente:

g_1(\mu_i)=\mathbf{x}_i' \mathbf{\beta}

 g_2(\phi_i)=\mathbf{z}_i' \mathbf{\gamma}

La inferencia de estos modelos puede hacerse de forma clásica, por ejemplo, utilizando el paquete betareg. Sin embargo, en la red también se encuentran algunos documentos de Cepeda & Garrido, que dan cuenta de la inferencia Bayesiana para esta misma configuración con algunos códigos en WinBugs. A propósito de la inferencia Bayesiana, el enfoque de Cepeda está dado en términos de la creación de nuevas variables de trabajo para la implementación de un algoritmo híbrido MCMC.

El siguiente código realiza la estimación clásica para un conjunto de datos. La función de vínculo para el modelo de media es logit, y para el modelo de precisión es logarítmica.

library(betareg)
data(FoodExpenditure)
attach(FoodExpenditure)
model.beta <- betareg(I(food/income) ~ income + persons| income, data = FoodExpenditure, link = "logit", link.phi = "log")
summary(model.beta)

Desde el punto de vista Bayesiano, se debe implementar un algoritmo híbrido. El siguiente código puede ser usado para encontrar las estimaciones con distribuciones previas planas y no informativas para los parámetros de regresión, tanto en la media, como en la precisión.

(Estadística para epidemiólogos) Códigos computacionales para estimar la prevalencia de una infección con métodos bayesianos

En una entrada anterior se describió la teoría Bayesiana sobre la cual descansa la inferencia conjunta de la sensibilidad y especificidad de una prueba diagnóstica y de la prevalencia de la infección. En esta entrada se discuten dos aproximaciones computacionales a este problema. La primera soportada en la plataforma WinBugs, que realiza los procesos de Monte Carlo de forma automática. La segunda, sustentada en R, en donde el muestreo de Gibbs se realiza de forma “manual”. A continuación encuentra el código en WinBugs:

model {
x1~dbin(p,n) 
x2~dbin(q,n) 
p.z1 <- eta*pi/p 
p.z2 <- ((1-eta)*pi)/(1-p) 
p <- (eta*pi)+(1-teta)*(1-pi) 
q <- 1-p 

#priors 
pi ~ dbeta(1,1)
eta ~ dbeta(8,8) 
teta ~ dbeta(999,1) 

#Latent 
z1 ~ dbin(p.z1,x1) 
z2 ~ dbin(p.z2,x2) 
}
DATA list(x1=25, x2=75, n=100)

Alguien se preguntará acerca de los valores en las distribuciones previas. Pues bien, definimos una distribución no informativa para la prevalencia de la enfermedad, es decir pi ~ dbeta(1,1). Suponemos que la sensibilidad de la prueba diagnóstica puede ser bien modelada con una distribución en donde el 90% de la densidad abarque el intervalo (0.3, 0.7), con una moda en 0.5. Por lo tanto, eta ~ dbeta(8,8). Por último, asumamos que esta prueba tiene una especificidad muy cercana a uno. Entonces, teta ~ dbeta(999,1). En general, encontramos que la siguiente es la densidad posterior de la prevalencia que tiene media 0.5601 con error estándar de 0.1548 y con intervalo de credibilidad posterior de (0.3268, 0.9219).

NewImage

 Los mismos resultados se encuentran ejecutando el siguiente programa escrito en R:

rm(list=ls(all=TRUE))
N=100#Población
x1=25#Enfermos pimarios
x2=75#No enfermos primarios
a.eta=1
b.eta=1
a.teta=1
b.teta=1
a.pi=1
b.pi=1
nsim=1000
valores=matrix(NA,nsim,6)
p.val=rep(NA,nsim)
p.val[1]=x1/N
pi.val=rep(NA,nsim)
pi.val[1]=0.5
eta.val=rep(NA,nsim)
eta.val[1]=0.5
teta.val=rep(NA,nsim)
teta.val[1]=0.5
zeta1=rep(NA,nsim)
zeta1[1]=5
zeta2=rep(NA,nsim)
zeta2[1]=5
zeta1.fun <- function(x1, p, eta, pi)
{
p.z1 = eta*pi/p
if(0<p.z1 && p.z1<1) {zeta1.now <- rbinom(1, x1, p.z1)}
if(p.z1 <= 0) {zeta1.now <- 0}
if(p.z1 >= 1) {zeta1.now <- x1}
return(zeta1.now)
}
zeta2.fun <- function(x2, p, eta, pi)
{
p.z2 = (1-eta)*pi/(1-p)
if(0<p.z2 && p.z2<1) {zeta2.now <- rbinom(1, x2, p.z2)}
if(p.z2 <= 0) {zeta2.now <- 0}
if(p.z2 >= 1) {zeta2.now <- x2}
return(zeta2.now)
}
for (i in 1:nsim){
p.val[i+1]=eta.val[i]*pi.val[i]+(1-teta.val[i])*(1-pi.val[i])
zeta1[i+1]=zeta1.fun(x1, p.val[i], eta.val[i], pi.val[i])
zeta2[i+1]=zeta2.fun(x2, p.val[i], eta.val[i], pi.val[i])
eta.val[i+1]=rbeta(1,zeta1[i]+a.eta,zeta2[i]+b.eta)
teta.val[i+1]=rbeta(1,x2-zeta2[i]+a.teta,x1-zeta1[i]+b.teta)
pi.val[i+1]=rbeta(1,zeta1[i]+zeta2[i]+a.pi,x1+x2-zeta1[i]-zeta2[i]+b.pi)
valores[i,1]=p.val[i]
valores[i,2]=zeta1[i]
valores[i,3]=zeta2[i]
valores[i,4]=eta.val[i]
valores[i,5]=teta.val[i]
valores[i,6]=pi.val[i]
}
colnames(valores)=c("p","zeta1","zeta2","eta","teta","pi")
colMeans(valores)
pi.pos <- quantile(pi.val, c(0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975))
eta.pos <- quantile(eta.val, c(0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975))
teta.pos <- quantile(teta.val, c(0.025, 0.05, 0.25, 0.5, 0.75, 0.95, 0.975))
list(pi.pos=pi.pos, eta.pos=eta.pos, teta.pos=teta.pos)

Estos códigos computacionales fueron desarrollados por el autor de este blog, en conjunto con Carlos Reyes de la Facultad de Estadística de la USTA y son de libre uso y su distribución debe ser no comercial. Por supuesto, si se utiliza el código, debe citar esta fuente en la respectiva bibliografía.

Las seis entradas más leidas en el último año

Cabe aclarar que la página de ofertas laborales ha sido la más visitada en este año con más de 34 mil visitas. En términos de entradas tenemos lo siguiente:

                          TÍTULO                                               VISITAS

Muestras representativas 18.002
La curtosis, una medida ampliamente conocida pero malinterpretada…. 9.238
P valores aleatorios 5.370
Modelos estadísticos 5.146
Métodos multivariados en Excel 3.631
Seis simples técnicas para la presentación de datos 2.649

 

La distribución predictiva en WinBugs

A la hora de modelar un conjunto de datos, uno de los intereses principales del investigador, no sólo está en encontrar la esperanza (o la esperanza condicional, si hay covariables y otros parámetros) de las variables aleatorias, sino también encontrar la distribución condicional de nuevos datos en el modelo para realizar un proceso de predicción.

El ejemplo más claro que se me ocurre es en inferencia de poblaciones finitas. Por ejemplo, nótese que un total poblacional (y tomando como medida de probabilidad la distribución de los datos ignorando el mecanismo de selección de la muestra) se puede escribir de la siguiente forma:

T=\sum_{k \in s}Y_k+\sum_{k \notin s}Y_k

Por supuesto, acá se supone que T es una variable aleatoria y por lo tanto, una realización de T será:

t=\sum_{k \in s}y_k+\sum_{k \notin s}y_k

Entonces, después de la recolección de la muestra, el primer sumando será una cantidad conocida pero la segunda parte seguirá desconocida y deberá predecirse dependiendo del modelo que se haya considerado. Es aquí donde entra la distribución predictiva. Desde el punto de vista Bayesiano, cuando esta se define, es posible simular los valores de la segunda parte de la suma y con esto obtener una predicción del total poblacional. Por el lado frecuentista, es posible obtener una estadística pivote para encontrar la probabilidad de que una nueva observación se encuentre dentro de un intervalo específico. En ambos escenarios lo que uno esperaría es que los intervalos de predicción fuesen más anchos que los intervalos de credibilidad o de confianza.

La función de distribución predictiva está definida por la siguiente integral (no trivial en la mayoría de los casos):

p(y|\bold{Y})=\int_{\theta} p(y|\theta)p(\theta|\bold{Y})

Sin embargo, esta integral se puede ver como una esperanza condicional de la función de p(y|\theta). Es decir,

p(y|\bold{Y})=E_{\theta|\bold{Y}}( p(y|\theta))\approx \frac{\sum_i p(y|\theta_i)}{N}

Lo anterior permite aproximar esta distribución usando métodos MCMC y evadir el cálculo analítico, que muchas veces es intratable. Este procedimiento se enuncia a continuación:

  1. Generar un valor Θ desde la distribución posterior usando MCMC.
  2. Utilizar ese valor específico y generar un nuevo valor de y desde la verosimilitud p(y|Θ).
  3. Repetir 1 y 2 miles de veces.
  4. Aproximar la función predictiva con todos los valores generados de las verosimilitudes.
  5. Realizar la predicción.

En WinBugs es muy sencillo; aunque parecer ser que no hay mucho escrito en la red de cómo aproximar la función predictiva. Un ejemplo sencillo, es asumir que se tiene una regresión lineal normal. Entonces, el siguiente código hace todo el proceso automáticamente:

model{
for(i in 1:N){
y[i]~dnorm(mu[i], tau)
mu[i]<-b1+b2*x[i]
y.pred[i]~dnorm(mu[i], tau)
             }

b1 ~ dnorm(0, 0.0001)
b2 ~ dnorm(0, 0.0001)
tau ~ dgamma(0.01, 0.01)
}
DATA
list(y=c(51.25, 56.79, 59.32, 63.09, 68.82, 67.84, 69.14, 74.18, 74.76, 76.71, 75.18, 76.23, 79.15),x=c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13), N=13)

Nótese la inclusión de y.pred en el código. Este objeto también debe incluirse en el cuadro de dialogo samples y para obtener las predicciones, basta con hacer clic en el botón stats del cuadro de dialogo samples. Ahora, para obtener los intervalos de predicción, es necesario ir al menú inference y elegir la opción compare. En el cuadro de dialogo emergente escribimos y.pred en node, y en other (para que se muestren los puntos), x en axis. Finalmente clic en model fit. 

Si se quiere, también es posible obtener los intervalos de credibilidad al escribir mu en node. A continuación se muestra la estimación de la media (junto con los intervalos de credibilidad) y la estimación de la predicción (junto con los intervalos de predicción).

Estadística para epidemiólogos: estimando la prevalencia de una infección con métodos bayesianos

No sé por qué, pero este tema de la bioestadística es apasionante. Como estadístico puedo aplicar las técnicas que conozco para ayudar a mejorar la salud pública de mi país y eso es bonito. Todos los métodos estadísticos entran a colación al tratar de analizar un conjunto de datos de esta naturaleza. Además, es increíble cómo toda una amalgama de consideraciones se mezclan. Desde el muestreo de poblaciones finitas, hasta el análisis bayesiano. En esta entrada quiero abordar un problema de interés actual. Se trata de la estimación de la prevalencia de una enfermedad o una infección en una población. Como usted puede notar, este parámetro se calcula apelando a una probabilidad simple:

\pi=Pr(D=1)

En donde D=1 describe el evento de estar enfermo (por supuesto, D=0 define la ausencia de la enfermedad). Si tuviésemos acceso a una muestra aleatoria de la población, una estimación insesgada de la prevalencia estaría dada por una simple división, así:

\hat{\pi}=\frac{\#(D)}{n}

Sin embargo, lo interesante de esta situación es lo siguiente: ¿cómo saber si alguien está realmente enfermo? Es decir, una cosa es que usted vaya a un laboratorio a realizarse unos exámenes para saber si tiene una infección y otra es que, a pesar del resultado, usted realmente tenga esa infección. Y es que no todas las pruebas diagnósticas son cien por ciento exactas. Entonces, usted selecciona la muestra (en muchos casos ni siquiera hay una muestra probabilística) y a cada individuo se le realiza una prueba diagnóstica. Si suponemos que de 100 individuos, 40 tienen resultados positivos, entonces afirmar que la prevalencia de la infección es de 0.4 sería incorrecto, a no ser que la prueba no tuviese error alguno.

Para seguir abordando este tema debemos introducir dos conceptos importantes, que a su vez definirán algunos parámetros de interés. El primero es la sensibilidad de la prueba diagnóstica, dada por

\eta=Pr(T=1|D=1)

En donde T=1 representa un resultado positivo en la prueba (análogamente, T=0 representa un resultado negativo en la prueba). Este parámetro se entiende como la probabilidad de obtener un positivo verdadero. En segundo lugar, se debe definir la especificidad de la prueba diagnóstica.

\theta=Pr(T=0|D=0)

Y este parámetro representa la probabilidad de obtener un falso verdadero. Ahora, supongamos dos variables aleatorias que determinarán el análisis estadístico. La primera es X1, que representa el número de resultados positivos en la prueba y X2, que representa el número de resultados negativos. Nótese que

X_1 \sim Binom(n,p)

Por supuesto, p=Pr(T=1) representa la probabilidad de que el resultado de la prueba sea positivo. Ahora, nótese que X_2 \sim Binom(n, 1-p) y que p puede ser factorizado de la siguiente manera:

p=Pr(T=1)=Pr(T=1|D=1)Pr(D=1)+ Pr(T=1|D=0)Pr(D=0)=\eta\pi+(1-\theta)(1-\pi)

En virtud de lo anterior, considere las siguientes variables latentes: Z1, que representa el número de individuos infectados dentro del grupo de individuos que resultaron positivos en la prueba diagnóstica. Además, nótese que:

Pr(D=1|T=1)=Pr(T=1|D=1)P(D=1)/Pr(T=1)=\frac{\eta\pi}{p}

Por lo tanto

Z_1|X_1 \sim Binom(X_1, \frac{\eta\pi}{p})

Entretanto, considere a Z2, que representa el número de individuos infectados dentro del grupo de individuos que resultaron negativos. Teniendo en cuenta que

Pr(D=1|T=0)=Pr(T=0|D=1)P(D=1)/Pr(T=0)=\frac{(1-\eta)\pi}{1-p}

Entonces, fácilmente se concluye que

Z_2|X_2 \sim Binom(X_2, \frac{(1-\eta)\pi}{1-p})

Toda la anterior teoría puede resumirse en una sencilla tabla de contingencias que explica la dinámica de los resultados de la prueba diagnóstica:

Enfermo (D=1)

No enfermo (D=0)

Resultado positivo (T=1)

Z1

X1-Z1

Resultado negativo (T=0)

Z2

X2-Z2

Por supuesto, un modelo que se ajusta a esta dinámica es el multinomial que asigna las siguientes probabilidades a las entradas de la tabla:

Pr(T=1,D=1)=Pr(T=1|D=1)Pr(D=1)=\eta\pi

Pr(T=0,D=1)=Pr(T=0|D=1)Pr(D=1)=(1-\eta)\pi

Pr(T=1,D=0)=Pr(T=1|D=0)Pr(D=0)=(1-\theta)(1-\pi)

Pr(T=0,D=0)=Pr(T=0|D=0)Pr(D=0)=\theta(1-\pi)

Por lo tanto, la función de densidad multinomial para los datos observados y latentes mostrados en la tabla anterior es

l(\mathbf{X},\mathbf{Z}|\eta,\theta,\pi) \propto (\eta\pi)^{Z_1}((1-\eta) \pi)^{Z_2}((1-\theta)(1-\pi))^{ X_1-Z_1}(\theta(1-\pi))^{ X_2-Z_2}

Ahora sí, vamos al análisis bayesiano de esta problemática que incluye el modelamiento de la sensibilidad de la prueba, la especificidad de la prueba, la prevalencia de la infección y las variables latentes Z1 y Z2. En primer lugar, para los tres primeros parámetros vamos a definir distribuciones previas en la familia beta, así:

\eta \sim Beta(a_{\eta}, b_{\eta})

\theta \sim Beta(a_{\theta}, b_{\theta})

\pi \sim Beta(a_{\pi}, b_{\pi})

Por ultimo, las variables Z1 y Z2 vienen inducidas por las distribuciones binomiales que se mencionaron anteriormente. Ahora, siguiendo la regla de Bayes y después de un poco de álgebra, encontramos que la distribución posterior del vector (\eta, \theta, \pi), es proporcional a

f(\eta,\theta,\pi|\mathbf{X},\mathbf{Z}) \propto \pi^{Z_1+Z_2+a_{\pi}}(1-\pi)^{X_1+X_2-Z_1-Z_2+b_{\pi}}\eta^{Z_1+a_{\eta}}(1-\eta)^{Z_2+b_{\eta}} \theta^{X_2-Z_2+a_{\theta}}(1-\theta)^{X_1+Z_1+b_{\theta}}

Por supuesto, la anterior expresión no tiene una forma cerrada, entonces recurrimos a los principios de simulación mediante métodos de Monte Carlo y al aplicar el muestreo de Gibbs, podemos simular desde las condicionales posteriores que si tienen una forma cerrada. De esta manera, se tiene que:

  • Para el parámetro de sensibilidad de la prueba diagnóstica, se encuentra que el kernel de la distribución condicional posterior es

\eta|Z_1,Z_2 \sim Beta(Z_1+a_{\eta}, Z_2+b_{\eta})

  • Para el parámetro de especificidad de la prueba diagnóstica, se encuentra que el kernel de la distribución condicional posterior es

\theta|X_1,X_2,Z_1,Z_2 \sim Beta(X_2-Z_2+a_{\theta},X_1-Z_1+b_{\theta})

  • Para el parámetro de prevalencia de la enfermada, se encuentra que el kernel de la distribución condicional posterior es

\pi| X_1,X_2,Z_1,Z_2 \sim Beta(Z_1+Z_2+a_{\pi}, X_1+X_2-Z_1-Z_2+b_{\pi})

Haciendo uso de los anteriores resultados, se ejecuta el procedimiento de inferencia mediante métodos de Monte Carlo. Ahora, por supuesto que es muy necesario un análisis de previo de la prueba diagnóstica en términos de la elucidación de distribuciones previas convenientes que den cuenta de la sensibilidad y especificidad de la prueba. Para ello, se recomienda ejecutar análisis previos con sueros positivos (que se sabe que sí tienen la infección), para obtener una estimación previa de la sensibilidad y con sueros negativos (que se sabe que no tienen la infección), para obtener una estimación previa de la especificidad. Pero esto es sólo el comienzo, el problema se vuelve más interesante cuando hay dos o más pruebas diagnósticas en dos o más muestras de la población.

¿Con intercepto o sin intercepto? ¡Esa es la cuestión! (controversia del mes… ver los comentarios)

Hace varios meses he tenido que lidiar con la creación de modelos en diferentes disciplinas. Si bien cada modelo requiere que el investigador haga una contextualización adecuada de la problemática que aborda, lo cual implica que ningún modelo será igual a otro, existe una pregunta común que el investigador debe hacerse antes de la puesta en marcha del modelo.

¿Ajusto el modelo con o sin intercepto?  

En la búsqueda del mejor ajuste, el investigador se ve tentado muchas veces a ejecutar procedimientos automatizados de selección de variables (stepwise, forward, backward) y muchas veces se escoge el mejor modelo; de tal manera que el coeficiente de determinación (o el AIC, o el DIC) sea el más alto. Llámenme anticuado y retrogrado (o incluso vejestorio) pero yo siempre he sido un poco reticente de meter los datos al software y esperar el mejor modelo (ver diseño estadístico).

Volviendo al objeto de esta entrada quisiera resaltar la importancia de la inclusión/omisión del intercepto en un modelo. Para esto voy a tener en cuenta los siguientes casos

Si la variable respuesta Y es continua:

  • La variable explicativa X también es continua: este es el caso clásico de una regresión lineal, donde al incluir el intercepto, estamos asumiendo que cuando  X toma el valor 0, el valor de Y no es 0, y corresponde a la estimación del intercepto. Mientas que al excluir el intercepto, estamos exigiendo que el valor de Y sea 0 cuando X sea 0. De esta forma la inclusión o exclusión del intercepto, en muchos casos, depende de la naturaleza y la interpretación de las variables.
  • Cuando la variable explicativa X es categórica, y sin pérdida de generalidad al asumimos como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como

 Y_i=\beta_0+\beta_1 D1_i+E_i

Donde D1 toma el valor 1 para los individuos que se encuentran en el primer nivel de X y toma el valor 0 para los demás individuos. En este caso, la interpretación de este modelo es como sigue: Para los individuos del nivel 1 de X, la esperanza de Y está dada por \beta_0+\beta_1. Para los individuos del nivel 2 de X, la esperanza de Y está dada por \beta_0. De esta forma \beta_1 representa la diferencia en los dos niveles, y si la estimación resulta significativa implica que la variable X sí tiene una influencia significativa en Y.

Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como

 Y_i=\beta_0D1_i+\beta_1D2_i+E_i

En este modelo tenemos que: para los individuos del primer nivel de X, la esperanza de Y está dada por \beta_0 y para los individuos del segundo nivel de X, la esperanza de Y está dada por \beta_1. De esta forma, aun cuando la estimación de \beta_0 o de \beta_1 resulte significativa, no implica que X influye en Y. Lo único que podríamos afirmar en este modelo es que los dos parámetros son significativamente distintos de cero. Por lo tanto si se desea establecer si X influye en Y, entonces omitir el intercepto no resulta ser una buena opción.

 Si la variable respuesta Y es discreta:

  • Si la variable respuesta Y es continua: en este caso, el modelo que se ajusta correspondería (en general) a una regresión logit, modelando las probabilidades de éxito \pi_i en términos de X de la forma

logit(\pi_i)=\beta_0+\beta_1X_i

Si el modelo incluye intercepto, la estimación de \beta_0 se puede usar para estimar la probabilidad de éxito cuando X toma el valor 0, puesto que \pi_i=\frac{\exp{\beta_0}}{1+\exp{\beta_0}}. Por otro lado, si la estimación de \beta_1 no resulta significativa, implica que los valores de X no influyen en las probabilidades de éxito, y estas serán constantes; si la estimación de \beta_1 es significativa con un valor positivo (negativo), indica que el aumento de la variable X contribuye a obtener una mayor (menor) probabilidad de éxito, y esta interpretación se mantiene cuando la regresión se ajusta sin el intercepto.

  • Cuando la variable explicativa es categórica que sin pérdida de generalidad, se asume como dicotómica (de dos niveles): en este caso, al ajustar una línea de regresión incluyendo el intercepto, se crea una variable Dummy que representa el primer nivel de la variable X, y el modelo queda definido como

logit(\pi_i)=\beta_0+\beta_1D1_i

La interpretación de este modelo es como sigue: para los individuos del primer nivel de X, logit(\pi_i)= \beta_0+\beta_1 y para los individuos del segundo de X, logit(\pi_i)= \beta_0. De esta forma, si la estimación de \beta_1 es significativa, indica que logit(\pi_i) es diferente en los niveles de la variable X, y podemos concluir que la variable X sí tiene una influencia significativa en Y.

Por otro lado, si se ajusta la regresión sin el intercepto, se crean dos variables Dummies representando los niveles de X, y el modelo queda formulado como

logit(\pi_i) =\beta_0D1_i+\beta_1D2_i

Para este modelo, las estimaciones de \beta_0 y \beta_1 representan los valores de logit(\pi_i) en los dos niveles de X. De esta forma, la significación de la estimación de \beta_1 no da ninguna información sobre la influencia de X en Y.

En resumen, podemos concluir que cuando la variable explicativa es continua, la interpretación de \beta_1 no varía si se incluye o se excluye el intercepto, mientras que cuando la variable explicativa es discreta, debemos tener en cuenta si el modelo incluye o no el intercepto, puesto que la interpretación de \beta_1 cambia. Además, si lo que se quiere es conocer la influencia de X en Y, es necesario incluir el intercepto. Lo anterior, sólo se logra si se construye un modelo con intercepto, y se dejan de lado (un poco, aunque sea un poco) los procedimiento automatizados que ajustan el mejor modelo, en términos de la bondad del ajuste.

Llamado a árbitros

La Revista Comunicaciones en Estadística reconoce el valor y la importancia de los árbitros en el proceso de editorial general. En este momento, queremos lograr las cualificaciones apropiadas para lograr nuestra inclusión en bases de datos nacionales e internacionales de revistas científicas. Para ello, necesitamos la asistencia de evaluadores externos que ayuden al comité editorial en la selección de artículos adecuados para la publicación en la revista.

En un esfuerzo por facilitar la selección de árbitros apropiados para la revista, le pedimos que se tome un momento para completar este formulario para nuestros archivos. Por favor, asegúrese de hacer clic en la casilla de verificación de revisión.

Gracias de antemano.

__________________________________________________________________________

Call For Reviewers

 

Our journal “Comunicaciones en Estadística” recognizes the value and importance of the peer reviewer in the overall publication process. Right now, we want to achieve appropriate qualifications for our inclusion in national and international scientific journal databases. For this, we need the assistance of external reviewers to help the Editorial Review Board select suitable papers for publication.

In an effort to facilitate the selection of appropriate peer reviewers for the journal, we ask you to take a moment to complete this form for our files. Please, be sure to click in the review check box.

Thanks in advance.

 

Muestreo y políticas públicas, una conversación en MAS

Exactamente eso… una conversación amena con la mesa de trabajo del programa de radio MAS, de la Facultad de Estadística de la USTA.
Andrés Gutiérrez - Estadística, muestreo y políticas públicas

My article in RCE… De haplotipos, genes y análisis bayesiano

En el último número de la Revista Comunicaciones en Estadística hemos publicado un trabajo de investigación, junto con Ricardo Camacho, en el cual se expone una metodología bayesiana para el análisis de asociación de polimorfismos de nucleótido simple (SNP) y de haplotipos con una característica de interés en un contexto de producción animal. En la primera etapa del análisis, se propone un modelo lineal bayesiano para clasificar los SNPs que tienen efecto sobre el promedio del valor genético de la variable respuesta. En una segunda etapa, después de la identificación de los haplotipos compatibles con los genotipos de influencia en la primera etapa, se discute la aplicación de un modelo lineal general y de un modelo de regresión logística en la identificación de los haplotipos que presentan una mayor asociación con el aumento del valor genético. En ambas etapas, se siguen metodologías bayesianas y cuando es pertinente se incluyen métodos de simulación de Monte Carlo para generar cadenas de Markov cuya distribución estacionaria corresponda a la distribución posterior condicional de los parámetros de interés. La aplicación práctica está supeditada al área de producción animal en una raza bovina criolla colombiana, denominada como raza blanco orejinegro (BON).

La página web de la revista es comunicacionesenestadistica.usta.edu.co y el artículo lo pueden descargar acá

Controversia del mes: pruebas de hipótesis

Imagen de http://1pixel2.es/2009/05/17/mama-me-han-metido-algo-en-la-copa/

En el último número de Significance, Baker & Mudge proponen realizar pruebas de hipótesis minimizando las oportunidades de obtener falsos positivos y falsos negativos. Hoy discutiré algunos aspectos interesantes de su artículo que llamaron mi atención.

Ellos argumentan que la hipótesis nula siempre es falsa. Este es el argumento de muchos pensadores que se cuestionan acerca de la validez de las pruebas estadísticas como las conocemos hoy. Si usted está haciendo pruebas de hipótesis justo en este instante, pregúntese acerca de sus hipótesis nulas. Son ciertas? seguramente no. Por ejemplo, considere una prueba sobre una media en un proceso industrial. La hipótesis nula podría ser que la vida media de un componente es de 120 días. Pues bien, esa afirmación es del todo falsa pues, como lo menciona Gelman, no tiene sentido cuando el espacio paramétrico es continuo.

Yo diría muy burdamente que existe una validez práctica muy importante. Aún cuando las hipótesis nulas no sean estrictamente verdaderas. Piense en una diferencia de medias, para la cual se realiza una prueba a dos colas. Obviamente resulta imposible pensar en que  la hipótesis nula (la resta de las medias es nula) es verdadera, en sentido estricto. Sin embargo, es muy plausible que el efecto sea tan pequeño que de lo mismo pensar en que la hipótesis nula sea verdadera. Incluso, es posible pensar – sin ser bayesiano – que exista una diferencia entre cero (la supuesta diferencia de medias) y la verdadera diferencia de medias, para la cual su medida de probabilidad sea nula… si la anterior frase le quedó sonando, piénselo muy bien puesto que, en el mundo frecuentista, los parámetros no son variables aleatorias sujetas a medidas de probabilidad; pero, en el mundo bayesiano, esto tiene todo el sentido.

Para rematar, esto señores se preguntan ¿de dónde sale ese numerito alpha? ¿por qué es siempre igual a 0.05? Esa es una pregunta que ojalá muchos estudiantes realizaran en clase. Si usted es estudiante le recomiendo que la formule en clase. Realmente no tiene sentido que en todas las disciplinas ese valor sea el mismo. Si usted está realizando pruebas psicométricas, el valor es 0.05; si está haciendo una prueba de hipótesis en un experimento con animales, el valor es el mismo 0.05; si se trata de una prueba sobre microarreglos en genética, el valor es idéntico. Pareciera un guarismo arbitrario impuesto por los profesores de estadística. Yo creo que así es. Concuerdo con los autores en que ni tiene ningún fundamento lógico. De hecho, el anónimo Student advertía de los peligros de confundir ajuste estadístico con importancia.

¿Y cuál es su opinión?

Our talk in Bucaramanga… Calibración multivariante sobre varias razones

Yo no sé si estoy siendo exagerado, tal vez sí, pero me parece que el acercamiento a la calibración y a la utilización de información auxiliar no volverá a ser el mismo. En otras épocas, era complicado el uso de estimadores de calibración por las restricciones que  se presentaban en términos de la consecución de los totales auxiliares. Sin embargo, con este enfoque no habría motivos para no calibrar. Esta presentación está enmarcada en el desarrollo de una propuesta de investigación acompañada por Natalia Rivera, a quién desde acá le envío un saludo cordial.

Sobre el error de muestreo en políticas públicas y el porqué ser estricto en el tamaño de muestra

En este documento técnico se evidencia por qué cualquier evaluación en el contexto de políticas públicas debe tener un tamaño de muestra robusto para que las inferencias sean válidas y por consiguiente los resultados sean confiables para dar un buen uso de los recursos designados y no caer en el error del detrimento del erario público.

La direcciones técnicas de los gobiernos, entre otras funciones, debe hacer seguimiento objetivo a las intervenciones del Estado en la ciudadanía. Es bien sabido que una de las herramientas más utilizadas en el ámbito del monitoreo a las políticas públicas es la recolección y análisis de información articuladas a través del muestreo estadístico, el cual tiene sus bases sustentadas en el método científico de la teoría estadística.

La forma más lógica, aunque no trivial, de conocer con total certeza el comportamiento de los beneficiarios de una política pública es la pregunta directa a cada uno de ellos, a través de un censo. De esta forma, se podría garantizar la exactitud de los indicadores o parámetros que guíen el seguimiento de dicha política. Sin embargo, debido a las limitaciones presupuestales y logísticas, las entidades que brindan este tipo de estadísticas oficiales, en el seguimiento a las políticas públicas en el mundo[1], han optado por acercarse a dichos indicadores mediante el muestreo probabilístico que le permite al gobierno conocer el resultado y/o impacto de sus intervenciones con un nivel de precisión bastante alto y confiable.

Por supuesto, dado que mediante una muestra no se tiene acceso a toda la población, las inferencias sobre los parámetros estarán sujetas a un error de muestreo, que se debe minimizar. Es un consenso internacional el que establece que este tipo de errores de muestreo no debe superar el 5%[2] para que las estimaciones estadísticas sean precisas y confiables. Entonces, ¿qué tan pequeño debe ser el error de muestreo? Es una pregunta que debe ser respondida de manera particular en la práctica de cada una de las evaluaciones que se realicen. Como experto en muestreo, mi opinión es que las evaluaciones con mayor impacto social, económico y también político deben ser planeadas con un error menor al 3%.

Realmente la base científica sobre la que reposa el muestreo hace que el gobierno no esté jugando a los dados a la hora de planear una evaluación sobre alguna intervención. Es por lo anterior que las muestras probabilísticas son mucho más costosas que cualquier otro tipo de acercamiento a los beneficiarios de una intervención. El proceso de muestreo requiere de la mayor rigurosidad tanto en su planeación como en su ejecución práctica. No es posible obtener buenas estimaciones si desde el escritorio, el planeamiento de la estrategia de muestreo no está bien sustentado. Por otra parte si, a pesar de haber concebido un buen plan de muestreo, no se ejecuta de la manera idónea, tampoco es posible obtener estimaciones confiables.

Lo que se espera de una entidad que evalúa las políticas del Estado es que sus cifras sean precisas y que reflejen la verdadera situación de la intervención, máxime cuando estas evaluaciones afectan las futuras políticas que pueden implementarse. Por lo tanto, si no hay una buena planeación y ejecución de la estrategia de muestreo, es posible que las recomendaciones sean favorables a una política que en realidad no haya tenido los resultados/impactos esperados, o también es posible que, como resultado de la evaluación se recomiende abolir una política que en realidad sí trae beneficios al país. Cuando una evaluación deja de lado la importancia del muestreo, es posible caer en alguna de las anteriores situaciones que claramente perjudican el desarrollo de un país. Por supuesto, también es posible encontrar resultados que reflejen la realidad, pero esa opción sólo se obtendría por azar. Es decir, el gobierno estaría inmiscuyéndose en el peligroso juego de los dados.

En términos prácticos, aceptar un error mayor al establecido en los estándares internacionales, y por consiguiente disminuir el tamaño de muestra requerido, es peligroso puesto que, con alta probabilidad, se podrían presentar las siguientes situaciones totalmente adversas, como se evidencia en la Figura 1. A saber:

  1. La situación menos peligrosa se presenta cuando, por el azar, la muestra sea representativa de la población pero las inferencias tengan poca confiabilidad puesto que el error de muestreo aumentó. Lo anterior significa que, a pesar de que la muestra es pequeña, sí contiene la información más importante de los beneficicarios, pero debido al ajuste del error de muestreo, las estimaciones puntuales están alejadas de la realidad.
  2. La situación más peligrosa se presenta cuando, por el azar, la muestra definitivamente no representa el comportamiento de la población, y por consiguiente las inferencias serán poco confiables y poco precisas. Lo anterior significa que, dado que la muestra es muy pequeña (consecuencia de aumentar el error de muestreo) no contiene la información de los beneficicarios, y las estimaciones puntuales están muy, pero muy, alejadas de la realidad.

 

Figura 1. Posibles escenarios adversos cuando se opta por aceptar un tamaño de muestra inferior  al establecido por la teoría de muestreo.

Por otro lado, mantener el error lo más pequeño posible, siguiendo los estándares estadísticos, inducirá una muestra aleatoria que no dependerá del azar para ser representativa de la población, y que será confiable y precisa, y por lo tanto las estimaciones estarán muy cercanas al verdadero valor del parámetro, como lo muestra la Figura 2.

Figura 2. Escenario óptimo cuando se decide mantener el tamaño de muestra requerido por la teoría de muestreo.

Los más adustos estadísticos pensarán que yo estoy confundiendo el concepto de precisión, ligado al sesgo, con el de confiabilidad, ligado a la varianza. Pero no, realmente los dos conceptos van de la mano en el muestreo, y mucho más cuando se manipulan los errores en pro de satisfacer un tamaño de muestra más pequeño que el requerido. Es tan sencillo como la siguiente situación: considere una encuesta con tamaño de muestra n para una determinada población de beneficiarios de una política. Asuma que el plan de muestreo fue concebido con el mayor de los cuidados, pero en la ejecución no fue posible (por x o y motivo) conseguir toda la muestra necesaria. En esta situación, inmediatamente el estadístico debe sospechar de la existencia del sesgo de selección. Por lo tanto, cuando hay sesgo (y este tipo de situaciones genera un sesgo de los más peligrosos puesto que no es medible) también se altera la confiabilidad de la estrategia de muestreo, como se evidencia en las Figuras 3 y 4.

Realmente, cuando el estadístico planea el estudio con un 95% de confianza y un 3% de error, esperaría que si no hay errores en la recolección de la información, la distribución teórica del estimador fuese como lo indica la curva roja, centrada en el verdadero valor del parámetro, θ. Sin embargo, al realizar menos encuestas, se aumenta el error, y también (¿por ende?) se introduce sesgo en el estimador, y su distribución estará inducida por la curva negra, centrada en θ+B . Entonces, al utilizar las técnicas clásicas sin tener en cuenta este sesgo, tendríamos un cambio en la distribución del estimador.

 La siguiente figura muestra las nefastas consecuencias de no realizar todas las encuestas pertinentes. Obviamente el nivel nominal de confianza que era en principio del 95% ahora sufre un descenso dramático y puede llegar a cifras menores del 70%. La precisión del estimador ni siquiera se cuestiona puesto que, como ya se mencionó, es segado. En general, la consecuencia de esta mala práctica es un estudio con menos del 70% de confianza, un nivel de error mayor al establecido, digamos mayor al 10% y una distribución de muestreo sesgada.

¡Qué maravilla de escenario!


[1] The magenta book: guidance notes for policy evaluation and analysis. Great Britain Treasury. Government Social Research Unit. (2003)

[2] Survey Methods and Practices. Statistics Canada. (2010)

Mi revisión del libro de Efron en el Journal of Official Statistics

Hace algunos meses, Jaki McCarthy me invitó a ser parte del número 2, Volumen 28 del Journal of Official Statistics para que hiciera un pequeño ensayo del libro Large-Scale Inference: Empirical Bayes Methods for Estimation, Testing, and Prediction de Bradley Efron. Pues bien, después de leer el libro y hacer el review, aquí está el resultado.

Realmente, Efron es una de las mentes más brillantes en la historia de la estadística y con este libro expone un tema que sin pretender ir más lejos, se está convirtiendo en una herramienta fundamental en experimentos clínicos y en la estadística de la era de la información masiva, la inferencia a gran escala. De hecho, el libro más parece ser una monografía de sus tantos artículos publicados sobre este tema.

Realmente lo recomiendo, y auguro que no tardará en convertirse en el texto de referencia en términos de pruebas de hipótesis y análisis estadísticos cuando se manejan grandes masas de datos. Por otra parte, no tardo en evidenciar que la bioestadística se convertirá en una disciplina reconocida y utilizada en muchos ámbitos cientifico y de investigación en América Latina y España. Desde ya, si usted está interesado en este bonito tema, tome mi consejo: baje las notas de clase de Efron (que son gratis y las puede conseguir acá) y aventúrese en estas metodologías. Si le gustan las notas, no dude en comprar el libro.

Por lo pronto, como ejemplo, yo no dudaré en descartar las metodologías clásicas para comparar medias, entre otras. Realmente, es sorprendente darse cuenta de que, cuando se trata con muchos datos, la metodología clásica de los p-valores no suele ser la mejor. Así que, desde ya estoy listo para mi próximo análisis de microarreglos.

Identificabilidad en modelos bayesianos mixtos y el teorema fundamental de las Cadenas de Markov… ¿puedo usar WinBugs?

Bien, este es el escenario general… Se tiene un modelo mixto y acudiendo a la fama, uso y fácil e intuitiva programación de WinBugs, se definen distribuciones previas no informativas para los parámetros del modelo y además para los hiper-parámetros del modelo. Luego se realiza la inferencia Bayesiana. Por ejemplo, suponga el siguiente modelo mixto:

y_{ij}|\beta, u_i, \sigma^2_e \sim Normal(\beta+u_i, \sigma^2_e) en donde u_i\sim Normal(0, \sigma^2)

Siendo así, se reescribe la función la función de densidad posterior como el producto de las verosimilitudes con las densidades previas de los parámetros, \beta y \sigma^2_e, y de los hiper-parámetros, \sigma^2. De esta forma, se tiene que

p(\beta, \mathbf{u}, \sigma^2_e, \sigma^2|\mathbf{y}) \propto p(\mathbf{y}|\beta, \mathbf{u}, \sigma^2_e)p(\mathbf{u}|\sigma^2)p(\beta)p(\sigma^2_e)p(sigma^2)

Una definición muy usada para la distribución previa de los parámetros es la siguiente:

p(\beta, \sigma^2_e|\mathbf{y}) \propto 1/\sigma^{2}_e

Con esta distribución previa no informativa, se acude a la multiplicación de todas las verosimilitudes con las distribuciones previas y se utiliza el análisis condicional y el algoritmo de Gibbs para “supuestamente” construir una Cadena de Markov cuya distribución estacionaria coincide exactamente con la distribución posterior. Sin embargo, cuando se utilizan distribuciones previas impropias para los parámetros, resulta que la distribución posterior es también impropia. Lo anterior está demostrado en Hill (1965, Journal of the American Statistical Association, 60, pp 806-825). Por lo anterior, aunque se utilice el algoritmo de Gibbs, la distribución posterior carecerá de sentido puesto que no es integrable y esto implica que no existe una distribución condicional conjunta que coincida con las distribuciones condicionales creadas al utilizar el algoritmo de Gibbs.

Las consecuencias de lo anterior no se hacen esperar. Máxime teniendo en cuenta que el teorema fundamental de las cadenas de Markov, sobre el cual se basa todo el andamiaje de los métodos MCMC, afirma que una cadena de Markov tiene distribución estacionaria si y sólo si todos sus estados son persistentes no nulos y, en ese caso, esa distribución es única. Ahora, un estado es persistente nulo si la esperanza del tiempo medio de recurrencia es infinita. Es decir, en este caso, cuando se presenta un estado persistente no nulo, la cadena de Markov generada mediante el algoritmo de Gibbs no converge en distribución. Sin embargo, dada nuestra restricción para verificar hipótesis en el infinito, es posible que observemos que la cadena ha entrado en una región de muy alta probabilidad, la cual es razonable. Sin embargo, si pudiésemos realizar y observar infinitas realizaciones de la cadena, nos daríamos cuenta de que en realidad esa convergencia jamás se presentó y nunca se presentará.

En conclusión, dado que la distribución posterior es impropia, entonces las cadenas de Markov inducidas por el algoritmo de Gibbs son recurrentes nulas y por tanto no convergerán en distribución. Lo anterior puede ser pasado por alto por la mayoría de estadísticos al utilizar la facilidad del entorno de programación de WinBugs. Más aún, en esta situación, las aproximaciones de Monte Carlo resultantes pueden parecer completamente razonables, lo cual nos pone en una situación bastante peligrosa puesto que el muestreador de Gibbs nos guiará a inferencias plausibles sobre una distribución que no existe. Por lo tanto, antes de escribir su código en WinBugs y antes de definir las distribuciones previas de los parámetros es aconsejable realizar un estudio de sensibilidad sobre estas distribuciones previas y sobre todo definirlas de tal forma que sean integrables a priori, como por ejemplo distribuciones normales centradas en cero, pero con una varianza muy grande, o inversas-gama con parámetros muy pequeños. De esta forma, esas distribuciones previas se hacen no informativas de antemano e integrables a priori.

Mejor dicho, cuando escriba su código en WinBugs, por favor sea cuidadoso y evite usar la siguiente asignación para las distribuciones previas:

Beta ~ dflat()
Sigma ~ dflat()

En vez de lo anterior mejor asigne las siguientes distribuciones previas:

Beta ~ dnorm(0, 0.0001)
Sigma ~ dgamma(0.01, 0.01)

Para mayor información acerca de este fenómeno desafortunado, puede remitirse a los siguientes artículos (si no puede conseguirlos en internet, envíeme un correo y yo los comparto con usted):

– Ibrahim, J. G., and Laud, P. W. (1991), On Bayesian Analysis of Generalized Linear Models Using Jeffreys’s Prior, Journal of the American Statistical Association, 86, 981-986.

– Hobert, J. P. and Casella, G. (1996), The Effect of Improper Priors on Gibbs Sampling in Hierarchical Linear Mixed Models James P. Hobert and George Casella, Journal of the American Statistical Association, 91, 436.

– Gelfand, A. E. and Sahu, S. K (1999), Identifiability, Improper Priors, and Gibbs Sampling for Generalized Linear Models, Journal of the American Statistical Association 94, 445 (Mar., 1999), pp. 247-253.

Celebración de los cinco años de la Facultad de Estadística en la USTA y curso con el Dr. Lebart

Durante el primer semestre del año 2012, la Facultad de Estadística de la Universidad Santo Tomás de Bogotá D.C, se enorgullece en celebrar sus primeros 5 años de funcionamiento, para lo cual ha planeado, del 9 al 11 de mayo, el Seminario Internacional de Análisis de Datos Textuales, liderado por el más reconocido investigador a nivel mundial en esta temática, el profesor francés Ludovic Lebart.

Inscripciones en línea haciendo clic acá (pilas que hay pocos cupos diponibles)

El Dr. Lebart es la mayor autoridad a nivel mundial en el tema de minería de textos. Su investigación se centra en los Métodos de Análisis Estadístico de datos cualitativos y textuales. Los datos provenientes de encuestas socioeconómicas constituyen su principal ámbito de aplicación. Es autor de más de 14 libros especializados en el área de Text Mining y ha participado como coautor en decenas de publicaciones relacionadas. Ludovic Lebart es doctor en estadística matemática, ha sido director del Centro Nacional de Investigación Científica de Francia y del Centro de Investigación para el Estudio de Oberservación de las Condiciones de Vida también situado en Paris. Actualmente es profesor de Estadística Matemática en la Universitad de Neuchatel (Suiza) y desde 1990 es presidente del Comité Científico del CESP (Centre d’ Etude des Supports de Publicité). Además fue el creador del software SPAD, hoy comercializado por la empresa CISIA y del DTM, que sigue siendo de libre distribución. Junto con el Profesor Campo Elias Pardo (Universidad Nacional de Colombia), el profesor Lebart dictará un curso de doce horas en análisis de datos textuales y manejo del software DTM.

Adicionalmente se tiene programado un conjunto de conferencias y actos culturales de entrada libre para complementar la celebración del primer lustro de nuestro joven y dinámico programa de formación en estadística.

El programa del evento es el siguiente:

DÍA 1: Miércoles 9 de Mayo de 2012

8:00 am Entrega de Material y Ubicación

8:30 am Cursillo 1: Análisis de Datos Textuales (Prof. Ludovic Lebart)

10:30 am Cursillo 2: Aplicación de Datos Textuales (Prof. Campo Elías Pardo)

6:30 pm Instalación del Evento (Aula Magna Fray Domingo de las Casas)

7:00 pm Conferencia 1 – Apertura

8:00 pm Acto Social

DÍA 2: Jueves 10 de Mayo de 2012

8:00 am Cursillo 1: Análisis de Datos Textuales (Prof. Ludovic Lebart)

10:00 am Cursillo 2: Aplicación de Datos Textuales (Prof. Campo Elías Pardo)

4:00 pm Conversatorio: Los nuevos métodos de la estadística

6:00 pm Conferencia 2

7:00 pm Nuestra Facultad: Imágenes de 5 años.

DÍA 3: Viernes 11 de Mayo de 2012

8:00 am Cursillo 1: Análisis de Datos Textuales (Prof. Ludovic Lebart)

10:00 am Cursillo 2: Aplicación de Datos Textuales (Prof. Campo Elías Pardo)

5:00 pm Conversatorio: Mercado Laboral de la Estadística en Colombia

6:00 pm Conferencia 3

7:00 pm Clausura del Evento

Informes:

PBX: 58787987 ext: 1422 – 1450

Directo: 5878869

estadistica@usantotomas.edu.co

Inscripciones:

Estudiantes, docentes e investigadores USTA con cursillos: $140.000

Estudiantes, docentes e investigadores externos con cursillos: $180.000

Estudiantes, docentes e investigadores USTA sin cursillos: $0

Estudiantes, docentes e investigadores externos sin cursillos: $0

Inferencia doble cuando se analizan datos de muestras complejas que suponen un modelo poblacional

Ya estoy harto de repetirlo: si los datos provienen de encuestas complejas, debe incorporar el diseño de muestreo al análisis inferencial que se quiera realizar… Es la frase que más repito en mis clases. Sin embargo, esta bonita profesión de profesor me obliga a repetirlo hasta el cansancio. Esta entrada es para todos aquellos inquietos por la estadística, va para los amantes del muestreo y también para los críticos del muestreo. Lo cierto es que espero con esta entrada espero contar muy bien la historia y al final, espero que los muestristas tengan un mayor aprecio por los modelos y los que los críticos del muestreo reconozcan el valor del mismo en los procesos de inferencia. Con una réplica del ejemplo que David Binder utiliza en un artículo del año 2011 (una excelente lectura para quienes ha seguido el trabajo de Ken Brewer), voy a desarrollar mis ideas y voy a introducir algunos conceptos que son de utilidad. Finalmente, todos los resultados los voy a plasmar en simulaciones de Monte Carlo, algunas veces anidadas.

Suponga que se generaron N=100 realizaciones de variables aleatorias independientes distribuidas Bernoulli con parámetro θ=0.3. Los datos que se obtienen se muestran a continuación:

1 1 0 1 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 1 1 0 1 0 0 0 1 1 0 0 0 1 1 0 0 1 0 0 0 1 0 0 1 1 1 0 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 1 0 1 0

En esta población finita, que fue generada a partir de un modelo probabilístico, hay 28 éxitos.

Primer proceso inferencial: el modelo

En este apartado, es notable que la medida de probabilidad que rige la inferencia hasta el momento sea la inducida por la distribución Binomial con parámetro 0.3. De esta manera, el estimador insesgado de mínima varianza (todas estas propiedades obtenidas con base en la distribución binomial) está dado por el promedio poblacional. Por supuesto, aunque la realización del promedio poblacional en la población del ejemplo es \bar{Y}_U=0.28, se comprueba fácilmente que la esperanza del promedio poblacional es E(\bar{Y}_U)=0.3. Nótese que la inferencia utiliza todos los datos de la población. Ahora, para reproducirlo computacionalmente, basta con simular hartas poblaciones de 100 variables aleatorias independientes distribuidas Bernoulli con parámetro desconocido θ=0.3. El siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de poblaciones podrían haber sido obtenidas bajo el modelo.

Con la siguiente simulación de Monte Carlo se tiene un aceramiento al insesgamiento de \bar{Y}_U:

> theta  
[1] 0.3  
> Esp0  
[1] 0.30046 

 

Segundo proceso inferencial: el muestreo

En el primer proceso inferencial, se asume que las variables de estudio son realizaciones de variables aleatorias gobernadas por un modelo probabilístico. Sin embargo, un razonamiento muy válido es que en cualquier población finita en particular, los valores de la medición son fijos aunque desconocidos y no siguen ningún modelo probabilístico; es decir no corresponden a realizaciones de variables aleatorias. Por ejemplo, a la hora de estimar la tasa de desempleo, se considera que si un individuo está desempleado, pues está desempleado y punto. En otras palabras, el estado de la naturaleza del individuo al momento de la medición es “desempleado” y esta caracterización no corresponde a ninguna realización de algún evento aleatorio. Es por esto que una vertiente de la inferencia en poblaciones finitas considera que el parámetro de interés será el número total de personas desempleadas dividido por el número total de personas en la fuerza laboral. Si se tuviese la oportunidad de medir a todos los integrantes de la fuerza laboral, mediante la realización de un censo, pues esa división correspondería al parámetro poblacional con el cual se tomarían decisiones y/o se cambiarían o reforzarían las políticas públicas de un país.

Para reforzar esta idea haga lo siguiente: examine una moneda y obsérvela. Suponga que usted está observando la cara (o sello, da igual) de la moneda. Pues bien, le tengo una noticia: esa cara (o sello) no constituye una realización de una variable aleatoria. Para que se pueda hablar de una variable aleatoria, es necesario realizar un experimento, el cual induce el conjunto de todos los posibles resultados, el cual a su vez induce una sigma-álgebra que define a la variable aleatoria. Sería muy diferente si usted crea un experimento con esa moneda. El más sencillo de todos sería lanzarla al aire y observar si la moneda cayó en cara o sello. De forma similar, es muy válido afirmar que el estado de la naturaleza de un individuo que está desempleado no constituye una realización de una variable aleatoria.

Por ejemplo, suponga que para esa misma población del ejemplo anterior el dato uno corresponde a un individuo desempleado y el dato cero corresponde a un individuo empleado. De esta manera, el parámetro de interés es \theta_N=\bar{Y}_U=0.28. Por otra parte, asuma que la población está subdividida en conglomerados, que pueden ser llamados hogares. De esta forma, nuestra población finita toma la siguiente caracterización, mediante una partición de NI=27 hogares:

(1 1 0) (1 0) (0 0 0 0 0 0 1) (1 0) (0 0 0 0 0 0 1) (0 0 1) (0 0 0 0 0 0 0 1) (0 0 1) (0 0 0 1) (0 0 0 0 1) (0 0 0 0 0 0 0 1) (1 0) (1 0) (0 0 1) (1 0) (0 0 1) (1 0) (0 1) (0 0 0 1) (0 0 1) (1 1 0) (0 0 0 0 1) (0 1) (0 1) (0 0 0 0 0 0 0 0 0 1) (0 1) (0)

El proceso de aglomeración en hogares es obviamente artificioso en este ejemplo, pero ilustra que en la vida real las poblaciones finitas siempre están aglomeradas. Suponga por otra parte que tomamos una muestra de nI hogares y en cada hogar seleccionado realizamos un censo; además la selección de los hogares se hará aleatoriamente, sin reemplazo y con probabilidades de inclusión proporcionales al tamaño del hogar Ni. Siendo la característica de interés yi el estado del individuo en la fuerza laboral (1, si está desempleado y 0, en otro caso), entonces es bien sabido que bajo este esquema de muestreo un estimador insesgado para la proporción de desempleados es el siguiente:

\bar{Y}_S=\frac{\sum_i \bar{y}_i}{nI}

En donde \bar{y}_i=t_{y_i}/N_i es la proporción de desempleados en el hogar i-ésimo, t_{y_i} es el total de desempleados en el hogar i, Ni es el número de individuos en el hogar i y nI es el número de hogares seleccionados. Por otro lado, un estimador ingenuo, que asume que el agrupamiento de los valores no interfiere en el proceso de inferencia e ignora el diseño de muestreo es el siguiente:

\bar{Y}_S^*=\frac{\sum_i t_{y_i}}{\sum_i n_i}

Que corresponde a la proporción general de desempleados en la muestra. En términos generales el siguiente esquema trata de reproducir gráficamente este proceso de inferencia, en donde un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \bar{Y}_S es insesgado, mientras que es \bar{Y}_S^* sesgado:

> theta_N 
[1] 0.28 
> Esp1 
[1] 0.2827724 
> Esp2 
[1] 0.10941 

Nótese que el primer estimador es insesgado (su esperanza equivale al parámetro de la población finita) porque es función del inverso de la probabilidad de inclusión de los elementos que son inducidas por la medida de probabilidad definida por el plan de muestreo. El segundo estimador es sesgado porque no tiene en cuenta el diseño de muestreo.

Inferencia doble: los modelos y el muestreo

En último lugar, suponga que los valores de las variables de interés sí constituyen realizaciones de variables aleatorias que siguen un modelo probabilístico. Ahora, una población finita está constituida por la realización particular de las variables aleatorias. Ahora, condicionado a la realización de una población finita, se extrae una muestra aleatoria de elementos, mediante un diseño de muestreo complejo. Nótese que en este tercer proceso inferencial, tanto el modelo como el diseño de muestreo constituyen dos medidas de probabilidad distintas que deben regir la inferencia del parámetro de interés.

Al respecto, nótese que, dado que el diseño de muestreo es complejo, no es viable utilizar técnicas clásicas, como el método de máxima verosimilitud, puesto que los datos finales no constituyen una muestra aleatoria de variables independientes ni idénticamente distribuidas. Po lo anterior, la forma final de la función de verosimilitud, definida como la densidad conjunta de las variables en la muestra, será muy compleja, intratable e insoluble.

Una solución a este problema de estimación es la técnica de máxima pseudo-verosimilitud, la cual induce estimadores que tienen en cuenta las ponderaciones del diseño de muestreo complejo. Para el ejemplo de las proporciones, el estimador \bar{Y}_S resulta ser el estimador de máxima pseudo-verosimilitud, el cual cumple la siguiente relación:

E_{\xi p}(\bar{Y}_S)=E_{\xi}E_p(\bar{Y}_S|Y)=E_{\xi}(\bar{Y}_U)=\theta=0.3

Por otro lado, otro estimador insesgado para el parámetro de interés es el promedio poblacional, pero dado que sólo tenemos una muestra aleatoria, no es posible calcularlo. Ahora, el estimador ingenuo, , es sesgado puesto que:

E_{\xi p}(\bar{Y}_S^*)=E_{\xi}E_p(\bar{Y}_S^*|Y) \neq \theta

El siguiente esquema trata de reproducir gráficamente este proceso de inferencia doble, en donde un gran número poblaciones podrían haber sido generadas del modelo y a su vez, para cada una de estas, un gran número de muestras podrían haber sido extraídas siguiendo el diseño de muestreo complejo.

Con la siguiente simulación de Monte Carlo se comprueba fácilmente que \bar{Y}_S es insesgado, mientras que es \bar{Y}_S^* sesgado:

> theta 
[1] 0.30 
> mean(Esp1) 
[1] 0.3093036 
> mean(Esp2) 
[1] 0.1160646 
> mean(Esp0) 
[1] 0.29754 

Por supuesto que, dado que el proceso de inferencia es doble, entonces este ejercicio de Monte Carlo debe ser anidado. Es decir, muchas simulaciones dentro de una simulación. Nótese que en primer lugar se debe generar todas las poblaciones finitas y para cada una de ellas se debe generar las posibles muestras.

Sesgo aproximado y sesgo asintótico… dos definiciones diferentes y un ejemplo contundente

Me escribió un colega – a quien respeto y admiro y le mando un saludo grande desde Colombia – inquiriendo acerca del ejemplo de sesgo asintótico y consistencia que escribí en esta entrada anterior. En un muy bonito cruce de correos, logramos discernir algunas cuestiones que no son para nada evidentes en lo que tiene que ver con las definiciones clásicas del sesgo asintótico

Pues bien, entre las definiciones de insesgamiento asintótico tenemos:

  1. Que la media de la distribución límite de n^{1/2} (T_n-\theta) sea nula.
  2. Que el \lim_{n\to \infty} E(T_n - \theta) tienda a cero.

La definición 1 fue la que utilicé para escribir la entrada anterior y la definición 2 es la aparece en la mayoría de libros. La definición 1, la tomé del libro de Shao (Mathematical Statistics) y me gusta porque un estimador no necesariamente debe tener esperanza para ser un buen estimador… ¿Es confuso? De ninguna manera, suponga que el parámetro de interés es la razón entre dos medias, definido como \theta=\mu_x/\mu_y. Para este ejemplo, que entre otras cosas resulta ser uno de los problemas más abordados en la práctica estadística, un estimador usual estaría dado por la razón entre los promedios muestrales, definido como T_n=\bar{X}_n/\bar{Y}_n. Es cierto, aunque este estimador es muy usado, resulta que, en términos generales, la esperanza de T_n no está definida. Es más, no está definida para ningún n y por lo tanto, según la definición 2, no sería asintóticamente insesgado. Nótese que, si X_n y Y_n son independientes con distribución normal (0,1), entonces X_n/Y_n converge en distribución a una variable aleatoria Cauchy, que no tiene esperanza.

Lo anterior abre el camino a una pregunta muy capciosa,

Dado que no se puede hallar el sesgo exacto de un estimador ¿será posible definir un sesgo asintótico?

Y es que a veces, estas definiciones asintóticas nos pueden hacer caer en contradicciones. Por ejemplo, uno podría pensar que para una estadística que no tiene esperanza no se debería poder hablar de sesgo (asintótico o no), pues el sesgo no está definido y, en ese caso, hablar de insesgamiento no tendría sentido. Sin embargo, ese razonamiento es equivocado, puesto que como bien lo sabemos, el estimador T_n=\bar{X}_n/\bar{Y}_n es asintóticamente insesgado, aunque carezca de una esperanza y sesgo exactos. De hecho este es un muy buen ejemplo de por qué la definición 1 es apropiada: bajo esa definición es posible hablar de sesgo asintótico de una estadística cuyo sesgo no existe.

Probemos que efectivamente T_n=\bar{X}_n/\bar{Y}_n es asintóticamente insesgado. En primer lugar sabemos que, por la ley fuerte de los grandes números, \bar{X}_n converge casi seguro a \mu_x; de igual forma, \bar{Y}_n converge casi seguro a \mu_y. Por otro lado, es bien sabido que g(X,Y)=X/Y es una función medible y por lo tanto, dado que (\bar{X}_n, \bar{Y}_n) converge casi seguro a (\mu_x, \mu_y), entonces g(X,Y) converge casi seguro a g(\mu_x,\mu_y)=\mu_x/\mu_y. Por último, la convergencia casi seguro implica convergencia en distribución y se tiene la prueba.

Un comentario final es que la esperanza es una cantidad exacta y tal vez es confuso hablar de aproximaciones a la esperanza. Ahora, yo creo que la confusión aumenta cuando uno le mete un límite a algo que en principio no debería tenerlo. Es que una cosa es el límite de una sucesión de número y otra cosa son los modos de convergencia en probabilidad. Al hablar de asintóticamente, uno no solamente está pensando en un límite simple, sino en una sucesión de variables aleatorias, y sus funciones de distribución, que se hace cada vez más grande a medida que n crece. Las dos cosas son diferentes y si se piensa en que una esperanza es exacta, tiene sentido y mucho hablar de la distribución límite y de su media, en vez de calcular el límite simplemente.

En la misma línea del anterior comentario, Shao afirma que la definición dos no se debería llamar sesgo asintótico, sino sesgo aproximado. Esto último aclara muchas cosas al entender que una cosa es asintótico y otra cosa es aproximado.

El creador del SPAD en Colombia…. Una autoridad mundial en Data Mining visita la Santoto

 

En el marco de la celebración de los cinco años de la creación de la Facultad de Estadística de la Universidad Santo Tomás en Bogotá, y gracias al apoyo del ICETEX y de la Embajada de Francia en Colombia, se ha concretado la visita del doctor Ludovic Lebart. El Dr. Lebart es autoridad a nivel mundial en el tema de minería de textos. Su investigación se centra en los Métodos de Análisis Estadístico de datos cualitativos y textuales. Los datos provenientes de encuestas socioeconómicas constituyen su principal ámbito de aplicación. Es autor de más de 14 libros especializados en el área de Text Mining y ha participado como coautor en decenas de publicaciones relacionadas.

Ludovic Lebart es doctor en estadística matemática, profesor de Estadística Matemática en la Universitad de Neuchatel (Suiza) y desde 1990 es presidente del Comité Científico del CESP (Centre d’ Etude des Supports de Publicité: www.cesp.org). Además fue el creador del software SPAD, hoy comercializado por la empresa CISIA y del DTM, que sigue siendo de libre distribución.

Lebart dictará un curso de seis horas en análisis de datos textuales en la Santoto. Lastimosamente los cupos son muy limitados y, si usted quiere ser partícipe de este entrenamiento personalizado por una de las autoridades mundiales en el área, deberá estar muy atento a la publicidad y la información que nos brinde la Facultad de Estadística. Las inscripciones y publicidad en general se van a dar desde el 10 de abril. La buena noticia es que Lebart también dictará algunas conferencias de entrada libre en el marco de la celebración (también habrá conversatorios y otras conferencias de invitados nacionales). Si usted es estadístico de la Nacho, como yo, o de cualquier otra institución (del Valle, Nacho Medellín, Cordoba) no puede perderse esta celebración que es motivo de orgullo para el desarrollo estadístico en el país. ¡Celebremos juntos, celebremos como gremio!

Haga sus tablas en Excel y expórtelas a LaTeX con Excel2Latex

 

Pues sí, así como lo lee… Ya basta de hacer sus tablas en Excel para después pasarrlas a LaTeX utilizando los tediosos entornos tabular y table. No hay nada más complicado que encontrar aquel error en la tabla que no permite que el documento se ejecute pertinentemente. Pues bien, abra google, digite Excel2Latex y baje este complemento (También lo puede descargar desde acá) que de seguro le aliviara, en alguna medida, esta tediosa tarea. Descomprima el archivo. Corra la macro y, cuando necesite exportar alguna tabla, simplemente selecciónela y vaya a la pestaña complementos para ejecutarlo.

Contraejemplos de consistencia e insesgamiento asintótico

Alguna vez leí un libro de humor del periodista Daniel Samper Pizano y quedé encantado con esta frase:

“Yo, personalmente, admiro más el plasma que la sangre”

Y es que, al escoger un estimador, pueden primar gustos por el plasma más que por la sangre. A lo que voy es que en teoría estadística, es bien sabido que el enfoque clásico, e incluso bayesiano, está enfocado en hallar un estimador que, en primera medida sea insesgado. Ya lo decía el viejo Hájek en alguna de sus obras que afirmaba que:

“… si el sesgo del estimador no es despreciable, entonces el estimador es inútil sin importar qué otras propiedades estadísticas pudiese tener”

Tal vez sea por mi énfasis en el muestreo, pero cuando se trata de estimadores, yo prefiero examinar primero la consistencia y después las otras propiedades estadísticas del estimador. Un ejemplo clásico de muestreo consiste en que, para estimar el promedio de patas de los perros en la tierra, un alienígena procede a utilizar el estimador de Horvitz-Thonmpson, que es insesgado, y que en sus dos posible realizaciones arroja como resultados para una muestra 2 y para otra muestra 6… Sí, 2+6=8, 8/2=4. Efectivamente, el estimador es insesgado pero inútil. Sin embargo, paradójicamente, al utilizar el estimador de Hájek, que es consistente y asintóticamente insesgado, el alienígena encuentra que para sus dos posibles muestras, el estimador siempre es 4. Hoy quiero traer dos ejemplos de lo uno y de lo otro sin entrar en detalles técnicos ni computacionales. Antes de que siga con la lectura, le recomiendo que se empape del tema leyendo esta entrada relacionada.

Un estimador consistente que no es asintóticamente insesgado


Suponga una muestra aleatoria de variables con media \mu y varianza \sigma^2. El siguiente estimador

T=\bar{X}+\frac{c}{n^{1/2}}

es consistente, puesto que, entre otros, a medida que el tamaño de muestra crece:

  1. Su esperanza tiende al valor del parámetro \mu.
  2. Su error cuadrático medio \frac{\sigma^2+c}{n} tiende a cero.

Sin embargo, no es asintóticamente insesgado puesto que la distribución límite de n^{1/2}(T-\mu) no tiene media nula. Lo anterior puesto que la distirbución límite de

n^{1/2}(T-\mu)= n^{1/2}(\bar{X}-\mu)+c

Es normal con media c y varianza \sigma^2.

 

Un estimador asintóticamente insesgado que no es consistente


Suponga una muestra aleatoria de variables con distribución de Laplace

f(x)=\frac{1}{2}\exp\{-|x-\theta|\}

Y considere el siguiente estimador insesgado para la media \theta

T=X_1

Dado que T es insesgado, también es asintóticamente insesgado. Sin embargo, dado que la varianza de T es $Var(T)=2\neq 0$, no es consistente. Por supuesto, lo anterior se verifica rápidamente cuando se nota que

Pr(|T-\mu|>\varepsilon)=1-Pr(-\varepsilon<T-\mu<\varepsilon)=1-\int_{-\varepsilon+\mu}^{\varepsilon+\mu }\frac{1}{2}\exp\{-|x_1-\theta|\}dx_1

No depende de n, y por lo tanto esta probabilidad no tiende a cero a medida que n crece.

Para profesores en la región

UNILA abre processo seletivo com 18 vagas para diversas áreas do conhecimento

http://www.unila.edu.br/noticia/professores-visitantes

A Universidade Federal da Integração Latino-Americana (UNILA) abre as inscrições do Processo Seletivo Simplificado para professores visitantes. São 18 vagas, sendo uma para portadores de necessidades especiais, nas seguintes áreas do conhecimento: Arquitetura e Urbanismo (2), Biologia (1), Cinema (1), Engenharia (3), Estatística (1), Física (1), História (1), Letras/Artes (5), Música (1), e Saúde Coletiva (2).

Os professores serão contratados em regime de prestação de serviços no Ensino, na Pesquisa e na Extensão, durante um ano, podendo ser prorrogado pelo mesmo período para os brasileiros e por 36 meses para os estrangeiros.

Inscrições

As inscrições ficarão abertas até o dia 9 de março, pelo site da UNILA, através do preenchimento do Formulário de Inscrição. Além disso, os candidatos devem enviar Currículo Lattes e Proposta de Atuação Acadêmica na UNILA para o e-mail segepe@unila.edu.br. No caso dos estrangeiros, ao invés do Currículo Lattes, pode ser enviado um currículo detalhado.

A remuneração para professores doutores será de R$ 7.333,67, e para mestres, R$ 4.651,49.

Mais informações

Em caso de dúvidas ou para obter mais informações, entrar em contato pelos telefones +55 (45) 3576-7337 e 3576-7320, ou pelo e-mail da Secretaria de Gestão de Pessoas: segepe@unila.edu.br.

Consejos para beamer y LaTeX en Gmail

Natalia Rojas me escribe lo siguiente que quiero compartir con ustedes por su gran utilidad:

Hola Andrés, te pongo un link de una herramienta bien práctica en el uso de presentaciones en beamer, veo que publicas sobre estas ayudas tecnológicas

http://wiki2beamer.sourceforge.net/

Y otro de algo que quizá te puede interesar, es el manejo de latex en gmail que quizá lo conoces

http://alexeev.org/gmailtex.html

Sólo son sugerencias prácticas!!

Falsos positivos y conclusiones imbéciles por el afán de publicar

Esta mañana me desperté escuchando las noticias de una importante cadena radial con cobertura a nivel nacional. El afamado periodista, encargado de la dirección del programa que tiene una sección de casos curiosos, muy animado declaró que según un estudio una de las formas de prevenir un ataque cardiaco es cepillándose los dientes. Así es, yo también quedé un poco estupefacto. Con la intención de respaldar la noticia, inmediatamente se comunicaron con un afamado cardiólogo colombiano, que no tuvo nada que ver con este estudio, pero que se declaraba confiado con las conclusiones del mismo, y mediante una complicada explicación intentaba dar una especie de respaldo, a mi gusto un poco recalcitrante, al estudio. Yo no soy médico ni mucho menos, pero el estudio me pareció sospechoso. Sospeché del estudio no por lo raro de las conclusiones, sino por la defensa ultranza del cardiólogo criollo. No sé, pienso que el colombiano tiene una forma suspicaz de sobresalir, así sea a costa de cosas que él nunca hizo o ni siquiera conoce. El discurso del cardiólogo era muy parecido al de los defensores de los Nule, de Arias, de Moreno, entre otros.

Puede que sí, puede que efectivamente el cepillado sistemático de los dientes ayude a prevenir la inflamación de las encías y esto tenga una relación directa en el desprendimiento de tejido adiposo en el torrente sanguíneo, que en últimas es lo que produce los infartos. No lo sé, ni siquiera he visto la ficha técnica de tal estudio. Pero de lo que sí estoy seguro es de existe una tendencia generalizada por publicar resultados amañados que, con el respaldo del p-valor menor que 0.05, parecieran estar avalados estadísticamente. A eso lo llaman, el culto a la significación estadística y el investigador debe estar muy al tanto de las malas prácticas para no terminar en ellas.

Leí recientemente en la revista Significance que Deming era afín a no sacar conclusiones con base en el producto final, sino con base a los procesos que permitían obtener tal producto. Por esto es que Deming es el padre del control estadístico de procesos. Al examinar el producto final, es muy difícil darse cuenta de qué proceso en la producción fue el que falló, e hizo defectuosos un producto que debería ser adecuado. Sin embargo, al examinar los procesos detenidamente nunca habrá un producto defectuoso, pues la fabricación no seguirá hasta haber corregido el error en el proceso puntual. Algo parecido ocurre con este tipo de estudios observacionales. Es muy difícil concluir en dónde está la falla. Por lo tanto, la revista concluía que si las conclusiones provenían de un estudio observacional, entonces muy seguramente tales conclusiones son falsas.

Algunos ejemplos de falsos positivos y conclusiones aberrantes son:

  • Los individuos con personalidad A predominante sufren más infartos que el resto. La personalidad tipo A es aquella en donde el personaje resulta muy ansioso, con ganas de comenzar cosas nuevas y sin ningún interés en esperar. Pues bien, mediante un estudio aleatorizado y serio, esta afirmación fue fácilmente refutada.
  • Las mujeres que comen cereal al desayuno tienen más hijos varones. Bien, acá no hay necesidad de ningún tipo de estudio. Es bien sabido que el cromosoma Y, que define el sexo del hijo, es una contribución exclusiva del padre.
  • El consumo de café causa cáncer de páncreas.

Es increíble cómo incluso reconocidas instituciones caen en el engaño de los estudios que no controlan los “procesos” en la “producción” de cifras. No, espere, no estoy hablando de las entidades públicas en Colombia que no respetan los procesos en los estudios y terminan publicando estadísticas oficiales así como así. Estoy refiriéndome a algo mucho peor. Por ejemplo, a finales de la década pasada, hubo mucho alboroto por los resultados de un estudio, llevado a cabo en la Universidad de Duke, con miles y miles de observaciones de datos provenientes de micro-arreglos de personas con cáncer que concluía que sí era posible identificar y establecer el régimen de quimioterapia adecuado para lograr mejores resultados en el tratamiento. Este estudio significaba un adelanto muy grande y significativo en la historia del tratamiento contra el cáncer. Al tratar de replicar los resultados, unos investigadores (¿interventores?) en Estados Unidos se dieron cuenta de que los resultados diferían significativamente. Al final de un largo e interesante proceso (casi judicial) que incluía cartas al editor en las más influyentes publicaciones internacionales, la Universidad de Duke desaprobó su investigación y la totalidad de los artículos generados por los investigadores principales fueron declarados como nunca publicados por las mismas revistas que los divulgaron.

Si hay que creerle a un estudio, debe ser por su carácter de reproducibilidad en los resultados. Lamentablemente, los estudios observacionales carecen de esta cualidad y por lo tanto yo no soy muy susceptible a confiar en sus conclusiones, incluso si están respaldadas por la ciencia que me da de comer, o incluso si un cardiólogo leguleyo los defiende. Animo a los profesores a que formen profesionales con un transfondo teórico importante, pero también que los adiestren en el diseño de estudios porque, sinceramente, esa combinación de malicia indígena con las posibilidades que ofrece la estadística es una bomba muy peligrosa para nuestra profesión. Es algo así como los contratistas criollos con las posibilidades que ofrece la ley… pero con peores implicaciones.

Nuestro artículo en la Revista Colombiana de Estadística: una solución directa al muestreo indirecto

Este artículo considera la estimación conjunta de los totales de población para las diferentes variables de interés en la polivalente encuestas mediante muestreo estratificado diseños. Cuando la población finita tiene una estructura jerárquica, diferentes métodos de estimación insesgada pueden ser aplicados. Sobre la base de simulaciones de Monte Carlo, se concluye que el enfoque propuesto es mejor, en términos de eficiencia relativa, que otros métodos adecuados, tales como el método de ponderación generalizada en el muestreo indirecto.

Guía metodológica para el diseño y análisis de encuestas en evaluación de políticas públicas

Este documento hará parte de un modulo que el Departamento Nacional de Planeación editará en los próximos meses y para el cual fui muy amablemente invitado a participar. Aunque traté de plasmar los criterios más importantes, puede que algunos tópicos los haya pasado por alto, o incluso que existan errores en la escritura o la notación. Por tanto, si a usted le gusta el muestreo o siente atracción por las políticas públicas, este documento puede ser de gran utilidad para usted. De paso, si encuentra algún error, o cree que la cobertura de tópicos es insuficiente, le agradecería que lo mencionara y me lo hiciera saber para incluirlo en el documento. Se trata de una publicación que será  de divulgación gratuita y que francamente pienso que nos beneficiará a todos nosotros. La verdad es que no hay mucha literatura, menos en español, mucho menos gratis, que combine el tema del muestreo y de las políticas públicas. Este modulo se lo dedico a todos los lectores, visitantes y comentaristas de este blog que representa un gran esfuerzo y una gran satisfacción.

Sobre los Nule, las chocolatinas con vidrios, Agro Ingreso Seguro y el muestreo

Andrés Gutiérrez - El papel del estadísico en las evaluaciones de políticas públicas - Conferencia Fundación Universitaria Los Libertadores

Respete sus datos, siempre y cuando lo merezcan

Hace poco tuve la oportunidad de realizar una asesoría a una entidad privada que tenía sendos dilemas acerca de una metodología estadística que debían emplear para establecer un indicador. Sin entrar en mucho detalle, les comento que la cuestión se trataba básicamente de si eliminar o no un conjunto de observaciones influyentes. Este indicador no era otra cosa que una medida de tendencia central. Como cualquiera de nosotros puede pensar, la primera opción es el cálculo del promedio. Pero, como hay observaciones influyentes entonces se pensaba también en una mediana, o incluso en la eliminación de estas observaciones para el cálculo de un pseudo-promedio.

No es un problema de fácil solución y prueba de ello son los miles de miles de publicaciones teóricas que se circunscriben en el tema de las observaciones influyentes. Sin embargo mi opinión técnica sobre el tema es la siguiente: respeta sus datos, siempre y cuando lo merezcan. Esto quiere decir que si, efectivamente, después de un proceso de verificación de la información y después de establecer que el valor que se dice influyente es una medición real de un individuo de la población, entonces el proceso que se debería seguir en el cálculo de los indicadores de interés está supeditado al simple cálculo. En pocas palabras, si sus datos son confiables, pues entonces no los modifique, ni los mire. La realidad es que en muchas ocasiones sí hay datos influyentes para estas medidas de tendencia central y eso está bien. Si los datos se eliminaran, entonces estaríamos circunscritos a una gran manipulación de la población original. Y lo anterior tiene consecuencias funestas en el análisis de la información.

En algunas ocasiones, el análisis de datos influyentes se realiza para que el modelo ajuste mejor y para obtener mejores indicadores. Es común encontrar procesos de ajuste de modelos en vez de procesos transparentes de análisis de información. Esta es una grave falta y tal vez ha nacido desde las aulas de clase puesto que poca atención se le presta a los datos y se hace mucho hincapié en las medidas de ajuste del modelo. Tendemos a calificar mejor a aquellos modelos que arrojan un coeficiente de correlación o determinación muy alto. Pero en la vida real, no podemos ser influidos por este tipo de pensamiento, puesto que si quisiéramos ajustar un modelo con un buen R2, entonces simplemente afirmamos que la mayoría de datos son influyentes y quedarnos sólo con dos datos. Le aseguro que al ajustar un modelo de regresión con dos datos, el R2 va a ser muy muy alto.

Y usted ¿qué está haciendo en su trabajo?, ¿ajustando modelos? o ¿analizando la realidad de sus datos?

Mi artículo de encuestas en políticas públicas

El número 18 del Boletín Política Pública Hoy incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y su equipo deben tener en cuenta al momento de planear una encuesta en este contexto.

Sin ninguna, fórmula matemática y con mucha carreta para que genere una mayor comprensión, este artículo coadyuvará en la estandarización de las buenas prácticas que se deben generar desde nuestro gremio. El artículo lo pueden descargar acá.

Regalo de navidad para los apasionados del muestreo

Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de la ciencia estadística y los modelos. Pues nada más falso, el muestreo esta circunscrito dentro de la ciencia estadística y tiene como base a, nada más y nada menos, la probabilidad.

  1. El primer regalo es un compendio, que lo pueden encontrar gratis en el repositorio ArXiV, y es una publicación del Instituto Internacional de Estadística, llamada métodos bayesianos que los frecuentistas deberían conocer. Este compendio tiene temas tan interesantes como calibración bayesiana, distribuciones previas objetivas, métodos bayesianos en polítcas públicas, muestreo desde una perspectiva bayesiana, y el impacto de las técnicas bayesianas en el diseño y análisis de encuestas.
  2. El segundo regalo es otro compendio, que lo pueden encontrar gratis en la página del Pakistan Journal of Statistics, con sendas discusiones acerca de la contribución de Ken Brewer al muestreo. Ken Brewer es reconocido por tratar de unificar los modelos estadísticos con las técnicas de estimación estándares en muestreo, a través de sus llamados estimadores cosméticos.

Vale la pena que los imprima y los lea. Feliz navidad y un saludo desde Colombia.