Apuntes de Estadística
“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Aug 29th
En estos últimos días he estado entre publicaciones y ediciones y volúmenes con contenido estadístico. Me he asombrado de lo buenos que somos en matería de demostración de teoremas y colorarios. Sin embargo existe una gran deficiencia, de parte nuestra, al intentar comunicar los resultados de nuestros trabajos de investigación.
Haciendo clíc acá encontrara un documento de 10 páginas que he escrito, para mí mismo, con el objetivo de recordarme las pautas que se deben seguir al momento de escribir. Espero que este documento abra una discusión enriquecedora sobre este importante aspecto.
Aug 27th
La facultad de Estadística de la universidad Santo Tomás en Colombia se complace en presentar ante la comunidad académica nacional e internacional (compuesta por docentes, decanos de facultades y departamentos, estudiantes, egresados, integrantes y directores de grupos de investigación), ante el sector público gubernamental como principal usuario de las estadísticas oficiales (con instituciones de planeación estratégica nacional, políticas públicas, institutos nacionales de estadística, bancos centrales, ministerios de desarrollo, entre otros) y ante el sector privado empresarial en cada uno de sus frentes como impulsador y beneficiario de las técnicas estadísticas una nueva publicación seriada semestral llamada Comunicaciones en Estadística.
Esta revista tiene como objetivo propiciar y facilitar el proceso de comunicación de diferentes metodologías, prácticas y procesos referentes al campo estadístico teórico y/o aplicado. Para la publicación de artículos sometidos a esta revista, se tendrán en cuenta:
Los autores que estén intereados en publicar artículos en esta revista se podrán comunicar con el decano de la facultad de Estadística, Dr. Sander Rangel, al siguiente correo electrónico:
Esperamos que la comunidad académica nacional e internacional apoye esta iniciativa.
Aug 19th
En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.
La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es
Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.
La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.
Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.
Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis
Ho: mu igual a cero VS. Ha: mu distinto de cero.
Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero
Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero
Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.
Aug 11th
En este enlace encontrará la charla, de caracter divulgativo, acerca de las nuevas técnicas de muestreo. Específicamente, la charla está centrada en el muestreo indirecto y en el método de ponderación generalizada propuestos por Lavallée.
El artículo que da soporte a esta charla se puede descargar haciendo clic aquí. Esta comunicación está enmarcada en el ciclo de conferencias, cursillos, comunicaciones y posters del XVIII simposio de estadística: Estadística en la Industria y los Negocios: Encuentro conjunto organizado por la Universidad Nacional de Colombia.
Aug 11th
No había podido actualizar este impopular blog pues me encontraba fuera de la ciudad. En mi viaje a la costa caribe colombiana encontré una increíble belleza geográfica y me enorgullecí de haber nacido en este país tan hermoso. Colombia es un país de contrastes pues en los más lindos paisajes es posible encontrar las más deplorables condiciones de vida. Me entristecí al ver cómo al pie de la hermosura de la creación conviven la pobreza y la ignorancia.
Mientras viajaba compré un ejemplar de la revista PODER 360º y me encontré con un interesante artículo acerca de los cerebros colombianos fugados en el exterior.
Mi sorpresa fue grande al comprender que los Latinoamericanos podemos marcar la pauta en investigación en las mejores universidades del mundo. Mi sorpresa fue aún mayor cuando me di cuenta que entre las eminencias colombianas en el exterior habían dos estadísticos graduados en la Universidad Nacional de Colombia.
Las razones de la migración son variadas, entre ellas están la falta de oportunidades en materia de investigación y el mal pago en las universidades. Mientras leía los logros de mis colegas y al mismo tiempo la miseria de mi país, pensé, reflexioné y dudé.
¿Vale la pena quedarse a vivir en un país tercermundista que no ofrece oportunidades de investigación, en donde no pagan bien y en el que toca hacer hasta lo imposible por ganarse el pan de cada día dignamente? Comprendí y entendí perfectamente que quienes se fueron tomaron una decisión sabia, una decisión muy difícil y seguramente, la más acertada.
Sin embargo, no todos queremos migrar a otro país y esa es una decisión tan acertada como la que tomaron mis colegas del artículo. Quiero quedarme para compartir con mis compatriotas la transformación cultural que nos permita premiar cada vez más al investigador, quiero quedarme para experimentar el cambio del que voy a ser parte. Un cambio positivo en el que se dignificará la posición de profesor universitario. Quiero quedarme para disfrutar del desarrollo de mi país y voy a quedarme para poner mi grano de arena en este proceso del que Colombia está urgida y el cual no sería posible si unos valientes no se hubieran ido de su terruño para decirle al mundo que los Colombianos somos algo más que productores de coca.
He aquí el perfil de los valientes del artículo de la revista. Sin embargo estoy seguro de que al menos unos cuantos lectores también están viviendo esa aventura del estadístico estudiando, enseñando o investigando en otro país. A todos ellos un gran abrazo y la invitación a dejar el nombre de Colombia, nuestro país, en lo más alto.
Profesor. Departamento de Epidemiología. Escuela de Salud Pública. Director del Centro Coordinador de Estadística en Epidemiología. The Johns Hopkins University, Baltimore, MD.
Matemático de la Universidad Nacional de Colombia, 1973. Maestría y Doctorado en Estadística. Stanford University, 1977 y 1980. Lugar y año de nacimiento: Medellín.
Con un extenso trabajo en bioestadística y epidemiología que incluye más de 240 artículos especializados, innumerables conferencias y cursos dictados en Estados Unidos, Asia, Europa y América Latina, realiza desde 1986 estudios observacionales de cohorte relacionados con la identificación de factores que contribuyen al desarrollo del VIH-Sida y a enfermedades renales.
Dos de sus estudios, todavía en desarrollo, están contribuyendo significativamente al conocimiento de la historia natural del VIH-Sida y han sentado guías para el tratamiento y uso de terapias en pacientes infectados con el virus con posibilidades de desarrollar neumonía.
Después de cinco años en la Escuela de Medicina de Harvard se vinculó a la Johns Hopkins en 1986. Ha ejercido varios cargos directivos y de asesoría entre los que se cuentan: Director de la Sección de Epidemiología de la Asociación Americana de Estadística entre 1994 y 1996; miembro del Comité de Seguridad de Desarrollo de Vacunas de Merck y, en la actualidad, consultor de Pfizer Inc. para la evaluación de medicamentos para el VIH-Sida.
Profesora Asociada. Departamento de Bioinformática y Bioestadística. Facultad de Salud Pública y Ciencias de la Información. University of Louisville. Louisville, KY. USA- Estadística. Universidad Nacional de Colombia, 1991. Maestría y Doctorado en Bioestadística. Tulane University, 1994 y 1995. Lugar de nacimiento: Bogotá.
Está vinculada a la Universidad de Louisville desde el año pasado, luego de haber trabajado en las universidades Nacional y Javeriana, y en University of Texas at Houston de 2001 a 2006. Con énfasis en bioestadística, su trabajo de investigación incluye diseño, conducción y análisis de ensayos clínicos multicéntricos, modelos de error de medición y métodos estadísticos en investigación epidemiológica. Ha participado en proyectos de cáncer de estómago y seno, cuidado intensivo, asma, obesidad, enfermedad cardiovascular en adolescentes, diabetes, salud materna y reproductiva, salud de adolescentes y depresión, entre otros.
Con una extensa bibliografía que incluye artículos, capítulos en libros, conferencias e informes de investigación, es miembro activo de varios comités editoriales y recibe fondos de investigación de los Institutos Nacionales de Salud (NIH), la Asociación Americana de Estadística (ASA), la Fundación Nacional para la Ciencia (NSF), y el Departamento de Defensa (DOD) de Estados Unidos, entre otros.
Jul 27th

Las nociones de la inferencia en poblaciones finitas fueron expresadas hace más de 60 años en muchos libros clásicos como Cochran, Hansen, Hurwitz y Madow, Deming, Muthy, Des Raj y otros. La teoría de muestreo era aplicada desde la perspectiva misma de la selección aleatorizada de posibles muestras en la población finita. Dependiendo de las circunstancias prácticas, la selección se hacía de distintas maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como la actividad primaria y la estimación nunca fue considerada como una práctica separada sino como una consecuencia automática. Lo anterior se debía a que cada tipo de diseño de muestreo inducía un estimador cuyas propiedades estadísticas como el insesgamiento y la varianza eran establecidas de antemano con el diseño y así, la varianza era calculable y estimable.
Así que, para la década de los 60′s, muchos creyeron que la investigación en el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta porque se deberían inventar nuevas formas de selección de muestras (tarea ardua y difícil), más allá de las que se cubrían en los libros clásicos del muestreo. Aunque el estimador de razón fue considerado en algún detalle por los textos de referencia, la inclusión de varias variables de información auxiliar no se vio como un tópico que prometiera rédito alguno para emprender el camino de la investigación en esa vía.
En la década de los 70′s, varios autores dieron un viraje en su perspectiva epistemológica de la inferencia en poblaciones finitas. Es así como Basú, Brewer, Godambe y Royall, entre otros, consideraron los modelos estadísticos (en sintonía con la estadística clásica Fisheriana) como los verdaderos fundamentos de la estimación e inferencia en poblaciones finitas. Su trabajo se cimentó alrededor de la posibilidad de tener una inferencia que dependiera estrictamente del modelo propuesto y no tuviera nada que ver con el diseño de muestreo utilizado en la recolección de los datos. Como consecuencia, la atención se tornó alrededor de la estimación y se dejo de lado el muestreo por la relación existente o propuesta entre la característica de interés y las variables de información auxiliar.
El camino que tomó la historia del muestreo fue, precisamente, la incorporación de las dos corrientes de pensamiento bajo una sola sombrilla. Así que, fue posible combinar la Aleatorización clásica con un percepción más general de la relación de y con x. No hubo necesidad de sacrificar los principios basados en la aleatorización. Así nació la inferencia asistida por modelos pero basada en ala aleatorización (model assited desig-based inference por su original en inglés). Este nuevo tipo de inferencia se hizo muy atractiva porque la regresión y los modelos acompañan al estadístico desde sus primeros cursos y van tomando más fuerzas a medida que se avanza en el camino universitario. Así que, este pensamiento “asistido por modelos” es un matrimonio efectivo y tolerante que permite las ideas de la regresión junto con el paradigma de la aleatorización.
Jan Wrettman opina que el ajuste de un modelo se ha convertido en parte integral de la teoría clásica del muestreo, aunque los principios de la misma deben permanecer intocables porque as propiedades de los estimadores son evaluadas con respecto al mecanismo de probabilidad que genera la muestra y no con respecto a cualquier modelo asumido.
Adaptado de JOS (2005)
Jul 26th

Inference for R permite el uso de los ambientes computacionales de Microsoft Excel y Word para establecer documentos dinámicos que contengan programación e información en R, objetos creados en R, comandos de R y anotaciones de texto (comentarios). Cuando se ejecuta el documento dinámico corre los comandos de R y genera un documento resultante que contiene las salidas textuales, numéricas y gráficas que genera directamente R. Estos documentos resultantes son útiles para documentas procesos en R, crear análisis estandarizados, explicar y publicar conceptos con R y publicar y compartir los resultados de una investigación. El video que explica el manejo y aplicación del software puede ser visto aquí. Nótese que el proyecto es patrocinado por Microsoft y el software no es gratis, en total discordancia con los fundamentos del núcleo GNU. Sin embargo, cada vez que salen aplicaciones comerciales con R, me convenza aún más que R será el software estadístico por obligación.
Jul 26th
Estoy en desacuerdo con la siguiente frase que me encontré navegando en el blog de un tipo que trabaja con aprendizaje de máquinas.
Si yo tuviera un MacGyver del análisis de datos y todo lo que él tuviera a mano fuera solamente una prueba t y una regresión, entonces probablemente él estaría en la capacidad de realizar el 99.9% de los análisis que nosotros hacemos y que son realmente útiles.
Tal vez, mi percepción del tema esté errada y el contexto en que se cito la frase no haya sido claro para mí. Sin embargo, aunque la regresión y las pruebas t son herramientas fundamentales en las aplicaciones estadísticas, se está dejando de lado el desarrollo de más de ocho décadas. Ya no estamos en los tiempos de Sir. Ronald, y los modelos a los que antes estábamos restringidos por cuestiones computacionales van dando paso a una nueva variedad de técnicas y algoritmos estadísticos. Creo firmemente que los modelos multinivel, la inferencia bayesiana, los modelos no para-métricos (entiéndase distribution free) y aún los modelos de estructura jerárquica más básicos van acortando aún más la brecha existente entre el cielo (los datos tomados en el estado de la naturaleza) y la tierra (la percepción racional del investigador respecto a un fenómeno).
Jul 26th
La regla de oro de una buena muestra reza que para que la inferencia basada en el diseño de muestreo arroje estimaciones que sean (abusando del lenguaje) de varianza mínima e insesgadas, las probabilidades de inclusión (o selección, según sea el caso) que arroje el diseño de muestreo utilizado deben ser directamente proporcionales a los valores que toma la característica de interés en la población.
En 1954, Des Raj demostró que: Si x es la información auxiliar utilizada en la etapa de diseño, la resta de la varianza de la estrategia de muestreo aleatoria simple con reemplazo con la varianza de la estrategia PPT da como resultado una expresión directamente proporcional a la covarianza entre (x, y^2/x).
Este resultado condiciona el comportamiento estructural de la información auxiliar que debe cumplir dos condiciones para que la eficiencia de la estrategia PPT sea mayor que la del diseño aleatorio simple con reemplazo.
Por supuesto, la eficiencia de cualquier diseño de muestreo dependerá del parámetro que se quiera estimar, no es lo mismo estimar promedios que razones o que funciones de distribución. Está claro que bajo una buena planeación del diseño de muestreo, el PPT funciona mejor para totales que para razones. De hecho, cuando se utiliza el PPT para estimar una razón entre dos variables, es necesario encontrar una variable correlacionada con la transformada de Taylor (tarea ardua y confusa). Que, para los conocedores del tema, se trata de encontrar una variable correlacionada con cero.
Jul 22nd
Para mi colaborador anónimo PARCE …

Orhan Pamuk (premio nobel 2006) me colabora con el siguiente fragmento de su obra maestra El Libro Negro:
Galip recordó las noches en las que Celâl había hablado durante horas sobre el arte del pastiche, afirmando que era el único arte auténtico. Mientras Rüya picoteaba los pasteles que habían comprado por el camino, Celâl decía que había escrito muchas de sus columnas, quizá todas, gracias a la ayuda de otros, añadía que lo importante no era «crear» algo nuevo sino, cambiando un rinconcito, un extremo de las maravillas que miles de inteligencias habían creado previamente a lo largo de miles de años, poder decir algo completamente nuevo y afirmaba que todas sus columnas las había copiado de otros. Lo que le crispaba los nervios a Galip, haciéndole perder su fe optimista sobre la realidad de los objetos de la habitación y de los papeles sobre la mesa, no era descubrir que las historias que durante años había supuesto que eran de tal, pertenecían en realidad a otros, sino ciertas posibilidades a las que apuntaba aquella realidad.
Este blog es un elogio del pastiche, este blog no pretende ser una publicación seriada internacional, este blog procura dar a conocer el pensamiento estadístico de los autores que los autores leímos y que nos influencian… no confundirlo con una vulgar copia de otros interesantes blogs en materia estadística como los de Andrew Gelman o John Cook… no confundir el propósito del mismo… Qué viva el pastiche y que viva la divulgación estadística… qué viva la colaboración entre autores y que viva la crítica desviada de sus verdaderos propósito porque nos incentiva a investigar más, a divulgar los intrincados recodos del pensamiento estadístico.
Ehh lector!!! Una vez más rinde tributo a tus colaboradores que seguramente fueron ayudados por sus respectivos colaboradores anónimos… una vez más qué bendición es la lectura!!!
Gracias lectores, gracias por hacer de éste, el blog estadístico hispano más leído…
Jul 21st
Es cierto, no es sencillo escribir paquetes en R, como tampoco lo es darlos de alta en la WEB, o simplemente crear un archivo .ZIP para que otros puedan acceder a las funciones de nuestro paquete. Siguiendo fielmente estos pasos encontramos cómo crear un paquete para R de la manera más sencilla.
Personalmente, estoy escribiendo un paquete en R para la enseñanza y aplicación del muestreo y de la inferencia en poblaciones finitas y al seguir estas indicaciones me ha resultado muy sencillo compilar, ejecutar y crear el archivo .zip para que cualquier persona pueda hacer uso del paquete.
Jul 6th
Una vez más se demuestra que el camino de nuestros amigos empresarios va en contravía con las corrientes altruistas del mundo académico preocupado por su función vital en el desarrollo de la sociedad contemporánea. Esta vez veo con mucho asombro como el sueño ridículo de un conocido empresario en el ámbito de la investigación de mercados se materializa poco a poco: Producción de patentes de métodos estadísticos aplicados.
En este link usted encontrará el principio del fin de las publicaciones seriadas y respetadas en materia de métodos y aplicaciones estadísticas (como la JASA, Biometrika, etc.) que van siendo reemplazadas por patentes de las oficinas gubernamentales. Bueno, cabe resaltar que al menos, en particular, el tema de esta patente es innovadora y se trata de una aplicación bayesiana a los modelos lineales mediante un algoritmo que el autor de la patente afirma ser su inventor. Lo anterior lo menciono porque el reconocido empresario quería patentar el análisis de correspondencias que en alguna ocasión yo implementé y que él transformó con MS PowerPoint y un poco de ingenio costeño cambiándole el nombre original por uno más comercial: PLASMA. Lo llamó plasma porque en mi informe yo describía, como es mi costumbre con palabras amenas y sin tecnicismos, que el método de correspondencias múltiples plasmaba en dos dimensiones el comportamiento de la categoría en el mercado. Eso fue suficiente para que el astuto empresario (famoso por la mala paga, opresión a los trabajadores y una halitosis infernal) quisiera hacer la idea más comercial y de paso asegurarse de que nadie la copiara. De hecho, yo aún pienso que no se trataba de ingenio empresarial sino de miedo paranoico que posiblemente hizo que este tipo, en sus primeros pasos por el mundo de la investigación de mercados, quisiera patentar los diagramas de barras y los diagramas de pastel.
Es increíble que la ambición por el dinero esté, poco a poco, infectando nuestro querido gremio. De ahora en adelante, no habrá que visitar la biblioteca, ni ingresar a JSTOR ni a Google Academics, para buscar un artículo clave en nuestras investigaciones académicas, sino que por el contrario habrá que hacer una larga fila en la oficina de patentes para suplicar una copia del algoritmo estadístico utilizado por los grandes monopolios industriales en sus procesos.
La siguiente es una traducción del resumen de la patente de regresión bayesiana lineal:
Se desarrolló un simple, pero poderoso, modelo bayesiano de regresión lineal con aplicaciones en el aprendizaje de máquinas. A diferencia de los tratamientos previos que buscan estimar los hiper-parámetros a través de máxima verosimilitud o han usado una distribución a priori no informativa y sencilla para hacer los cálculos computacionales más sencillos, este método usa una combinación de álgebra e integración numérica para poder trabajar las distribuciones a posterí de manera completa. El algoritmo resultante es muy eficiente y muy útil en la práctica y puede verse como una versión bayesiana del algoritmo discriminante de mínimos cuadrados.
Bueno, los dejo porque se me hizo tarde para llegar a una cita con un empresario que quiere patentar la regresión bayesiana no lineal… y, llámenme mal amigo, creído o incluso petulante, pero nunca, nunca incumplido, eso sí que no.
Jul 2nd
Para JC y su particular gusto por el Merlot (¿Malbec?)…
William Gosset descubrió la distribución t mientras trabajaba para la compañía cervecera Guinness. Dado que los empleadores prohibían a los empleados la publicación de artículos de los resultados encontrados en sus estudios de control de calidad, Gosset publicó su investigación bajo el seudónimo de Student – razón por la que la famosa distribución no se lleva su apellido sino que se conoce como la distribución t de Student. Esta historia hace parte del viejo arsenal de anécdotas que los profesores de estadística utilizamos para amenizar la clase de inferencia estadística repleta de fórmulas, enunciados y teoremas.
De alguna manera, este cuentico de hadas se puede volver más interesante si nos preguntamos lo siguiente: ¿por qué razón tal descubrimiento surgió de las entrañas de una cervecera y no de una compañía vinícola (fabricante de vinos)?
John Cook, afirma que los cerveceros siempre se han enorgullecido de la consistencia de sus cervezas, mientras que los productores de vino se enorgullecen de la variedad de sus cosechas. Por esta razón nunca escucharemos a ningún amante de la cerveza exclamar que 1998 fue un “buen año”, de la manera que lo haría un sommeliér (experto en vinos) refiriéndose a alguna cosecha de alguna cepa de algún país. De hecho, la variedad de las cepas es en gran parte la culpable de que una botella de vino de la misma marca, pero de diferente cosecha, tenga un sabor distinto en el paladar. Por otro lado, el sabor de una cerveza destapada hoy será el mismo sabor que el de una cerveza destapada hace un año. Por tanto, los cerveceros valoran tanto la consistencia que invierten dinero y recursos en departamentos de investigación en control de calidad.
Es hora de que las grandes cerveceras en Colombia se metan la mano al dril para patrocinar los estudios rigurosos de algunos de sus estadísticos, si es que emplean estadísticos en sus procesos de control de calidad. Si pueden apoyar el deporte, en particular el futbol, con grandes sumas de dinero pues que también aporten al desarrollo de la ciencia.
Jun 22nd
En alguna ocasión, un director de estudios en una empresa de investigación de mercados, físico de profesión y con una prepotencia digna de él mismo, me explicaba que los modelos de mercadeo y, en general, de cualquier campo son acepciones de la realidad que buscan describirla más no explicarla a cabalidad. Es así como el modelo astronómico de Tolomeo describía con gran precisión la posición de los planetas en la bóveda celeste, aunque como bien lo sabemos no era un modelo que explicara la realidad porque simplemente la tierra no es el centro del universo. Sin embargo ¿era un mal modelo? Seguramente no, el modelo lograba su función y desde un punto de vista pragmático, era lo que se tenía en esa época y funcionaba bien.
Steele compara la noción general de un modelo cualquiera con un modelo estadístico y empieza por considerar dos ejemplos concretos:
Steeles piensa que un modelo debe ser visto como un mapa. Incluso el mapa más barato de una ciudad puede responder a todas las preguntas razonables que uno pueda imaginar acerca del posicionamiento de la ciudad: ¿dónde queda el aeropuerto? ¿Qué tan lejos estoy de la alcaldía? Etc. Un buen mapa turístico es capaz de ubicar sitios históricos que ni siquiera, hoy en día, existen.
Sin embargo, la construcción de un modelo estadístico requiere otro tipo de abstracciones. Los estadísticos usamos la palabra modelo de una forma bien diferente a los anteriores ejemplos, ya lo diría G.E.P Box al exclamar:
“Todos los modelos son errados, pero algunos son útiles”
Es común considerar la bondad del ajuste del modelo. Típicamente, un modelo estadístico se considera adecuado si, después de haber sido calibrado con los datos reales, cumple significativamente con los supuestos considerados en el diseño del estudio.
Podríamos objetar esta definición. En particular, parece muy ingenuo ignorar que el comportamiento de las unidades seleccionadas en la muestra, en algunas ocasiones diverge radicalmente, del comportamiento de las unidades que no están en la muestra, o que fueron seleccionadas en la muestra pero para las cuales existe ausencia de respuesta. Ahora, si el modelos falla en la incorporación de “toda la información relevante” ¿Debería ser considerado como un modelo no adecuado?
Steeles propone cambiar la popular frase bondad del ajuste (goodness of fit, por su traducción al inglés) por algo más terrenal como ajuste selectivo (fitness for purpose). Desde mi punto de vista personal, estoy de acuerdo con esta filosofía, no se puede dejar de lado que el usuario de los modelos estadísticos (o de sus primos: los modelos estocásticos o econométricos) tiene unos objetivos claros y definidos al iniciar la investigación. El estadístico debe formular el modelo que mejor ajuste consiga de manera selectiva con los objetivos de la investigación, teniendo en cuenta los fundamentos teóricos y supuestos del modelo (tarea nada fácil).
Ya lo diría Tukey cuando afirmaba
“Mantén tu mirada en la ciencia y conserva tus herramientas estadísticas muy simples”
Jun 14th
“Se lanza una moneda con probabilidad p>0 de que el resultado sea cara” Woodroofe ( 1975, p. 108 )
“Suponga una moneda con probabilidad 0.7 de que el resultado del lanzamiento sea cara” Ross ( 2000, p. 82 )
La moneda sesgada es el unicornio de la teoría de la probabilidad. Todo el mundo ha escuchado acerca de su existencia, pero nadie lo ha visto en carne y hueso porque, simplemente no existe. Así mismo, la moneda sesgada no existe.
Profundicemos un poco en el evento: Lanzamiento de una moneda. ¿Es realmente un evento aleatorio? Está comprobado científicamente que las leyes físicas determinísticas inducen los resultados del evento en cuestión. Este simple ejemplo, muestra cuán difícil es separar lo aleatorio de lo determinístico.
La moneda obedece a leyes de Newton acerca del movimiento y estas leyes determinan el estado final de la moneda dependiendo de su velocidad angular (tasa de giro) y tiempo de viaje (velocidad de lanzamiento). Por otra parte la ley de la conservación del momento angular afirma que una vez que la moneda es lanzada al aire, ésta girará a una tasa constante.
Para cualquier tasa de giro, la moneda durará la mitad del tiempo de viaje con la cara hacia arriba y la otra mitad con la cara hacia abajo. Así que, cuando la moneda aterriza en el suelo, la probabilidad de que el resultado sea cara es la misma que la probabilidad de que el resultado sea sello.
Si la moneda es físicamente alterada, al momento de lanzarla, ésta girará alrededor de su centro de gravedad (sin importar que éste difiera de su centro geométrico). Por tanto, no importa cómo sea alterada la moneda, el resultado ya está determinado por las leyes físicas.
Por supuesto, la probabilidad de que el resultado del lanzamiento sea cara puede dejar de ser un medio si la moneda es sumamente alterada de tal forma que sea tan liviana que al lanzarla no gire en el aire sino que flote como una pluma al caer. En el anterior caso, la moneda habría sufrido un proceso, no de alteración sino, de transformación. Dejó de ser una moneda y se convirtió en un peculiar billete.
PD: Nótese que la aleatoriedad de este evento está dada por la incertidumbre del estado inicial de la moneda antes de ser lanzada.
Jun 10th
La empresa IntStat (International Statistics), dictará un seminario de diseño y metodología de encuestas dirigido a todos aquellos profesionales de las diferentes ramas del saber cuyo desarrollo profesional y/o proyecto de vida esté encaminado en el diseño, análisis y estimación de encuestas.
El enfoque del seminario es el diseño práctico de encuestas en diferentes escenarios y campos profesionales como investigación de mercados, encuestas gubernamentales, políticas y de negocios, estudios ambientales. Sin embargo, no se deja de lado la robustez teórica en la estimación de los parámetros.
La inscripción y petición de información está disponible al escribir al siguiente correo electrónico:
Jun 7th
Las primeras experiencias de consultoría del estadístico egresado son del siguiente estilo:
Ok, señor estadístico… necesitamos que seleccione una muestra simple de n hogares para tal ciudad.
O también,
Ok, señor estadístico… necesitamos que seleccione n unidades experimentales para dos tratamientos y un control
No debería hacerse llamar estadístico aquel que, sin pensar en los fundamentos filosóficos del diseño estadístico, se sienta en frente del computador y realiza la selección de las n unidades.
Nos estamos haciendo máquinas operativas bastante caras, en algunos casos. En el ejemplo anterior, ya es demasiado tarde (incluso antes de la recolección de la información) porque las más importantes decisiones del diseño estadístico ya están tomadas. A saber: método de diseño, tipo y número de unidades primarias y número y clase de casos. Los aspectos cruciales del diseño estadístico no deberían decidirse, sin la oportuna intervención del estadístico que contribuiría bastante en la validación y eficiencia del diseño.
La estadística sin diseño estadístico es una ciencia incompleta, que en el campo laboral se torna aburrida y estresante. Ya lo diría el señor Fisher en 1935 cuando argumentaba que
“El estadístico no se puede excusar a sí mismo de la responsabilidad de aclarar su mente en cuanto a los principios de la inferencia científica, de igual forma ningún otro hombre pensante puede evadir esta obligación.”
Existe un núcleo común de problemas en materia de diseño estadístico en los diversos campos de las ciencias sociales, económicas, políticas y de mercado. Sin embargo, también existe una diferencia substancial en la teoría, métodos de medición y aspectos no estadísticos de los anteriores campos. Por supuesto, el análisis estadístico para cada campo es diferente y debe manejarse así. Pero los aspectos estadísticos de diseño pueden ser percibidos dentro de un marco común. El estadístico debe tener la habilidad de manejar el aspecto de diseño estadístico paralelamente con el análisis estadístico.
La mayoría de cursos estadísticos, libros y revistas tratan primeramente (o únicamente) con el análisis, la estimación y cálculo, dejando los problemas de selección, colección o minería de los datos a un lado. A veces, nos hundimos en las fórmulas matemáticas y nos olvidamos que éstas carecen de sentido estadístico sin los datos, y que en primer lugar se debe recolectar la información.
El diseño estadístico trata con los aspectos y problemas que pertenecen a la estadística y a los estadísticos, porque la estadística y los estadísticos estamos (o deberíamos estar) mejor equipados para lidiar con estos problemas que son omitidos del análisis estadístico, el cual está íntimamente ligado con el núcleo matemático. Se debe profundizar aún más en los métodos y filosofía de la estadística, porque la mayoría de estos son de tipo no matemático, aunque esta sea la razón por la cual son tan rechazados en la literatura clásica.
Es necesario buscar más fuentes de métodos para rodear el área de diseño estadístico, la fuentes más importantes provienen de estudios observacionales, investigaciones controladas, ensayos clínicos, diseño cuasi-experimentales, difundidos en varios campos de aplicación como en la epidemiología, psicometría o investigación social y económica.
PD1: El autor de esta entrada rechaza rotundamente la idea que ha venido tomando fuerza en algunos departamentos de estadística de cancelar los cursos de diseño estadístico y señala al respecto que no todos los estadísticos egresados están interesados en tener un PhD. Como decía un excelente profesor, ahora pensionado, el propósito de la vida es ser feliz. Por tanto es muy, pero muy respetable que el proyecto de vida de la mayoría de los egresados esté dirigido hacia el campo laboral y no hacia el campo académico. Si lo anterior es cierto, ¿por qué cancelar los cursos que, de alguna manera, preparan al estadístico en las buenas prácticas de selección de muestras y/o unidades experimentales?
PD2: Ha ganado Obama.
May 29th
May 29th
En la primera página de cualquier libro de texto clásico de inferencia estadística se lee lo siguiente:
Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas, para estimar el parámetro…
Cada palabra en el anterior enunciado es engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más, en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.
Esta afirmación fue hecha por una de las cabezas más brillantes (no sólo por su capacidad intelectual) del muestreo, el respetado Dr. Leslie Kish quien, también sugirió que se debería realizar una acotación en la academia en el momento de analizar la información con cualquier software de tipo estadístico como SPSS o TESI. Se debe tener conciencia de que los datos que se están analizando no han sido seleccionados mediante muestreo aleatorio simple con reemplazo y por lo tanto el cálculo de errores estándar que arrojaría el software resulta ser inapropiado. Es hora de que los paquetes estadísticos incluyan en sus análisis rutinas que permitan el ajuste del diseño de muestreo utilizado en la recolección de los datos, por ejemplo por conglomerados o estratos, que no han sido seleccionados mediante muestreo aleatorio simples con reemplazo.
Kish motivó a los estadísticos aplicados a entender completamente la relación existente entre conceptos tales como estratificación y regresión lineal. El lector debe notar que Kish ayudó a crear un departamento de Bio-estadística en los Estados Unidos que combina el diseño experimental y el muestreo, él afirma que estas dos ramas están ligadas en sus raíces por el principio de aleatorización.
Así mismo, afirmó que los libros actuales de muestreo no cumplen el cometido de enseñar el análisis adecuado de la información para la selección de muestras en una población, en vez de esto se dedican a enseñar fórmulas sin preocuparse realmente por la enseñanza del diseño de muestreo que ha venido siendo reemplazado por la inferencia basada en modelos poblacionales sin tener en cuenta el principio de aleatorización. Como Tukey dijo: Abrace a sus datos no al modelo. Los modelos pueden jugar papeles muy importantes en problemas de tipo genético o físico, pero juegan roles menos importantes en las ciencias sociales. No podemos vivir enteramente sin modelos, porque en un ejercicio práctico existe ausencia de respuesta y problemas del marco de muestreo. Los modelos deberían decir qué variables se tienen que incluir en una regresión y posiblemente la forma funcional de las ecuaciones. Sin embargo, los modelos no dicen el valor que los coeficientes de regresión toman y estas estimaciones están sujetas a variaciones de muestreo y efectos de diseño.
De todos los universos que se puedan suponer, en la vida práctica no existe ninguno que siga el patrón de la urna con bolas bien revueltas. En la práctica se trata con universos complejos y por tanto se deben utilizar diseños de muestreo complejos que contemplen el efecto de diseño.
May 17th
Guido Imbens, de la Universidad de Harvard y Jeffrey Wooldridge, de la Universidad estatal de Michigan, han publicado un curso intensivo y GRATIS de 18 horas acerca de recientes avances en econometría. El material (curso en video de 18 horas y lecturas en PDF) está disponible haciendo clic aquí. El contenido del mini-curso está basado en las experiencias de la oficina nacional de investigación económica en Estados unidos.
La audiencia objetivo son, obviamente, los profesionales en economía; sin embargo, hay varios tópicos (inferencia bayesiana, datos faltantes, muestreo, modelos discretos, etc.) que son de interés para los investigadores en general. El curso incluye videos, lecturas, diapositivas y notas detalladas para cada tópico.
May 13th
No es un secreto para nadie que si existe algo que me apasiona es la inferencia en poblaciones finitas y el muestreo. Basta con ojear la nube de etiquetas para darse cuenta de ello. En mi biblioteca personal cuento 16 libros de muestreo, todos de ellos muy pero muy buenos. Desde Raj (1968), el griego, hasta Tillé (2007). Desde el design-based hasta el model-based. La realidad es que este mundo del muestreo es muy amplio y sería una muy linda tarea, aunque utópica, unificar algunos de los temas más importantes del muestreo.
Si el encargado de tal tarea fuera yo, el prefacio de mi libro sería el siguiente:
Aunque tremendamente poderoso, el término estrategia de muestreo no ha tenido la trascendencia pertinente en el mundo del muestreo. Se habla de la eficiencia, precisión e incluso insesgamiento de un estimador sin tener en cuenta que tales propiedades están ligadas al diseño de muestreo que se haya utilizado en la recolección de la información. Para mí, el aprendizaje de esta materia es más sencillo cuando se valora de igual manera el diseño de muestreo junto con el estimador del parámetro de interés utilizado en la población finita. No se puede desconocer la regla de oro del muestreo que clama: “Utilizar diseños de muestreo que induzcan probabilidades de inclusión (o selección, según sea el caso) proporcionales al valor de la característica de interés en la población y utilizar estimadores que involucren dichas probabilidades”. Por la anterior razón he decido intitular este texto como: Estrategias de muestreo, diseño de encuestas y estimación de parámetros.
En la búsqueda combinada de una mejor estrategia de muestreo he querido dividir este texto en cuatro partes que pueden ser utilizadas en los distintos niveles de pregrado así como en cursos de posgrado, dependiendo de la dificultad del tema. La división del libro corresponde al desarrollo teórico del muestreo a través de su corta historia.
La primera parte del libro es un recuento de las estrategias de muestreo más comúnmente utilizadas. Con una muy robusta rigurosidad estadística y matemática, el lector será introducido en el ámbito de la inferencia basada en el diseño de muestreo, que considera a los valores de la característica de interés como pseudo-parámetros fijos y no como realizaciones de variables aleatorias. Este recorrido se hace más ameno al introducir a Marco y Lucy, compañeros inseparables en cada estrategia planteada. A diferencia de la mayoría de los libros de mi biblioteca, considerados obras clásicas, he querido proponer la revisión de todas las estrategias de muestreo con un solo Marco de muestreo, en algunas ocasiones más generoso que en otras, y una sola población (Lucy) con el fin de plantear al lector un problema que puede ser resuelto desde diversos ángulos y no, como en todos los libros de muestreo, proponer ejemplos resueltos en donde el lector no tiene la oportunidad de cuestionarse acerca del desarrollo de la estrategia. En esta parte expongo tres conceptos totalmente determinantes al momento de plantear una estrategia de muestreo. El primero y más importante de ellos: el soporte que define la realización de una muestra probabilística y por consiguiente la validez en la inferencia. El lector puede darse cuenta del marcado interés que tengo en este concepto al diferenciarlo, de una vez y por todas, de la muestra aleatoria, que no es más que un vector aleatorio. En segundo lugar he hecho énfasis en el concepto de diseño de muestreo tratándolo como una distribución de probabilidad multivariante sobre el soporte. En la mayoría de estrategias planteadas en esta primera parte se demuestra que efectivamente el diseño de muestreo propuesto verifica las propiedades de una distribución de probabilidad. Por supuesto, el último concepto es el de estimador cuya definición y uso es más difundido entre los usuarios. Cada capítulo y cada sección adjunta un pequeño ejemplo léxico-gráfico (gran legado del maestro Leonardo Bautista) y una aplicación de la estrategia propuesta con Marco y Lucy mediante el desarrollo computacional del paquete muestreo creado en el ambiente del software de uso libre R de la manera más amigable posible.
La segunda parte, corresponde a la utilización y aprovechamiento de la información auxiliar disponible en el marco de muestreo. No sólo se desarrollan nuevos estimadores que mejoran la eficiencia de la estrategia, sino que también se adjunta al proceso de estimación el uso de un modelo que permite describir el comportamiento de la característica de interés en la población dando un paso muy importante en el desarrollo de la inferencia al tratar, aunque de manera aislada, a la característica de interés como una variable aleatoria en el modelo propuesto.
La tercera parte, apta para un curso de posgrado, intenta acceder a los mayores avances metodológicos que, con el paso del tiempo, dejan de ser innovaciones para convertirse en técnicas obligatorias en la mejora de la eficiencia de la estrategia. Entre otros selectos temas, se consideran los estimadores de calibración, el muestreo balanceado y el muestreo indirecto. Estos contenidos están sujetos a un gran sesgo personal inducido por los años de asistencia al seminario de muestreo de la Universidad Nacional de Colombia conducido por el maestro Leonardo Bautista.
La cuarta y última parte del texto intenta dar una muy breve introducción a la inferencia en poblaciones finitas bajo un enfoque basado en el modelo supuesto. Es interesante observa que, con el pasar de los días, el uso de estas técnicas es más y más común, sobre todo en la estimación de dominios raros más conocidos como áreas pequeñas. Esta parte empieza con la famosa discusión de Basú (1971) que aún hoy sigue siendo la piedra de tropiezo entre las dos corrientes de la estadística. Este tipo de inferencia no considera el diseño de muestreo ni la forma en la que la información fue recolectada, sino que se basa en el modelo poblacional propuesto para realizar la inferencia. Sin embargo, cuando el modelo poblacional es errado también los serán las estimaciones.
Por último, deseo expresar mis agradecimientos al Dios de mi padre, que me ha dado todo lo que tengo y me ha seleccionado para pertenecer en la muestra. De no ser así, no estaría escribiendo estas líneas. Agradezco el infinito apoyo que encontré en Winny en la corrección de las demostraciones así como en la invaluable motivación que me brindó. Agradezco el continuo ánimo de Oscar Ortega y de sus valiosos consejos. A mis amigos, Yesid, Ronne y Daniel.
Este libro está dedicado al maestro Leonardo Bautista, quién me enseñó que lo importante no es la memorización de fórmulas sino darles sentido y traerlas a la vida mediante el uso de la mejor estrategia. Lo anterior tiene sentido, no sólo en estadística, sino en el diario vivir.
Bogotá, Colombia.
May 10th
Gelman y Nolah (2002), en su libro titulado Teaching Statistics inducen una buena práctica estadística que debería ser implementada en las aulas (Por cierto, si usted es docente, le aconsejo obtener una copia de este libro. Es el fruto de años de recolección, invención y experimentación de estos veteranos). Se deben seguir los siguientes pasos:
Compre 100 dulces de diferentes tamaños y formas y colóquelos en una bolsa. Puede comprar algo como 20 barras de dulce tamaño grande, 20 o 30 dulces medianos como las barras mini Snickers y 50 o 60 dulces individuales, realmente pequeños. Cuéntelos y asegúrese de que sean exactamente 100 dulces. También necesitará una pesa que pueda medir el peso de los dulces en gramos y con precisión.
Dentro de un sobre escribirá una nota (detalles más abajo) y lo sellará. Cuando entre en el aula, ponga el sobre en algún lugar.
Sostenga la bolsa de dulces y la pesa y escriba lo siguiente en el tablero:
Cada par de estudiantes deberá:
En silencio, multiplicar el peso de los 5 dulces por 20.
Los estudiantes deberán trabajar en parejas. Explique que el objetivo es estimar el peso total de la bolsa de dulces. La selección de los dulces puede ser hecha por cualquier método – muestreo aleatorio simple, sistemático, etc. La pareja cuya estimación se acerque más al peso verdadero se lleva la bolsa de dulces!!!
La demostración procederá por el resto de la clase. Eche un vistazo y asegúrese de que la bolsa y la pesa estén en movimiento a través del aula. Después de 30 o 40 minutes, el ejercicio se completará.
En este punto, pregunte a cada pareja, una a la vez, sus estimaciones. Escríbalas en el tablero. Éstas serán números como 3080, 2400, 4340, etc. Una vez que todas las estimaciones están escritas, haga un histograma sencillo (por ejemplo, forme clases de 2000-3000 gramos, 3000-4000, 4000-5000, etc.). Éste representa la distribución de muestreo de las estimaciones.
Ahora, escoja a una pareja para que, habiendo visto el histograma, busque las mejores estimaciones. Pregunte a la clase si está de acuerdo con lo que dice la pareja. Ahora, entregue la bolsa a los estudiantes para que la pese.
El peso de los 100 dulces estará alrededor de 1650 gramos. Es siempre, siempre, siempre, siempre, siempre, siempre, siempre menor que las estimaciones individuales escritas en el tablero. Escriba el verdadero peso como una barra vertical en el histograma. Este ejercicio resulta de bastante utilidad para enseñar los conceptos de sesgo y error estándar de un estimador.
Ahora abra el sobre: “Mmmm, uh, ¿qué es eso? … ¿es un sobre?”. Lea lo que dice en la nota al interior del sobre: “Sus estimaciones están demasiado altas!!!”
Ahora es tiempo de hablar un poco sobre muestreo. Los dulces grandes son fáciles de ver y de agarrar, mientras que los dulces pequeños caen entre los grandes y terminan al final de la bolsa. Pregunte, cómo seleccionar una muestra aleatoria. No será obvio, para los estudiantes, que una forma de hacerlo es numerar los dulces de 1 a 100 y adjuntar un número aleatorio, después ordenar y seleccionar los cinco primeros.
May 8th
A diferencia de muchas otras técnicas estadísticas que tienen reglas o rutinas que seguimos, el estudio de los modelos de series de tiempo es muy versátil, existen muchas técnicas: unas sencillas como los filtros de suavizamiento o el ajuste de un modelo de regresión contra el tiempo; otras más complicadas como los modelos de estado y su amigo inseparable: el filtro de Kalman o los modelos no lineales que han llamado mucha atención en las dos últimas décadas.
Desafortunadamente o afortunadamente, no existe un teorema o algo así que nos diga cuál técnica emplear en una determinada situación. Considere la siguiente situación:
Pablo tiene cuatro almacenes de productos de mascotas, y él tiene que decidir cuántos paquetes de Pedigree pedir al proveedor del producto para el siguiente mes. Además, supóngase que la fábrica hace un solo despacho del pedido a nombre de Pablo para los cuatro almacenes. Es decir, Pablo debe obtener un solo pronóstico para los cuatro almacenes.
Aunque existen modelos más sofisticados de naturaleza jerárquica que permiten una estimación precisa, una solución natural es examinar las cuatro series de venta de los cuatro almacenes y de éstas obtener un solo pronóstico. Pablo obtendrá un pronóstico para cada almacén, y sumaría los cuatro pronósticos como una solución unificada. Lamentablemente ésta conlleva ciertos inconvenientes, lo correcto debe ser sumar las cuatro series para obtener una sola serie que puede llamarse “paquetes de Pedigree que vende Pablo mensualmente”, y obtener pronósticos usando esta nueva serie. Tal vez a algunos usuarios, les parezca insignificante pronosticar antes de sumar o sumar antes de pronosticar. No es lo mismo, si primero pronostica y después suma los pronósticos, ¿cuál sería el intervalo de predicción para este pronóstico?, ¿se debería “sumar” también los cuatros intervalos de predicción de los pronósticos individuales?, ¿qué sentido tendría la suma de los errores de los cuatro pronósticos?
En la inferencia clásica cuando tenemos una muestra aleatoria, y se quiere hacer inferencia sobre la media poblacional, un buen estimador es la media muestral. Algunos usuarios están tan contentos con el promedio de los datos, que lo utiliza sin pensar dos veces en un análisis de series de tiempo. Y esto, en muchos casos, también es un error. Porque la característica fundamental de las series de tiempo, como su nombre lo indica, es su variación a través del tiempo. Siendo así, no debemos olvidarnos de la tendencia, la estacionalidad, el ciclo, etc.
May 3rd
¿Ha presenciado usted alguna charla acerca de estadística en donde la entrega de las cifras fuera inspiradora, la motivación fuera eléctrica y todo girara alrededor de los simples datos? Lamentablemente, la presentación de los datos es un tópico que la mayoría de las veces es asociado con presentaciones aburridas y secas (cualquier parecido con la realidad de las presentaciones en investigación de mercado o en el DANE es pura coincidencia). Estás técnicas pueden transformar una presentación simple en una fantástica presentación.
Les animo a mirar el video; leer el análisis de la crítica de esta charla; y compartir sus opiniones sobre esta presentación.
Rosling emplea el software GapMinder para presentar sus datos. Aunque este software es una herramienta fabulosa para la presentación de los datos, la magia real en esta charla recae en las seis técnicas demostradas por Rosling. Estas técnicas son fáciles de implementar, sin embargo, rara vez he visto (si alguna vez) estas técnicas implementadas en una sola presentación. Examinemos cada una y comparemos esta presentación con las prácticas comunes.
Práctica común: Los gráficos son mostrados sin ninguna explicación acerca de los ejes o la frase obligatoria “Aquí tenemos la variable X contra la variable Y”. No asuma que su audiencia intuitivamente conoce el significado y escala de los ejes, explique qué significan las cantidades en cada uno de los ejes (por ejemplo, tasa de fertilidad vs. esperanza de vida al nacer) y provea una historia que sirva de contexto (por ejemplo, Nosotros vs. Ellos = Mundo occidental vs Tercer mundo).
Práctica común: Los conferencistas intentan explicar los datos complejos que ellos han estudiado por días, semanas o meses en unos pocos minutos. Aunque Rosling reconoce que es imposible explicar toda la información en detalle, él cuidadosamente selecciona y explica subconjuntos importantes en los datos.
Práctica común: Los conferencistas se restringen a solo un nivel de inspección en las presentaciones. Los análisis más profundos son dejados en el informe y no se profundiza en la presentación. Muchas veces, Rosling muestra información de un sólo nivel (por ejemplo, un punto para representar un país) y luego el profundiza a un nivel mayor en los datos (por ejemplo, los quintiles de los países).
Práctica común: Las leyendas de los datos y las etiquetas están ausentes. El presentador asume que la audiencia sigue sus pistas verbales. De otra forma, cuando se presentan las etiquetas y las leyendas, están lejos de los puntos asociados. Esto representa para la audiencia un esfuerzo visual que puede tornar la presentación aburrida. En la charla de Rosling, las etiquetas de los datos fueron presentadas justo al pie de los puntos asociados. Adicionalmente, la aparición de las etiquetas estaba sincronizada con los componentes del discurso verbal. De esta manera, las etiquetas visuales complementan el audio.
Práctica común: Se presentan grandes masas de datos y el presentador solo explica la tendencia dominante o la medida de mayor interés. Esta práctica hace que la audiencia se pregunte cosas como “¿Por qué ese punto está aquí?” o “¿qué hace que ese punto esté abajo / arriba / en el medio?”
Obviamente, ningún presentador puede responder todas las preguntas que la audiencia pueda estar imaginando, pero Rosling hace su tarea al anticiparse a ese tipo de preguntas. Él se anticipa a varias preguntas “¿Por qué?” y las responde en el escenario. Por ejemplo:
P: ¿Por qué el progreso en Vietnam se aceleró en los 90’s?
R: Ellos abandonaron el plan comunista y se tornaron a una economía de mercado.
P: ¿Por qué China se está moviendo hacia arriba (mientras que los otros paises lo hacen en forma diagonal)?
R: Mao Zedong trajo salud a China (arriba) luego murió. Deng Xiaoping trajó dinero (derecha).
Anticiparse a responder las preguntas de este tipo, permite lograr dos objetivos: El primero, permite satisfacción de la curiosidad de la audiencia mientras mantiene un ritmo energizante (mucho mejor que ser interrumpido por este mismo tipo de preguntas). Y demuestra la credibilidad y sólida comprensión del tema.
Práctica común: Los datos estadísticos son presentados de una forma seca y clínica. Tal vez, la audiencia no siempre está excitada al escuchar de estos datos. Además, ¿Por qué habría de estarlo? La técnica más memorable que desarrolla Rosling en su presentación es que se entrega al público con una energía contagiosa. Esta práctica puede llevar tiempo, pero se tiene que tener en cuenta que, al contrario de lo que muchos piensan, no se trata de vender una idea, se trata de convencer al público y no hay mejor manera de convencer que entregarse con una disposición evangelista.
Para terminar, conviértase en un predicador, en un pastor, en un evangelista mientras expone los datos que usted y su equipo de trabajo ha explotado con tanta dedicación. No haga de la presentación de los datos algo técnico, hágalo fácil, digerible para cualquier tipo de público. Tampoco piense que por mencionar las técnicas avanzadas y estadísticas utilizadas va a convencer más, no es así. Es más, el buen expositor, no tiene que mencionar el nombre de ninguna técnica, de hecho, a la mayoría del público no le interesa saberlo… convénzalos.
May 1st
Para usuarios o potenciales usuarios de R …
Realmente no existe otro software que tenga la potencia de R, en realidad lo prefiero sobre otros pues permite todo tipo de interacciones y se puede hacer tan robusto (con respecto a la capacidad de procesamiento de los datos) como uno quiera. Sin embargo, aunque tenga un profundo sentimiento de amor y lealtad hacia R, tengo que decir que tiene una documentación simplemente horrible y esto hace que el proceso de aprendizaje sea lento. Recientemente comencé a leer la página de Quick-R, un sitio de excelente documentación. Pienso que ha sido dramáticamente útil para mí.
R es un elegante lenguaje de programación estadística y gráfica. Quick-R fue creado para usuarios experimentados de otros paquetes estadísticos como SAS, SPSS, Stata, y Systat. El propósito del sitio es ayudar a lograr un rápido acceso a este lenguaje. Se asume que el usuario está familiarizado con la mayoría de métodos estadísticos. Además de proveer el código necesario para empezar rápidamente la herramienta lo orienta para futuros aprendizajes.
¿Por qué usar R?
Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat ¿por qué usar R?
Estadísticas básicas
Esta sección de Quic-R describe el manejo estadísticas básicas (y no tan básicas). Incluye el código para obtener estadísticas descriptivas, conteos de frecuencia y tabulación cruzada (junto con las pruebas de independencia), correlaciones (Pearson, Spearman y Kendall), pruebas-t (asumiendo varianzas iguales y diferentes), pruebas no-paramétricas de diferencias de grupo ( Mann White U, rango signado de Wilcoxon, pruebas de Kruskall Wallis, pruebas de Friedman), regresión lineal múltiple (diagnóstico, validación cruzada y selección de variables), análisis de varianza (también ANCOVA y MANOVA) y algunas estadísticas basadas en re muestreo.
Estadísticas Avanzadas
Esta sección de Quick-R describe métodos estadísticos un poco más avanzados. Incluye la descripción y exploración de relaciones multivariados complejas entre las variables de estudio.
Modelos lineales generalizados (regresión logística, Poisson y análisis de sobrevida), análisis discriminante (lineal y cuadrático), y modelamiento de series temporales.
Incluyendo análisis factorial (componentes principales, análisis de factores exploratorio y confirmatorio), análisis de correspondencias, y escalonamiento multidimensional (métrico y no – métrico).
Análisis de clústeres (k-medias), aglomerativo jerárquico y basado en modelos. Métodos de árbol (!aunque también pueden ser incluidos como modelos predictivos!) de clasificación y árboles de regresión.
Esta sección incluye bootstrapping en R y programación de álgebra de matrices (algo como los procedimientos MATRIX en SPSS o PROC IML en SAS).
Junto con cada uno de los métodos estadísticos está la contraparte gráfica. Una de las razones principales por la cual deberíamos utilizar R es por su potencia con respecto a la graficación. Por esta y mil razones, usemos R !!!
Apr 25th
Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.
Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.
Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.
Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad de que Obama gane más votos electorales en las primarias es de 70%.
Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica para disminuir la influencia de estimaciones atípicas con respecto a la gran media.
Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente, Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.
Apr 19th
Andrew Thomas sugiere que el método de propensity scores ha salvado miles de vidas porque su uso es muy frecuente en el ámbito médico y en la investigación de salud pública. La anterior afirmación nos lleva a la cuestión de cómo poder medir, estimar o predecir el número de vidas (o QALYs) salvadas mediante el uso de la técnica de propensity scores y después, si esto pudiera ser estimado, tendría sentido estimar el número de vidas salvadas mediante el uso de otras técnicas como mínimos cuadrados, regresión logística, curvas de Kaplan-Meier, etc. Si uno quisiera ser más general preguntaría cuántas vidas ha salvado la utilización de métodos estadísticos en total. Sería más conveniente si restringimos la estimación al campo de la salud pública y medicina. De otra forma, tendríamos dificultades, por ejemplo, al tratar de hacer el ejercicio de estimar cuántas vidas fueron salvadas (o perdidas) mediante investigación militar en la segunda guerra mundial.
De igual manera, sería interesante, y probablemente imposible, responder a la pregunta de cuántas muertes ha causado la utilización de métodos estadísticos. Por ejemplo, el estadístico Alan Wallis, fue contratado por el departamento de Guerra (como era conocido en ese entonces en Estados Unidos) para aplicar métodos estadísticos a los patrones de explosión de bombas y dispersión de metralla, con la intención de incrementar la probabilidad de daño severo (bajas humanas si era el caso) alrededor del objetivo.
Sin embargo, desde una retro perspectiva particular cuando recordamos lo que Jay Kadane decía: “Los estadísticos dejan de fumar antes que los doctores en medicina”, podemos afirmar que realmente hemos salvado muchas vidas. La anterior frase implica que nosotros nos damos cuenta de la relación natural del cáncer de pulmón y el hábito de fumar antes que otros profesionales. Podemos suponer que este hecho ha marcado un verdadero hito en la historia del comercio de los cigarrillos y podría ser el mayor salvavidas estadístico hasta el momento.
Apr 17th
Erin Leahey, en un reciente artículo, escribe acerca del uso del nivel de significación en pruebas estadísticas, el valor 0.05 y el sistema de tres estrellas que se han convertido en métodos legítimos y dominantes en la mayoría de las investigaciones de tipo social. De acuerdo a Erin, el sistema de hipótesis merece una estrella cuando el p-valor es menor de 0.05, dos estrellas si el p-valor es menor de 0.01 y tres estrellas si el p-valor es menor de 0.001. Erin atribuye el primer uso del nivel de significación 0.05 a Ronald Fisher en su libro publicado en 1935 Diseño de experimentos. También nota que otras formas de pruebas de significación eran muy populares en la década de 1930, cuando cerca del 40% de los artículos publicados en ASR y AJS aplicaban sólo una técnica de prueba de significación.
El famoso 0.05, que nos da de comer a la mayoría de nosotros, fue muy usado desde 1930 hasta 1950, pero declinó hasta 1970. Sin embargo, volvió a revivir hasta nuestra época. Actualmente, cerca del 80% de los artículos publicados en ASR y AJS emplean ambos procedimientos (nivel de significación y estrellas). El sistema de tres estrellas emergió en la década de 1950, pero se volvió muy popular sólo después de 1970. Un porcentaje cercano al 40% de artículos publicados en los anteriores journals utilizan la metodología de las tres estrellas.
¿Qué es lo cuenta en la difusión de tales prácticas? Erin dá vários argumentos para responder a esta pregunta. Por ejemplo, ella concluye que los factores institucionales como inversión en investigación y computadores, entrenamiento a nivel de postgrado y la preferencia del editor del journal pueden ser algunos de los factores más importantes en la difusión de tales prácticas. Interesantemente, ella encontró que los egresados de Harvard tenían un efecto negativo significativo al adoptar tales prácticas estadísticas.
Por supuesto, este estudio está limitado a la muestra que tomó Erin y no puede ser generalizado. Sin embargo, es una lectura divertida. Si alguien está interesado en los elementos históricos de cómo las prácticas estadísticas fueron introducidas y comenzaron a legitimarse en la investigación social, Camic y Xie (1994) es un muy buen punto de partida.
Apr 11th
Este post comienza con una breve anécdota de un buen amigo que labora para el departamento que brinda las respetables estadísticas oficiales en el país, DANE. Mi amigo me comentaba que mientras trabajaba en su computador, el entonces director de la institución, hacía lobby en el conjunto de cubículos donde eran engendradas estimaciones, factores de ponderación y expansión, errores de muestreo, etc. El desocupado director, decidió saludar a todos y cada uno de los proletarios (porque ni siquiera tienen el calificativo de empleados, pues la entidad no se quiere comprometer con ellos mediante una contratación de planta, sino que prefiere mantenerse al margen de tal responsabilidad contratando por medio de la figura de prestación de servicios). Ellos, a su vez, decidieron rendirle tributo a aquel personaje — “Mire, ahí está Caballero, el director” –- exclamaban entre dientes mientras se preparaban para el gentil saludo. El dimitente funcionario se acercaba a cada uno y les extendía la mano mientras preguntaba -– “Hola, ¿tú eres muestrista o estadístico?” – cuando mi amigo tuvo el honor de responder a tan inteligente y sublime pregunta, trataba de controlar sus traicioneros nervios y no atinó a contestar nada.
Trato de visualizar la anterior situación y realmente… no le hallo sentido. No me suena esa palabra: muestrista. De hecho, ni siquiera se encuentra en el diccionario de la Real academia de la lengua española. En google se encuentran muy raras acepciones a la palabrilla entre ellas están: costurero, modelista, miembro de alguna secta, vendedor de enciclopedias y en un lugar alejado… persona que diseña planes de muestreo.
Yo no soy muestrista, ni Bayesiano, ni Fisheriano, ni frecuentista, ni clásico, ni no-paramétrico… soy todos y a la vez ninguno ¡soy estadístico!
En materia de filosofía estadística no me caso con ninguna corriente, es mejor tener una gama de técnicas con diversos supuestos porque éste es un mundo dinámico y se necesitan tópicos de pensamiento variados para afrontar un problema de investigación. La estadística es una ciencia aplicada, existe para resolver problemas prácticos y en la vida real éstos son de todo tipo, un estadístico debe estar en capacidad de enfrentar y resolverlos y si el estadístico se acostumbra a encararlos de acuerdo a una forma de pensamiento, seguramente cometerá los mismos errores sistemáticamente.
La verdad sea dicha, tal vez no tenemos una mente abierta en la academia ni en las aulas y no es de extrañarse que los grandes desarrollos en materia de métodos y teoría estadística no hayan sido hechos por estadísticos. Hay ejemplos claros de personajes enfocados, que se dejaron de rodeos y de críticas y con su buena disposición han hecho de la estadística lo que es ahora, una ciencia que está presente en casi todas las disciplinas del saber. EL ejemplo más reciente se trata de los economistas ganadores del premio Nóbel en el 2003, Engle y Granger, por haber desarrollado el modelo ARCH.
Entre otros ejemplos, tenemos a:
Por lo demás, no importa cuál sea nuestra profesión o en qué rama de la estadística estemos enfocados, si nuestra motivación está en describir, inferir, predecir o pronosticar entonces somos estadísticos y por lo tanto somos investigadores zorros. Los zorros saben muchos trucos, están interesados en todo y se mueven fácilmente de un problema a otro. La ciencia necesita de los zorros para explorar los detalles complicados de nuestro universo maravilloso.
PD: Espero que los lectores hayan notado que la anterior entrada, No rotundo a la estadística Bayesiana, era precisamente una motivación para su uso. Es decir, fue una broma inteligente de Andrew Gelman. Por supuesto que la estadística Bayesiana es ROTUNDAMENTE IMPORTANTE en la actualidad. Para aquellos que quieran conocer de qué se trata… pues que compren el libro y lean el primer capítulo.
BAYESIAN DATA ANALYSIS. Gelman. et. al. 1995. C&H
Apr 8th

En la página web del autor del éxito en ventas “Bayesian Data Analysis” se encuentra un punto de vista acerca de la inferencia realizada por los estadístico Bayesianos.
La inferencia Bayesiana es una teoría matemática coherente pero no brinda la suficiente confianza en usos científicos. Las distribuciones a priori subjetivas no inspiran confianza porque ni siquiera existe algún principio objetivo para elegir una a distribución a priori no informativa (incluso si ese concepto estuviera definido matemáticamente, pues no lo está). ¿De dónde vienen las distribuciones a priori? No confío en ellas y no veo ninguna razón para recomendarlas a otra gente, apenas me siento cómodo acerca de su coherencia filosófica.
La teoría Bayesiana requiere un pensamiento mucho más profundo sobre la situación y recomendar el teorema de Bayes para el uso de los científicos es como darle al hijo del vecino la llave de un F-16. De veras que, yo comenzaría con algo de métodos probados y confiables, y entonces generalizaría la situación utilizando los principios estadísticos y la teoría del minimax, que no dependen de ninguna creencia subjetiva. Especialmente cuando las distribuciones a priori que veo en la práctica toman formas conjugadas. ¡Qué coincidencia!
Dejando de lado las preocupaciones matemáticas: Me gustan las estimaciones insesgadas, los intervalos de confianza con un nivel real de cobertura. Pienso que la manera correcta de inferir es acercarse al parámetro tanto como sea posible y desarrollar métodos robustos que trabajen con supuestos mínimos. El acercamiento Bayesiano intenta aproximar el insesgamiento, mientras asume supuestos más y más fuertes. En los viejos tiempos, los métodos Bayesianos por lo menos tenían la virtud de estar matemáticamente limpios. Hoy en día, cualquier inferencia se realiza mediante el uso de las cadenas de Markov mediante métodos de Monte Carlo (MCMC). Lo anterior significa que, no sólo no se pueden evaluar las características estadísticas del método, sino que tampoco se puede asegurar su convergencia.
La gente tiende a creer los resultados que apoyan sus preconceptos y descreen los resultados que los sorprenden, ésta es una forma errada y sesgada de pensar. Pues bien, los métodos Bayesianos animan este modo indisciplinado de pensamiento. Estoy seguro que muchos estadísticos Bayesianos están actuando de buena fe. Sin embargo; al mismo tiempo, están proporcionando estímulo a científicos descuidados y poco éticos por todas partes, porque el investigador queda estancado al momento de escoger una distribución a priori.
Y para no pasar a temas más críticos, termino la discusión con lo que los Bayesianos piensan acerca de la recolección de los datos. Los cálculos de la teoría Bayesiana de la decisión guían a la idea de que el muestreo probabilístico y la asignación aleatoria de tratamientos son ineficaces, de que los mejores diseños y muestras son los deterministas. No tengo ninguna conflictos con estos cálculos matemáticos — el conflicto es más profundo, en los fundamentos filosóficos, en la idea de que el objetivo de la estadística consiste en tomar una decisión óptima. Un estimador Bayesiano es un estimador estadístico que reduce al mínimo el riesgo promedio. Sin embargo, cuando hacemos estadística, no estamos intentando “reducir al mínimo el riesgo promedio“, estamos intentando hacer estimación y juzgamiento de hipótesis.
No puedo estar al tanto de lo que están haciendo todos esos Bayesianos hoy en día –desafortunadamente, toda clase de personas están siendo seducidas por las promesas de la inferencia automática con la “magia de MCMC “– pero desearía que todos paráramos de una vez y por todas y empezáramos, de nuevo, a hacer estadística de la forma en que debe ser hecha, volviendo a los viejos tiempos en que un p-valor era utilizado para algo, cuando un intervalo de confianza tenía significado, y el sesgo estadístico era algo que se quería eliminar y no algo que se debiera abrazar.
El autor de este blog, comparte algunas ideas de la anterior disertación. Sin embargo, reconoce la magnitud y el impacto que los Bayesianos han tenido no sólo en el desarrollo de la teoría estadística sino también en el pensamiento estadístico del autor. La estadística Bayesiana debe ser utilizada con expertise. Al ser utilizada por investigadores neófitos puede ser tergiversada. Sin embargo, el mal uso que se le dé a un método no involucra su credibilidad, sino la ignorancia del investigador.
Apr 5th
Un estudiante recién graduado se pregunta preocupadamente: “¿Todo lo que sé son mínimos cuadrados (MC)?, estos resultados no convencerán a nadie”. Un profesor pone en su puerta un letrero de MC encerrado en un círculo rojo con la raya negativa. Un gurú en modelamiento alaba la estimación máxima verosímil y maldice el método de MC. Todos ellos se están preguntando ¿Están muertos lo mínimos cuadrados (MC)? En el artículo de Krueger y Lewis-Beck se discute el estado del arte en relación a la estimación MC con base en ciencias políticas.
El análisis de regresión, en algunas versiones, ha servido como caballo de batalla en ciencia política. Dados los supuestos clásicos, existen dos corrientes en cuanto a la optimalidad del estimador MC. Unos argumentan que el estimador es robusto, pero otros argumentan que es un estimador muy frágil. Partiendo desde la perspectiva de fragilidad, entonces el uso del método MC puede resultar problemático. Tomando en cuenta estos argumentos, además de la incrementada atención en nuevos métodos de estimación, lo que esperaríamos es que los MC hayan cesado de aparecer en las investigaciones recientes.
Para asegurarse de esto, se han examinado una gran cantidad de publicaciones recientes (en el contexto de ciencia política) en los journals más leídos. En total N = 1756 artículos publicados. La tabla siguiente muestra la frecuencia de uso para diferentes técnicas cuantitativas. Esas técnicas pueden ser clasificadas como más o menos sofisticadas que los MC.
De acuerdo a esta clasificación, los MC es la técnica más popular, apareciendo en casi el 31% de los artículos. Tomando juntos, los estimadores que parecen ser más sofisticados – logit, probit, series de tiempo, técnicas de máximo verosimilitud, variables latentes, simulación, regresión avanzada – aparecen con un 43%. Los demás métodos cuantitativos que son menos sofisticados que los MC tienen un 21% de aparición.
Los MC no están muertos. Por el contrario, parece ser la principal técnica de análisis multivariado de los investigadores que publican en los principales journals. La academia debe tener en cuenta el buen funcionamiento de estos estimadores y las ventajas putativas de éste método debe estar siempre presente pues los MC ofrecen una lengua común interdisciplinaria à Es un método de fácil cálculo, de fácil entendimiento y de fácil interpretación. Por otra parte, no hay que olvidar que sigue siendo el mejor estimador lineal insesgado (BLUE, por sus siglas en inglés) cuando los supuestos clásicos de la regresión son satisfechos.
Mar 31st
Haciendo click aquí tendrá acceso a una macro para Excel que le permite realizar diversas clases de métodos multivariados. La salida principal es un Biplot que es un gráfico de filas y columnas obtenido a partir de datos de una tabla cruzada. Las coordenadas del Biplot se calculan mediante una descomposición en valores singulares (SVD por sus siglas en inglés) de la matriz de datos. El Biplot puede ser usado en muchas técnicas del análisis multivariado para desplegar las relaciones entre variables y objetos.
Este artículo describe la macro para Excel que puede ser usada para graficar un Biplot basado en resultados de análisis de componentes principales, análisis de correspondencias, análisis canónico discriminante, escalonamiento multi-dimensional o análisis de correlación canónica. La macro permite una amplia variedad de transformaciones a priori de los datos antes de realizar el análisis de SVD y consiste en un complemento para Excel que está implementado en Visual Basic. Para que este complemento funcione correctamente requiere Excel 97 o una versión más reciente. El programa calcula la descomposición en valores singulares de la matriz de datos (o de la matriz de datos transformada) y produce un Biplot estándar como en el análisis de componentes principales o de correspondencias. Además, el programa también produce salidas de las otras técnicas mencionadas anteriormente. Los pasos para añadir el complemento en Excel son muy sencillos:
Si todo ha salido bien, el ítem Biplot aparecerá en su menú de Excel en la parte superior de la hoja de datos. Al seleccionar la opción Biplot se abrirá un menú que consta de dos partes, una para los respectivos cálculos algebraicos y la otra para graficación. También existe un menú de información que le ayudará a implementar mejor sus análisis multivariados.
Mar 29th
Los humanos eran capaces de aprender a recorrer el laberinto un poco mejor que las ratas.
Pero lo interesante de aquel diseño experimental surgió cuando realizaron la última parte del experimento. Quitaron los billetes de mil dolares junto con el queso, y después de un cierto número de ensayos, las ratas dejaron de pasar por el laberinto …
Sin embargo los humanos jamas se detuvieron.
Aún están ahí!!! … incluso irrumpen en laboratorio por la noche !!!
Adaptado de Sapos a principes, 2006.
Mar 27th
Mar 25th

El brand equity resultante es una medida basada en el consumidor y está directamente ligada a los movimientos de las marcas de la categoría y a la variación estadística de la muestra; por las anteriores razones, la medida de brand equity está directamente relacionada con las actividades de mercadeo por tanto el índice de brand equity resulta variable a través de las mediciones en el tiempo. Sin embargo, aprovechamos esa variabilidad para calcular el verdadero capital de marca estandarizado (quitándole el sesgo que el mercado ofrece al cliente en cuestiones de advertising). El share Quality index resulta de la multiplicación del índice de brand equity por el share de mercado. Esta medida permite condensar las dos perspectivas que influencian las decisiones del gerente de marca. El share de mercado, resultante de investigaciones de mercado a los retailers y el brand equity, resultante de investigación basadas en el cliente final. El share Quality Index es el tracking del valor real de la marca en el mercado. Esta medida híbrida puede ser usada para valorar los efectos de las actividades de mercadeo, que sirven como base para el cálculo del retorno sobre la inversión (ROI).
Adaptado de Reynolds and Philips (2005), In search of true brand equity metrics. Journal of Advertising Research
Mar 23rd
En mercadeo es de vital importancia plasmar las relaciones que existen en la mente del consumidor. Es así como un biplot permite determinar agrupaciones de las marcas a distintos atributos de la categoría. Para esto las columnas de la matriz de datos deben corresponder a los atributos propios de la categoría y las filas las marcas de la misma. Hasta ahora el mayor énfasis de los biplots ha sido puesto en examinar las diferencias entre grupos sobre los atributos de la categoría. Sin embargo, esta técnica es muy general y permite otros usos potenciales.
Mar 21st
Estudiando algunas correlaciones entre ingreso y diversas medidas de ideología política, Andrew Gelman se deseaba obtener cierto sentido de la variabilidad muestral en su análisis. Él recordaba, vagamente, que la correlación muestral tiene una varianza de aproximadamente 1/n. Para corroborar la fórmula se hizo una simulación:
> var(replicate(1000,cor(rnorm(100),rnorm(100))))
[1] 0.001
Que en pasos más largos puede ser escrita de la siguiente manera:
> corrs <- rep (NA, 1000)
> for (i in 1:1000) corrs[i]<-cor(rnorm(100),rnorm(100))
> mean(corrs)
[1] -0.0021
> sd(corrs)
[1] 0.01
¡Sí, en efecto, 1/n era correcto! Funcionó bien y fue más rápido y productivo que investigar en un libro.
PD: En el anterior ejemplo se utilizaron muestras no correlacionadas de tamaño 100 de variables aleatorias con distribución normal estándar. Sin embargo, si hubiese correlación rho, entonces la varianza asintótica sería (1/n)* [1-rho^2]^2.
Mar 21st
Puedes encontrar estadísticas por día, semana, mes y año acerca de enfermedades no transmitibles, enfermedades infecciosas, accidentes, matrimonios, industria, etc. Éste es un buen ejemplo de como el DANE debería mejorar sus presentaciones porque su página WEB no es clara al momento de generar los debidos reportes.
Mar 20th
Inauguramos nuestra sección mensual de revisión de literatura estadística … Esta vez, traemos a colación un libro mencionado por muchos profesores cuyo título está directamente vínculado con una frase del escritor Mark Twain: “Existen mentiras, malditas mentiras y estadísticas”. De Joel Best, malditas mentiras y estadísticas (traducción del título en inglés: damned lies and statistics).
Este es un libro acerca de las malas estadísticas, de dónde vienen y por qué no van a ningún lado. Algunos apartes del libro a continuación:
Algunas estadísticas son malas desde su nacimiento, no son buenas porque desde el principio están basadas en especulaciones y datos dudosos. Algunas otras mutan; se van dañando hasta que llega el punto en que son totalmente desechadas. De cualquier manera, las malas estadísticas son potencialmente importantes: pueden ser usadas para crear rabia o pánico en el público, pueden distorsionar nuestro entendimiento del mundo y nos pueden guiar a tomar malas decisiones políticas…
Las estadísticas tienen una mala reputación. Se sospechas que si las estadísticas están equivocadas, la gente que las usa está mintiendo – tratando de manipularnos usando números que distorsionan la verdad. Ahora, al mismo tiempo, las estadísticas son necesarias; nosotros dependemos de ellas para resumir y aclarar la naturaleza de nuestra compleja sociedad y se ve reflejado cuando de problemas sociales se trata…
Pero, ¿ podemos probar cualquier cosa con estadísticas?. Depende de lo que probar pueda significar. Si deseamos saber, por ejemplo, cuántos niños han muerto por tiroteos cada año, no podemos simplemente adivinar. Es posible usar los reportes del departamento de policía o de los hospitales para seguir de cerca este fenómeno. Si al final, ese número parece ser lo suficientemente preciso, podemos considerarlo como una evidencia fuerte – o una prueba…
La solución al problema de las malas estadísticas no es ignorar todas las estadísticas o asumir que todas las cifras están equivocadas… La solución es ser mejores jueces de los números que encontramos… Las estadísticas sociales describen la sociedad, pero al mismo tiempo son el resultado de acuerdos sociales. Las personas que nos informan acerca de las estadísticas sociales, inevitablemente desean algo, así como los periodistas y los medios que repiten cómo se han logrados los objetivos de gobierno mediante estadísticas.
Las estadísticas son herramientas usadas para propósitos particulares. Pensar críticamente acerca de las estadísticas, requiere entender su lugar en la sociedad.
Dec 23rd
“El futuro de la Estadística” por Bradley Efron.
Primero, Efron da una revisión al desarrollo acelerado de la Estadística en el último siglo. Él comenta que “La historia de la estadística en el siglo veinte está dada por la sorprendente y asombrosa historia de una colección de métodos numéricos caprichosos que se fusionan dentro de un vehículo central para el descubrimiento de la ciencia”.
Efron cita un ejemplo simple para ilustrar las limitaciones de la estadística clásica en los problemas concernientes a la selección de modelos y también hace un comentario, en forma figurativa, refiriéndose a que “La historia parece repetirse: hemos regresado a la era de procedimientos heurísticos promovidos con energía pero sin ninguna dirección”
Efron es un ejemplo interesante de un investigador estadístico que ha desarrollado y usado un conjunto diverso de herramientas como Bayes empírico basado en modelos y bootstrap no paramétrico o pruebas de permutaciones.
Nov 19th
La inferencia inversa procede de lo particular a lo general, la inferencia directa de lo general a lo particular
En esta época, la tendencia es usar la inferencia basada en el diseño para la estimación en grandes dominios y muestreo sintético (inferencia basada en modelos) para la estimación en dominios pequeños dentro del mismo estudio… hace alusión al uso de los estimadores de calibración cosméticos que combinan los dos tipos de inferencias simultáneamente.
El hecho de que un estimador pueda ser visto o interpretado como un predictor obtenido de una regresión lo hace muy atractivo.
Nov 7th

El tipo de inferencia dominante después de la segunda guerra mundial fue la inferencia basada en el diseño de muestreo (Neyman, 1934); sin embargo, a comienzos de los años 70’s, Richard royal, con la ayuda de muchos coautores, cambiaron rotundamente esa tendencia con gran determinación. Él afirmó que la inferencia basada en el diseño, aunque no hace supuestos acerca de las probabilidades y parece ser no paramétrica (distribution free) y robusta, estaba sujeta a importantes defectos. Algunas de las limitaciones que cita Royall (1971) son:
La sugerencia de Royall fue aún más radical. Él propuso abandonar la inferencia basada en el diseño de muestreo a favor de estimadores cuyas útiles propiedades (insesgamiento, consistencia, optimalidad, etc) estuvieran definidas en términos del modelo predictivo apropiado. Esto significa que conceptos como el sesgo y la varianza ya no están definidos como esperanzas a través de todas las posibles muestras, sino como promedios de las realizaciones de las unidades poblacionales (estén en la muestra o no) bajo el modelo predictivo establecido. Desde el punto de vista de Royall, el proceso de aleatorización se convierte en irrelevante y propone que la muestra sea escogida a conveniencia (lo que en la práctica significa escoger las unidades más grandes).
Acerca de los modelos predictivos Box (1979) dice que “todos los modelos son errados, pero algunos son útiles”. El hecho de que todos los modelos están equivocados se hace más y más claro cuando el tamaño de la muestra se incrementa… por eso las estimaciones resultantes de un modelo predictivo errado son muy malas.
De una cosa hay que estar seguros… la inferencia basada en modelos predictivos y la inferencia basada en el diseño de muestreo no se deben ver como competencia sino como puntos de vista que pueden llegar a ser complementarios, es así como nace la inferencia basada en el diseño de muestreo, pero asistida por modelos predictivos (model assited survey sampling).
Pero estos dos tipos de inferencia, aunque se pueden combinar, no se pueden conciliar porque su filosofía es literalmente distinta (continuara…)
Oct 29th
El pragmatismo es la noción de que el significado o valor de algo viene determinado por consecuencias prácticas. Se acerca bastante al utilitarismo, la creencia de que la utilidad es la medida de lo que es bueno. Para una persona pragmática o utilitaria, si una técnica o curso de acción tiene el efecto deseado, es bueno. Si no parece funcionar debe ser errado.… El pragmatismo tiene sus raíces en el darwinismo y en el humanismo. Posee un relativismo inherente que rechaza la noción de lo absoluto. En últimas define como verdadero todo aquello que es útil, lucrativo y ventajoso. Las ideas que no parecen viables son rechazadas como falsas.
Una vez más, imagínese el difícil trabajo de un estadístico zorro si pensara pragmáticamente… se quedaría frustrado con los mínimos cuadrados. El pragmatismo como examen de verdad debería tener menor peso en un ambiente de desarrollo académico en estadística porque los supuestos mismos en los que se basan la mayoría de los métodos estadísticos no pueden ser valorados por resultados porque incluso algunos ni siquiera son comparables.
Se debería dar una mayor ponderación al que a mi parecer es el único juicio de verdad admisible: la calidad y el buen desarrollo teórico de los métodos basados en sus supuestos.
Oct 26th
Eh lector, lector que hasta este momento del post no conocías alguno de los dos tipos de inferencia, permíteme representar esta discusión con los profesores L y E, cada uno acérrimo defensor de su punto de vista.
E: Creo que usted sigue viviendo en los ochentas. No tenga la menor duda de que las cosas han cambiado un poco. Muchos estadísticos académicos están a favor de la inferencia basada en modelos predictivos
L: Es cierto, pero ese tipo de inferencias no es usado en la vida práctica profesional. ¡Dígame al menos una entidad estatal que la utilice!
E: Claro que las hay, al tratar de estimar parámetros en dominios pequeños se utilizan estimadores sintéticos. Esos estimadores están basados en modelos predictivos.
L: Ah, pero sólo se utilizan en dominios pequeños. De lo contrario no se utilizan. Bien, si usted está tratando de estimar un parámetro en un dominio pequeño, la inferencia basada en modelos predictivos puede ser particularmente útil…
E: No, es más que eso, se trata de que la inferencia basada en el diseño muestral es particularmente mala para muestras pequeñas. Fíjese que con una muestra probabilística usted puede seleccionar las unidades más grandes y dejar a las chicas de lado, con la inferencia basada en el diseño tendría unas malas estimaciones. Una manera más segura de evadir esa posibilidad es dividir la población en grupos y hacer una selección de unidades en cada grupo
L: Cómo una clase de estratificación
E: Mmm estratificación si, digamos que sí. La estratificación por el tamaño de las unidades es muy útil, pero el punto es que debería conocer muy bien la población.
L: Precisamente, y si usted no conoce muy bien la población, podría ajustarle un modelo totalmente equivocado y como resultado tendría unas malas estimaciones…
Lector asombrado, está discusión se ha prolongado desde hace veinte años, en los próximos posts trataremos de develar cada uno de sus secretos.
Oct 25th
Oct 7th
Los grandes científicos se dividen en dos clases, que Isaiah Berlín, citando al poeta Archilochus del siglo séptimo A.C., llamó zorros y erizos. Los zorros saben muchos trucos, los erizos solamente uno. Los zorros están interesados en todo y se mueven fácilmente de un problema a otro. Los erizos están interesados solamente en pocos problemas que consideren fundamentales, y trabajan con los mismos problemas por años o décadas. La mayor parte de los grandes descubrimientos son hechos por los erizos, la mayoría de los pequeños descubrimientos por los zorros.
La ciencia necesita de los erizos y de los zorros para su crecimiento sano: erizos para cavar profundamente en la naturaleza de cosas, zorros para explorar los detalles complicados de nuestro universo maravilloso
Albert Einstein era un erizo y Richard Feynman era un zorro.
¿Qué se puede decir sobre los principales estadísticos del siglo veinte?
Cox: zorro
Cochran: zorro
Tukey: estupendo zorro
Efron: zorro
Rubin: zorro
Tal vez, América Latina tendría un desarrollo significativo en materia de teoría y actualización estadística si fueramos un poco más zorros, si tuvieramos la mente abierta y nos permitieramos aprender cosas nuevas y aplicaciones desde otro punto de vista. Mi percepción es que la educación estadísitica tiene que ser integral, antes que nada somos estadísticos!!!
Oct 3rd
PD: Con mucha emoción, vemos como la cifra de visitas aumenta cada día. En un mes hemos completado 2000 visitas… Una vez más gracias por visitarnos.
Dios les bendiga!!!
Sep 25th

En realidad, aunque existe conflicto, estos dos enfoque no son opuestos ni contradictorios; simplemente, son dos enfoques… Me permito citar la siguiente fábula de Basu (una vez más, el profesor Trujillo disculpará mi deficiente inglés) que, desde su publicación, removió la bases de la inferencia basada en el segundo enfoque.
El dueño de un circo está planeando transportar sus 50 elefantes adultos, para este propósito él necesita una buena estimación del peso total de los elefantes. Como pesar un elefante es una tarea muy incomoda, el dueño del circo quiere estimar el peso total pesando sólo un elefante. ¿Cuál elefante debería pesar? El dueño del circo decide echar un vistazo a sus registros y descubre una antigua lista de los pesos de los elefantes, elaborada hace tres años. Él encuentra que tres años atrás Sambo, un elefante mediano, era el promedio (en peso) de su manada. El dueño del circo verifica la información con el entrenador quien le asegura que Sambo todavía puede considerarse como el promedio de la manada.
Así, el dueño del circo planea pesar a Sambo y tomar a 50x (donde x es el peso de Sambo) como una estimación del peso total X=X_1+…+X_50 de la manada. Pero el estadístico del circo se aterra al conocer el plan de muestreo del dueño (con un diseño de muestreo no probabilístico).
- ¿Cómo puede obtener una estimación insesgada de X? – protesta el estadístico
Así, ellos trabajan juntos en la elaboración de un plan de muestreo. Con la ayuda de una tabla de números aleatorios, diseñan un plan que asigna una probabilidad de inclusión de 99/100 a Sambo y probabilidades de 1/4900 al resto de la manada. Naturalmente, Sambo es seleccionado y el dueño del circo está feliz.
- ¿Cómo va a estimar X? – pregunta el estadístico
- ¿Por qué? La estimación debería ser 50x, por supuesto – responde el dueño
- ¡Oh¡ no, eso es incorrecto – responde el estadístico – recientemente, yo leí en un artículo de Annals of Mathematical Statistics, en donde se prueba que el estimador de Horvitz-Thompson es el único estimador hiper admisible en la clase de todos los estimadores insesgados polinomiales generalizados.
- ¿Cuál sería la estimación de Horvitz-Thompson en este caso? – pregunta el impresionado dueño – Dado que la probabilidad de inclusión de Sambo fue de 99/100 – dice el estadístico – el estimador es 100/99x y no 50x
- ¿Y cuál sería nuestra estimación si el plan de muestreo hubiese seleccionado a Jumbo? – pregunta el incrédulo dueño
- De acuerdo a lo que yo entiendo acerca del método de Horvitz-Thompson – dice el infeliz estadístico – el estimador de X sería 4900x donde x es el peso de Jumbo.De esta forma, el estadístico perdió su empleo (y quizás se convirtió en profesor de estadística).
Sharon Lohr se pregunta si fue justo despedir o no al estadístico; esa pregunta se me antoja irrelevante (para mí la “falla” se presenta en el astuto empresario), simplemente mi comentario es que un buen diseño de muestreo debe tener la característica de inducir probabilidades de inclusión que tengan una buena correlación con la variable de interés.
Sep 21st
Ahora pensemos en el procedimiento del juzgamiento de una hipótesis Ho:
Se puede ver la similitud entre estos dos procedimientos teniendo en cuenta que en el primer paso se asume un supuesto en ambos casos. En el segundo paso, podemos ver que una contradicción equivale, en el caso de juzgamiento de hipótesis, a que un evento, con probabilidad de ocurrencia muy pequeña, suceda. Este evento es: el valor de la estadística pertenece a la región de rechazo. En el tercer paso, si se llega a la contradicción se concluye que el supuesto planteado en el primer paso1 es falso; es decir, se rechaza Ho.
El anterior punto de vista es muy interesante para compartir con los alumnos de matemáticas que toman un curso de inferencia estadística, porque les permite ver los procedimientos estadísticos más cercanos.
Comentarios