“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Uncategorized
Para profesores en la región
Mar 5th
UNILA abre processo seletivo com 18 vagas para diversas áreas do conhecimento
http://www.unila.edu.br/noticia/professores-visitantes
A Universidade Federal da Integração Latino-Americana (UNILA) abre as inscrições do Processo Seletivo Simplificado para professores visitantes. São 18 vagas, sendo uma para portadores de necessidades especiais, nas seguintes áreas do conhecimento: Arquitetura e Urbanismo (2), Biologia (1), Cinema (1), Engenharia (3), Estatística (1), Física (1), História (1), Letras/Artes (5), Música (1), e Saúde Coletiva (2).
Os professores serão contratados em regime de prestação de serviços no Ensino, na Pesquisa e na Extensão, durante um ano, podendo ser prorrogado pelo mesmo período para os brasileiros e por 36 meses para os estrangeiros.
Inscrições
As inscrições ficarão abertas até o dia 9 de março, pelo site da UNILA, através do preenchimento do Formulário de Inscrição. Além disso, os candidatos devem enviar Currículo Lattes e Proposta de Atuação Acadêmica na UNILA para o e-mail segepe@unila.edu.br. No caso dos estrangeiros, ao invés do Currículo Lattes, pode ser enviado um currículo detalhado.
A remuneração para professores doutores será de R$ 7.333,67, e para mestres, R$ 4.651,49.
Mais informações
Em caso de dúvidas ou para obter mais informações, entrar em contato pelos telefones +55 (45) 3576-7337 e 3576-7320, ou pelo e-mail da Secretaria de Gestão de Pessoas: segepe@unila.edu.br.
Del muestreo a la teoría estadística… (Si no utilizó un MAS con reemplazo, sus análisis no son válidos)
Sep 6th
En la introducción de su excelente libro, Statistical Design for Researches, Leslie Kish afirmó que el enunciado de la mayoría de libros de inferencia estadística abren con el siguiente enunciado: <<Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas…>> y que cada palabra en el anterior enunciado es engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más, en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.
Por otro lado, recuerdo cuando, en un simposio nacional de estadística, la expositora hablaba de cómo había ajustado un modelo de regresión logística y de todas las valiosas conclusiones a las que llegó analizando el problema en cuestión. A simple vista, el análisis de la regresión no tenía la más mínima amonestación. Sin embargo, cuando yo pregunté cómo había sido la selección de la muestra, ella contestó que los datos provenían de una encuesta compleja que avistaba estratos, etapas y selecciones proporcionales. Mi contra-pregunta inmediata se refirió a si ella había contemplado este diseño complejo en sus análisis y la respuesta, muy escueta, fue un rotundo no.
A donde quiero llevar a mis queridos lectores es a un lugar en donde no haya excusa alguna para repetir tan álgida práctica. Espero pues que, después de terminar la lectura de este post, usted no vuelva a analizar sus datos sin antes preguntarse acerca del proceso de selección de la muestra. Más aún, espero que se dé cuenta que, en términos de selección de muestras, sólo hay un único caso para el cual la teoría de la inferencia estadística es aplicable.
Tipos de muestreo
Y es que en términos de selección de muestras, sólo hay dos posibles escenarios generales. La selección con reemplazo y la selección sin reemplazo. Hablemos primero de la selección sin reemplazo, en donde una muestra seleccionada está conformada por algunos elementos de la población que no se repiten. Para seleccionar una muestra sin reemplazo de tamaño n=tres, de una población de tamaño N=5, el proceso de selección puede ser de la siguiente manera. Se escoge una unidad de las cinco posibles, luego se selecciona una unidad de las cuatro restantes, y por último, una unidad de las tres restantes. Esto hace que el proceso de selección de la muestra no se lleve a cabo de forma independiente. Por ejemplo, si el muestreo es aleatorio simple, la probabilidad de selección de la primera unidad es 1/5, la probabilidad de selección de la segunda unidad, es 1/4 y así sucesivamente.
Por otro lado, cuando el muestreo es con reemplazo, la selección se realiza de forma independiente puesto que se trata de realizar el mismo ensayo (seleccionar una unidad de cinco posibles) tres veces, sin importar que las unidades tengan diferentes probabilidades de selección.
Construyendo muestras aleatorias como en los libros clásicos
Por otra parte, es bien sabido que la teoría de muestreo establece que el valor de la característica de interés, yk, es eso… un valor, por tanto no es aleatorio. Luego, es incorrecto decir que yk es una variable aleatoria asociada con alguna distribución de probabilidad. Antes de que me sacrifiquen, permítame afirmar en mi defensa que así son las cosas en el muestreo y que lo único aleatorio en la inferencia es la muestra. Y entre otras cosas, en investigación social me parece coherente hablar de valores fijos. Ahora, no significa que no podamos construir variables aleatorias en muestreo. Por ejemplo, construyamos la siguiente variable aleatoria Xi, i=1,…,3, definida como el valor de la característica de interés en el individuo k-ésimo, seleccionado en la i-ésima extracción. En este caso, existen tres variables aleatorias, puesto que la muestra es de tamaño tres.
Si consideramos un muestreo aleatorio sin reemplazo, la primera variable aleatoria X1, podría tomar los cinco valores y1, y2, y3, y4, y5. La segunda variable aleatoria X2, sólo podrá tomar cuatro valores, puesto que X1 ya fue realizada, y la tercera variable aleatoria X3 sólo podrá tomar tres valores, puesto que X1 y X2 ya fueron realizadas. Esto hace que X1, X2 y X3 no constituya una sucesión de variables aleatorias independientes (puesto que la selección sin reemplazo no es un proceso independiente) ni idénticamente distribuidas (puesto que ni siquiera su espacio muestral es el mismo… X1 puede tomar cinco valores, X2 sólo cuatro y X3 sólo tres). Lo cual quiere decir que a partir de un muestreo sin reemplazo (ni siquiera el tan mencionado muestreo aleatorio simple) no es posible construir una muestra aleatoria, como las que aparecen en los libros de teoría estadística.
Sin embargo, algo muy distinto sucede con el muestreo con reemplazo. Cuando construimos las variables aleatorias X1, X2 y X3, resulta ser que ellas sí conforman una sucesión de variables aleatorias independientes (puesto que el muestreo con reemplazo sí define un proceso de extracciones independientes) e idénticamente distribuidas (puesto que conservan el mismo espacio muestral y mantienen la probabilidad de selección… X1, X2 y X3 pueden tomar los cinco valores, y para cada uno de esos valores la probabilidad es la misma). Es decir, X1 puede tomar los valores y1, y2, y3, y4, y5. La probabilidad de que X1=y1 es p1, la probabilidad de selección del primer elemento, la probabilidad de que X1=y2 es p2, la probabilidad de selección del segundo elemento y así sucesivamente hasta obtener que la probabilidad de que X1=y5 es p5, la probabilidad de selección del primer elemento primer elemento. La misma distribución la tienen X2 y X3. Por lo tanto, X1, X2, X3 conforman una muestra aleatoria, como las que aparecen en los libros clásicos de inferencia estadística.
Obteniendo los mismos resultados como en los libros clásicos
Entonces, hemos llegado a un punto sin retorno, en donde la conclusión es que si la muestra fue seleccionada con reemplazo, entonces podemos inducir una muestra aleatoria. Sin embargo, existen muchas variantes en el muestreo con reemplazo. A continuación, vamos a dilucidar cuál de ellas es la indicada para analizar la muestra de acuerdo a la teoría de los libros de inferencia. Lo vamos a hacer mediante un ejemplo muy sencillo, el estimador X barra, su esperanza y su varianza.
En primera instancia, veamos que para que la esperanza (bajo el diseño de muestreo, por eso el suscrito p) de cualquier variable aleatoria Xi, i=1,…,n, sea igual a la media poblacional, es necesario que, para todos los individuos en la población, la probabilidad de selección sea idéntica e igual a 1/N, como se muestra a continuación:
De la misma manera, para que la varianza de cualquier variable aleatoria Xi, i=1,…,n, sea igual a la varianza poblacional, se requiere la misma condición, puesto que:
Por lo tanto, la esperanza y la varianza de X barra coincidirán con los bien conocidos resultados de la inferencia clásica.
Pero, para llegar a esto, es necesario que el muestreo haya sido aleatorio simple con reemplazo. De otra forma, no se tienen las propiedades. Por lo tanto, esto aplica para pruebas de hipótesis, construcción de intervalos de confianza, modelos de regresión, y hasta diseño de experimentos. Ahora, si su encuesta está en marcha y los datos no fueron extraídos de manera aleatoria simple con reemplazo, usted puede analizarla confiadamente desde que incluya los pesos de muestreo en sus análisis, ya sean regresiones logísticas o simples varianzas del promedio.
TEAM
Sep 5th
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.
Obtenga una visualización del texto acá (Google books)
Compre el libro acá (Librería de la U)
Compre el libro acá (Lemoine editores)
Compre el libro acá (Librería Nacional)
Puntos de venta:
Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)
Comunicaciones en Estadística Volumen 4 No. 1
Aug 8th

http://comunicacionesenestadistica.usta.edu.co/
En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.
Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.
Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.
El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.
Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.
Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.
Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.
Soy parte de los 300mil
Apr 5th
Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.
¡¡¡Una vez más gracias!!!
Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)
Dec 18th
Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)
Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.
En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.
Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.
En la página de Colombia es pasión, es posible leer lo siguiente:
Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.
Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:
… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…
En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.
Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.
En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.
Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.
En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:
En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.
Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.
En materia de estabilidad social
Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país
En materia de compromiso estatal
La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.
En materia de buen gobierno por la gente
Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.
En materia de seguridad
El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios
Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.
Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis
Dec 4th
La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:
Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…
Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.
Entre los invitados nacionales están:
- Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
- Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá
Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.
- Estudiantes de pregrado: 100 mil pesos
- Profesionales: 150 mil pesos
- Participantes con poster o ponencia aprobada: 100 mil
La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:
heivarrodriguez@usantotomas.edu.co
Nuevo portal WEB de la Revista Comunicaciones en Estadística
Jul 14th

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.
http://comunicacionesenestadistica.usta.edu.co
La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.
La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:
-
Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
-
Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
-
Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
-
Una revisión de los modelos de volatilidad estocástica.
-
Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.
Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a
revistaestadistica@usantotomas.edu.co
Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.
Muestras WEB
Nov 18th
Una colega escribe lo siguiente:
Desde el muestreo conoces ¿qué se ha trabajado en relación con evaluación de la calidad de encuestas utilizando como medio de recolección de datos recursos Web?
Mi respuesta:
Conozco poco de muestras WEB, si estamos hablando de las famosas web poll pues desafortunadamente es un tema áspero para los teóricos puesto que esta tendencia se ha extendido bastante en la última década y, según dicen, no tiene la suficiente rigurosidad en términos de diseño estadístico. Sin embargo, si estamos hablando de encuestas probabilísticas que utilizan la WEB para levantar la información, te recomiendo darle una mirada al nuevo journal Survey Research Methods. Ésta es una publicación que ha tenido bastante trascendencia y en términos de calidad en este tipo de encuestas el volumen dos número uno trae un excelente artículo sobre el diseño y calidad de encuestas WEB. ¿Alguien más sabe de esto?
Promedio y varianza en poblaciones finitas
Jul 4th
Seguramente todos alguna vez nos hemos preguntado de dosnde viene tanto la formaula del promedio como la expresión para la varianza. Lo cierto es que con la definicón del promedio no tiene ningún problema puesto que es natural, lógica y plausible. Por otro lado, la formulación de la varianza no es directa. Para los que hemos tenido la oportunidad de dictar un curso básico, siempres hay dos o tres alumnos que enuentran complicado esta definición, el restante la toma sin chistar, pero sin preguntarse, a la vez, por su origen.
En inferencia de poblaciones finitas, tanto design-based (Leslie Kish, Cochran) como model-assited based (Särndal) como model-based (Valliant, Royal, Skinner) es imprescindible conocer el espíritu de estas definiciones porque, al fin y al cabo, lo que se quieren estimar o predecir son totales, medias y varianzas.
Haciendo clic acá encontrará un excelente artículo del profesor Jorge Ortiz que hace un recuento del promedio aritmético y la varianza en grupos finitos de datos. Les aseguro, que después de realizar la lectura, les quedará un deseo por transmitir en clase (como docente o como alumno) el verdadero espíritu de tan usadas medidas.
Inferencia: Modelos o Aleatorización
Jul 27th

Las nociones de la inferencia en poblaciones finitas fueron expresadas hace más de 60 años en muchos libros clásicos como Cochran, Hansen, Hurwitz y Madow, Deming, Muthy, Des Raj y otros. La teoría de muestreo era aplicada desde la perspectiva misma de la selección aleatorizada de posibles muestras en la población finita. Dependiendo de las circunstancias prácticas, la selección se hacía de distintas maneras: muestreo aleatorio simple, muestreo aleatorio estratificado, muestreo de conglomerados, muestreo en dos etapas, etc. El muestreo era considerado como la actividad primaria y la estimación nunca fue considerada como una práctica separada sino como una consecuencia automática. Lo anterior se debía a que cada tipo de diseño de muestreo inducía un estimador cuyas propiedades estadísticas como el insesgamiento y la varianza eran establecidas de antemano con el diseño y así, la varianza era calculable y estimable.
Así que, para la década de los 60′s, muchos creyeron que la investigación en el campo del muestreo y de la inferencia en poblaciones finitas ya estaba muerta porque se deberían inventar nuevas formas de selección de muestras (tarea ardua y difícil), más allá de las que se cubrían en los libros clásicos del muestreo. Aunque el estimador de razón fue considerado en algún detalle por los textos de referencia, la inclusión de varias variables de información auxiliar no se vio como un tópico que prometiera rédito alguno para emprender el camino de la investigación en esa vía.
En la década de los 70′s, varios autores dieron un viraje en su perspectiva epistemológica de la inferencia en poblaciones finitas. Es así como Basú, Brewer, Godambe y Royall, entre otros, consideraron los modelos estadísticos (en sintonía con la estadística clásica Fisheriana) como los verdaderos fundamentos de la estimación e inferencia en poblaciones finitas. Su trabajo se cimentó alrededor de la posibilidad de tener una inferencia que dependiera estrictamente del modelo propuesto y no tuviera nada que ver con el diseño de muestreo utilizado en la recolección de los datos. Como consecuencia, la atención se tornó alrededor de la estimación y se dejo de lado el muestreo por la relación existente o propuesta entre la característica de interés y las variables de información auxiliar.
El camino que tomó la historia del muestreo fue, precisamente, la incorporación de las dos corrientes de pensamiento bajo una sola sombrilla. Así que, fue posible combinar la Aleatorización clásica con un percepción más general de la relación de y con x. No hubo necesidad de sacrificar los principios basados en la aleatorización. Así nació la inferencia asistida por modelos pero basada en ala aleatorización (model assited desig-based inference por su original en inglés). Este nuevo tipo de inferencia se hizo muy atractiva porque la regresión y los modelos acompañan al estadístico desde sus primeros cursos y van tomando más fuerzas a medida que se avanza en el camino universitario. Así que, este pensamiento “asistido por modelos” es un matrimonio efectivo y tolerante que permite las ideas de la regresión junto con el paradigma de la aleatorización.
Jan Wrettman opina que el ajuste de un modelo se ha convertido en parte integral de la teoría clásica del muestreo, aunque los principios de la misma deben permanecer intocables porque as propiedades de los estimadores son evaluadas con respecto al mecanismo de probabilidad que genera la muestra y no con respecto a cualquier modelo asumido.
Adaptado de JOS (2005)
Tecnología en estadística
Jun 7th
Las primeras experiencias de consultoría del estadístico egresado son del siguiente estilo:
Ok, señor estadístico… necesitamos que seleccione una muestra simple de n hogares para tal ciudad.
O también,
Ok, señor estadístico… necesitamos que seleccione n unidades experimentales para dos tratamientos y un control
No debería hacerse llamar estadístico aquel que, sin pensar en los fundamentos filosóficos del diseño estadístico, se sienta en frente del computador y realiza la selección de las n unidades.
Nos estamos haciendo máquinas operativas bastante caras, en algunos casos. En el ejemplo anterior, ya es demasiado tarde (incluso antes de la recolección de la información) porque las más importantes decisiones del diseño estadístico ya están tomadas. A saber: método de diseño, tipo y número de unidades primarias y número y clase de casos. Los aspectos cruciales del diseño estadístico no deberían decidirse, sin la oportuna intervención del estadístico que contribuiría bastante en la validación y eficiencia del diseño.
La estadística sin diseño estadístico es una ciencia incompleta, que en el campo laboral se torna aburrida y estresante. Ya lo diría el señor Fisher en 1935 cuando argumentaba que
“El estadístico no se puede excusar a sí mismo de la responsabilidad de aclarar su mente en cuanto a los principios de la inferencia científica, de igual forma ningún otro hombre pensante puede evadir esta obligación.”
Existe un núcleo común de problemas en materia de diseño estadístico en los diversos campos de las ciencias sociales, económicas, políticas y de mercado. Sin embargo, también existe una diferencia substancial en la teoría, métodos de medición y aspectos no estadísticos de los anteriores campos. Por supuesto, el análisis estadístico para cada campo es diferente y debe manejarse así. Pero los aspectos estadísticos de diseño pueden ser percibidos dentro de un marco común. El estadístico debe tener la habilidad de manejar el aspecto de diseño estadístico paralelamente con el análisis estadístico.
La mayoría de cursos estadísticos, libros y revistas tratan primeramente (o únicamente) con el análisis, la estimación y cálculo, dejando los problemas de selección, colección o minería de los datos a un lado. A veces, nos hundimos en las fórmulas matemáticas y nos olvidamos que éstas carecen de sentido estadístico sin los datos, y que en primer lugar se debe recolectar la información.
El diseño estadístico trata con los aspectos y problemas que pertenecen a la estadística y a los estadísticos, porque la estadística y los estadísticos estamos (o deberíamos estar) mejor equipados para lidiar con estos problemas que son omitidos del análisis estadístico, el cual está íntimamente ligado con el núcleo matemático. Se debe profundizar aún más en los métodos y filosofía de la estadística, porque la mayoría de estos son de tipo no matemático, aunque esta sea la razón por la cual son tan rechazados en la literatura clásica.
Es necesario buscar más fuentes de métodos para rodear el área de diseño estadístico, la fuentes más importantes provienen de estudios observacionales, investigaciones controladas, ensayos clínicos, diseño cuasi-experimentales, difundidos en varios campos de aplicación como en la epidemiología, psicometría o investigación social y económica.
PD1: El autor de esta entrada rechaza rotundamente la idea que ha venido tomando fuerza en algunos departamentos de estadística de cancelar los cursos de diseño estadístico y señala al respecto que no todos los estadísticos egresados están interesados en tener un PhD. Como decía un excelente profesor, ahora pensionado, el propósito de la vida es ser feliz. Por tanto es muy, pero muy respetable que el proyecto de vida de la mayoría de los egresados esté dirigido hacia el campo laboral y no hacia el campo académico. Si lo anterior es cierto, ¿por qué cancelar los cursos que, de alguna manera, preparan al estadístico en las buenas prácticas de selección de muestras y/o unidades experimentales?
PD2: Ha ganado Obama.
Apuntes de estadística en Facebook
May 29th
Muestreo bla, bla, bla.
May 29th
En la primera página de cualquier libro de texto clásico de inferencia estadística se lee lo siguiente:
Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas, para estimar el parámetro…
Cada palabra en el anterior enunciado es engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más, en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.
Esta afirmación fue hecha por una de las cabezas más brillantes (no sólo por su capacidad intelectual) del muestreo, el respetado Dr. Leslie Kish quien, también sugirió que se debería realizar una acotación en la academia en el momento de analizar la información con cualquier software de tipo estadístico como SPSS o TESI. Se debe tener conciencia de que los datos que se están analizando no han sido seleccionados mediante muestreo aleatorio simple con reemplazo y por lo tanto el cálculo de errores estándar que arrojaría el software resulta ser inapropiado. Es hora de que los paquetes estadísticos incluyan en sus análisis rutinas que permitan el ajuste del diseño de muestreo utilizado en la recolección de los datos, por ejemplo por conglomerados o estratos, que no han sido seleccionados mediante muestreo aleatorio simples con reemplazo.
Kish motivó a los estadísticos aplicados a entender completamente la relación existente entre conceptos tales como estratificación y regresión lineal. El lector debe notar que Kish ayudó a crear un departamento de Bio-estadística en los Estados Unidos que combina el diseño experimental y el muestreo, él afirma que estas dos ramas están ligadas en sus raíces por el principio de aleatorización.
Así mismo, afirmó que los libros actuales de muestreo no cumplen el cometido de enseñar el análisis adecuado de la información para la selección de muestras en una población, en vez de esto se dedican a enseñar fórmulas sin preocuparse realmente por la enseñanza del diseño de muestreo que ha venido siendo reemplazado por la inferencia basada en modelos poblacionales sin tener en cuenta el principio de aleatorización. Como Tukey dijo: Abrace a sus datos no al modelo. Los modelos pueden jugar papeles muy importantes en problemas de tipo genético o físico, pero juegan roles menos importantes en las ciencias sociales. No podemos vivir enteramente sin modelos, porque en un ejercicio práctico existe ausencia de respuesta y problemas del marco de muestreo. Los modelos deberían decir qué variables se tienen que incluir en una regresión y posiblemente la forma funcional de las ecuaciones. Sin embargo, los modelos no dicen el valor que los coeficientes de regresión toman y estas estimaciones están sujetas a variaciones de muestreo y efectos de diseño.
De todos los universos que se puedan suponer, en la vida práctica no existe ninguno que siga el patrón de la urna con bolas bien revueltas. En la práctica se trata con universos complejos y por tanto se deben utilizar diseños de muestreo complejos que contemplen el efecto de diseño.
No sume sus pronósticos
May 8th
A diferencia de muchas otras técnicas estadísticas que tienen reglas o rutinas que seguimos, el estudio de los modelos de series de tiempo es muy versátil, existen muchas técnicas: unas sencillas como los filtros de suavizamiento o el ajuste de un modelo de regresión contra el tiempo; otras más complicadas como los modelos de estado y su amigo inseparable: el filtro de Kalman o los modelos no lineales que han llamado mucha atención en las dos últimas décadas.
Desafortunadamente o afortunadamente, no existe un teorema o algo así que nos diga cuál técnica emplear en una determinada situación. Considere la siguiente situación:
Pablo tiene cuatro almacenes de productos de mascotas, y él tiene que decidir cuántos paquetes de Pedigree pedir al proveedor del producto para el siguiente mes. Además, supóngase que la fábrica hace un solo despacho del pedido a nombre de Pablo para los cuatro almacenes. Es decir, Pablo debe obtener un solo pronóstico para los cuatro almacenes.
Aunque existen modelos más sofisticados de naturaleza jerárquica que permiten una estimación precisa, una solución natural es examinar las cuatro series de venta de los cuatro almacenes y de éstas obtener un solo pronóstico. Pablo obtendrá un pronóstico para cada almacén, y sumaría los cuatro pronósticos como una solución unificada. Lamentablemente ésta conlleva ciertos inconvenientes, lo correcto debe ser sumar las cuatro series para obtener una sola serie que puede llamarse “paquetes de Pedigree que vende Pablo mensualmente”, y obtener pronósticos usando esta nueva serie. Tal vez a algunos usuarios, les parezca insignificante pronosticar antes de sumar o sumar antes de pronosticar. No es lo mismo, si primero pronostica y después suma los pronósticos, ¿cuál sería el intervalo de predicción para este pronóstico?, ¿se debería “sumar” también los cuatros intervalos de predicción de los pronósticos individuales?, ¿qué sentido tendría la suma de los errores de los cuatro pronósticos?
En la inferencia clásica cuando tenemos una muestra aleatoria, y se quiere hacer inferencia sobre la media poblacional, un buen estimador es la media muestral. Algunos usuarios están tan contentos con el promedio de los datos, que lo utiliza sin pensar dos veces en un análisis de series de tiempo. Y esto, en muchos casos, también es un error. Porque la característica fundamental de las series de tiempo, como su nombre lo indica, es su variación a través del tiempo. Siendo así, no debemos olvidarnos de la tendencia, la estacionalidad, el ciclo, etc.
¿Cuál es la probabilidad de victoria de Obama?
Apr 25th
Con los últimos resultados de las primarias en el estado de Pensilvania, la carrera electoral del partido demócrata parece un cuento de nunca acabar dado que Hillary Clinton insiste en dar la pelea hasta el final. Sin embargo, nuestra atención se centra en el escenario hipotético de las elecciones generales entre Hillary Clinton o Barack Obama versus John McCain. Mystery Pollster ha reportado los resultados obtenidos de una encuesta de votantes registrados en cada uno de los estados (estos resultados deberían ser revisados por los profesionales que trabajan en empresas de investigación de mercados que hacen investigación política porque la forma de presentación es muy interesante). Haciendo caso omiso de la calidad de los datos y suponiendo que el tamaño de muestra y estrategia de muestreo es el correcto vamos a utilizar el enfoque Bayesiano para calcular la probabilidad de que McCain sea derrotado en las elecciones generales.
Este es un problema natural para la aplicación de algunas ideas Bayesianas. Si utilizamos algunas distribuciones a priori no informativas, haciendo toda clase de supuestos acerca de la independencia y asumiendo que los resultados fueron obtenidos utilizando muestreo aleatorio simple (supuestos completamente ingenuos e irrazonables, pero para efectos prácticos completamente admisibles) podemos rápidamente obtener distribuciones a posteriori para el soporte de cada candidato en cada estado y así podemos calcular estimaciones acerca de la probabilidad de victoria. Luego, calcular la distribución posterior del número de votos electorales para cada candidato y encontrar las probabilidades (a posteriori) de que Obama derrote a McCain y Clinton derrote a McCain y porque no de que Obama derrote a Clinton.
Este ingenuo y rápido análisis utilizó las marginales reportadas por SurveyUSA. Esencialmente, se tomaron muestras de 50 distribuciones a posteriori de tipo Dirichlet para ambos escenarios hipotéticos, asumiendo distribuciones a priori planas y una densidad multinomial (que permite la inclusión de los indecisos); se asume que todos los votantes inscritos efectivamente votarán.
Cuando se hace esta simulación, se obtiene que la probabilidad posterior (condicional a los datos y al modelo) de victoria de Obama sobre McCain está cerca del 88% y la probabilidad de victoria de Clinton es de 72% y la probabilidad de que Obama gane más votos electorales en las primarias es de 70%.
Como antes se mencionó, este ejercicio es extremadamente ingenuo pues sub-utiliza el poder de la estadística Bayesiana. Hay un sin número de formas de hacerlo mejor, por ejemplo utilizar fuentes adicionales de incertidumbre, permitir la correlación entre los estados o usar información histórica para alimentar las distribuciones a priori e imponer una estructura jerárquica para disminuir la influencia de estimaciones atípicas con respecto a la gran media.
Utilizando el acercamiento Bayesiano en nuestro campo político criollo, podríamos también estimar la probabilidad de que en colombia se presente una hecatombe o en otras palabras de reelección indefinida. Sin embargo, si esa hecatombe se diera y, efectivamente, Uribe se presentara como candidato presidencial para siguiente periodo, no habría necesidad de realizar ningún esfuerzo Bayesiano.
¿Cuántas vidas ha salvado la estadística?
Apr 19th
Andrew Thomas sugiere que el método de propensity scores ha salvado miles de vidas porque su uso es muy frecuente en el ámbito médico y en la investigación de salud pública. La anterior afirmación nos lleva a la cuestión de cómo poder medir, estimar o predecir el número de vidas (o QALYs) salvadas mediante el uso de la técnica de propensity scores y después, si esto pudiera ser estimado, tendría sentido estimar el número de vidas salvadas mediante el uso de otras técnicas como mínimos cuadrados, regresión logística, curvas de Kaplan-Meier, etc. Si uno quisiera ser más general preguntaría cuántas vidas ha salvado la utilización de métodos estadísticos en total. Sería más conveniente si restringimos la estimación al campo de la salud pública y medicina. De otra forma, tendríamos dificultades, por ejemplo, al tratar de hacer el ejercicio de estimar cuántas vidas fueron salvadas (o perdidas) mediante investigación militar en la segunda guerra mundial.
De igual manera, sería interesante, y probablemente imposible, responder a la pregunta de cuántas muertes ha causado la utilización de métodos estadísticos. Por ejemplo, el estadístico Alan Wallis, fue contratado por el departamento de Guerra (como era conocido en ese entonces en Estados Unidos) para aplicar métodos estadísticos a los patrones de explosión de bombas y dispersión de metralla, con la intención de incrementar la probabilidad de daño severo (bajas humanas si era el caso) alrededor del objetivo.
Sin embargo, desde una retro perspectiva particular cuando recordamos lo que Jay Kadane decía: “Los estadísticos dejan de fumar antes que los doctores en medicina”, podemos afirmar que realmente hemos salvado muchas vidas. La anterior frase implica que nosotros nos damos cuenta de la relación natural del cáncer de pulmón y el hábito de fumar antes que otros profesionales. Podemos suponer que este hecho ha marcado un verdadero hito en la historia del comercio de los cigarrillos y podría ser el mayor salvavidas estadístico hasta el momento.
Estadística
Dec 23rd
“El futuro de la Estadística” por Bradley Efron.
Primero, Efron da una revisión al desarrollo acelerado de la Estadística en el último siglo. Él comenta que “La historia de la estadística en el siglo veinte está dada por la sorprendente y asombrosa historia de una colección de métodos numéricos caprichosos que se fusionan dentro de un vehículo central para el descubrimiento de la ciencia”.
Efron cita un ejemplo simple para ilustrar las limitaciones de la estadística clásica en los problemas concernientes a la selección de modelos y también hace un comentario, en forma figurativa, refiriéndose a que “La historia parece repetirse: hemos regresado a la era de procedimientos heurísticos promovidos con energía pero sin ninguna dirección”
Efron es un ejemplo interesante de un investigador estadístico que ha desarrollado y usado un conjunto diverso de herramientas como Bayes empírico basado en modelos y bootstrap no paramétrico o pruebas de permutaciones.
El vicio del pragmatismo en el desarrollo estadístico
Oct 29th
El pragmatismo es la noción de que el significado o valor de algo viene determinado por consecuencias prácticas. Se acerca bastante al utilitarismo, la creencia de que la utilidad es la medida de lo que es bueno. Para una persona pragmática o utilitaria, si una técnica o curso de acción tiene el efecto deseado, es bueno. Si no parece funcionar debe ser errado.… El pragmatismo tiene sus raíces en el darwinismo y en el humanismo. Posee un relativismo inherente que rechaza la noción de lo absoluto. En últimas define como verdadero todo aquello que es útil, lucrativo y ventajoso. Las ideas que no parecen viables son rechazadas como falsas.
Una vez más, imagínese el difícil trabajo de un estadístico zorro si pensara pragmáticamente… se quedaría frustrado con los mínimos cuadrados. El pragmatismo como examen de verdad debería tener menor peso en un ambiente de desarrollo académico en estadística porque los supuestos mismos en los que se basan la mayoría de los métodos estadísticos no pueden ser valorados por resultados porque incluso algunos ni siquiera son comparables.
Se debería dar una mayor ponderación al que a mi parecer es el único juicio de verdad admisible: la calidad y el buen desarrollo teórico de los métodos basados en sus supuestos.
Consejo de Hemingway
Oct 25th
Las estadísticas son zorras
Oct 7th
Los grandes científicos se dividen en dos clases, que Isaiah Berlín, citando al poeta Archilochus del siglo séptimo A.C., llamó zorros y erizos. Los zorros saben muchos trucos, los erizos solamente uno. Los zorros están interesados en todo y se mueven fácilmente de un problema a otro. Los erizos están interesados solamente en pocos problemas que consideren fundamentales, y trabajan con los mismos problemas por años o décadas. La mayor parte de los grandes descubrimientos son hechos por los erizos, la mayoría de los pequeños descubrimientos por los zorros.
La ciencia necesita de los erizos y de los zorros para su crecimiento sano: erizos para cavar profundamente en la naturaleza de cosas, zorros para explorar los detalles complicados de nuestro universo maravilloso
Albert Einstein era un erizo y Richard Feynman era un zorro.
Los principales estadísticos parecen haber trabajado en porciones de problemas grandes. Aunque sí tenemos unos cuantos erizos, las ideas sistemáticas desarrolladas a través de los años, se han convertido en una serie de útiles herramientas.
-
Laplace: posiblemente fuera un erizo en la teoría de las probabilidades, pero se conviertió en un zorro pues, con su trabajo en la estadística social (con encuestas), dió la motivación necesaria para desarrollar métodos bayesianos prácticos.
-
Gauss: los mínimos cuadrados son un gran logro. Estos se convirtieron en una herramienta matemática particular para solucionar algunos problemas del error de medida. En el contexto de su carrera, es un zorro.
-
Galton: se podría llamar un “erizo” por su obsesión con la regresión, pero pienso en él como un zorro.
-
Fisher: Es un zorro. Desarrolló métodos según lo necesitado.
-
Pearson: La familia de distribuciones huele a erizo, pero su legado, incluyendo las pruebas Ji, dan buenas pruebas de zorro.
-
Neyman: Quizás deseó ser un erizo, pero en última instancia era un zorro, él muchas hizo contribuciones a diversos problemas de estimación y juzgamiento de hipótesis.
¿Qué se puede decir sobre los principales estadísticos del siglo veinte?
Cox: zorro
Cochran: zorro
Tukey: estupendo zorro
Efron: zorro
Rubin: zorro
Tal vez, América Latina tendría un desarrollo significativo en materia de teoría y actualización estadística si fueramos un poco más zorros, si tuvieramos la mente abierta y nos permitieramos aprender cosas nuevas y aplicaciones desde otro punto de vista. Mi percepción es que la educación estadísitica tiene que ser integral, antes que nada somos estadísticos!!!
La gente no cree en cajas negras
Sep 19th
Profesores de Estadística
Facultad de Ciencias
Universidad Nacional de Colombia
Los dos más recientes directores del Departamento Nacional de Estadística, Dane, han renunciado de manera abrupta ante la sorpresa del país. En ambos casos, los directores han afirmado que su salida de la institución se relaciona con que al Gobierno Nacional no le satisface la información estadística que ha producido el Dane. Naturalmente, el Gobierno ha refutado estas versiones.
Más allá de la cuota de verdad en estas razones, es importante para el país enfrentar el debate permanente en que participan gremios, sindicatos, congreso e incluso algunas dependencias del mismo poder ejecutivo sobre la credibilidad de las cifras generadas por el Dane, más aún cuando el Director del Departamento que evalúa el desempeño del Gobierno a través de estadísticas es nombrado por el mismo Gobierno.
Este no es un fenómeno exclusivo de Colombia. Viendo las cosas en perspectiva, en casi todas partes y en forma recurrente ocurren este tipo de crisis. Lo definitivo no es dejarlas de lado, sino enfrentarlas.
La academia y los diversos institutos colombianos de investigación no han podido acceder a la información detallada ni a las metodologías empleadas en la realización del Censo Nacional de Población y Vivienda 2005, por cuanto la dirección del Dane, alegando que debe mantenerse confidencialidad estadística y protegerse la identidad de las fuentes de información, no ha entregado el llamado microdato.
No es cierto que se quiebre la confidencialidad estadística cuando se entrega el microdato. Por el contrario, con él y con las metodologías empleadas en la generación de las cifras se gana transparencia. La metodología de generación de indicadores de empleo no está disponible en la página web del Dane, por lo que para los académicos no es posible opinar sobre la integridad del método y la consistencia de los resultados.
Las metodologías de producción de cifras críticas para la generación de políticas públicas deben ser accesibles a la comunidad científica nacional, que constituye una masa crítica suficiente para garantizar en permanente revisión de la idoneidad de los métodos. La falta de transparencia mina la credibilidad del sistema.
Ante esta situación, profesores de estadística de la Universidad Nacional de Colombia proponen que se cambie la dirección del Dane, no el director, ni las características del director, sino que la cabeza del sistema estadístico nacional sea manejada de manera técnica y colegiada, para que así sea menos vulnerable a los avatares de la vida política y a los caprichos de un director transitorio.
El caso del censo 2005 alarma sobre la vulnerabilidad del Dane ante el manejo de un director: profundos cambios metodológicos se introdujeron en esta medición trascendental para el país, perdiendo comparabilidad con censos anteriores. Gran cantidad de recursos económicos, logísticos, informativos y una tradición estadística fueron puestos a disposición de una única persona.
No se cuestionan aquí los resultados del censo, ya se afirmó que datos y método aún son una caja negra, sino la vulnerabilidad del sistema estadístico y la falta de consistencia y continuidad de procesos, dados los cambios abruptos que genera un director, con un poder desmesurado sobre la institución, que toma decisiones unipersonales.
Profesores de estadística de la UN no están de acuerdo con lo propuesto por algunos líderes de opinión sobre que el Dane sea totalmente independiente del Gobierno Nacional. Primero, porque la generación de este tipo de cifras es obligación del Estado y porque la tendencia mundial indica que las instancias generadoras de estas cifras suelen estar vinculadas de manera directa con los gobiernos.
Lo que se propone aquí es que la conducción del Dane sea colegiada, con una Junta Directiva cuyos miembros sean idóneos técnicos conocedores de muestreo, encuestas, modelación de series temporales, medición de cambio de precios, modelos de evaluación, cuentas nacionales, modelos econométricos e indicadores de empleo, entre otros.
El Director del Dane, nombrado por el Presidente de la República, sería el Secretario General de esta Junta Directiva en la que no debe existir prevalencia de intereses sectoriales, ni políticos, sino un compromiso técnico que permita continuidad, consistencia y comparabilidad en la información generada por el sistema estadístico nacional, que mantenga una comunicación transparente y clara con los usuarios de los datos estadísticos: Estado, gremios y sociedad civil.
La declaración de Estambul
Sep 10th

Hace unos días llegó a mi correo, a través de la CCE (gran ausente en este blog), una carta abierta … de funcionarios del DANE. Ésta era una carta anónima que denunciaba, entre otros, la manipulación y el encubrimiento del micro dato. Aunque no estoy de acuerdo con el anonimato, sí estoy de acuerdo en que las estadísticas oficiales son un bien de dominio público. Los funcionarios y directivos de esta institución pueden tomarse unos minutos y revisar la declaración de Estambul (2007) y sobre todo aprenderse los principios fundamentales de las estadísticas oficiales (1994).
-
animar a las comunidades para que consideren, para sí mismos, lo que significa el “progreso” en el siglo XXI;
-
compartir las mejores prácticas en la medición del progreso social y aumentar el conocimiento de la necesidad de hacerlo con metodologías sanas y confiables;
-
estimular el debate internacional, basado en datos estadísticos sólidos e indicadores, en aplicaciones globales como el progreso y las comparaciones sociales del progreso;
-
producir una comprensión más amplia, compartida y de dominio público sobre las condiciones cambiantes, y destacar las áreas de cambio significativo o de conocimiento inadecuado;
-
abogar por la inversión apropiada en capacidad de construcción estadística, especialmente en países en vía de desarrollo, para mejorar la disponibilidad de los datos y de los indicadores necesitados para dirigir programas e informar sobre el desarrollo del progreso hacia metas internacionales, tales como las metas del desarrollo del milenio.”
Mejor dicho, ni mandado a hacer !!!
Simposio de Cali
Sep 8th
El Simposio de Estadística es un evento en cual la comunidad académica y profesional se reúne alrededor de un tema estadístico específico en busca de actualización, así como de oportunidades para presentar y discutir los trabajos de investigación, los desarrollos y las aplicaciones profesionales que al respecto se vienen realizando (en concordancia total con los objetivos de este blog). El tema central para la versión 2007 fue “ESTADISTICA EN LA EVALUACION DE RIESGOS”, se hizo énfasis tanto en los aspectos teóricos como prácticos. Este año el Simposio tuvo como institución anfitriona a la Universidad del Valle.
Introducción
Sep 2nd
Cualquier idea interesante con su contraparte práctica será publicada, específicamente trataremos temas de metodologías de muestreo, modelos lineales, estadística bayesiana y computacional, series de tiempo, y métodos multivariados.
Por supuesto, los comentarios que incentiven, corrijan y sugieran soluciones serán muy bien recibidos. Este blog es posible gracias al compromiso de profesionales en estadística con una amplia experiencia práctica y académica.



















Comentarios