“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Estadística
¿Le gustaría recibir entrenamiento virtual certificado en estadística aplicada?
Dec 2nd
Estamos por montar una plataforma virtual única respaldada por una excelente Universidad en América Latina. Se trata de hacer algo muy serio y efectivo para el entrenamiento de los profesionales que a diario están aplicando técnicas estadísticas en sus diferentes disciplinas. Los seminarios, cursos, diplomados y conferencias serán virtuales y estarán disponibles para todos nuestros profesionales de la región. Los inscritos recibirán una certificación válida por la Universidad.
Imagínese la cantidad de oportunidades que podrían generar con estos entrenamientos. Los temas son muy variados, por ejemplo, ¿le gustaría aprender estadística bayesiana? ¿le gustaría aprender a hacer macros en SAS o en SPSS o en R? Las opciones son ilimitadas y usted podría capacitarse, entre otros en: Bioestadística, Causalidad, Control de calidad, Data Mining, Diseño experimental, Econometría, Diseño de encuestas, Inferencia, LaTeX, Marketing, Métodos multivariados, Modelos estadísticos, Muestreo, Probabilidad, Psicometría, Software estadístico, Series de tiempo, Simulación, etc.
Para que este proyecto tenga éxito, le pido que por favor llene una encuesta muy breve que no le llevará más de dos minutos.
Llamado a árbitros
Sep 4th
La Revista Comunicaciones en Estadística reconoce el valor y la importancia de los árbitros en el proceso de editorial general. En este momento, queremos lograr las cualificaciones apropiadas para lograr nuestra inclusión en bases de datos nacionales e internacionales de revistas científicas. Para ello, necesitamos la asistencia de evaluadores externos que ayuden al comité editorial en la selección de artículos adecuados para la publicación en la revista.
En un esfuerzo por facilitar la selección de árbitros apropiados para la revista, le pedimos que se tome un momento para completar este formulario para nuestros archivos. Por favor, asegúrese de hacer clic en la casilla de verificación de revisión.
Gracias de antemano.
__________________________________________________________________________
Call For Reviewers
Our journal “Comunicaciones en Estadística” recognizes the value and importance of the peer reviewer in the overall publication process. Right now, we want to achieve appropriate qualifications for our inclusion in national and international scientific journal databases. For this, we need the assistance of external reviewers to help the Editorial Review Board select suitable papers for publication.
In an effort to facilitate the selection of appropriate peer reviewers for the journal, we ask you to take a moment to complete this form for our files. Please, be sure to click in the review check box.
Thanks in advance.
Muestreo y políticas públicas, una conversación en MAS
Aug 29th
Exactamente eso… una conversación amena con la mesa de trabajo del programa de radio MAS, de la Facultad de Estadística de la USTA.
Andrés Gutiérrez - Estadística, muestreo y políticas públicas
TEAM
Sep 5th
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.
Obtenga una visualización del texto acá (Google books)
Compre el libro acá (Librería de la U)
Compre el libro acá (Lemoine editores)
Compre el libro acá (Librería Nacional)
Puntos de venta:
Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)
Comunicaciones en Estadística Volumen 4 No. 1
Aug 8th

http://comunicacionesenestadistica.usta.edu.co/
En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.
Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.
Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.
El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.
Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.
Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.
Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.
Que no y que no y que no… ¡No es estratificado, es por cuotas!
Jul 13th
DG me escribe lo siguiente: Andrés, le escribo para sugerirle que incluya este artículo en su blog. Puede ser un error, pero si no lo es, la comunidad estadística debe manifestarse de alguna manera.
Se trata de una encuesta de percepción para la alcaldía de Bogotá, esta medición la realizó la firma encuestadora Ipsos Napoleón Franco y en la ficha técnica se puede encontrar esta descripción del diseño de muestreo: “Tipo de la muestra: Muestreo no probabilístico, aleatorio estratificado, por conglomerados.”
Lo único que puedo decir es “no hay derecho”… No hay derecho a que una firma tan respetable y de tanta trayectoria cometa este tipo de errores. Puede no serlo, pero a mi parecer no se trata de un error tipográfico sino de un intento de darle un estatus de ciencia a una encuesta que es simplemente una medición de percepción al azar. Se me antoja que, en este escenario, es muy aplicable el viejo y conocido refrán “confunde y reinarás“. Es una más de las expresiones de autenticidad de los empresario latinoamericanos.
Andrew Gelman afirma que una encuesta no es una encuesta, a no ser que se describa cómo fueron recolectados los datos y cómo se hizo el análisis de la información. De hecho, no es posible confiar en ningún reporte técnico que no explique la manera de recolección de la información; pero en este caso vale la pena, no sólo desestimar los resultados de la medición, sino también rechazar este tipo de prácticas que sólo confunden a la opinión pública. Si esta, o cualquier otra firma, contratara con el Estado para realizar un levantamiento de información que resultara ser “no probabilístico, pero aleatorio estratificado”, sí habría herramientas para levantar algún tipo de acción judicial. Es algo así como que se contratara un puente de concreto y el contratista entregara un puente de madera; algo como que se contratara una troncal en una gran ciudad y se entregara un camino de herradura; algo como que se contratara un dique para resistir el embate del invierno, y el dique se rompiera a las pocas semanas de haberse contruido. Qué vaina que los Colombianos nos acostumbremos a estas instancias tan mediocres.
Insisto, si hubiese una asociación de estadísticos en Colombia, podríamos hacer mucho ruido y tomar medidas conjuntas, como por ejemplo enviar una nota de protesta ante el Consejo Nacional Electoral, para que frene este tipo de prácticas hediondas. Pero ya habrá tiempo para eso… mientras tanto, seguiré escribiendo estas entradas para que alimenten la indignación de nuestro adormecido “gremio”.
Respuestas al manifiesto
May 17th
Algún lector anónimo escribe lo siguiente:
Andrés,
Para impulsar estas ideas, hay que empezar por el principio.
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.
¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
Saludes!
Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?
Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?
No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.
¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.
¿Para quién va dirigido el Workshop que hace la USTA?
Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.
Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.
Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.
No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.
Manifiesto: quiero ser cabeza de ratón
May 17th

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:
-
Impulsar la creación de la Asociación Colombiana de Estadísticos.
-
Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
-
Promover la institucionalización de la tarjeta profesional para los estadísticos.
-
Motivar la creación de un programa de posgrado en metodología de encuestas.
-
Posicionar la Revista Comunicaciones en Estadística.
-
Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
-
Crear una editorial de libros de texto en estadística.
Y lo más ambicioso y controvertido:
8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.
Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.
Soy parte de los 300mil
Apr 5th
Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.
¡¡¡Una vez más gracias!!!
Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)
Mar 31st

Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.
Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.
Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio U_d, para cualquier diseño de muestreo, es
Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra n para una población de tamaño N, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es
Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre U_d, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño N y con una muestra de tamaño n. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra n_d para una población de tamaño N_d. La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:
En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que N_d y N no son semejante; de la misma manera n_d y n tampoco lo son. La expresión implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio U_d. Por otro lado,
, implica una cuasi-varianza entre los valores de la característica de interés en el dominio U_d y muchos ceros para los individuos de la muestra que no pertenezcan al dominio U_d. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.
No estoy diciendo que la fórmula no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, N_d, y se controla el tamaño de la muestra del mismo, n_d, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, n_d, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula
que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra n_d. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, N_d, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:
La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:
Nótese que, si bien se siguen manteniendo las cantidades N y n, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio U_d. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco & Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:
Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.
> Doma <- Domains(SPAM) > estima <- data.frame(Income, Employees, Taxes) > SPAM.no <- estima*Doma[,1] > SPAM.yes <- estima*Doma[,2]
Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.
> E.SI(N,n,SPAM.no) Income Employees Taxes Estimation 3.799757e+05 5.721648e+04 1.094673e+04 Variance 8.821093e+08 1.691118e+07 1.647727e+06 CVE 7.816376e+00 7.187301e+00 1.172623e+01 > E.SI(N,n,SPAM.yes) Income Employees Taxes Estimation 6.166226e+05 9.045499e+04 1.655636e+04 Variance 1.013343e+09 1.786384e+07 2.540981e+06 CVE 5.162485e+00 4.672560e+00 9.627995e+00
Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.
> E.SI(N,n,estima) Income Employees Taxes Estimation 9.965982e+05 1.476715e+05 2.750309e+04 Variance 9.170756e+08 1.316354e+07 3.431910e+06 CVE 3.038662e+00 2.456913e+00 6.735759e+00
Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.
> estima<-Doma*Income > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 4.099213e+05 5.889897e+05 Variance 3.519767e+08 5.619366e+08 CVE 4.576742e+00 4.024723e+00 > estima<-Doma*Employees > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 6.172568e+04 8.640141e+04 Variance 4.890882e+06 8.149935e+06 CVE 3.582842e+00 3.304123e+00 > estima<-Doma*Taxes > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 1.180943e+04 1.581442e+04 Variance 1.207738e+06 2.215550e+06 CVE 9.305880e+00 9.412124e+00
Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) Income Employees Taxes Estimation 9.989111e+05 1.481271e+05 2.762385e+04 Variance 9.139133e+08 1.304082e+07 3.423289e+06 CVE 3.026395e+00 2.437911e+00 6.697884e+00
Guía rápida para probabilidad y estadística
Mar 6th
Matthias Vallentin, adscrito al Berkeley California Computer Science Institute ha desarrollado esta hoja de referencias que integra una variedad de temas de probabilidad y de teoría estadística. La versión más reciente de este documento está disponible en http://bit.ly/probstat.
Consultorio estadístico para Hispanoamérica
Mar 3rd
Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.
Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.
PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.
Mi artículo en la Revista ib del DANE
Jan 17th
Este artículo – publicado por la Revista ib virtual del DANE – está dirigido a todos los profesionales involucrados en la consecución de estadísticas oficiales para poblaciones grandes y relaciona el uso de la inferencia inversa con el principio de la representatividad. Después de una breve introducción, la segunda sección de este artículo define conceptos básicos que son necesarios para desarrollar el tema central del mismo; en la tercera y cuarta sección se expone el concepto de la representatividad en el diseño de muestreo y en la escogencia de estimadores representativos, respectivamente. En la quinta sección se presentan algunas ilustraciones de la práctica estadística, y finalmente en la última sección se dan algunas recomendaciones.
Para bajar el artículo haga clic acá.
Declaración sobre Ética Profesional del Instituto Internacional de Estadística
Jan 11th
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.
La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:
En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.
La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia. La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.
En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)
Blog stats
Jan 2nd
Los duendes de estadísticas de WordPress.com han analizado el desempeño de este blog en 2010 y te presentan un resumen de alto nivel de la salud de tu blog:

El Blog-Health-o-Meter™ indica: Wow.
Números crujientes
El Museo del Louvre tiene 8,5 millones de visitantes al año. Este blog fue visto cerca de 96,000 veces en 2010. Si el blog fuera una exposición en el Louvre, tomaría 4 días para verla.
En 2010, publicaste 70 entradas nueva, haciendo crecer el arquivo para 213 entradas. Subiste 81 imágenes, ocupando un total de 7mb. Eso son alrededor de 2 imágenes por semana.
The busiest day of the year was 13 de abril with 713 views. The most popular post that day was El gremio se pronuncia acerca de las recientes encuestas electorales de las elecciones en Colombia.
¿De dónde vienen?
Los sitios de referencia más populares en 2010 fueran search.conduit.com, facebook.com, usta.edu.co, es.wordpress.com y alexjzc.wordpress.com.
Algunos visitantes buscan tu blog, sobre todo por curtosis, apuntes de estadistica blog, valor p, p valor y modelos estadisticos.
Lugares de interés en 2010
Estas son las entradas y páginas con más visitas en 2010.
El gremio se pronuncia acerca de las recientes encuestas electorales de las elecciones en Colombia abril, 2010
14 comentários
La curtosis, una medida ampliamente conocida pero malinterpretada…. febrero, 2010
1 comentario
Modelos estadísticos junio, 2008
4 comentários
Seis simples técnicas para la presentación de datos mayo, 2008
11 comentários
Estrategias de muestreo noviembre, 2009
Posts más leídos en este 2010
Dec 31st
Ha sido verdaderamente un año muy completo… gracias a todos por leer, comentar y compartir las entradas de este blog… Feliz y prospero 2011. A continuación los artículos más leídos:
- La curtosis, una medida ampliamente conocida pero malinterpretada….
- Modelos estadísticos
- Seis simples técnicas para la presentación de datos
- Diagrama de torta
- Historia de la probabilidad (Era Primaria)
- Muestras representativas
- Métodos multivariados en Excel
- Acerca de la estadística Bayesiana
- El gremio se pronuncia acerca de las recientes encuestas electorales de las elecciones en Colombia
- Breve historia del muestreo (Design-based & Model-based)
Saludos a todos desde Colombia !!!!
Comunicaciones en Estadística Volumen 3 No. 2
Dec 21st
En este quinto número consecutivo de la revista Comunicaciones en Estadística nos encontramos frente a un cisma generado por la globalización del conocimiento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una iniciativa de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los institutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.
En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacional, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este procedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.
El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la identificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de covarianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.
Jiménez propone en su trabajo una nueva función de densidad simétrica que puede ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena alternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.
En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyentes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.
Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.
Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.
Desde la Facultad de Estadística de la Universidad Santo Tomás les agradecemos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.
Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)
Dec 18th
Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)
Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.
En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.
Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.
En la página de Colombia es pasión, es posible leer lo siguiente:
Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.
Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:
… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…
En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.
Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.
En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.
Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.
En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:
En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.
Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.
En materia de estabilidad social
Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país
En materia de compromiso estatal
La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.
En materia de buen gobierno por la gente
Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.
En materia de seguridad
El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios
Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.
Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis
Dec 4th
La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:
Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…
Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.
Entre los invitados nacionales están:
- Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
- Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá
Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.
- Estudiantes de pregrado: 100 mil pesos
- Profesionales: 150 mil pesos
- Participantes con poster o ponencia aprobada: 100 mil
La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:
heivarrodriguez@usantotomas.edu.co
Visualización de datos
Nov 29th
Hans Rosling, experto en visualización de datos, ha hecho este video para la BBC en donde discute el desarrollo de 200 países durante doscientos años. Se trata del análisis de la esperanza de vida en comparación con los ingresos per cápita, usando animación en el tiempo.
Muestreo 2
Nov 18th
Si usted es estadístico, por favor responda con sinceridad cada una de las preguntas que se realizan a continuación. Si su respuesta es negativa en al menos un ítem, le recomiendo muy sinceramente que asista cuanto antes a un curso de Muestreo II. Si usted es profesor de las asignaturas de Muestreo y no incluye al menos ocho de estos tópicos en su clase, le recomiendo muy enfáticamente que revise y actualice los contenidos de su clase. Hágame caso, mire que yo se lo digo… y se lo digo apoyado en Sharon Lohr, una de las más respetadas autoridades en el mundo del muestreo, y su reciente ensayo acerca del cuidado, alimentación y entrenamiento de los <<muestristas>>. Este ensayo fue escrito en honor a Morris Hansen y está enmarcado en el 2009 Morris Hansen Lecture del Statistics Sweden.
-
¿Sólo sabe estimar totales y medias? ¿qué de la estimación de razones, medianas, funciones de distribución y coeficientes de regresión?à Estimación de diversos parámetros en encuestas complejas.
-
¿Sabe cómo aprovechar la información auxiliar (discreta o continua) para mejorar la eficiencia del estimador? ¿conoce las técnicas avanzadas de estimación por regresión o post-estratificación?à Técnicas avanzadas de estimación asistida por modelos poblacionales.
-
¿Sabe calibrar una estimación? ¿qué pasa si la información auxiliar se relaciona con la característica de interés de una manera no lineal?à Introducción a los estimadores de calibración.
-
¿No tiene plata para levantar un marco de muestreo de elementos? ¿Quiere aumentar la eficiencia de la estrategia sin tener que invertir demasiado en recursos económicos?à Muestreo en dos fases.
-
¿Va a planear una encuesta para hacer sólo una pregunta? ¿ya entendió que en al momento de realizar una encuesta se quieren estimar cientos de parámetros con diferentes características de interés al mismo tiempo? ¿sabe cómo planear el mejor diseño muestral para la estimación conjunta de muchos parámetros?à Encuestas multi-propópsito.
-
¿Tiene un marco de muestreo relacionado con su población de interés? ¿quiere inferir en esa población sin gastar recursos en la consecución de un marco muestral?à Muestreo indirecto.
-
¿Quiere calibrar sus estimaciones desde la etapa de diseño muestral? ¿sabe cómo hacer que los estimadores más simples adquieran una mejor eficiencia que los estimadores avanzados?à Muestreo Balanceado.
-
¿Está trabajando en una encuesta no probabilística (cuotas, juicio, etc) y quiere hacer estimaciones estadísticas válidas? ¿cree que porque utiliza técnicas bayesianas puede no contemplar el diseño muestral de donde provienen los datos?à Estimación de parámetros sin contemplar un diseño muestral.
-
¿Quiere realizar inferencias en una subpoblación muy pequeña?; sin embargo, si el tamaño de muestra es muy pequeño o nulo en esa subpoblación ¿sabe cómo realizar este tipo de inferencias?à Introducción a la estimación en áreas pequeñas.
-
¿El porcentaje de no-respuesta en su encuesta es muy alto y, sin embargo, quiere realizar estimaciones precisas?à Introducción a la modelación de la ausencia de respuesta (No-respuesta).
-
Si los datos vienen de una encuesta compleja, ¿sabe usted que correr cualquier tipo de métodos estadísticos (regresión, ANOVA, clasificación, correspondencias, métodos multivariados e incluso, simples estadísticos descriptivos, etc.) con cualquier software comercial le guiará a malas e incorrectas estimaciones? ¿sabe cómo resolver este inconveniente?à Introducción al análisis estadístico de datos en encuestas complejas.
Dado que este tipo de tópicos es muy práctico, recomiendo que la calificación de esta materia se haga 100% basado en trabajos prácticos con datos reales provenientes de encuestas reales.
Premio 2010 al mejor investigador
Nov 13th

El día de hoy a eso de las cuatro de la tarde obtuve el premio Santo Tomás De Aquino en reconocimiento al mejor investigador del año de la Universidad Santo Tomás. Sólo quiero agradecer a Dios porque Él me ha dado la oportunidad de ganar esto y me ha mostrado en un momento difícil que no estoy solo. Este premio está dedicado a las personas que han hecho posible el desarrollo de la Facultad de Estadística en la universidad Santo Tomás con su apoyo, constancia y amistad en estos cortos dos años y medio de labores. Ellos tienen nombre propio, Hanwen Zhang, amada esposa y excelente profesional y docente; Yesid Rodríguez, entrañable amigo e inigualable apoyo en todos los procesos de la Facultad; Sánder Rangel, experto estratega, estupendo jefe y decano de la Facultad; Jorge Ortiz y Francisco Rincón, un día maestros y ahora colegas cuyo conocimiento y experiencia es invaluable.
Quiero dedicar esta entrada a ellos. Este premio no sería una realidad sin su valioso compromiso… Cada día vamos avanzando en la Facultad de Estadística, estoy convencido de que somos un gran equipo.
Gracias a ustedes,
Andrés Gutiérrez

Buena nuevas once again
Oct 29th
Según este informe de la sección de finanzas de CNN, la profesión de estadístico en Estados Unidos ocupa el tercer lugar entre los trabajos menos estresantes. La noticia dice así:
El buen equilibrio entre el pensamiento individual y la colaboración en grupo ayuda a pasar el día rápidamente para los estadísticos. Pero la oportunidad de trabajar en una variedad de entornos y al mismo tiempo el desarrollo de soluciones a problemas complejos, hace que los trabajadores se sientan realmente contentos. Por supuesto, un buen sueldo y seguridad en el empleo no duelen tanto.
Estadísticos de la UN celebraron primer día mundial
Oct 22nd
El profe Jorge Ortiz, docente de la Universidad Santo Tomás hizo presencia en este evento.
Agencia de Noticias: Estadísticos de la UN celebraron primer día mundial.
Algunos cambios contra el Alzhéimer
Oct 21st
Por si usted no lo sabe, cada uno de nosotros está en una competencia. Se trata de usted contra su primo alemán, el señor Alzheimer. Hace poco escuché que esta enfermedad está relacionada con los hábitos monótonos cultivados por décadas. Nada más fastidioso que un viejito lleno de mañas. Un conferencista famoso ha dicho que una de las tácticas para evitar caer en estos horribles hábitos monótonos está al alcance de la mano y se trata de: el cambio. Cambiar la forma de vestir, cambiar la ruta de camino a casa o al trabajo, cambiar de residencia, cambiar, cambiar y cambiar. De esta manera, el cerebro se ejercita.
Por tanto, para sacar una ventaja considerable en esta competencia he decidido cambiar algunas cosas de forma, no de fondo, en la apariencia de este blog y también en la red social que nos cobija, Facebook. He querido dar color al blog, por esto el tema ha cambiado y también el tipo de letra y los encabezados. Por otro lado, he decidido terminar con el grupo social en Facebook, en parte por las limitaciones que restringían la comunicación eficaz entre los integrantes. Esta comunidad en la red social ahora estará cobijada por una página WEB dentro de Facebook. Para hacer parte de esta nueva plataforma puede hacer clic en el botón ME GUSTA de la página oficial del Apuntes en Estadística en Facebook.
¡Un abrazo desde Colombia!
Andrés Gutiérrez
Feliz día estadísticos
Oct 20th
Hoy, 20 de octubre de 2010, el mundo celebra el día mundial de la estadística. Esperemos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los estadísticos en el mundo.
Esta es una iniciativa de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones están teniendo lugar en todo el mundo. Para conocer lo que esta sucediendo en tu parte del mundo puedes acceder a la página oficial del WSD (World Statistics Day).
Por ejemplo, en Estados Unidos, las asociaciones de estadística y las agencias federales de estadística ofrecerán un desayuno en el Capitolio; en Hong Kong, el departamento de censos ha organizado varias actividades incluyendo cursos en medición y mejoramiento de encuestas y una mini-exhibición sobre las estadística oficiales; en Italia, el edificio ISTAT se cubrirá con una gran cortina y sobre esta se proyectará un video conmemorativo a la estadística; la agencia de estadísticas canadienses ha producido el este video para honrar este día; En Australia se ha inaugurado una nueva publicación que promueve el uso de la estadística en el diseño de las politicas publicas basadas en evidencia estadística.
Aprovecho entonces esta oportunidad para congratularme con los lectores de este blog y desear a todos un muy feliz día. Y en tu país, ¿qué está ocurriendo?
Gráficos perfectibles
Oct 18th
La revista ENTER (clic acá) ha publicado un estudio de marketing acerca del comportamiento de la categoría de telefonía móvil en el mundo. A parte de no haber sorpresa alguna con el repunte del iPhone, se destaca un análisis gráfico muy pobre, tal vez salido de algún procedimiento de componentes principales o análisis de correspondencias. Aunque a algunos puristas teóricos de los métodos estadísticos dirán que los gráficos deben tener mas información que colores y poligrafía, yo opino que un gerente de marketing paga un dineral no solo por el estudio y la información contenida en este sino también por cómo se presenta esta información.
Estadística pragmática
Oct 6th
En este estupendo artículo, Robert Kass afirma que las marcadas diferencias entre las corrientes bayesiana y frecuentista han socavado – más que ayudado – al aprendizaje de la ciencia estadística. El frecuentista critica al bayesiano porque realiza inferencias subjetivas al escoger la distribución a priori de los parámetros de interés; el bayesiano critica al frecuentista porque la interpretación de confianza y significación sólo tiene sentido cuando se tiene en cuenta un número grande de experimentos controlados: por ejemplo, un intervalo de confianza del 95% se interpreta como que al calcular ese mismo intervalo 100 veces en muestras aleatorias, entonces 95 intervalos contendrán al parámetro de interés.
La verdad es que en la vida real, estos conceptos bayesianos o frecuentistas son de vital importancia y han ayudado a resolver cientos de miles de problemas de investigación. Por esto, Kass afirma que los estadísticos prácticos modernos deben tener una mente abierta para apreciar el papel que juegan los supuestos teóricos y no para recitar correctamente la interpretación de un intervalo de confianza. Así que, Kass hace un llamado para entrar en una especie de filosofía moderna que él llama, pragmatismo estadístico y que se basa en los siguientes puntos:
-
Los intervalos de confianza, la significación estadística y la probabilidad a posteriori son todas herramientas inferenciales valiosas.
-
Las situaciones de azar simple pueden suplir las intuiciones básicas acerca de la probabilidad de un evento.
-
Las frecuencias de largo plazo son importantes matemáticamente, tienen sentido interpretativo y pedagógico, sin embargo, es posible la asignación de probabilidades a eventos únicos: por ejemplo, que en un intervalo de confianza esté el parámetro de interés.
-
La interpretación subjetiva de la probabilidad a posteriori es importante para entender la inferencia bayesiana, pero no es fundamental en su uso.
-
Las inferencias estadísticas de todo tipo usan modelos estadísticos que requieren supuestos: las variables aleatorias, los intervalos de confianza y las probabilidades a posteriori viven en el mundo irreal de la teoría y se usan para concluir acerca del comportamiento de los datos reales.
El docente avezado debe tener en cuenta que el mundo real está constituido por los datos recolectados y que el mundo fantástico, muy útil y matemáticamente fundamentado pero en últimas irreal, está ligado a modelos probabilísticos de los cuales se extrae una muestra aleatoria para realizar inferencias acerca de uno o varios parámetros que definen el comportamiento estructural de un modelo supuesto. De esta manera, por ejemplo, en el mundo real se tiene acceso al promedio muestral de un conjunto de datos; en el mundo irreal, se tiene un estimador llamado, equis barra, que no denota una cantidad fija sino una variable aleatoria.
El proyecto IPSUR
Jul 31st
En Julio de este año, salió al ciberespacio la obra maestra de G. Jay Kerns. Él ha escrito una obra de alto talante que personalmente siempre quise leer… Se trata de un compendio introductorio de probabilidad y estadística con R… pero cuando digo con R quiero decir que R hace parte fundamental en la lectura y comprensión del texto… Se puede decir que el libro tiene dos partes: la primera enfocada con temas de probabilidad y la segunda con técnicas estadísticas. sin descartar la segunda, me parece que este texto resalta por su excelencia en la escritura de la primera parte… En los cursos de servicios de Probabilidad y Estadística es difícil realizar aplicaciones prácticas de probabilidad con algún software estadístico como SPSS o MINITAB o SAS y la estrategia del docente se remonta a la diagramación en tablero de árboles de porbabilidad siguiendo fielmente la teoría del libro de texto. Sin embargo, esta obra de Kerns, le permite al profesor llevar de la mano la teoría junto con la enseñanza de un software estadístico. Si el lector nota bien, se dará cuenta de que lo anterior conlleva a no sólo enseñar una matería sino también inculcar en el subconciente colectivo de la calse la necesidad de la computación para realizar estadística y la cultura del aprendizaje de R, hoy por hoy el más importante e influyente software estadístico en las aulas de clase. Me gusta este enfoque y fue precisamente lo que tratamos de hacer en <<Teoría Estadística: Aplicaciones y Métodos>> con los temas de inferencia estadística… llevar conceptos importantes como suficiencia, completez, insesgamiento, cotas de varianza a un lenguaje computacional estándar que sirviera como baluarte fundamental en la enseñanza de tales temas.
La segunda sección del libro de Kerns comprende técnicas estadísticas como pruebas de hipótesis, regresión o series de tiempo. No voy a ahondar en esto pues hay ya muchos libros que unifican estos conceptos con el software R. Esta obra hace parte de un proyecto adelantado por el mismo Kerns y por G. Andy Chang de la Youngstown State University. Como hace parte de un proyecto GNU… pues ¿adivinen qué? … sí, es grátis… la descarga del libro es gratis y viene acompañada de la descarga del paquete de R <<IPSUR>>. Ahora, que si lo quiere tener en formato de papel y así apoyar al autor, pues sólo debe adquirir su copia impresa por no más de 30 dólares americanos. Si usted ya es usuario de R siga las siguintes instrucciones para accede al paquete y al libro:
install.packages("IPSUR")
library(IPSUR)
read(IPSUR)
Pero esto apenas empieza, dado que es parte de un proyecto GNU, el autor de esta obra ha puesto a disposición de la comunidad los códigos LaTeX para que usted los modifique y pueda construir su propio libro (debe tener en cuenta el manejo de Sweave, LaTeX y BibTeX). Se trata de una obra sin antecedentes, no sólo por su contenido (libro y paquete) sino por el alcance que estoy seguro va a tener en el mediano plazo dadas sus técnicas de comercialización.
Nuevo portal WEB de la Revista Comunicaciones en Estadística
Jul 14th

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.
http://comunicacionesenestadistica.usta.edu.co
La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.
La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:
-
Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
-
Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
-
Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
-
Una revisión de los modelos de volatilidad estocástica.
-
Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.
Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a
revistaestadistica@usantotomas.edu.co
Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.
¡Las diez cosas que un estadístico no quiere oír jamás!
Jun 30th
- Yo nunca cursé ninguna asignatura de estadística ¿qué tan difícil es?
- No tengo un diseño.
- Sé que debí haber hablado contigo antes de realizar el experimento, pero…
- ¿Por qué debo hacer réplicas? ¡podría obtener un respuesta distinta!
- ¿Que debí haber aleatorizado qué?
- ¿Puede tener el diseño muestral listo para mañana?
- Cuando estábamos a mitad del experimento, decidimos cambiar…
- ¿Puedes hacerlo de tal forma que el p-valor sea menor que … ?
- Tengo muchísimas observaciones, como 23 419… de una misma vaca.
- ¿Tienes un minuto?
Top Posts
Jun 25th
Estamos en mitad de año, es tiempo de recordar y proyectarse hacia el futuro. Es tiempo de aprender de los errores y afianzar las cualidades que nos han llevado hasta acá en la carrera por alcanzar nuestras metas. A continuación algunas de las entradas más populares y más leídas del blog Apuntes de Estadística.
- Seis simples técnicas para la presentación de datos
- Modelos estadísticos
- Acerca de la estadística Bayesiana
- Métodos multivariados en Excel
- Muestras representativas
- Tecnología en estadística
- P valores aleatorios
A note about graphical representation to capture the consumer’s perception of a brand
Jun 10th

Finally, my article about correspondence analysis in marketing research has been published in the Journal of Interdisciplinary Mathematics… Here is the abstract:
<< Classical positioning researches use descriptive statistical methods that generate graphical displays, from a two-way table of frequencies or contingency table, in order to investigate relationships between brands and individual preferences for those brands. Most of times, the strategic plan of the company is based in such results. This paper presents a graphical methodology, based in a double-weighted correspondence analysis followed by two stage clustering, that attempts to plot the mind’s perception of the customer with respect to all of the brands in a competitive market. The result of this research is aimed to be a simple but powerful tool of the marketing researcher in the strategic marketing planning stage that complements the classical approaches and expands the vision of the managing staff such that good decisions could be taken. >>
The draft of the paper can be downloaded by clicking here. Full text is available after puchase by clicking here.
Tu eres parte de los 200mil
Jun 9th
Hace exactamente un año, el 8 de junio de 2009, este blog alcanzó los 100mil visitantes. Hoy, con certeza se puede afirmar que este es un espacio posicionado y reconocido por miles de personas que buscan un lugar de lectura amena y discusión de métodos estadísticos. Sea esta la oportunidad para agradezco a todos los lectores del blog, no sólo en mi amada Colombia, en donde curiosamente no es tan leido, sino en hispanoamérica y Estados Unidos.
Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 200mil vistias, 181 posts, 396 comentarios, cientos de correos electrónicos, 25 categorías, 76 etiquetas y una comunidad virtual de seguidores en FaceBook que recoge a más de 640 personas. Las cifras son asombrosas.
¡eh Lector!… una vez más gracias, no dejes de alentarnos con tus valiosos comentarios y frecuentes visitas… recuerda que tú, querido lector, eres la razón que fundamenta la existencia de este espacio.
Únete al grupo… Join us !!!
May 19th
Son más de seiscientos miembros que apoyan nuestra labor desde la red social más importante del mundo… Únete tu también haciendo clic acá !!!
Muestreo y análisis de encuestas en R (Parte II)
May 13th
Haciendo clic acá encontrará la segunda parte del curso seminario de muestreo y análisis de encuestas en R. En esta entrega, se profundiza en el diseño y estimación de encuestas con marcos muestrales para elementos pero con la bondad de que se conocen los valores de una característica de información continua para los elementos del marco de muestreo.
El objetivo de la presentación es utilizar la información auxiliar continua de manera adecuada en la implementación de una estrategia de muestreo con o sin reemplazo. Los temas son: muestreo de Poisson, muestreo PPT con reemplazo, muestreo piPT sin reemplazo y diseños exponenciales
PD: La primera entrega de esta serie de presentaciones ha sido todo un éxito. En unas pocas semanas cientos de colegas han accedido al documento y lo han descargado de Internet.
Ejercicios EM (capítulos 2, 3 y 4)
May 8th
Haciendo clic acá y acá encontrará algunos ejercicios que he preparado para mi cátedra de muestreo en la Facultad de Estadística de la Universidad Santo Tomás. Los ejercicios están basados en el libro EM y están planeados para que el estudiante interiorice que un buen <<muestrista>> debe pensar en las ventajas y desventajas de las estrategias (diseño de muestreo y estimador) que pueda implementar con ayuda del marco de muestreo de elementos y al final, con la mejor estrategia, selecciona un única muestra y realizar el proceso de estimación con el mejor estimador.
Convergencia e inferencia en métodos MCMC
Apr 27th
En este documento inédito del Handbook of Markov Chain Monte Carlo, Andrew Gelman y Kenneth Shirley resumen la manera de realizar inferencia estadística mediante simulación y diagnosticar la convergencia de las cadenas. Gelman tiene la capacidad envidiable de escribir claro y entretener al mismo tiempo. En un área tan compleja como los métodos MCMC, esta lectura es sencilla, agradable, clara y no utiliza ninguna fórmula matemática compleja.
En general, al construir un algoritmo que genere valores de una cadena de Markov ellos recomiendan lo siguiente:
-
Simular tres o más cadenas de forma paralela. Los valores iniciales de cada cadena deben estar dispersos entre sí.
-
Comprobar la convergencia de la cadena descartando la primera mitad de los valores generados en cada cadena. Esta etapa se conoce como burning stage.
-
Cuando las cadenas converjan, mezclar los tres conjuntos de valores generados por las cadenas. Esto garantiza, en primera instancia, que las cadenas no estén auto-correlacionadas.
-
Además de realizar esta mezcla, es siempre recomendable descartar valores intermedios. Esta etapa se conoce como thining stage. Al final se recomienda almacenar sólo 1000 valores simulados; sin embargo, este proceso depende del contexto y del problema de inferencia.
-
Calibrar el algoritmo de muestreo si la convergencia no se presenta rápidamente. Por ejemplo, en un algoritmo de Metropolis-Hastings, escoger una distribución jumping más acorde con la distribución de la cual se desea simular. En inferencia bayesiana lo anterior se traduciría en calibrar la distribución jumping para que su forma estructural sea más parecida a la distribución a posteriori.
-
Con base en lo anterior, es bueno comparar y contrastar los resultados con modelos simples que permitan examinar posibles discrepancias y corregir posibles errores de programación.
En términos de inferencia, el documento aclara que, aunque la tarea más común en estadística bayesiana (una de las corrientes más directamente beneficiada de los métodos MCMC) es realizar inferencias acerca de un parámetro , también es posible realizar cálculos acerca de los momentos del parámetro. Por ejemplo su esperanza. Estas dos opciones tienen tratamientos muy diferentes en términos de la cantidad de simulaciones requeridas para inferir. Por ejemplo, si el objetivo es inferir acerca de
, basta con unas cuantas simulaciones que se resumen en un promedio y una desviación estándar. Por otro lado, si el objetivo es inferir acerca de
, se requieren más simulaciones para obtener una precisión deseada. Además, Gelman recomienda que, una vez terminado el proceso de burning y thining, se dividan los valores en k grupos y una estimación de
será la gran media de las medias muestrales de cada grupo y el error estándar será la desviación estándar dividida en
.
Nuestro libro de estadística: Teoría Estadística, Aplicaciones y Métodos
Apr 7th
Hace unos pocos días hemos terminado un trabajo que desde hace unos años empezamos a gestar en la Facultad de Estadística de la Universidad Santo Tomás… se trata de un libro de teoría estadística que recoge la rigurosidad teórica y al mismo tiempo conduce al lector por el apasionante destino de la práctica estadística la cual ciertamente debe estar fundamentada en la teoría. Con este enfoque empezamos a divagar sobre cuál debería ser el orden de los contenidos y qué tópicos debería abordar el texto. Después de poco tiempo, propuse que debería ser el sentido común quien le diera el orden a los contenidos. El sentido común al que tanto apelaba Leslie Kish cuando, a grandes rasgos, afirmaba que las muestras no estaban dadas sino que debían ser recolectadas y analizadas.
Con base en lo anterior, verificamos que el análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución beta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque… tiene la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría que se desarrolla rigurosamente.
El libro está en proceso editorial y esperamos que en pocos meses esté disponible en el mercado hispanoamericano. Haciendo clic acá encontrará una visualización del texto. A continuación reproduzco el prologo, que muy amablemente fue escrito por Fabio Nieto, reconocido profesor e investigador del Departamento de Estadística de la Universidad Nacional de Colombia, sede Bogotá.
Sobre teoría estadística se han escrito muchos libros, indudablemente más en el concierto internacional que en el nacional. Sin embargo, cada vez que un lector se enfrenta a una nueva publicación sobre el tema, él quisiera detectar qué es lo nuevo, diferente o atractivo que se presenta o desarrolla en la obra que tiene en sus manos. Desde esta premisa, es muy agradable presentar este libro en el cual se marcan diferencias importantes con respecto a muchos otros escritos sobre la materia. En las líneas siguientes explicaré estas características significativas, para usar un término muy “estadístico”.
En virtud de la gran experiencia y habilidad en el manejo del lenguaje R por parte de los autores, el libro incluye muchos ejemplos ilustrativos de los conceptos fundamentales de la inferencia estadística, los cuales se han desarrollado con este lenguaje. Esto permite al lector comprender, por ejemplo entre muchas otras, la noción intuitiva de distribución muestral (o de muestreo).
Se incluye la teoría estadística básica de la inferencia multivariada, crucial en el entendimiento del comportamiento probabilístico de un vector de variables aleatorias y de las relaciones entre ellas. No es usual encontrar un trabajo en donde se incluyan conjuntamente, los contextos univariado y multivariado de la inferencia estadística.
Este libro es un buen punto de partida para el conocimiento e interiorización de la teoría estadística, por parte de estudiantes de una carrera de estadística, en el entendido de hacer de la práctica estadística una profesión. Además, podrá ser un gran soporte para la realización de estudios de posgrado, bien sea a nivel de profundización de conocimientos o a nivel de investigación.
En forma muy general, se puede afirmar que en la presente obra, la teoría y sus aplicaciones son presentadas de manera muy coherente y equilibrada; es decir, sin profundizar en lo teórico más allá de lo necesario y sin exagerar en la inclusión de las aplicaciones. Por esto y todo lo expresado anteriormente, me siento muy complacido de presentar este libro y de recomendarlo a un amplio conglomerado de lectores o usuarios de la estadística.
Fabio Nieto
A riesgo de quedar mal… Ayuda con series de tiempo
Mar 26th
Angélica Batista escribe:
Hola,
Buscando sobre series de tiempo me encontré con el blog de ustedes. Soy bióloga, llevo poco de graduada, y con el trabajo que desarrollo me encuentro con uno de mis mayores dolores de cabeza: No se analizar series temporales. Resulta que es algo que no explican en la universidad, consideran que a los economistas les resulta más interesante, pero en la biología son muchos los análisis de patrones de variables ecológicas relacionadas con el tiempo.
Resulta que por costos se deben reducir las frecuencias con las que se toman datos de diferentes variables en campo (llámese mar abierto). Durante 17 años se habían venido tomando datos 4 veces por mes, algunas semanas de algunos meses no se tomaron datos, por condiciones ambientales difíciles. Me dicen: <<da tu opinión, ¿crees que pudiéramos reducir la cantidad de salidas de campo al mes o al año, sin que esto implique que los resultados se alteren significativamente?>>
Bueno, lo que hice fue tomar lápiz y papel, dibuje una grafica de la variable de interés vs el tiempo en años, y les dibuje el escenario real de toma de datos. Les dije: <<supongamos que tomamos dos valores al azar de cada semana (no su promedio) para simular el escenario donde se toman la mitad de datos por semana, luego igual para el escenario de un valor por mes, y luego un escenario con un valor cada dos meses.>> Se me ocurrió que si las curvas no difieren significativamente entre sí, al menos entre la distribución real y al menos hasta la de una vez por mes, podría interpretar como qué características de tendencia y estacionalidad de la curva de la variable de interés en el tiempo pueden verse reflejadas tomando datos una vez por mes así como cuatro veces por mes. Y notando qué tan diferentes son entre sí, entonces se concluiría que se pierde información sobre esos atributos de las curvas.
Me dijeron, ¡perfecto! Hazlo… nunca he hecho nada parecido, solo analizar poblaciones de bichos. Así que he buscado y me encontré con series de tiempo, al no tener suficientes conocimientos al respecto me chocó mucho la forma que debo ingresar los datos a algún programa estadístico que me ayude a resolver la duda.
¿Qué puedo hacer? ¿Me pueden ayudar? ¿Qué me recomiendan leer?
Our reply:
Sin ser expertos en el manejo de series temporales, y corriendo un gran riesgo al escribir esto, las sugerencias son:
- Hay que mirar de qué periodicidad es la estacionalidad: si es semanal, entonces no se pueden omitir mediciones semanales. Sólo si la periodicidad es mayor a semanal (por ejemplo mensual) cabe la posibilidad de omitir mediciones semanales sin mayor pérdida de información con respecto a la estacionalidad. Si la periodicidad es mensual, no se deben tomar mediciones cada dos meses o cada tres meses, porque eso ocultaría la estacionalidad, conduciendo a conclusiones erróneas.
- Si va a omitir datos, hay que asegurarse que los datos siguen siendo igualmente esparcidos en el tiempo. Es decir, se mide siempre cada dos semanas, o siempre cada cuatro semanas, pero que no ocurra que a veces mide cada semana, a veces cada dos semanas.
- Ahora, el punto más importante es cómo saber si las curvas no cambian mucho en términos de la tendencia (en la metodología que usted explicó a su jefe o compañeros de trabajo). Hay herramientas estadísticas sofisticadas para ver eso, dadas tus condiciones, sugiero que hagas simplemente un suavizamiento. Y la razón es que las técnicas de suavizamiento permiten una mejor visualización de la tendencia, y así puedes fácilmente comparar la tendencia de las diferentes series y ver si la tendencia cambia mucho a medida que cambias la frecuencia con que toma las mediciones.
Ahora, agradecemos de antemano si otros colegas que lean esto pueden comentar acerca de una mejor solución.
TeachingSampling package updated
Mar 12th
Now it is available the latest version (v. 1.4.9) of the TeachingSampling package. Many colleagues, students and different people (both national and international) have contributed greatly to the development of this package. Although, I must admit that there are still some things that must be adjusted (such as the English grammar in the manual of the package), this entry is dedicated to realize some of these developments that have occurred since the first version (v. 0.7.6).
-
From (v.0.7.6) to (v.0.8.1) à The first correction was made by an Ukrainian colleague; on that occasion we had to adjust the programming of the sample selection under the systematic sampling design, in addition to this there were adjusted some drafting errors in the manual.
-
From (v.0.8.1) to (v.1.0.2) à Changes in this version included the adaptation of a function that generates all possible samples from a with-replacement design (having into account the order of selection) and the implementation of a function that allows the calculation of optimal inclusion probabilities in sampling design with multiple characteristics of interest.
-
From (v.1.0.2) to (v.1.1.9) à For this third version, Jorge Ortiz developed a method of handling large masses of sampling tables, resulting from estimations in R, for the automatic editing with LaTeX. This process is done using the functions DataFr and TbLatex.
-
From (v.1.1.9) to (v.1.4.9) à In this update the undergraduate students of the Statistics Faculty in the Universidad Santo Tomás were participating. Helbert Novoa skillfully developed a function that allows the calculation of the second-order inclusion probabilities matrix. Using this function, there we performed another function that calculates the variance-covariance matrix of the sample membership indicator variables (the matrix Delta_kl). As a teaching strategy, it is possible to check that, for any specific sampling designs, the entries outside the diagonal are negative. There were programmed another function that allows to calculate the theoretical variance (yes, the double sum expression) of the Horvitz-Thompson estimator for any sampling design. Moreover Jorge Ortiz developed a function that allows the generation of all samples with replacement (where the order does not matter) that allows the definition of the sample support for any fixed-size sampling design with replacement.
Finally, I emphasize – in a limited example – how useful this package may be in order to clarify basic concepts that must be rooted in the first classes of a course of sampling. In particular, I will refer to sampling with replacement: A sampling design is said with replacement if the resulting samples may contain repeated elements. Thus, the student may assert – incorrectly – that the set of all possible samples with replacement of size m = 2 in a population of size N = 3 is given by:
[,1] [,2]
[1,] 1 1
[2,] 1 2
[3,] 1 3
[4,] 2 1
[5,] 2 2
[6,] 2 3
[7,] 3 1
[8,] 3 2
[9,] 3 3
The popular belief says that the number of possible with-replacement samples is equal to N ^ m. Well, this is not precisely true. Using the function SupportWR we realize that the number of samples, in a well-defined sampling support, is smaller.
> SupportWR(3,2)
[,1] [,2]
[1,] 1 1
[2,] 1 2
[3,] 1 3
[4,] 2 2
[5,] 2 3
[6,] 3 3
Then the teacher can introduce the theoretical definition of the sampling design with replacement (that is not in Särndal et.al. 1992, but it is in Tillé 2006) and claim that the number of samples in the real support is equal to (M + m-1) combined (m) and that even if every element has equal probability of selection pk = 1 / N, not all samples are equally likely. This, results directly by linking the with-replacement sampling design to the multinomial distribution.
Finally, as a positive balance, I have to say that the TeachingSampling package, which was intended as a classroom tool for the professor of survey sampling, is being used by professionals and practitioner statisticians working for official institutions and marketing companies.
Novedades en TeachingSampling
Mar 12th
Ya está disponible la más reciente versión (v. 1.4.9) del paquete para la enseñanza del muestreo TeachingSampling. Muchos colegas, alumnos y conocidos (a nivel nacional e internacional) han contribuido grandemente al desarrollo de este paquete. Aunque debo reconocer que todavía faltan algunas cosas de forma que se deben ajustar (como por ejemplo la gramática inglesa en el manual del paquete), esta entrada está dedicada a observar algunos de esos avances ocurridos desde la primera versión (v. 0.7.6).
-
De (v.0.7.6) a (v.0.8.1) à La primera corrección la hizo una colega de Ucrania, en esa ocasión se debió ajustar la programación de la selección de muestras bajo un diseño de muestreo sistemático; además de esto se ajustaron algunos errores de redacción en los ejemplos del manual.
-
De (v.0.8.1) a (v.1.0.2) à Los cambios en esta versión incluían la adaptación de una función que generara todas las posibles muestras con reemplazo (en donde el orden de selección sí importa) y la implementación de una función que permitiera el cálculo de probabilidades de inclusión óptimas en un diseño de muestreo con múltiples características de interés.
-
De (v.1.0.2) a (v.1.1.9) à Para esta tercera entrega Jorge Ortiz desarrolló un método que permite el manejo de grandes masas de tablas de muestreo, resultantes de estimaciones en R, para la edición automática en LaTeX. Este proceso se hace mediante las funciones DataFr y TbLatex.
-
De (v.1.1.9) a (v.1.4.9) à En esta actualización participaron los estudiantes del pregrado en estadística de la universidad Santo Tomás. Helbert Novoa hábilmente desarrolló una función que permite el cálculo de la matriz de probabilidades de inclusión de segundo orden. Mediante el uso de esta función, se desarrollaron rápidamente una función que permite calcular la matriz de varianzas-covarianzas Delta (y comprobar que, si el diseño de muestreo es medible, las entradas por fuera de la diagonal son negativas) y otra función que permite calcular la varianza teórica (sí, la de la doble suma) del estimador de Horvitz-Thompson para cualquier tipo de diseño muestral. Por otra parte Jorge Ortiz desarrolló la función que permite la generación de todas las muestras con reemplazo (en donde el orden no importa) lo que permite tener acceso al soporte de muestreo para cualquier tipo de diseño muestral de tamaño fijo con reemplazo.
Por último, quiero enfatizar – mediante un ejemplo limitado – lo útil que este paquete puede resultar para aclarar los conceptos básicos que se deben arraigar en las primeras clases de un curso de muestreo. En particular, me voy a referir al muestreo con reemplazo: Un diseño de muestreo se dice con reemplazo si las muestras resultantes pueden contener elementos repetidos. De esta manera, es posible que el estudiante afirme – incorrectamente – que el conjunto de todas las posibles muestras con reemplazo de tamaño m=2 en una población de tamaño N=3 está dada por:
[,1] [,2]
[1,] 1 1
[2,] 1 2
[3,] 1 3
[4,] 2 1
[5,] 2 2
[6,] 2 3
[7,] 3 1
[8,] 3 2
[9,] 3 3
Lo anterior, resulta de la creencia popular que afirma que el número de muestras con reemplazo es igual a N^m. Pues bien, nada más falso que esta creencia. Utilizando la función SupportWR nos damos cuenta que en realidad el número de muestras, que dan origen al soporte de muestreo, es más reducido.
> SupportWR(3,2)
[,1] [,2]
[1,] 1 1
[2,] 1 2
[3,] 1 3
[4,] 2 2
[5,] 2 3
[6,] 3 3
Es aquí en donde el docente puede introducir la definición teórica del diseño muestral con reemplazo (que no está en Särndal 1992, pero sí está en Tillé 2006) y afirmar que el número de muestras en el verdadero soporte es (M+m-1) combinado (m) y que, incluso si cada elemento tiene igual probabilidad de selección pk=1/N, no todas las muestras del soporte tienen la misma probabilidad de selección. Lo anterior, resulta directamente de vincular el diseño de muestreo con reemplazo a la distribución multinomial.
Como balance positivo se tiene que el paquete TeachingSampling, que fue pensado como protagonista en la enseñanza del muestreo y en el aula de clase, está siendo utilizado por profesionales en la vida práctica, en la vida real, que necesitan una herramienta eficiente para la selección de muestras y la estimación de parámetros en poblaciones finitas (léase, en las poblaciones reales).
EM nuevamente para compra online
Mar 10th
Estrategias de muestreo ha tenido gran éxito, la primera impresión se agotó rápidamente y llegó a estar no disponible por un periodo corto en el portal de internet que lo distribuye. Sin embargo, la segunda impresión está disponible nuevamente.
Saludos de www.lalibreriadelau.com, Conocimiento y cultura. Nos complace informarle que la obra Estrategias de muestreo. Diseño de encuestas y estimación de parámetros, que no se encontraba temporalmente disponible para venta, está disponible en este momento en nuestro portal. Si desea consultarla clic aquí.
Otra agradable propiedad del p-valor: no es una medida de soporte
Mar 4th
John D. Cook citando un artículo de Mark Schervish afirma que los p-valores están siendo usados por los usuarios de la estadística como medidas de soporte (además de algunas otras malinterpretaciones) cuando éstos precisamente se caracterizan por carecer de consistencia como medidas de la evidencia a favor de un conjunto de hipótesis. Al respecto, Cook explica que si es posible obtener evidencia de que cierto animal es un oso, entonces debe existir también evidencia para afirmar que ese animal es un mamífero. Nótese que en el ejemplo de Cook existen dos hipótesis: la primera hace referencia a que el animal es un oso y la segunda a que el animal es un mamífero y, por supuesto, la primera está contenida en la segunda. Ahora, utilizar los p-valores como una medida de soporte a favor de la evidencia de la segunda hipótesis puede ser una muy mala idea.
Una medida de soporte debería satisfacer la siguiente propiedad (muy útil en el contexto de comparaciones múltiples):
Si una hipótesis H1 implica una hipótesis H2, entonces una medida de soporte es coherente si el rechazo de H2 siempre implica el rechazo de H1
En palabras de Cook:
Si una hipótesis H1 implica otra H2, entonces la evidencia a favor de H2 debe ser al menos tan grande como la evidencia en favor de H1
Teniendo en cuenta este criterio, se sigue que el p-valor es una pésima medida de soporte. Schervish lo explica con el siguiente ejemplo: Suponga que se observa la realización de una variable aleatoria con distribución normal de varianza uno y media desconocida. Sea H1: y sea H2:
. Claramente el espacio paramétrico de H1 está contenido en H2 y, por consiguiente, H1 implica H2. Ahora, si la observación correspondió a x=2.18 entonces el p-valor para H1 es de 0.0502, mientras que el p-valor para H2 es de 0.0498. Lo anterior implica que, tomando el p-valor como medidas de soporte, existe más evidencia a favor de H1 que a favor de H2, lo cual es contradictorio con el sentido común. Más aún, si el nivel de significación es de 0.05, la regla de decisión implicaría que debemos rechazar H2 y aceptar H1. En otras palabras: la media de la distribución puede estar entre (-0.5, 0.5), pero de ninguna manera puede estar entre (-0.82, 0.52), lo cual es muy contradictorio.
¡Lo hicimos!
Mar 1st
La respuesta fue masiva… los estadísticos logramos ser reconocidos en la base de datos de ELEMPLEO.COM…
Estimado usuario:
Hemos incluido la profesión estadístico en nuestra base de datos, muchas gracias por su sugerencia, para que esta funcione es necesario que las personas actualmente tienen su hoja de vida en nuestra base de datos la actualicen sería muy valioso si pudiéramos contar con su colaboración para difundir este mensaje.
Cordial Saludo,
Monica Patricia Delvalle Ayala
Servicio al Cliente elempleo.com




















Comentarios