“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
R
Calibración de razones
Sep 28th
El método de calibración es uno de los más utilizados en términos de estadísticas oficiales. De hecho, el último censo en Colombia utilizó este método para calibrar las estimaciones en la población. Un momento, si se supone que es censo, ¿de qué estimaciones está hablando?… ¡Jum! … pues fue censo pero no todos respondimos los mismos cuestionarios y los encuestadores descubrieron cómo hacer trampa en sus dispositivos y hubo 800 doctores (PhD) en chocó y muchos apartamentos en el parque nacional. En fin, el tema no es el censo, el tema de esta entrada es esta técnica que nos permite hallar nuevos ponderadores que inducen una estrategia de muestreo muy eficiente e insesgada. Estos nuevos pesos, wk, se construyen de tal forma que sean muy cercanos a los pesos originales, que son el inverso de la probabilidades de inclusión. Esta cercanía asegura que el estimador resultante sea insesgado asintóticamente. Además, este método tiene otras agradables propiedades, como la consistencia. Es decir, dada una característica de información auxiliar, para la cual se conoce el total poblacional, tx, entonces, sin importar la muestra seleccionada, siempre el estimador de calibración para la información auxiliar, reproducirá el total verdadero. Mejor, dicho
Esta propiedad es buena porque si x está bien relacionada con y, entonces las estimaciones del total de y serán muy cercanas al total desconocido. Sin embargo, hace unos días leí este artículo de Eric Lesage, en donde advierte un resultado que me dejó “calibrado”… Tal vez ustedes ya lo sabían, pero como el artículo es de Junio de este año, entonces pienso que la mayoría de los lectores no lo saben. Así que voy a reproducir este resultado. Y espero que a usted también lo sorprenda.
De manera tradicional, para calibrar es necesario conocer el total auxiliar tx. Sin embargo, Imagínese que no se conoce ese total, pero sí se conoce la razón poblacional, R=ty/tx, que es un parámetro poblacional que es estable en el tiempo. Enfatizo en que lo que sí se conoce es la razón, pero no se conoce ni el numerador ni el denominador. Entonces, siendo así, es posible utilizar el método de calibración para estimar eficientemente tanto el numerador ty como el denominador tx. Entonces, si calibramos la razón, para cualquier muestra, sea cual sea, la división de con siempre será contante e igual a R.
Resultado: Calibrar sobre una razón R es equivalente a calibrar sobre el total de una nueva característica auxiliar zk=(y_k)-(R)(x_k). Es decir, después de calibrar surgen unos nuevos pesos wk inducidos por esta metodología. Esos pesos se utilizarán para estimar ty, mediante la siguiente expresión y esos mismos pesos se utilizan para estimar tx, mediante la siguiente expresión . Luego,
Ejemplo con Marco y Lucy: utilizaremos la base de datos propia del paquete computacional TeachingSampling para reproducir este resultado. Suponemos que se conoce la razón entre el ingreso y los impuestos de las empresas del sector industrial en un país. Además se asume que esta razón ha presentado muy poca variación durante los últimos años y que es igual a R=36.12. Lo que quiere decir que por cada peso que las empresas declaran como impuesto, existe una ganacia de 36 pesos. El siguiente código se utiliza para la selección de una uestra MAS de tamaño n=1000.
# Draws a simple random sample without replacement require(TeachingSampling) data(Marco) data(Lucy) attach(Lucy) ty=sum(Income) tx=sum(Taxes) R=ty/tx N <- dim(Marco)[1] n <- 1000 sam <- S.SI(N,n) # The information about the units in the sample is stored in an object called data data <- Lucy[sam,] attach(data) names(data) # Vector of inclusion probabilities for units in the selected sample Pik<-rep(n/N,n)
Y el siguiente código se utiliza para hacer la calibración de las características de interés sabiendo que la razón entre las estimaciones de Ingreso e Impuestos será siempre 36.12. Note que el total tz es siempre cero porque se anulan algunas expresiones puesto que tz=ty-Rtx=ty-(ty/tx)tx=ty-ty=0.
estima<-data.frame(Income, Employees, Taxes) z <- Income-R*Taxes tz <- 0 b <- E.Beta(estima,z,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,z,tz, b, b0=FALSE) Income Employees Taxes Estimation 1.037084e+06 1.505399e+05 2.870518e+04 Variance 1.002338e+08 2.414943e+06 7.679034e+04 CVE 9.653684e-01 1.032290e+00 9.653684e-01
Por último, el siguiente código verifica que sí se presente la propiedad de calibración sobre la razón. Nótese que =0.
Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)
Sep 8th
Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto.
Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un copyright y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.
Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. El ejercicio es meramente académico y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.
El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.
En esta primera entrada, desarrollaremos un análisis básico con base en una primera encuesta realizada del 12 al 14 de Agosto por la firma Ipsos – Napoleón Franco, en donde según el portal WEB de la revista Semana se afirma que:
<<Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%>>.
Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis.
Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el portal WEB de ElTiempo.com afirma que:
<<Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%>>.
Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.
Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:

Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, aunque sea muy difícil, suponiendo que los datos son válidos, es de 0.97.
PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.
PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.
PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.
TEAM
Sep 5th
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.
Obtenga una visualización del texto acá (Google books)
Compre el libro acá (Librería de la U)
Compre el libro acá (Lemoine editores)
Compre el libro acá (Librería Nacional)
Puntos de venta:
Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)
Mi artículo de muestreo en Comunicaciones en Estadística 2011
Aug 8th
Una estrategia de muestreo es una dupla compuesta de un diseño de muestreo y un estimador, en este artículo se tratará el problema de escoger una estrategia de muestreo representativa para las variables auxiliares con el fin de aumentar la precisión de las estimaciones del total de una variable de interés en una población finita. Aunque existen diseños de muestreo y estimadores que inducen estrategias representativas, se concluye, por medio de una simulación de Monte Carlo que, en términos de eficiencia, no siempre es mejor utilizar un estimador de calibración bajo un diseño de muestreo balanceado, como uno podría suponer.
El artículo lo pueden descargar haciendo clic acá.
Comunicaciones en Estadística Volumen 4 No. 1
Aug 8th

http://comunicacionesenestadistica.usta.edu.co/
En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.
Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.
Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.
El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.
Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.
Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.
Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.
I Concurso de Análisis de Datos con R
Jul 17th
Como una actividad complementaria a las III Jornadas de Usuarios de R, a celebrar en Madrid el 17 y 18 de noviembre de 2011. Nestoria y Lokku Labs buscan mejorar la comprensión y la información que se puede obtener de sus bases de datos y pretenden contactar con brillantes estadísticos que aporten un valor añadido a los datos disponibles sobre precios de viviendas. Los organizadores, por su parte, desean mostrar las aplicaciones del R en el ámbito empresarial y demostrar el beneficio que pueden obtener las empresas analizando sus bases de datos con R.
1.500€ en premios… y más
El ganador obtendrá un cheque por importe de 1.000 euros y el segundo otro por 500 euros, además del certificado correspondiente en ambos casos. El concurso se podrá declarar desierto si el jurado considera una escasa calidad o interés en los trabajos presentados. Asimismo, uno o más de los participantes podrán ser invitados a una entrevista de trabajo en Londres, Reino Unido, para una colaboración inicial de tres meses en la sede central de Nestoria. Todos los participantes recibirán un certificado de su participación en el concurso con el título de su trabajo.
La página de las bases de la competición es: http://www.usar.org.es/concurso_es.php
Respuestas al manifiesto
May 17th
Algún lector anónimo escribe lo siguiente:
Andrés,
Para impulsar estas ideas, hay que empezar por el principio.
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.
¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
Saludes!
Querido lector anónimo… gracias por su comentario… Permítame responder a sus acotaciones:
¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?
Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de <<buenos profesores>>. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.
¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?
No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.
¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?
No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.
¿Para quién va dirigido el Workshop que hace la USTA?
Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.
Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.
Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.
No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.
¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística. Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.
Manifiesto: quiero ser cabeza de ratón
May 17th

Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:
-
Impulsar la creación de la Asociación Colombiana de Estadísticos.
-
Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.
-
Promover la institucionalización de la tarjeta profesional para los estadísticos.
-
Motivar la creación de un programa de posgrado en metodología de encuestas.
-
Posicionar la Revista Comunicaciones en Estadística.
-
Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.
-
Crear una editorial de libros de texto en estadística.
Y lo más ambicioso y controvertido:
8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.
Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.
Soy parte de los 300mil
Apr 5th
Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y una comunidad de seguidores en un grupo de FaceBook que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado más de 63 ofertas laborales para los estadísticos, principalmente en Colombia.
¡¡¡Una vez más gracias!!!
TeachingSampling v2.0.1 now on CRAN
Apr 4th
The latest version of the TeachingSampling package is now available for download. Discover the newest features in the package !!!
Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)
Mar 31st

Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.
Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.
Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio U_d, para cualquier diseño de muestreo, es
Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra n para una población de tamaño N, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es
Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre U_d, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño N y con una muestra de tamaño n. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra n_d para una población de tamaño N_d. La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:
En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que N_d y N no son semejante; de la misma manera n_d y n tampoco lo son. La expresión implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio U_d. Por otro lado,
, implica una cuasi-varianza entre los valores de la característica de interés en el dominio U_d y muchos ceros para los individuos de la muestra que no pertenezcan al dominio U_d. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.
No estoy diciendo que la fórmula no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, N_d, y se controla el tamaño de la muestra del mismo, n_d, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, n_d, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula
que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra n_d. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, N_d, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:
La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:
Nótese que, si bien se siguen manteniendo las cantidades N y n, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio U_d. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco & Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:
Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.
> Doma <- Domains(SPAM) > estima <- data.frame(Income, Employees, Taxes) > SPAM.no <- estima*Doma[,1] > SPAM.yes <- estima*Doma[,2]
Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.
> E.SI(N,n,SPAM.no) Income Employees Taxes Estimation 3.799757e+05 5.721648e+04 1.094673e+04 Variance 8.821093e+08 1.691118e+07 1.647727e+06 CVE 7.816376e+00 7.187301e+00 1.172623e+01 > E.SI(N,n,SPAM.yes) Income Employees Taxes Estimation 6.166226e+05 9.045499e+04 1.655636e+04 Variance 1.013343e+09 1.786384e+07 2.540981e+06 CVE 5.162485e+00 4.672560e+00 9.627995e+00
Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.
> E.SI(N,n,estima) Income Employees Taxes Estimation 9.965982e+05 1.476715e+05 2.750309e+04 Variance 9.170756e+08 1.316354e+07 3.431910e+06 CVE 3.038662e+00 2.456913e+00 6.735759e+00
Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.
> estima<-Doma*Income > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 4.099213e+05 5.889897e+05 Variance 3.519767e+08 5.619366e+08 CVE 4.576742e+00 4.024723e+00 > estima<-Doma*Employees > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 6.172568e+04 8.640141e+04 Variance 4.890882e+06 8.149935e+06 CVE 3.582842e+00 3.304123e+00 > estima<-Doma*Taxes > tx <- c(937, 1459) > b <- E.Beta(estima,Doma,Pik,ck=1,b0=FALSE) > GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) no yes Estimation 1.180943e+04 1.581442e+04 Variance 1.207738e+06 2.215550e+06 CVE 9.305880e+00 9.412124e+00
Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.
> GREG.SI(N,n,estima,Doma,tx, b, b0=FALSE) Income Employees Taxes Estimation 9.989111e+05 1.481271e+05 2.762385e+04 Variance 9.139133e+08 1.304082e+07 3.423289e+06 CVE 3.026395e+00 2.437911e+00 6.697884e+00
Sobre blogs, publicaciones, arbitrajes y zorros: una conversación con Sander Rangel
Mar 15th
Exactamente eso… una conversación amena con el decano de la Facultad de Estadística de la Universidad Santo Tomás.
Andrés Gutiérrez & Sander Rangel - Nuevas tendencias y herramientas virtuales en la estadísticaEfectivamente, el estimador de Horvitz-Thompson es insesgado (nuevas funciones en TeachingSampling)
Mar 7th
En los parciales de muestreo, a veces acostumbro a pedirle al estudiante que demuestre o refute mediante un contraejemplo algunas afirmaciones. Por ejemplo, una de mis favoritas es la siguiente:
“Demuestre o refute: El estimador de Horvitz-Thompson es insesgado para cualquier diseño de muestreo”
Es claro que el estimador de Horvitz-Thompson es insesgado pues así lo dice un resultado cuya demostración es sencilla. Sin embargo, cuando el estudiante se encara con este tipo de ejercicios, debe pensar si la afirmación es correcta o si existe algún contraejemplo que pueda refutarla. En la búsqueda de contraejemplo, es posible plantearse diversos tipos de situaciones.
Por ejemplo, están los diseños de muestreo sin reemplazo de tamaño fijo, los diseños de muestreo sin reemplazo de tamaño aleatorio y los diseños de muestreo con reemplazo de tamaño fijo. En los dos primeros escenarios, no existe ningún inconveniente, puesto que el profesor siempre utilizará estos casos para ilustrar que efectivamente el estimador de Horvitz-Thompson es insesgado. Sin embargo, un desafío importante al que se enfrentan los estudiantes es al tratar de mostrar el insesgamiento de este estimador en diseños de muestreo con reemplazo.
Como resultado de esta búsqueda, muchos estudiantes se detienen en el escenario de muestras con reemplazo y concluyen que el estimador de Horvitz-Thompson es sesgado cuando se tienen diseños con reemplazo. La verdad, son muchos los estudiantes que llegan a esta conclusión. Ahora, no estoy diciendo que estos estudiantes no hayan comprendido efectivamente el funcionamiento del estimador. A lo que me refiero es que es un deber del docente, plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Tal vez este sencillo ejemplo sea de utilidad para docentes o estudiantes que quieran profundizar en la técnica de Horvitz-Thompson bajo muestreos con reemplazo. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.
A continuación ilustraré el razonamiento equivocado:
Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es con reemplazo de tamaño fijo m=2. En este escenario, el soporte contiene 6 posibles muestras. Dado que se trata de un muestreo con reemplazo, definamos la probabilidad de selección de las unidades como 0.9, 0.05 y 0.05 para cada elemento. Luego, es sencillo calcular las probabilidades de inclusión de primer orden, así como las probabilidades de selección de las muestras (dadas por la distribución multinomial). Para esto utilizamos la función pWr y comprobamos que, en efecto, la suma de estas probabilidades sea uno.
> library(TeachingSampling)
> pk <- c(0.9,0.05,0.05)
> pk
[1] 0.90 0.05 0.05
> pik <- 1-(1-pk)^m
> pik
[1] 0.9900 0.0975 0.0975
> p <- pWR(3,2,pk)
> p
[1] 0.8100 0.0900 0.0900 0.0025 0.0050 0.0025
> sum(p)
[1] 1
Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportWR se obtienen las posibles muestras de este diseño:
> Q <- SupportWR(N,m)
> Q
[,1] [,2]
[1,] 1 1
[2,] 1 2
[3,] 1 3
[4,] 2 2
[5,] 2 3
[6,] 3 3
La función nk arroja el número de veces que un elemento es selccionado en las muestras:
> IndWR <- nk(3,2)
> IndWR
[,1] [,2] [,3]
[1,] 2 0 0
[2,] 1 1 0
[3,] 1 0 1
[4,] 0 2 0
[5,] 0 1 1
[6,] 0 0 2
Justo acá se presenta el inconveniente en donde es fácil confundirse. Alguien podría pensar: ok, el primer elemento ha sido seleccionado dos veces para la primera, luego el estimador debería incluir la información de este elemento dos veces. Con esto en mente, los posibles valores de la característica de interés son:
> Qy <- SupportWR(N,m, ID=y)
> Qy
[,1] [,2]
[1,] 10 10
[2,] 10 20
[3,] 10 30
[4,] 20 20
[5,] 20 30
[6,] 30 30
Por lo tanto, utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite, también se repite la información en el estimador:
> HT1<- HT(Qy[1,], pik[Q[1,]])
> HT2<- HT(Qy[2,], pik[Q[2,]])
> HT3<- HT(Qy[3,], pik[Q[3,]])
> HT4<- HT(Qy[4,], pik[Q[4,]])
> HT5<- HT(Qy[5,], pik[Q[5,]])
> HT6<- HT(Qy[6,], pik[Q[6,]])
> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)
Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:
> data.frame(IndWR, Est, p)
X1 X2 X3 Est p
1 2 0 0 20.20202 0.8100
2 1 1 0 215.22922 0.0900
3 1 0 1 317.79332 0.0900
4 0 2 0 410.25641 0.0025
5 0 1 1 512.82051 0.0050
6 0 0 2 615.38462 0.0025
El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos. Este valor difiere del parámetro de interés y por lo tanto el alumno concluye que el estimador de Horvitz-Thompson no es insesgado para diseños con reemplazo.
> sum(Est*p)
[1] 69.46387
> sum(y)
[1] 60
Pero, un momento, todo aquel que ha pasado por un curso de muestreo ha hecho aquella demostración en donde se expande la suma en la muestra al universo, se incluyen las variables Ik y se tiene que en esperanza, el estimador de Horvitz-Thompson reproduce el total de la población. Esa demostración no está supeditada al tipo de muestre que se realice.
A continuación expondré la forma correcta de ilustrar el insesgamiento en diseños con reemplazo. En primer lugar, la clave del ejemplo es darse cuenta que la fundamentación teórica del estimador está centrada en las variables aleatorias Ik que sólo toman dos valores: uno, si el individuo pertenece a la muestra y cero, en otro caso. Esto indica que si el elemento fue incluido en la muestra una vez, la variable Ik toma el valor uno, si el elemento fue incluido en la muestra más una vez, la variable Ik sigue tomando el valor uno. Lo anterior indica que el estimador de Horvitz-Thompson sólo incluye una vez la información de los elementos repetidos. Utilizando la función IkWR se tiene esta matriz de variables Ik para el muestreo con reemplazo.
> Ind <- IkWR(N,m)
> Ind
[,1] [,2] [,3]
[1,] 1 0 0
[2,] 1 1 0
[3,] 1 0 1
[4,] 0 1 0
[5,] 0 1 1
[6,] 0 0 1
Utilizando la función HT, se calculan los seis posibles valores para el estimador de Horvitz-Thompson, y en las muestras donde algún elemento se repite sólo se incluye esta información una sola vez:
> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])
> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6)
Teniendo cada estimación se tiene la siguiente salida, que da cuenta de los valores de y, los valores del estimador y la probabilidad de selección de las muestras:
> data.frame(Ind, Est, p)
X1 X2 X3 Est p
1 1 0 0 10.10101 0.8100
2 1 1 0 215.22922 0.0900
3 1 0 1 317.79332 0.0900
4 0 1 0 205.12821 0.0025
5 0 1 1 512.82051 0.0050
6 0 0 1 307.69231 0.0025
El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.
> sum(Est*p)
[1] 60
> sum(y)
[1] 60
Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con reemplazo.
Consultorio estadístico para Hispanoamérica
Mar 3rd
Qué bueno saber que así como existen consultorios jurídicos, existen consultorios estadísticos en donde el usuario tiene la posibilidad de acercarse y formular su problemática y recibir ayuda de un panel de practicantes guiados por un experto consultor… Y LO MEJOR DE TODO, SIN NINGÚN COSTO.
Todos los lectores de este blog, sin importar su lugar de residencia, pueden establecer contacto con el Consultorio Estadístico de la Universidad Santo Tomás por correo electrónico a consulta.estadística@usantotomas.edu.co. Si su lugar de residencia es en Bogotá, Colombia, pueden acercarse directamente a la Facultad de Estadística ubicada en la Carrera 9 No 51 – 11 Piso 3 y exponer allí sus dudas en términos de métodos estadísticos aplicados a investigaciones prácticas. Si usted no reside en Colombia, siéntase libre de exponer su caso mediante correo electrónico y adjuntar los archivos pertinentes para contextualizar al staff de estadísticos que asesoran su investigación.
PD: el Consultorio Estadístico no es un espacio para resolver problemas de estudiantes que tal vez están cursando sus materias. Es un espacio exclusivo para el asesoramiento de investigaciones reales.
El estimador de Horvitz-Thompson es insesgado II (nuevas funciones en TeachingSampling)
Mar 3rd
En una entrada anterior mostraba, con la ayuda del paquete TeachingSampling, que efectivamente, el estimador de Horvitz-Thompson es insesgado incluso en diseños con reemplazo. Bien, a petición del público y dados los buenos resultados de mis estudiantes en mi cátedra de muestreo, hoy voy a mostrar que este mismo estimador es insesgado en diseños de tamaño de muestra aleatorio. Por supuesto que no hay nada escondido detrás del funcionamiento de este estimador. Pero mi experiencia docente me ha mostrado que es mucho mejor aclarar todos los diversos escenarios de las muestras. Una vez más, es un deber del docente plasmar e ilustrar en estos escenarios el comportamiento del estimador puesto que es muy fácil llegar a conclusiones erradas. Se ilustrarán algunas nuevas funciones del paquete TeachingSampling en su versión 2.0.1 para ilustrar el ejemplo.
Suponga que se tiene una población U de tamaño N=3 y que el diseño de muestreo es sin reemplazo de tamaño de muestra aleatorio. Es decir que es posible seleccionar muestras nulas o muestras censo y toda la gama de configuraciones que existen entre estos dos escenarios. En este caso, el soporte contiene 8 posibles muestras. Con la función IkRS podemos averiguar cuál es la configuración de estas muestras.
> N=3
> y=c(10, 20, 30)
> Ind<-IkRS(3)
> Ind
[,1] [,2] [,3]
[1,] 0 0 0
[2,] 1 0 0
[3,] 0 1 0
[4,] 0 0 1
[5,] 1 1 0
[6,] 1 0 1
[7,] 0 1 1
[8,] 1 1 1
> Q<-dim(Ind)[1]
> Q
[1] 8
Ahora, asumamos que la característica de interés toma los valores 10, 20 y 30 para cada elemento. Luego, el total poblacional es 60. Utilizando la función SupportRS se obtienen las posibles muestras de este diseño:
> Qy <-SupportRS(3,ID=y)
> Qy
[,1] [,2] [,3]
[1,] NA NA NA
[2,] 10 NA NA
[3,] 20 NA NA
[4,] 30 NA NA
[5,] 10 20 NA
[6,] 10 30 NA
[7,] 20 30 NA
[8,] 10 20 30
Supongamos que el diseño de muestreo es Bernoulli. La siguiente función arroja las probabilidades de selección para cada posible muestra. La suma de las probabilidades es la unidad. Sin embargo, usted puede asignarle cualquier tipo de probabilidades que sean mayores que cero y sumen uno.
> p=rep(NA,Q)
> for(k in 1:Q){
+ p[k]=((0.1)^(sum(Ind[k,])))*((1-0.1)^(N-sum(Ind[k,])))
+ }
> p
[1] 0.729 0.081 0.081 0.081 0.009 0.009 0.009 0.001
> sum(p)
[1] 1
Acudiendo a la función Pik se tiene que la probabilidad de inclusión para cada individuo es constante e igual a un décimo.
pik <- Pik(p, Ind)
> pik
[,1] [,2] [,3]
[1,] 0.1 0.1 0.1
Por lo tanto, utilizando la función HT, se calculan los ocho posibles valores para el estimador de Horvitz-Thompson.
> HT1<- HT(y[Ind[1,]==1], pik[Ind[1,]==1])
> HT2<- HT(y[Ind[2,]==1], pik[Ind[2,]==1])
> HT3<- HT(y[Ind[3,]==1], pik[Ind[3,]==1])
> HT4<- HT(y[Ind[4,]==1], pik[Ind[4,]==1])
> HT5<- HT(y[Ind[5,]==1], pik[Ind[5,]==1])
> HT6<- HT(y[Ind[6,]==1], pik[Ind[6,]==1])
> HT7<- HT(y[Ind[7,]==1], pik[Ind[7,]==1])
> HT8<- HT(y[Ind[8,]==1], pik[Ind[8,]==1])
> Est <- c(HT1, HT2, HT3, HT4, HT5, HT6, HT7, HT8)
> Est
[1] 0 100 200 300 300 400 500 600
Teniendo cada estimación se tiene la siguiente salida, que da cuenta de las posibles muestras, los valores del estimador y la probabilidad de selección de las muestras:
> data.frame(Ind, Est, p)
X1 X2 X3 Est p
1 0 0 0 0 0.729
2 1 0 0 100 0.081
3 0 1 0 200 0.081
4 0 0 1 300 0.081
5 1 1 0 300 0.009
6 1 0 1 400 0.009
7 0 1 1 500 0.009
8 1 1 1 600 0.001
El último paso es multiplicar los valores de las estimaciones por el de las probabilidades de selección de las muestras y sumarlos.
> sum(Est*p)
[1] 60
> sum(y)
[1] 60
Ahora sí, efectivamente, se ilustra que el estimador de Horvitz-Thompson es insesgado para diseños con tamaño de muestra variable.
Bayesian Model Averaging (BMA) para Marco & Lucy
Feb 26th
Hoeting et. al. (1999) afirma que la práctica habitual de la estadística hace caso omiso de la incertidumbre de los modelos. Los estadísticos suelen seleccionar un modelo de alguna familia de modelos y luego proceden como si el modelo elegido hubiese generado esos datos. Este enfoque hace caso omiso de la incertidumbre en la selección del modelo, dando lugar a inferencias muy confiadas y a la toma de decisiones más riesgosas de lo que uno pensaría.
Un promedio de modelos Bayesianos (BMA, por sus siglas en inglés) proporciona un mecanismo coherente para dar cuenta de la incertidumbre de los modelos. Existen varios métodos de aplicación del BMA que han surgido recientemente y en esta entrada voy a utilizar la información del archivo de datos principal del paquete TeachingSampling para explicar paso a paso la adecuación de esta metodología que arroja coeficientes de regresión que resultan ser un promedio de los coeficientes de cada posible modelo. Más aún, se trata de un promedio ponderado por la respectiva probabilidad a posteriori de cada modelo.
Siguiendo la regla de Bayes, la probabilidad a posteriori de cada modelo (PMP, por sus siglas en inglés) resulta ser proporcional a la verosimilitud marginal del modelo (la probabilidad de los datos dado el modelo) multiplicado por la distribución previa del modelo. En muchas ocasiones, la distribución previa del modelo se asume tipo g-Zelnner, que es una distribución normal con media nula y varianza dependiendo de un hiperparámetro de incertidumbre g. Un valor pequeño de g implica un gran conocimiento previo de que los coeficientes del modelo son nulos, y un valor grande para g implica que el investigador no está muy seguro de que los coeficientes del modelo sean cero.
Con base en el anterior razonamiento, se utilizará la base de datos Lucy para ilustrar el ajuste de un promedio de modelos bayesianos. En primer lugar, cargamos la librería TeachingSampling para poder acceder a los daros y también la librería BMS para realizar el ajuste de los modelos. La base de datos la constituyen 2396 empresas del sector industrial, la variable de interés es el número de empleados de cada empresa y las variables regresoras son el total de impuestos declarados, el total de ingresos, el nivel de industrialización, la zona de ubicación y el tipo de publicidad en el último año fiscal.
> library(TeachingSampling)
> library(BMS)
> data(Lucy)
> databma <- data.frame(Emp=Lucy$Employees, Tax=Lucy$Taxes, Inc=Lucy$Income,
+ Lev=as.double(Lucy$Level), Zon=as.double(Lucy$Zone), Spa=as.double(Lucy$SPAM))
Para ajustar los modelos, se utiliza la función bms de la librería BMS. Esta función ajusta todos los 2^k posibles modelos (siendo k el número total de variables regresoras), computa todas las PMPs, calcula todos los coeficientes de regresión en cada uno de esos modelos, y al final promedia estos coeficientes utilizando como ponderador las PMPs. Una característica importante en esta función es que la primera columna del archivo de datos debe ser la variable de interés.
> Lucybma <- bms(databma, burn=100000, iter=200000, g="BRIC", mprior="uniform", mcmc="bd", user.int=T)
La función coef arroja las probabilidades de inclusión posteriores (PIP) de cada variable en los modelos, la media posterior de cada coeficiente de regresión (la misma estimación bayesiana) y el error estándar posterior. Cada PIP se calcula como la suma de las PMPs para cada modelo en donde esa covariable fue incluida. Por ejemplo, para Lucy, la variable más importante es Tax, la cual tiene probabilidad de inclusión igual a uno pues fue incluida en todos los posibles modelos. Luego le sigue la variable Inc, con probabilidad de inclusión 0.99, y luego la variable Lev, con probabilidad de inclusión 0.89. Para estas variables, la estimación bayesiana de sus respectivos coeficientes de regresión son 0.66, 0.03 y -5.63, respectivamente.
> coef(Lucybma, std.coefs = T, include.constant = T)
PIP Post Mean Post SD Cond.Pos.Sign Idx
Tax 1.000000 3.486176e-01 0.038496653 1 1
Inc 0.999785 2.437994e-01 0.054688020 1 2
Lev 0.896795 -9.475564e-02 0.043172340 0 3
Spa 0.054590 -1.203361e-03 0.006156046 0 5
Zon 0.020045 -9.232616e-05 0.002313997 0 4
(Intercept) 1.000000 1.747969e+00 NA NA 0
La función topmodels.bma arroja una matriz de unos y ceros, donde las columnas representan el modelo ajustado y las filas las variables regresoras. Las entradas de esta matriz son uno, si la variable regresora fue incluida en el modelo, y cero, en otro caso. En las últimas filas, se presentan las PMP. Para este caso, el mejor modelo, con una probabilidad a posteriori de 0.82, es el que incluye las variables regresoras Tax, Inc y Lev.
> topmodels.bma(Lucybma) ## Mejores modelos según la PMP
1c 18 1d 1e 19 1a
Tax 1.0000000 1.00000000 1.00000000 1.0000000 1.000000000 1.000000000
Inc 1.0000000 1.00000000 1.00000000 1.0000000 1.000000000 1.000000000
Lev 1.0000000 0.00000000 1.00000000 1.0000000 0.000000000 0.000000000
Zon 0.0000000 0.00000000 0.00000000 1.0000000 0.000000000 1.000000000
Spa 0.0000000 0.00000000 1.00000000 0.0000000 1.000000000 0.000000000
PMP (Exact) 0.8277914 0.09783366 0.04749275 0.0177992 0.005750708 0.002000072
PMP (MCMC) 0.8301100 0.09601000 0.04824500 0.0173450 0.005375000 0.001760000
1f 14 1b 15
Tax 1.000000000 1.0000000000 1.0000000000 1.000000e+00
Inc 1.000000000 0.0000000000 1.0000000000 0.000000e+00
Lev 1.000000000 1.0000000000 0.0000000000 1.000000e+00
Zon 1.000000000 0.0000000000 1.0000000000 0.000000e+00
Spa 1.000000000 0.0000000000 1.0000000000 1.000000e+00
PMP (Exact) 0.001015727 0.0001877044 0.0001174979 1.129789e-05
PMP (MCMC) 0.000885000 0.0001850000 0.0000600000 3.000000e-05
La función plot.Conv grafica las distribuciones previa y posterior para los tamaños (número de variables incluidas) en el modelo. Para nuestro ejemplo, la distribución previa daba mayor probabilidad a los modelos que incluían dos o tres variables regresoras, mientras que la distribución posterior da mayor peso a los modelos de tres variables regresoras.
> plotConv(Lucybma)

La función beta.draws.bma da como resultado los coeficientes de regresión para todos los modelos. Nótese que promediando estos valores, con su respectiva ponderación, se tiene la estimación bayesiana posterior del promedio de modelos dada por la segunda columna de la función coef.
> beta.draws.bma(Lucybma[1:5]) ## Los coeficientes de los 5 mejores modelos
1c 18 1d 1e 19
Tax 0.66206081 0.65436602 0.66466816 0.66017039 0.6570294
Inc 0.02883466 0.04053246 0.02876660 0.02896933 0.0404346
Lev -6.29892336 0.00000000 -6.28361012 -6.34535538 0.0000000
Zon 0.00000000 0.00000000 0.00000000 -0.15891039 0.0000000
Spa 0.00000000 0.00000000 -1.48334674 0.00000000 -1.5043990
La función image arroja una gráfica que incluye cada variable. Si para esta variable el color es blanco, significa que no fue incluida en ese modelo, si el color es rojo, implica que el signo del coeficiente de regresión es negativo, y si el color es azul, significa que el signo del coeficiente de regresión es positivo. Nótese que esta figura está basada en probabilidades acumuladas; así que entre más ancha sean los cuadros, implica que el modelo tiene una mayor PMP.
> image(Lucybma[1:5])

Para tener un acercamiento completo a la distribución posterior de los coeficientes, la función density proyecta una gráfica de la densidad posterior del coeficiente.
> density(Lucybma,"Tax")
> density(Lucybma,"Inc")


¿Será que EM cabría en esta convocatoria?
Jan 20th
Pues les comento que hace rato estoy pensando en la publicación en inglés de EM… Por supuesto que no es una tarea fácil, y seguramente conseguir un editor interesado no es fácil para un latino colombiano… Pero me parece que nada se pierde si intento participar en esta convocatoria. Les estaré comentando acerca de lo que suceda. Y gracias por hacer de EM un éxito editorial. La verdad, hay que decir que acá en Colombia ya se convirtió en un éxito de piratería. Pero eso me halaga, si alguien no puede comprarlo (aunque valga la pena decir que 30 dólares no es un precio elevado para este libro) que se lo consiga en PDF… Por ahí anda… Gracias a Dios y a todos ustedes una vez más.
Call for proposals for writing a book about R (via Chapman & Hall/CRC)
Rob Calver wrote an interesting invitation on the R mailing list today, inviting potential authors to submit their vision of the next great book about R. The announcement originated from the Chapman & Hall/CRC publishing houses, backed up by an impressive team of R celebrities, chosen as the editors of this new R books series, including:
Bellow is the complete announcement:
————————————–
We are pleased to announce the launch of a new series of books on R.
Chapman & Hall/CRC: The R Series
Aims and Scope
This book series reflects the recent rapid growth in the development and application of R, the programming language and software environment for statistical computing and graphics. R is now widely used in academic research, education, and industry. It is constantly growing, with new versions of the core software released regularly and more than 2,600 packages available. It is difficult for the documentation to keep pace with the expansion of the software, and this vital book series provides a forum for the publication of books covering many aspects of the development and application of R.
- The scope of the series is wide, covering three main threads:
- Applications of R to specific disciplines such as biology, epidemiology, genetics, engineering, finance, and the social sciences.
- Using R for the study of topics of statistical methodology, such as linear and mixed modeling, time series, Bayesian methods, and missing data.
- The development of R, including programming, building packages, and graphics.
The books will appeal to programmers and developers of R software, as well as applied statisticians and data analysts in many fields. The books will feature detailed worked examples and R code fully integrated into the text, ensuring their usefulness to researchers, practitioners and students.
Series Editors
- John M. Chambers (Department of Statistics, Stanford University, USA; jmc@stat.stanford.edu)
- Torsten Hothorn (Institut f?r Statistik, Ludwig-Maximilians-Universit?t, M?nchen, Germany; torsten.hothorn@stat.uni-muenchen.de)
- Duncan Temple Lang (Department of Statistics, University of California, Davis, USA; duncan@wald.ucdavis.edu)
- Hadley Wickham (Department of Statistics, Rice University, Houston, Texas, USA; hadley@rice.edu)
Call for Proposals
We are interested in books covering all aspects of the development and application of R software. If you have an idea for a book, please contact one of the series editors above or one of the Chapman & Hall/CRC statistics acquisitions editors below.Please provide brief details of topic, audience, aims and scope, and include an outline if possible.
We look forward to hearing from you.
Best regards,
- Rob Calver (rob.calver@informa.com)
- David Grubbs (david.grubbs@taylorandfrancis.com)
- John Kimmel (john.kimmel@taylorandfrancis.com)
Programación del Workshop en Estadística Bayesiana (Bogotá – Colombia)
Jan 19th
La International Association of Survey Statisticians, junto con la Facultad de Estadística de la Universidad Santo Tomás presentan uno de los eventos más esperados por la comunidad estadística colombiana, el International Workshop on Applied Statistics en su segunda versión. Este evento bienal que tendrá lugar en la sede principal de la Universidad entre el 3 y el 5 de febrero de 2011, abordará como tema principal la Estadística Bayesiana y sus Aplicaciones.
El evento contará con la presencia de reconocidos profesionales de la estadística a nivel internacional, los cuales estarán acompañados de destacados estadísticos nacionales, todos ellos expertos en Estadística Bayesiana, a saber:
- Raquel Prado – University of California
- Mike Daniels – University of Florida
- Eduardo Gutiérrez – Universidad Nacional Autónoma de México
- Andrés Gutiérrez – Universidad Santo Tomás
- Fabio Humberto Nieto – Universidad Nacional de Colombia (Sede Bogotá)
- Jairo Fúquene - University of Puerto Rico
- Victor López – Universidad Nacional de Colombia (Sede Medellín)
El workshop se caracteriza porque todos los invitados internacionales, además de conferencias, desarrollarán cursillos intensivos (10 horas) sobre temas de punta en la investigación de la estadística aplicada, con lo cual los participantes serán instruidos personalmente por este reconocido equipo estadístico. Los cursos ofrecidos, son:
- Introducción a la Estadística Bayesiana
- Modelos e Inferencia Bayesiana en Series Temporales
- Bayesian Modeling of Missing Data in Longitudinal Studies
La información sobre el programa del seminario, el valor de la inversión, así como el procedimiento de inscripciones, puede encontrarse en la página web: http://www.usta.edu.co/
Los contactos para ampliar la información son:
- estadistica@usantotomas.edu.co
- heivarrodriguez@usantotomas.edu.co
- Teléfonos: 5878869, 5878797 ext: 1422 – 1450
PROGRAMA
CURSILLO N°1:
Raquel Prado (University of California): Modelos e Inferencia Bayesiana en Series Temporales
CURSILLO N°2:
Mike Daniels (University of Florida): Bayesian modeling of missing data in longitudinal studies
CURSILLO N°3:
Eduardo Gutiérrez (Universidad Nacional Autónoma de México): Introducción a la Estadística Bayesiana
JUEVES 03 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 1 (Salas asignadas)
- 6:30 – 7:00 pm
Instalación del Evento (Aula Magna Fray Domingo de las Casas)
- 7:00 – 8:00 pm
Conferencia 1: Time Series Analysis using TAR Models – Fabio Humberto Nieto. Universidad Nacional de Colombia – Sede Bogotá.
- 8:00 – 8:30 pm Acto Social
VIERNES 04 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 2 (Salas asignadas)
- 3:00 – 4:00 pm
Ciclo de Comunicaciones
- 4:00 – 5:00 pm
Conferencia 2: “A Case for Robust Bayesian Priors with Applications to Clinical Trials”- Jairo Fúquene (University of Puerto Rico)
- 5:00 – 6:00 pm
Conferencia 3: “Modelos doblemente generalizados utilizando técnicas bayesianas”- Andrés Gutiérrez (Universidad Santo Tomás)
- 6:00 – 6:30 pm
Coffee Break.
- 6:30 – 7:30 pm
Conferencia 4: “Construcción de distribuciones a partir de variables latentes” – Eduardo Gutiérrez. Universidad Nacional Autónoma de México (UNAM)
- 7:30 – 8:30 pm
Conferencia 5: “Modelos temporales para detectar fatiga a partir de señales de electroencefalografías” – Raquel Prado. University of California.
SÁBADO 05 DE FEBRERO DE 2011
- 8:00 – 11:00 am
Cursillos – Día 3 (Salas asignadas)
- 2:00 – 2:45 pm
Conferencia 6: “Teoría de diseños óptimos Bajo una perspectiva Bayesiana” – Víctor López. Universidad de Nacional de Colombia- Sede Medellín
- 2:45 – 3:30 pm
Conferencia 7: “A Bayesian Shrinkage Model for Incomplete Longitudinal Binary Data with Application to the Breast Cancer Prevention Trial” – Mike Daniels. University of Florida
- 3:30 – 4:30 pm
Panel de Clausura – ¿Llegó la era de la estadística bayesiana?
Raquel Prado (University of California), Mike Daniels (University of Florida) & Eduardo Gutiérrez (Universidad Nacional Autónoma de México).
Moderador: Andrés Gutiérrez – Universidad Santo Tomás
- 4:30 – 5:00 pm
Evento Social – Cierre
Declaración sobre Ética Profesional del Instituto Internacional de Estadística
Jan 11th
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético.
La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico. A pesar de que no se indiquen explícitamente, los Principios inherentemente reflejan las obligaciones y responsabilidades de los estadísticos, así como los conflictos resultantes de las fuerzas y presiones externas a su propio trabajo, a saber:
En el desempeño de sus responsabilidades, cada estadístico debe ser sensible a la necesidad de garantizar que sus acciones sean, en primer lugar, consistentes con los mejores intereses de cada grupo y, en segundo lugar, que no favorezcan a ningún grupo a expensas de ningún otro, o que entren en conflicto con cualquiera de los Principios. En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
La Declaración sobre Ética Profesional del Instituto Internacional de Estadística consiste en un enunciado de valores profesionales compartidos y de una serie de principios éticos que derivan de esos valores. A los efectos de este documento, la definición de quién es un estadístico va mucho más allá de aquellos con grados formales en el campo, para incluir una amplia gama de creadores y usuarios de datos y herramientas estadísticos. Los estadísticos trabajan dentro de una variedad de ambientes económicos, culturales, jurídicos y políticos, cada uno de los cuales influye en el énfasis y en el enfoque de las investigaciones estadísticas. También trabajan en diferentes ramas de su disciplina, cada una de las cuales tiene sus propias técnicas y procedimientos y, posiblemente, su propio enfoque ético. Los estadísticos trabajan en diversos campos tales como economía, psicología, sociología, medicina, cuyos profesionales tienen convenciones éticas que pueden influir en su comportamiento. Incluso dentro del mismo ambiente y rama estadística, los individuos pueden enfrentarse a diferentes situaciones y limitaciones que plantean cuestiones éticas. El objetivo de esta declaración es permitir que las consideraciones y decisiones éticas individuales del estadístico se apoyen en valores compartidos y experiencia, más que en rígidas reglas impuestas por la profesión.
La declaración busca documentar principios ampliamente sostenidos por la profesión estadística e identificar los factores que obstaculizan su aplicación. Toma en cuenta que la aplicación de un principio puede obstaculizar la aplicación de otro y que, como ocurre con otros grupos de ocupación, los estadísticos enfrentan obligaciones concurrentes que puede no ser factible cumplir todas simultáneamente. Por lo tanto, los estadísticos a veces tendrán que elegir entre principios. La declaración no intenta resolver estas opciones o establecer prioridades entre los principios. En su lugar ofrece un marco dentro del cual el estadístico consciente debe poder trabajar cómodamente. Se insta a que las desviaciones del marco de principios sean el resultado de la deliberación y no de la ignorancia. La primera intención de la declaración es la de ser informativa y descriptiva, más que autoritaria o prescriptiva. En segundo lugar, está diseñada para ser aplicable en la medida de lo posible a las amplias y cambiantes áreas de las metodologías y aplicaciones estadísticas. Por esta razón, sus disposiciones se formulan en términos muy generales. En tercer lugar, a pesar de que los principios se formulan de manera de que tengan una aplicación a las decisiones más amplia que a los temas que menciona específicamente, la declaración no es de ninguna manera exhaustiva. Está diseñada en el entendimiento de que se requerirá periódicas actualizaciones y enmiendas, que reflejen por un lado los desarrollos en la generación de información y en las herramientas técnicas utilizadas por los estadísticos y, por otro lado, en los usos (y, por consiguiente, en los malos usos) de la producción estadística. En cuarto lugar, los valores, principios y los comentarios que siguen se inscriben dentro de las reglas y normas generales, escritas o no, tales como el cumplimiento de la ley o la necesidad de probidad. Sin embargo, la declaración se limita en lo posible a las cuestiones de interés específico para el trabajo estadístico.
En http://isi-web.org/about/declarationprofessionalethics-2010uk se presentan, solamente en inglés, breves comentarios sobre los conflictos y las dificultades inherentes a la aplicación de cada uno de los Principios, para quienes deseen profundizar sobre los temas. De igual manera, en el mismo enlace se proporciona una breve bibliografía anotada para aquellos que quieran profundizar estas cuestiones mediante la consulta de textos detallados.
Tomado del preámbulo del documento Declaración sobre Ética Profesional del Instituto Internacional de Estadística (http://isi-web.org/images/about/Declaration-SPANISH2010.pdf)
Comunicaciones en Estadística Volumen 3 No. 2
Dec 21st
En este quinto número consecutivo de la revista Comunicaciones en Estadística nos encontramos frente a un cisma generado por la globalización del conocimiento estadístico. El día 20 de octubre de 2010, el mundo celebró el día mundial de la estadística. Desde la Facultad de Estadística de la Universidad Santo Tomás esperamos que sea la primera de muchas celebraciones como reconocimiento al valor y aporte de los profesionales en estadística en el mundo. Esta es una iniciativa de las Naciones Unidas, y su objetivo es celebrar el papel y la importancia de la estadística y dar a conocer muchos de los logros de las estadísticas oficiales. Estas celebraciones tuvieron lugar alrededor de todo el mundo tanto en los institutos nacionales de estadística como en las instituciones educativas que imparten conocimiento estadístico en formación profesional y posgradual.
En concatenación con lo anterior, y gracias a la buena recepción que la revista Comunicaciones en Estadística ha tenido en el medio nacional e internacional, presentamos con orgullo ante ustedes este quinto número que presenta cinco artículos que tratan con temas de interés en las diferentes áreas del conocimiento estadístico. Es así como Correa presenta una metodología basada en la tasa de descubrimientos falsos para la detección de observaciones influyentes. Este procedimiento reduce la complejidad del diagnóstico y en el artículo se presenta la programación en el software estadístico R.
El artículo de Rincón Rodríguez, presenta un caso de estudio acerca de la identificación de la presencia de variabilidad espacio-temporal en la temperatura del agua en Santa Marta, ciudad costera ubicada al norte de Colombia. El trabajo desarrollado consiste en la formulación de modelos aditivos con estructura de covarianza dependiente del tiempo y del espacio. Este enfoque permite detectar que un modelo lineal clásico no captura toda la variabilidad conjunta necesaria para modelar este tipo de datos.
Jiménez propone en su trabajo una nueva función de densidad simétrica que puede ser utilizada como modelo probabilístico para datos cuyo histograma describa simetría y alta curtosis. Esta nueva función de densidad describe una buena alternativa cuando, para este tipo de datos, las pruebas estadísticas rechazan la hipótesis de normalidad. El artículo ofrece una aplicación concerniente al cambio Dolar/Euro y propone la estimación de los parámetros por medio del método de los momentos.
En una continuación de un artículo anterior publicado en esta revista, Rincón Suarez presenta un método para determinar un grupo de observaciones influyentes para la suma de cuadrados del error en la formulación de modelos de rango completo. Además del desarrollo teórico, el artículo se ve complementado con un ejemplo empírico para datos simulados e incluye toda la programación pertinente en el sofware estadístico SAS.
Por último, Pinilla y Zhang presentan una valiosa discusión acerca de la inclusión de la igualdad en la hipótesis nula. Este artículo pretende mostrar algunas de las contradicciones prácticas que se pueden presentar cuando el investigador, al momento de formular las hipótesis de su estudio, omite la inclusión de la igualdad en la hipótesis nula.
Entre otros aspectos, es importante resaltar que la Universidad Santo Tomás ha aprobado la organización del Second Workshop on Applied Statistics, evento que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, cuyo tema principal será la estadística bayesiana y sus aplicaciones. Este evento se caracterizará porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde la dirección de la revista Comunicaciones en Estadística, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) -Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer de mama.
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) -Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) -Cursillo: Introducción a la estadística bayesiana.
Desde la Facultad de Estadística de la Universidad Santo Tomás les agradecemos por los gratos comentarios que hemos recibido. Esperamos que este número sea aceptable para nuestros lectores y que sus artículos impulsen la cultura de investigación estadística en nuestras aulas de clase.
Malditas estadísticas II (No, Colombia no es el país más feliz del mundo)
Dec 18th
Y conoceréis la verdad, y la verdad os hará libres (Juan 8:32)
Hace unos años tuve el privilegio de trabajar en una empresa de investigación de mercado que, además de encuestas de mercadeo, realizaba sondeos de opinión mediante interceptación geográfica. En una capacitación, el gerente de aquella compañía me hizo saber orgulloso que ellos habían realizado un estudio de felicidad en Colombia, el cual había arrojado un sorprendente resultado.
En aquella ocasión Colombia fue catalogada como la nación más feliz del mundo. En aquella ocasión este resultado paso inadvertido ante mi, como muchas otras cosas importantes, y supuse que aquel comentario hacía parte del ego sin precedentes de aquel individuo. Hoy, años después me he puesto a recapacitar acerca de este estudio. Estadístico de profesión, tengo valiosas herramientas para analizar datos y extraer información valiosa.
Aunque no soy sociólogo, en los últimos meses he aprendido a examinar los sucesos un poco más subjetivamente. Hoy, años después ese comentario aturde mi corazón y desearía con todas mis fuerzas que el resultado del estudio fuera real y que esta entrada no se tuviese que escribir; máxime teniendo en cuenta que el autor de la misma, en realidad es una tipificación clara del comportamiento colombiano, tratando de ser feliz evadiendo la realidad.
En la página de Colombia es pasión, es posible leer lo siguiente:
Tierra maravillosa de gente amable… en el ranking de las naciones más felices del mundo, Colombia ocupa el segundo lugar… en el mundo no hay una nacionalidad más feliz que la colombiana.
Este extracto fue escrito como conclusión al estudio británico desarrollado por la organización New Economics Foundation (NEF), el cual presenta los llamativos resultados condensados en su ranking. Acerca de esto, Andrew Simms, uno de los directivos de la organización declara que:
… este indice desnuda la economía hasta su concepto más básico: lo que usamos (recursos) y lo que obtenemos; vidas más o menos largas, más o menos felices… El orden en el que aparecen los países puede que contradiga la intuición, pero esto se debe a que los políticos se han perdido al dejarse guiar por modelos matemáticos abstractos de una economía que tiene poco que ver con el mundo real…
En el reporte oficial del índice de felicidad mundial, se describe en detalle cómo se lleva a cabo el estudio, las metodologías utilizadas, el cálculo del índice, entre otros aspectos técnicos. Allí se afirma que este índice representa una medida eficiente del bienestar contrastada con el impacto ambiental de las unidades de muestreo sobre su entorno. Este cálculo parece estar soportado en una extensa bibliografía científica y merece ser considerado como una medida robusta de lo que el estudio intenta investigar.
Lo anterior, sería cierto si tan sólo, y como en muchos otros estudios estadísticos, se asegurara una estrategia representativa sobre la población. En el caso de Colombia, ya hemos tenido bastante con los sondeos de opinión pública que yerran sobremanera en la predicción de los resultados de interés. En esta ocasión, creo que está pasando exactamente lo mismo, y por lo tanto mis objeciones acerca de esta medición no están basadas en las fórmulas matemáticas o los métodos estadísticos utilizados sino, una vez más, en la estrategia de muestreo que se utiliza para acceder a los respondientes.
En el apéndice de este documento se revela que, para este y otros tipos de estudio, es un reto llegar a las comunidades rurales y las comunidades pobres en los países en vía de desarrollo (entre los cuales se encuentra Colombia) y que el método estándar será la metodología logística utilizada por Gallup. Bla, bla, bla… ya sabemos que estas empresas colombianas de investigación de opinión no tienen una marcada rigurosidad en términos de muestreo y pues bien, este argumento técnico es suficiente para controvertir el resultado.
Es bien sabido que en este país, aunque debieran tener un gran impacto, las metodologías estadísticas no son lo suficientemente respetadas como para controvertir algo y los gerentes de estas empresas se excusarán en cualquier argumento logístico como para hacer que la discusión parezca una perogrullada. Pues bien, saliendo un poco por la tangente, hoy quiero traer a colación algunas realidades que, tal vez y sólo tal vez, los respondientes olvidaron (resultan ser argumentos surgidos de estadísiticas oficiales) y que fácilmente permitirían conocer la realidad de nuestro país.
En materia de repartición de la riqueza, Hector Rincón (ex-luciernaga) afirmó en su columna de opinión en la entonces revista cambio:
En números gruesos en Colombia hay 20’200.00 pobres. Llámese pobres, según los tecnócratas que hacen las investigaciones, a aquellos ciudadanos que pertenecen a familias de cuatro miembros promedio que no alcanzan a recibir entre todos 1’086.000 pesos de ingresos mensuales. Hagan cuentas: 1’086.000 dividido cuatro, igual 271.500 pesos por cabeza. Cada mes. De pobres así de pobres tenemos 20’200.000, que equivalen a toda la población de Bogotá, Medellín, Cali, Barranquilla, Bucaramanga y Pereira juntas.
Y en indigencia, las cifras no desgarran sino que desgarran y subvierten y queman. De indigentes tenemos 7’900.000 colombianos. Llámese indigentes aquellos ciudadanos que pertenecen a familias de cuatro miembros en promedio y que no alcanzan a recibir entre todos 468.000 pesos mensuales. Hagan cuentas: 468.000 pesos dividido cuatro, igual 117.000 pesos por cabeza. Cada mes. De indigentes así tenemos 7’900.000, que equivalen a la población de Bogotá más la de Armenia más la de Popayán.
En materia de estabilidad social
Codhes estima que hay unos 4 millones de desplazados en Colombia, Acción Social reporta que tiene inscritas a 2,6 millones de personas. Los éxodos en masa indican que hay una presión violenta contra población civil en muchas regiones del país
En materia de compromiso estatal
La Asociación de familiares de detenidos y desaparecidos en Colombia, Asfaddes, calcula que en que en este país desaparecen en promedio dos personas al día. Hasta 2006, Asfaddes logró documentar unos 15 mil casos de desaparecidos en Colombia, pero las estadísticas que manejan la Fiscalía General de la Nación y el Instituto Nacional de Medicina Legal y Ciencias Forenses, ya superaron por amplio margen el balance de la asociación. Esos consolidados registran que más de 50 mil personas están aún desaparecidas.
En materia de buen gobierno por la gente
Según estadísticas de la Oficina Anticorrupción, los 3,9 billones de pesos que en procesos de contratación van a parar a los bolsillos de los corruptos alcanzarían para pagarle 10 semestres de carrera universitaria a 80 mil jóvenes colombianos, con un valor de 5 millones de pesos cada semestre. Esta cifra la estableció la Oficina Anticorrupción, tras conocer una encuesta realizada por Transparencia por Colombia y la Universidad Externado a 560 empresarios que contratan con el Estado. Los cálculos del Ministerio Público y del Zar Anticorrupción indican que los recursos con los que se quedan los corruptos equivalen a la financiación de dos años de la seguridad democrática; podrían ser subsidios de vivienda por valor de 11,5 millones de pesos para 347 mil familias de escasos recursos o cubrir la educación de 325 mil niños. Se calcula que el 12,9 por ciento de los recursos contratados se van en pagos de sobornos, del total de 30 billones de pesos de contratos que ejecuta la Nación. Tan solo el 8 por ciento de los encuestados que conocen de hechos de corrupción los denuncian.
En materia de seguridad
El Instituto Nacional de Medicina Legal reveló hubo un repunte “escandaloso” de 16% en la tasa de homicidio y las muertes totalizaron los 17.000 casos. El informe anual sobre las muertes en Colombia, “Forensis”, da cuenta que los homicidios pasaron de 15.250 casos en 2008 a 17.717 el año pasado, lo que representó un aumento bruto de 2.467 personas muertas o 16,2% de un año a otro. La principal causa de muerte violenta se da por el uso de arma de fuego con un equivalente a 78,1% o 13.851 casos. La primera causal es la “violencia interpersonal” con 11,7% o 2.080 de los casos, seguido por la “violencia sociopolítica” con 6,2% o 1.103 homicidios
Con estas escandalosas cifras (malditas estadísticas) ¿cómo es posible que se nos declare el país más feliz del mundo? Retomando la introducción de esta entrada, pienso que sufrimos de una felicidad efímera que sirve como escudo inconsiente para evadir la terrible realidad que nos aqueja. Lo supongo, simplemente, porque mi familia y yo hemos sido (somos) víctimas de la violencia en Colombia y por mucho tiempo traté de evadir esta oscura realidad. Si me hubiesen preguntado en aquel entonces si yo era feliz, hubiese respondido con un sí rotundo. Lo triste de la historia colombiana, a diferencia de la mía propia, es que tardaremos mucho tiempo en reconocer la realidad… sin realidad no habrá verdad, y sin verdad no habrá reparación… la verdad es importante porque repara a las victimas… y mientras más se dilate este duro proceso, más tardaremos en convertirnos en una sociedad realmente feliz.
Excelente libro online de DataMining
Dec 14th
La minería de datos trata de explicar el pasado y predecir el futuro por medio del análisis de datos. Este es un campo multidisciplinario que combina la estadística, el aprendizaje de la máquina, la inteligencia artificial y tecnología de base de datos. El valor de las aplicaciones de minería de datos se estima que será muy alta. Muchas empresas han almacenado grandes cantidades de datos a través de años de funcionamiento, y con la minería de datos se es capaz de extraer un conocimiento muy valioso de estos datos. Las empresas son capaces de aprovechar los conocimientos extraídos a más clientes, más ventas y mayores ganancias. Esto también es válido en los campos de ingeniería y medicina.
En el siguiente enlace encontrará un excelente libro online acerca de este tema. Además trae ejemplos y ejercicios muy valiosos.
http://chem-eng.utoronto.ca/~datamining/dmc/data_mining_map.htm
Mi nuevo libro… Teoría Estadística Aplicaciones y Métodos (TEAM)
Dec 13th
Para conocer más acerca de este libro haga clic acá
Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.

Hace un tiempo, un colega, a quien estimo y respeto, me preguntó un día: Andrés, no veo cuál es la relevancia de un libro con los contenidos en TEAM, aparte de que esté en español. En esa ocasión nuestra respuesta fue:
La relevancia radica en que está escrito en español, tiene muchos ejemplos en R y está escrito para personas que deseen aplicar la estadística matemática de manera práctica. Aunque existen bastantes libros sobre el tema, hay pocos en nuestro idioma y más aún, hay libros que no llenan el vacío entre el estadístico teórico y el profesional que quiere aplicar los métodos estadísticos en el campo de las ciencias sociales. TEAM está escrito de una manera pragmática pero muy interesante. Deja de lado muchos supuestos y permite que el estudiante se plantee situaciones y piense no sólo en la escogencia del mejor estimador o en la demostración de un resultado, sino también en la parte práctica y el día a día del estadístico en el campo laboral.
Además,
En muchos libros de inferencia estadística basta con encontrar estimadores para el parámetro de la distribución de donde vienen los datos. Por ejemplo, en la Poisson muestran que theta se estima con bar{X}, pero hay otras cantidades muy interesantes para estimar, como por ejemplo suponga que se observa valores que denotan (algo típico) número de clientes que llegan a una oficina entre determinadas horas, y se utiliza la distribución poisson, entonces no sólo podemos estimar el número promedio de clientes, sino que podemos usar la muestra observada para estimar (por ejemplo) la probabilidad de que no llegue ningún cliente durante ese rango de tiempo, más aún, podemos encontrar un intervalo de confianza para esta probabilidad.
Este es uno de los ejemplos que tiene el libro y muestra el enfoque práctico que hemos adoptado como estrategia de enseñanza.
A continuación la contra-carátula

Y las solapas del libro

Second Workshop on Applied Statistics: Topics on Bayesian Data Analysis
Dec 4th
La International Association of Survey Statisticians junto con la Facultad de Estadística de la Universidad Santo Tomás han aprobado la organización de uno de los eventos más esperados por la comunidad estadística colombiana, el Workshop on Applied Statistics. Este evento bienal que tendrá lugar en la sede principal de la Universidad en la primera semana de febrero de 2011, en su segunda entrega tendrá como tema principal la estadística bayesiana y sus aplicaciones haciendo memoria a las palabras de Andrew Gelman (a mi leal saber y entender, el estadístico más influyente en el mundo actual) cuando afirmó que:
Hoy en día es posible ser no Bayesiano (non-Bayesian), pero dados los avances en métodos bayesianos aplicados de las dos décadas pasadas, ser anti bayesiano (anti-Bayesian) ya no es una opción…
Este evento se caracteriza porque todos los invitados internacionales, además de conferencias, darán cursillos intensivos sobre temas de punta en la investigación de la estadística aplicada. Lo anterior es muy interesante puesto que el participante será educado personalmente por un equipo estadístico de reconocimiento internacional. Siendo esa la filosofía del evento, desde este espacio, es pertinente invitar a toda la comunidad nacional e internacional a hacerse partícipe de este evento. Entre los invitados internacionales están:
- Mike Daniels (Director del Departamento de Estadística de la Universidad de Florida en Gainesville, EE.UU.) – Cursillo: modelos de antedependencia para datos longitudinales binarios con aplicación a la prevención del cáncer
- Raquel Prada (Profesora Asociada del Departamento de Matemáticas Aplicadas y Estadística de la Universidad de Califonia, EE.UU.) – Cursillo: Ajuste de modelos de series de tiempo utilizando el enfoque bayesiano.
- Eduardo Gutiérrez (Ganador del Jan Tinbergen Award, otorgado por el International Statistical Institute y profesor de la UNAM, México) – Cursillo: Introducción a la estadística bayesiana.
Entre los invitados nacionales están:
- Víctor López: Director de la Escuela de Estadística de la Universidad Nacional de Colombia – Sede Medellín
- Fabio Nieto: Director de investigación del Departamento de Estadística de la Universidad Nacional de Colombia – Sede Bogotá
Las inscripciones estarán abiertas hasta la inauguración del evento. Realmente ,los precios son muy asequibles y es una gran oportunidad para que la comunidad estadística se haga presente.
- Estudiantes de pregrado: 100 mil pesos
- Profesionales: 150 mil pesos
- Participantes con poster o ponencia aprobada: 100 mil
La convocatoria de ponencias y posters está abierta a partir de la fecha y pueden enviar sus resúmenes al correo electrónico del nuevo director del Centro de Investigaciones y Estudios Estadísticos (CIEES) , señor Yesid Rodríguez. Asimismo, para cualquier inquietud pueden comunicarse al siguiente correo electrónico:
heivarrodriguez@usantotomas.edu.co
Modelamiento conjunto de media y varianza
Sep 16th
Piense en esto: usted está tratando de relacionar unas covariables X con la variable de interés Y; para esto, es natural pensar en un modelo lineal que permita esta relación mediante una combinación lineal de covariables y parámetros de regresión. Sin embargo, uno de los supuestos del modelo lineal afirma que todas las observaciones tienen diferente media dada por X’beta pero igual varianza (homoscedásticidad). Cuando no se tiene el supuesto de igualdad de varianzas, a veces, es necesario recurrir a transformaciones (como Box-Cox) que permitan paliar este incoveniente. Pero en algunas situaciones no es plausible asumir transformaciones y se necesita modelar la varianza de cada Y_i. En el siguiente enlace encontrará una introducción a la modelación bayesiana de media y varianza simultáneamente. El documento está basado en el artículo publicado en diciembre de 2000 por Cepeda y Gamerman en el Brazilian Journal of Probability and Statistics titulado Bayesian Modeling of Variance Heterogeneity in Normal Regression Models.
PD: La simulación mostrada fue programada en R utilizando el siguiente código computacional.
Cambio de categorías base en modelos logísticos o multinomiales en R
Aug 9th
Ronald escribe lo siguiente:
Saludos Andrés, ¿usted sabe cómo se cambian las categorías de base en un modelo logístico multinivel en R? Es decir, por ejemplo, si voy a estimar el efecto del Sexo hay dos categorías Masculino (M) y Femenino (F). [Yo necesito específicamente que el programa] contraste contra M. Es decir que me aparezca [en la salida del programa] el efecto estimado de F.
My reply:
Espero no estar malinterpretando la pregunta de Ronald… Lo que yo entiendo de este tipo de modelos logísticos (o multinomiales), sin importar si son mixtos, jerárquicos o multinivel (que vienen siendo la misma cosa al fin y al cabo) es que la estimación de sus parámetros no es regular, pues se deben evitar problemas de identificabilidad en el modelo y numéricos en la estimación.
Al respecto se deben considerar que los modelos logísticos y multinomiales son considerados casos particulares de los modelos lineales generalizados, que están restringidos a la familia exponencial. Inicialmente, estas distribuciones tienen k parámetros representando las probabilidades de ocurrencia de las k categorías de la variable respuesta. En el ejemplo de Ronald, se tiene que k=2. Sin embargo, no es posible parametrizar el modelo acudiendo a las k probabilidades puesto que se debe respetar la restricción de que la suma de los k parámetros sea la unidad. Lo anterior implica que el espacio paramétrico del vector de probabilidades de ocurrencia de las categorías no es un conjunto abierto. Por tanto, no se puede garantizar que esta distribución sea de rango completo. Luego, es necesario reparametrizar la distribución. Una forma de hacerlo es definiendo una categoría base y estimar las razones de las restantes probabilidades contra la probabilidad de la categoría base. Lo anterior implica que el modelo sea de rango completo y que se respete la restricción de que la suma de las probabilidades sea la unidad (puesto que la suma de los nuevos parámetros es igual a (1-p0)/p0).
El paquete lme4 con su función lmer es capaz de realizar dichas estimaciones para modelos lineales generalizados y no lineales utilizando el método de Laplace. Sin embargo, esta función escoge la categoría para realizar el análisis de los datos (la que esté codificada como uno). Creo que la pregunta de Ronald está enfocada hacia la escogencia de esta categoría base en el modelo. He aquí dos soluciones: la primera, es definiendo recodificando la variable respuesta, usando la función ifelse, y la segunda, un poco más plausible, es diciéndole a la función sobre cuál categoría hacer el análisis. Al respecto voy a utilizar un ejemplo acudiendo al conjunto de datos Exam del paquete mlmRev, que contiene entre otras variables, el resultado estandarizado de una prueba de conocimiento. En primer lugar, se define y codifica la variable respuesta. Si el resultado es mayor o igual a cero, entonces la respuesta es uno, en caso contrario cero. Luego se ajusta el modelo logístico que arroja los resultado con respecto a la categoría base que representa el éxito (en este caso y=1)
library(lme4)
libray(mlmRev)
data(Exam)
Exam$success <- ifelse(Exam$normexam >= 0,1,0)
lmer(success~ schavg + (1|school), data=Exam, family=binomial(link = “logit”))
Para obtener estimaciones con respecto a la categoría base que representa el fracaso (en este caso y=0), se puede utilizar la función ifelse para redefinir el éxito y el fracaso en la variable respuesta de la siguiente manera y ajustar nuevamente el modelo.
Exam$success <- ifelse(Exam$normexam >= 0,0,1)
lmer(success~ schavg + (1|school), data=Exam, family=binomial(link = “logit”))
Aunque también es posible hacerlo directamente en la función lmer a la cual se le debe agregar un doble signo de igualdad más el código de la categoría base de nuestra preferencia justo después de la variable respuesta, así:
lmer(success==0~ schavg + (1|school), data=Exam, family=binomial(link = “logit”))
lmer(success==1~ schavg + (1|school), data=Exam, family=binomial(link = “logit”))
Me imagino que no será la única solución… ¿alguna otra opción? Haga clic acá para obtener una introducción al paquete lme4.
El proyecto IPSUR
Jul 31st
En Julio de este año, salió al ciberespacio la obra maestra de G. Jay Kerns. Él ha escrito una obra de alto talante que personalmente siempre quise leer… Se trata de un compendio introductorio de probabilidad y estadística con R… pero cuando digo con R quiero decir que R hace parte fundamental en la lectura y comprensión del texto… Se puede decir que el libro tiene dos partes: la primera enfocada con temas de probabilidad y la segunda con técnicas estadísticas. sin descartar la segunda, me parece que este texto resalta por su excelencia en la escritura de la primera parte… En los cursos de servicios de Probabilidad y Estadística es difícil realizar aplicaciones prácticas de probabilidad con algún software estadístico como SPSS o MINITAB o SAS y la estrategia del docente se remonta a la diagramación en tablero de árboles de porbabilidad siguiendo fielmente la teoría del libro de texto. Sin embargo, esta obra de Kerns, le permite al profesor llevar de la mano la teoría junto con la enseñanza de un software estadístico. Si el lector nota bien, se dará cuenta de que lo anterior conlleva a no sólo enseñar una matería sino también inculcar en el subconciente colectivo de la calse la necesidad de la computación para realizar estadística y la cultura del aprendizaje de R, hoy por hoy el más importante e influyente software estadístico en las aulas de clase. Me gusta este enfoque y fue precisamente lo que tratamos de hacer en <<Teoría Estadística: Aplicaciones y Métodos>> con los temas de inferencia estadística… llevar conceptos importantes como suficiencia, completez, insesgamiento, cotas de varianza a un lenguaje computacional estándar que sirviera como baluarte fundamental en la enseñanza de tales temas.
La segunda sección del libro de Kerns comprende técnicas estadísticas como pruebas de hipótesis, regresión o series de tiempo. No voy a ahondar en esto pues hay ya muchos libros que unifican estos conceptos con el software R. Esta obra hace parte de un proyecto adelantado por el mismo Kerns y por G. Andy Chang de la Youngstown State University. Como hace parte de un proyecto GNU… pues ¿adivinen qué? … sí, es grátis… la descarga del libro es gratis y viene acompañada de la descarga del paquete de R <<IPSUR>>. Ahora, que si lo quiere tener en formato de papel y así apoyar al autor, pues sólo debe adquirir su copia impresa por no más de 30 dólares americanos. Si usted ya es usuario de R siga las siguintes instrucciones para accede al paquete y al libro:
install.packages("IPSUR")
library(IPSUR)
read(IPSUR)
Pero esto apenas empieza, dado que es parte de un proyecto GNU, el autor de esta obra ha puesto a disposición de la comunidad los códigos LaTeX para que usted los modifique y pueda construir su propio libro (debe tener en cuenta el manejo de Sweave, LaTeX y BibTeX). Se trata de una obra sin antecedentes, no sólo por su contenido (libro y paquete) sino por el alcance que estoy seguro va a tener en el mediano plazo dadas sus técnicas de comercialización.
Hoja de trucos para R
Jul 26th
Haciendo clic acá usted puede encontrar una colección de hojas de trucos útiles para aquellos que usuarios de R, o incluso usuarios de otros programas estadísticos que están migrando hacia R. Es una colección de referencias rápidas y útiles que bien vale la pena imprimir y tener a mano. En la página principal de devcheatsheet puede inspeccionar otras hojas de trucos y referencias rápidas para otros lenguajes de programación y aplicaciones.
Nuevo portal WEB de la Revista Comunicaciones en Estadística
Jul 14th

La Facultad de Estadística de la Universidad Santo Tomás ha lanzado el nuevo portal de internet de su publicación semestral, la Revista Comunicaciones en Estadística. Nuevo portal, nuevo número, nuevo volumen. El link para acceder es el siguiente.
http://comunicacionesenestadistica.usta.edu.co
La verdad que el trabajo del equipo de ingenieros de la USTA es limpio y el diseño es fácil. Lo que quisimos hacer con esta nueva propuesta de navegación es crear un portal en donde el autor, el lector, el estudiante y el profesor, se sintieran a gusto en un entorno sencillo pero agradable. La visualización FLASH de los artículos brinda una experiencia de navegación interesante, cómoda, fácil y rápida. La versión es Beta, así que está en prueba; sin embargo, esperamos de todo corazón que disfruten esta nueva página.
La verdad es que nos enorgullece sobremanera la publicación de este cuarto número consecutivo de la Revista Comunicaciones en Estadística. Hace dos años que empezamos este proyecto editorial y, aunque al principio fue difícil, hemos sabido llamar la atención de la comunidad Estadística en Colombia y en la región Latinoamericana. Con lo anterior, el posicionamiento de nuestra publicación es mucho mejor y hemos logrado una buena calidad editorial, que cada vez más es reconocida por lo lectores de la revista y, que deseamos conservar a lo largo de los artículos publicados. Para este número, los artículos son:
-
Afijación óptima de tamaños de muestra en muestreo aleatorio estratificado vía programación matemática.
-
Una revisión de la metodología de estimación a través de muestreo por cadenas referenciales para las proporciones de una población oculta.
-
Intervalos de predicción para pronósticos no paramétricos de la inflación colombiana.
-
Una revisión de los modelos de volatilidad estocástica.
-
Distribución Poisson-Pascal generalizada utilizando el algoritmo de Panjer.
Si usted está interesado en publicar un artículo en nuestra revista, no dude en escribir a
revistaestadistica@usantotomas.edu.co
Apoye este producto, recuerde que no es un producto ligado a una institución, es un producto ligado al desarrollo de la ciencia estadística en Colombia. Gracias por leernos y por divulgar y difundir este esfuerzo que es de estadísticos para estadísticos (de formación o de profesión). Gracias por su apoyo.
Confidence and Credibility Intervals for the Difference of Two Proportions
Jul 8th

My article about confidence and credibility intervals published in REVCOLES… if you are performing some test about proportions, this article could be of interest for you. You can read it by clicking here.
<<This paper presents a frequentist comparison of the performance of confidence and credibility intervals for the difference of two proportions from two independent samples. The comparison is carried out considering three frequentist criteria. It was found that the intervals with the best performance, in terms of coverage probability, are Bayesians; in terms of expected length and variance of the length, the Newcombe interval shows the best performance. As a final remark, it was found that traditional intervals such as the Wald and adjusted Wald have a poor performance.>>
Intervalos de confianza y de credibilidad para la diferencia de dos proporciones
Jul 7th
Mi artículo sobre intervalos de confianza y credibilidad publicado en REVCOLES… Si usted está realizando alguna prueba acerca de proporciones, este artículo podría ser de interés para usted. Puede leerlo haciendo clic aquí.
<<Este artículo presenta una comparación del comportamiento de intervalos de confianza frecuentistas y de credibilidad bayesianos para la diferencia de dos proporciones provenientes de muestras aleatorias independientes. La comparación se lleva cabo considerando tres criterios frecuentistas con los cuales se concluyó que el mejor comportamiento, en términos de la probabilidad de cobertura, lo tienen los intervalos bayesianos, y en términos de la longitud esperada y varianza de la longitud el mejor comportamiento está dado por el intervalo frecuentista de Newcombe. Como resultado de esta investigación se encontró que los intervalos frecuentistas más populares como Wald y Wald ajustado tienen un comportamiento deficiente.>>
Agregador de noticias de R
Jun 5th
Carlos Gil Bellosta ha construido un agregador de noticias sobre R en español. Estas noticias se listan en su página y también pueden descargarse vía RSS (para ser “digeridas” por cualquier lector de RSS) de
http://datanalytics.com/r_blogs_mashup.rss











Comentarios