<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>Apuntes de Estadística</title>
	<atom:link href="http://www.gutierrezandres.com/feed" rel="self" type="application/rss+xml" />
	<link>http://www.gutierrezandres.com</link>
	<description>“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells</description>
	<lastBuildDate>Mon, 20 Feb 2012 20:25:51 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.3.1</generator>
		<item>
		<title>Consejos para beamer y LaTeX en Gmail</title>
		<link>http://www.gutierrezandres.com/archives/2520</link>
		<comments>http://www.gutierrezandres.com/archives/2520#comments</comments>
		<pubDate>Fri, 10 Feb 2012 00:19:15 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Software]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2520</guid>
		<description><![CDATA[Natalia Rojas me escribe lo siguiente que quiero compartir con ustedes por su gran utilidad: Hola Andrés, te pongo un link de una herramienta bien práctica en el uso de presentaciones en beamer, veo que publicas sobre estas ayudas tecnológicas http://wiki2beamer.sourceforge.net/ Y otro de algo que quizá te puede interesar, es el manejo de latex en gmail que quizá&#8230;]]></description>
			<content:encoded><![CDATA[<p>Natalia Rojas me escribe lo siguiente que quiero compartir con ustedes por su gran utilidad:</p>
<blockquote><p>Hola Andrés, te pongo un link de una herramienta bien práctica en el uso de presentaciones en beamer, veo que publicas sobre estas ayudas tecnológicas</p>
<p><a href="http://wiki2beamer.sourceforge.net/" rel="nofollow nofollow" target="_blank">http://wiki2beamer.sourceforge.net/</a></p>
<p>Y otro de algo que quizá te puede interesar, es el manejo de latex en gmail que quizá lo conoces</p>
<p><a href="http://alexeev.org/gmailtex.html" rel="nofollow nofollow" target="_blank">http://alexeev.org/gmailtex.html</a></p>
<p>Sólo son sugerencias prácticas!!</p></blockquote>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2520/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Falsos positivos y conclusiones imbéciles por el afán de publicar</title>
		<link>http://www.gutierrezandres.com/archives/2511</link>
		<comments>http://www.gutierrezandres.com/archives/2511#comments</comments>
		<pubDate>Thu, 05 Jan 2012 16:58:44 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Causalidad]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2511</guid>
		<description><![CDATA[Esta mañana me desperté escuchando las noticias de una importante cadena radial con cobertura a nivel nacional. El afamado periodista, encargado de la dirección del programa que tiene una sección de casos curiosos, muy animado declaró que según un estudio una de las formas de prevenir un ataque cardiaco es cepillándose los dientes. Así es,&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2012/01/010512_1658_Falsosposit1.jpg" alt="" width="359" height="359" /></p>
<p style="text-align: justify;">Esta mañana me desperté escuchando las noticias de una importante cadena radial con cobertura a nivel nacional. El afamado periodista, encargado de la dirección del programa que tiene una sección de casos curiosos, muy animado declaró que según un estudio una de las formas de prevenir un ataque cardiaco es cepillándose los dientes. Así es, yo también quedé un poco estupefacto. Con la intención de respaldar la noticia, inmediatamente se comunicaron con un afamado cardiólogo colombiano, que no tuvo nada que ver con este estudio, pero que se declaraba confiado con las conclusiones del mismo, y mediante una complicada explicación intentaba dar una especie de respaldo, a mi gusto un poco recalcitrante, al estudio. Yo no soy médico ni mucho menos, pero el estudio me pareció sospechoso. Sospeché del estudio no por lo raro de las conclusiones, sino por la defensa ultranza del cardiólogo criollo. No sé, pienso que el colombiano tiene una forma suspicaz de sobresalir, así sea a costa de cosas que él nunca hizo o ni siquiera conoce. El discurso del cardiólogo era muy parecido al de los defensores de los Nule, de Arias, de Moreno, entre otros.</p>
<p style="text-align: justify;">Puede que sí, puede que efectivamente el cepillado sistemático de los dientes ayude a prevenir la inflamación de las encías y esto tenga una relación directa en el desprendimiento de tejido adiposo en el torrente sanguíneo, que en últimas es lo que produce los infartos. No lo sé, ni siquiera he visto la ficha técnica de tal estudio. Pero de lo que sí estoy seguro es de existe una tendencia generalizada por publicar resultados amañados que, con el respaldo del p-valor menor que 0.05, parecieran estar avalados estadísticamente. A eso lo llaman, el culto a la significación estadística y el investigador debe estar muy al tanto de las malas prácticas para no terminar en ellas.</p>
<p style="text-align: justify;">Leí recientemente en la revista <em>Significance</em> que Deming era afín a no sacar conclusiones con base en el producto final, sino con base a los procesos que permitían obtener tal producto. Por esto es que Deming es el padre del control estadístico de procesos. Al examinar el producto final, es muy difícil darse cuenta de qué proceso en la producción fue el que falló, e hizo defectuosos un producto que debería ser adecuado. Sin embargo, al examinar los procesos detenidamente nunca habrá un producto defectuoso, pues la fabricación no seguirá hasta haber corregido el error en el proceso puntual. Algo parecido ocurre con este tipo de estudios observacionales. Es muy difícil concluir en dónde está la falla. Por lo tanto, la revista concluía que si las conclusiones provenían de un estudio observacional, entonces muy seguramente tales conclusiones son falsas.</p>
<p style="text-align: justify;">Algunos ejemplos de falsos positivos y conclusiones aberrantes son:</p>
<ul>
<li>
<div style="text-align: justify;"><span style="color: red;"><strong>Los individuos con personalidad A predominante sufren más infartos que el resto</strong></span>. La personalidad tipo A es aquella en donde el personaje resulta muy ansioso, con ganas de comenzar cosas nuevas y sin ningún interés en esperar. Pues bien, mediante un estudio aleatorizado y serio, esta afirmación fue fácilmente refutada.</div>
</li>
<li>
<div style="text-align: justify;"><span style="color: red;"><strong>Las mujeres que comen cereal al desayuno tienen más hijos varones</strong></span>. Bien, acá no hay necesidad de ningún tipo de estudio. Es bien sabido que el cromosoma Y, que define el sexo del hijo, es una contribución exclusiva del padre.</div>
</li>
<li>
<div style="text-align: justify;"><span style="color: red;"><strong>El consumo de café causa cáncer de páncreas</strong></span>.</div>
</li>
</ul>
<p style="text-align: justify;">Es increíble cómo incluso reconocidas instituciones caen en el engaño de los estudios que no controlan los &#8220;procesos&#8221; en la &#8220;producción&#8221; de cifras. No, espere, no estoy hablando de las entidades públicas en Colombia que no respetan los procesos en los estudios y terminan publicando estadísticas oficiales así como así. Estoy refiriéndome a algo mucho peor. Por ejemplo, a finales de la década pasada, hubo mucho alboroto por los resultados de un estudio, llevado a cabo en la Universidad de Duke, con miles y miles de observaciones de datos provenientes de micro-arreglos de personas con cáncer que concluía que sí era posible identificar y establecer el régimen de quimioterapia adecuado para lograr mejores resultados en el tratamiento. Este estudio significaba un adelanto muy grande y significativo en la historia del tratamiento contra el cáncer. Al tratar de replicar los resultados, unos investigadores (¿interventores?) en Estados Unidos se dieron cuenta de que los resultados diferían significativamente. Al final de un largo e interesante proceso (casi judicial) que incluía cartas al editor en las más influyentes publicaciones internacionales, la Universidad de Duke desaprobó su investigación y la totalidad de los artículos generados por los investigadores principales fueron declarados como nunca publicados por las mismas revistas que los divulgaron.</p>
<p style="text-align: justify;">Si hay que creerle a un estudio, debe ser por su carácter de reproducibilidad en los resultados. Lamentablemente, los estudios observacionales carecen de esta cualidad y por lo tanto yo no soy muy susceptible a confiar en sus conclusiones, incluso si están respaldadas por la ciencia que me da de comer, o incluso si un cardiólogo leguleyo los defiende. Animo a los profesores a que formen profesionales con un transfondo teórico importante, pero también que los adiestren en el diseño de estudios porque, sinceramente, esa combinación de malicia indígena con las posibilidades que ofrece la estadística es una bomba muy peligrosa para nuestra profesión. Es algo así como los contratistas criollos con las posibilidades que ofrece la ley… pero con peores implicaciones.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2511/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Nuestro artículo en la Revista Colombiana de Estadística: una solución directa al muestreo indirecto</title>
		<link>http://www.gutierrezandres.com/archives/2504</link>
		<comments>http://www.gutierrezandres.com/archives/2504#comments</comments>
		<pubDate>Fri, 23 Dec 2011 19:31:05 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2504</guid>
		<description><![CDATA[Este artículo considera la estimación conjunta de los totales de población para las diferentes variables de interés en la polivalente encuestas mediante muestreo estratificado diseños. Cuando la población finita tiene una estructura jerárquica, diferentes métodos de estimación insesgada pueden ser aplicados. Sobre la base de simulaciones de Monte Carlo, se concluye que el enfoque propuesto es mejor, en términos de eficiencia relativa, que otros métodos adecuados, tales como el método de ponderación generalizada en el muestreo indirecto.]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://www.estadistica.unal.edu.co/publicaciones/estadistica/rce/V34/v34n3a01.pdf">Este artículo</a> considera la estimación conjunta de los totales de población para las diferentes variables de interés en la polivalente encuestas mediante muestreo estratificado diseños. Cuando la población finita tiene una estructura jerárquica, diferentes métodos de estimación insesgada pueden ser aplicados. Sobre la base de simulaciones de Monte Carlo, se concluye que el enfoque propuesto es mejor, en términos de eficiencia relativa, que otros métodos adecuados, tales como el método de ponderación generalizada en el muestreo indirecto.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2504/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Guía metodológica para el diseño y análisis de encuestas en evaluación de políticas públicas</title>
		<link>http://www.gutierrezandres.com/archives/2497</link>
		<comments>http://www.gutierrezandres.com/archives/2497#comments</comments>
		<pubDate>Thu, 15 Dec 2011 03:12:54 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Colombia]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2497</guid>
		<description><![CDATA[Este documento hará parte de un modulo que el Departamento Nacional de Planeación editará en los próximos meses y para el cual fui muy amablemente invitado a participar. Aunque traté de plasmar los criterios más importantes, puede que algunos tópicos los haya pasado por alto, o incluso que existan errores en la escritura o la&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://www.gutierrezandres.com/wp-content/uploads/2011/12/muestreo_guidelines.pdf">Este documento hará parte de un modulo</a> que el Departamento Nacional de Planeación editará en los próximos meses y para el cual fui muy amablemente invitado a participar. Aunque traté de plasmar los criterios más importantes, puede que algunos tópicos los haya pasado por alto, o incluso que existan errores en la escritura o la notación. Por tanto, si a usted le gusta el muestreo o siente atracción por las políticas públicas, este documento puede ser de gran utilidad para usted. De paso, si encuentra algún error, o cree que la cobertura de tópicos es insuficiente, le agradecería que lo mencionara y me lo hiciera saber para incluirlo en el documento. Se trata de una publicación que será  de divulgación gratuita y que francamente pienso que nos beneficiará a todos nosotros. La verdad es que no hay mucha literatura, menos en español, mucho menos gratis, que combine el tema del muestreo y de las políticas públicas. Este modulo se lo dedico a todos los lectores, visitantes y comentaristas de este blog que representa un gran esfuerzo y una gran satisfacción.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2497/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Sobre los Nule, las chocolatinas con vidrios, Agro Ingreso Seguro y el muestreo</title>
		<link>http://www.gutierrezandres.com/archives/2487</link>
		<comments>http://www.gutierrezandres.com/archives/2487#comments</comments>
		<pubDate>Sat, 10 Dec 2011 02:41:39 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Seminarios]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2487</guid>
		<description><![CDATA[]]></description>
			<content:encoded><![CDATA[<script type='text/javascript'>_wpaudio.enc['wpaudio-4f457be33ee8a'] = '\u0068\u0074\u0074\u0070\u003a\u002f\u002f\u0077\u0077\u0077\u002e\u0067\u0075\u0074\u0069\u0065\u0072\u0072\u0065\u007a\u0061\u006e\u0064\u0072\u0065\u0073\u002e\u0063\u006f\u006d\u002f\u0077\u0070\u002d\u0063\u006f\u006e\u0074\u0065\u006e\u0074\u002f\u0075\u0070\u006c\u006f\u0061\u0064\u0073\u002f\u0032\u0030\u0031\u0031\u002f\u0031\u0032\u002f\u0077\u0031\u002e\u006d\u0070\u0033';</script><a id='wpaudio-4f457be33ee8a' class='wpaudio wpaudio-nodl wpaudio-enc' href='#'>Andrés Gutiérrez - El papel del estadísico en las evaluaciones de políticas públicas - Conferencia Fundación Universitaria Los Libertadores</a>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2487/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
<enclosure url="http://www.gutierrezandres.com/wp-content/uploads/2011/12/w1.mp3" length="53996146" type="audio/mpeg" />
		</item>
		<item>
		<title>Respete sus datos, siempre y cuando lo merezcan</title>
		<link>http://www.gutierrezandres.com/archives/2482</link>
		<comments>http://www.gutierrezandres.com/archives/2482#comments</comments>
		<pubDate>Sat, 10 Dec 2011 00:58:46 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Modelos]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2482</guid>
		<description><![CDATA[Hace poco tuve la oportunidad de realizar una asesoría a una entidad privada que tenía sendos dilemas acerca de una metodología estadística que debían emplear para establecer un indicador. Sin entrar en mucho detalle, les comento que la cuestión se trataba básicamente de si eliminar o no un conjunto de observaciones influyentes. Este indicador no&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/12/121011_0058_Respetesusd11.jpg" alt="" width="392" height="294" /></p>
<p style="text-align: justify;">Hace poco tuve la oportunidad de realizar una asesoría a una entidad privada que tenía sendos dilemas acerca de una metodología estadística que debían emplear para establecer un indicador. Sin entrar en mucho detalle, les comento que la cuestión se trataba básicamente de si eliminar o no un conjunto de observaciones influyentes. Este indicador no era otra cosa que una medida de tendencia central. Como cualquiera de nosotros puede pensar, la primera opción es el cálculo del promedio. Pero, como hay observaciones influyentes entonces se pensaba también en una mediana, o incluso en la eliminación de estas observaciones para el cálculo de un pseudo-promedio.</p>
<p style="text-align: justify;">No es un problema de fácil solución y prueba de ello son los miles de miles de publicaciones teóricas que se circunscriben en el tema de las observaciones influyentes. Sin embargo mi opinión técnica sobre el tema es la siguiente: respeta sus datos, siempre y cuando lo merezcan. Esto quiere decir que si, efectivamente, después de un proceso de verificación de la información y después de establecer que el valor que se dice influyente es una medición real de un individuo de la población, entonces el proceso que se debería seguir en el cálculo de los indicadores de interés está supeditado al simple cálculo. En pocas palabras, si sus datos son confiables, pues entonces no los modifique, ni los mire. La realidad es que en muchas ocasiones sí hay datos influyentes para estas medidas de tendencia central y eso está bien. Si los datos se eliminaran, entonces estaríamos circunscritos a una gran manipulación de la población original. Y lo anterior tiene consecuencias funestas en el análisis de la información.</p>
<p style="text-align: justify;">En algunas ocasiones, el análisis de datos influyentes se realiza para que el modelo ajuste mejor y para obtener mejores indicadores. Es común encontrar procesos de ajuste de modelos en vez de procesos transparentes de análisis de información. Esta es una grave falta y tal vez ha nacido desde las aulas de clase puesto que poca atención se le presta a los datos y se hace mucho hincapié en las medidas de ajuste del modelo. Tendemos a calificar mejor a aquellos modelos que arrojan un coeficiente de correlación o determinación muy alto. Pero en la vida real, no podemos ser influidos por este tipo de pensamiento, puesto que si quisiéramos ajustar un modelo con un buen R2, entonces simplemente afirmamos que la mayoría de datos son influyentes y quedarnos sólo con dos datos. Le aseguro que al ajustar un modelo de regresión con dos datos, el R2 va a ser muy muy alto.</p>
<p style="text-align: justify;">Y usted ¿qué está haciendo en su trabajo?, ¿ajustando modelos? o ¿analizando la realidad de sus datos?</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2482/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Mi artículo de encuestas en políticas públicas</title>
		<link>http://www.gutierrezandres.com/archives/2478</link>
		<comments>http://www.gutierrezandres.com/archives/2478#comments</comments>
		<pubDate>Wed, 07 Dec 2011 16:01:27 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Colombia]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2478</guid>
		<description><![CDATA[El número 18 del Boletín Política Pública Hoy incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://sinergia.dnp.gov.co/Sinergia/Archivos/24074971-584e-4945-8362-ec5238c690c3/Boletin_Politica_Publica_Hoy_18.pdf">El número 18 del Boletín Política Pública Hoy</a> incluye un artículo acerca de los criterios que se deben utilizar cuando se planea hacer una encuesta probabilística en evaluciones de políticas públicas. Mediante ejemplos reales, y desde un punto de vista subjetivo y personal, introduzco cada una de las caracterizaciones más importantes que el estadístico y su equipo deben tener en cuenta al momento de planear una encuesta en este contexto.</p>
<p style="text-align: justify;">Sin ninguna, fórmula matemática y con mucha carreta para que genere una mayor comprensión, este artículo coadyuvará en la estandarización de las buenas prácticas que se deben generar desde nuestro gremio. <a href="http://www.gutierrezandres.com/wp-content/uploads/2011/12/Boletin_Muestreo_AG.pdf">El artículo lo pueden descargar acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2478/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Regalo de navidad para los apasionados del muestreo</title>
		<link>http://www.gutierrezandres.com/archives/2469</link>
		<comments>http://www.gutierrezandres.com/archives/2469#comments</comments>
		<pubDate>Tue, 06 Dec 2011 14:33:36 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Modelos]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2469</guid>
		<description><![CDATA[Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Llegó diciembre con su alegría y yo les tengo dos compendios de libre acceso que le resultarán fascinantes a todos aquellos que quieren aprender más de muestreo y que, sobre todo, no entienden por qué algunos dicen que el muestreo es una técnica rara que poco o nada tiene que ver con el desarrollo de la ciencia estadística y los modelos. Pues nada más falso, el muestreo esta circunscrito dentro de la ciencia estadística y tiene como base a, nada más y nada menos, la probabilidad.</p>
<ol style="text-align: justify;">
<li>El primer regalo es un compendio, que lo pueden encontrar gratis en el repositorio ArXiV, y es una publicación del Instituto Internacional de Estadística, llamada <span style="color: #0000ff;"><a href="http://www.gutierrezandres.com/wp-content/uploads/2011/12/Bayesian-Methods.pdf">métodos bayesianos que los frecuentistas deberían conocer</a></span>. Este compendio tiene temas tan interesantes como calibración bayesiana, distribuciones previas objetivas, métodos bayesianos en polítcas públicas, muestreo desde una perspectiva bayesiana, y el impacto de las técnicas bayesianas en el diseño y análisis de encuestas.</li>
<li>El segundo regalo es otro compendio, que lo pueden encontrar gratis en la página del Pakistan Journal of Statistics, con sendas discusiones acerca de la <a style="text-align: justify;" href="http://www.gutierrezandres.com/wp-content/uploads/2011/12/bREWERS.pdf">contribución de Ken Brewer al muestreo</a>. Ken Brewer es reconocido por tratar de unificar los modelos estadísticos con las técnicas de estimación estándares en muestreo, a través de sus llamados estimadores cosméticos.</li>
</ol>
<p style="text-align: justify;">Vale la pena que los imprima y los lea. Feliz navidad y un saludo desde Colombia.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2469/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>My talk in Juiz de Fora</title>
		<link>http://www.gutierrezandres.com/archives/2459</link>
		<comments>http://www.gutierrezandres.com/archives/2459#comments</comments>
		<pubDate>Sat, 26 Nov 2011 01:42:13 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Seminarios]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2459</guid>
		<description><![CDATA[¿Qué hacer cuando se necesitan estimar cambios netos o gross flows (como por ejmeplo los cambios en el empleo/desempleo) en encuestas complejas tipo panel o panel rotativo y existe ausencia de respuesta no ignorable? Haciendo clic acá encontrará una metodología que establece el modelamiento conjunto de la ausencia de respuesta y la clasificación en dos periodos teniendo&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">¿Qué hacer cuando se necesitan estimar cambios netos o <em>gross flows </em>(como por ejmeplo los cambios en el empleo/desempleo) en encuestas complejas tipo panel o panel rotativo y existe ausencia de respuesta no ignorable? <a href="http://www.gutierrezandres.com/wp-content/uploads/2011/11/Slides3ESAMP.pdf">Haciendo clic acá </a>encontrará una metodología que establece el modelamiento conjunto de la ausencia de respuesta y la clasificación en dos periodos teniendo en cuenta los pesos del diseño muestral.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2459/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Pensamientos de un auditor en muestreo</title>
		<link>http://www.gutierrezandres.com/archives/2455</link>
		<comments>http://www.gutierrezandres.com/archives/2455#comments</comments>
		<pubDate>Thu, 24 Nov 2011 16:10:52 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2455</guid>
		<description><![CDATA[Lo cierto es que tengo la convicción de que un auditor en muestreo en un país de América Latina realizaría un trabajo arduo, que no sería nada fácil. La idiosincrasia del gremio no lo hace fácil. Desafortunadamente hay muy pocos muestristas en nuestro país y, en realidad, hay muy pocas firmas licitando. Para nadie es&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/11/112411_1610_Pensamiento11.jpg" alt=""/>
	</p>
<p style="text-align: justify">Lo cierto es que tengo la convicción de que un auditor en muestreo en un país de América Latina realizaría un trabajo arduo, que no sería nada fácil. La idiosincrasia del gremio no lo hace fácil. Desafortunadamente hay muy pocos muestristas en nuestro país y, en realidad, hay muy pocas firmas licitando. Para nadie es un secreto que habrá más calidad si la competencia es mayor. Y más allá de las calificaciones, los conceptos y los comentarios técnicos, el trabajo se trata de asegurar la calidad en un contexto en donde ésta no es producida por la interacción entre las firmas.
</p>
<p style="text-align: justify">Lo anterior es muy bueno, tanto desde el punto de vista de las directivas del gobierno, como desde el punto de vista de las firmas. Para el GOBIERNO se trata de certificar que las firmas efectivamente hacen lo que proponen y esto se traduce en una vigilancia permanente que redunda en que los procesos de licitación y ejecución, en materia de muestreo efectivamente se cumplen con eficacia. En términos de estadísticas públicas, es indispensable que exista una contraparte que garantice que las cifras estimadas efectivamente son confiables. Y no estoy queriendo decir que las firmas tratan de engañarnos, ni mucho menos. Pero, definitivamente al existir esa revisoría, la calidad va a aumentar, como efectivamente lo estamos viendo. Por otro lado, para las firmas también es muy bueno, puesto que cuentan prácticamente con un asesor experto que hace las veces de un <em>coach</em>. De esta forma, al existir esta interacción saludable entre las firmas y el gobierno, por medio de un experto en muestreo, hay un enriquecimiento claro en términos de la calidad de la evaluación y de sus cifras resultantes.
</p>
<p style="text-align: justify">De alguna manera cuando surgen comentarios como este  &lt;&lt;Hay que planear muy bien el diseño, porque están molestando en la calificación&gt;&gt;  esto se traduce en calidad garantizada desde la propuesta. Y me parece que ese tipo de comentarios enriquecen sobremanera nuestro trabajo. Si la firma planea seriamente su trabajo desde la etapa de diseño, es una garantía de que las cifras resultantes serán efectivamente confiables. Por otro lado, que exista ese rumor de que la calidad está siendo medida y valorada en el gobierno es muy importante porque envía un mensaje inequívoco.
</p>
<p style="text-align: justify">Para un estadístico no es una tarea fácil hacer caer en cuenta a un colega de las posibles falencias en el diseño metodológico de la evaluación. Sin embargo, la mayoría de las veces hay un ambiente receptivo y muy amable. Aunque también, en contadas ocasiones habrá ambientes no tan cordiales porque algunos expertos tomarán los comentarios a título personal. Pero, ese es el día a día de las evaluaciones y seguramente que usted no tendrá ninguna dificultad en superar esos pocos impases. En los conceptos, el estadístico debrería preocuparse por ponerse en el lugar del muestrista de la firma consultora (no es nada fácil hacer un muestreo) y tratar siempre de encontrarle el sentido de la contraparte. La primera instancia de la relación con una firma son los conceptos que siempre deben estar sustentados desde el punto de vista técnico. Para su redacción, es posible preguntase cómo lo hubiera hecho yo y también como lo están haciendo ellos. Así que, de esa manera, no habrá sesgo hacia ninguna de las partes. Pienso que los conceptos con argumentos técnicos deberían ser tan diáfanos como los derechos humanos, no tienen discusión… Hasta el momento, ninguna firma ha refutado mis conceptos y más bien las recomendaciones que se dan allí han sido acogidas rápidamente. Algo parecido sucede con las calificaciones a las propuestas. Se deben sustentar bastante bien porqué la firma recibe o no recibe una calificación y un indicador de esto es que deberá haber pocos reclamos de las firmas.
</p>
<p style="text-align: justify">Concerniente a este tema, la colaboración intra-gobierno es fundamental. Debe haber un alineamiento completo entre el muestrista asesor y los responsables de la evaluación desde el principio para planear la estructuración de los estudios previos, los puntajes óptimos y sobretodo los criterios de evaluación. Por ejemplo, para un tamaño de muestra: los criterios no son los mismos en una evaluación de resultados que en una evaluación de impacto. En la evaluación de resultados, se busca un tamaño de muestra óptimo que minimice un error para parámetros simples como proporciones. Pero en la evaluación de resultados, se debe buscar un tamaño de muestra óptimo para diferencias entre proporciones; lo cual hace que se necesite un tamaño de muestra mayor. Todo esto debe ser especificado con cuidado en los estudios previos de cualquier evaluación. En esta parte, quisiera ser un poco más enfático en que la planeación de los criterios de calificación de las muestras para todas las evaluaciones sea un trabajo en equipo y que no se trate de <em>copy-paste</em> a criterios de otras evaluaciones.
</p>
<p style="text-align: justify">Es muy interesante y pertinente la documentación de los procesos. Este debe ser un apartado fundamental y esencial para el muestrista, para las firmas y para el usuario final de las cifras. Entonces, dado que el día a día del gobierno son las estadísticas oficiales deberá existir un proceso de documentación continuo y por siempre. Es algo tan sencillo como esto: el &lt;&lt;<em>deff</em>&gt;&gt;, el efecto de diseño, que es una cifra que está implicada la mayoría de las veces en el cálculo del tamaño de muestra. Es increíble que haya que buscar tan a fondo para obtener esta cifra, porque se supone que para cada encuesta debe ser calculada. Por ejemplo, para realizar algún concepto preliminar sobre cuántas encuestas se necesitarían para obtener representatividad en un encuesta, se necesita esa cifra para realizar un cálculo aproximado y puede ser que en la documentación no se informe del efecto de diseño. Bueno, cosas como esas no deberían suceder, pero la gestión del auditor en muestreo asegura que, como todo debe estar documentado, jamás tengamos que preocuparnos por conseguir cifras que deberían estar a nuestro alcance, o metodologías que deberían estar disponibles para cualquiera.
</p>
<p style="text-align: justify">Por otra parte, permítame hacer una comparación un poco ridícula para poner en contexto la importancia que tiene que un muestrista haga parte del equipo de evaluación de gobierno. Suponga usted que una encuesta tienen un costo de sesenta millones de pesos (treinta mil dólares). Con esa plata es posible comprarse un carro. Con esa plata es posible alimentar a muchos niños con hambre. Es posible hacer muchas cosas, pero nosotros decidimos hacer encuestas para verificar los resultados de una política pública. La comparación la voy a hacer en términos de posventa. Si el carro falla, yo voy al concesionario y me lo tienen que arreglar por garantía. En términos de lo niños, la garantía es la satisfacción de que ya no tienen hambre. Y si se fija, en este tipo de contexto de las encuestas, en donde los bienes son intangibles, pues se trata de cifras y resultados de indicadores, no existe ningún tipo de garantía, mucho menos si no hay alguien que revise la información metodológica de la encuesta. El quid del asunto es que debería existir una garantía. Más aún, la asesoría del muestrista consiste en ser garante de que los estudios sean representativos. Note que, desafortunadamente, si la muestra no es representativa, no existe ningún tipo de análisis estadístico o econométrico que permita corregir el sesgo causado por la mala praxis que se puede llegar a cometer. Obviamente, las implicaciones de lo anterior van mucho más allá de los sesenta millones, puesto que, con base en las cifras de la encuesta, el gobierno puede decidir si mantiene o no mantiene una intervención. Por lo tanto, si la muestra es mala y no es representativa de la población estamos bajo tres posibles escenarios: el primero, que por casualidad la encuesta arroje los resultados verdaderos; el segundo, que la encuesta arroje resultados malos, siendo que la intervención es buena; el tercero, que la encuesta arroje resultados buenos, siendo que la intervención es mala. De esta forma, bajo el segundo escenario, la afectación la llevan las personas que dejan de recibir la intervención, bajo el último escenario, la afectación la llevan los contribuyentes que financiamos una intervención que no sirve. Siendo así  ¿por qué le vamos a dejar al azar esa responsabilidad?&#8230; ¡mejor me gasto la plata en el carro!
</p>
<p style="text-align: justify">Fuera de chistes, existe una gran responsabilidad sobre las firmas, que no están ajenas a equivocarse, y sobre el gobierno, que debe garantizar una especie de interventoría diáfana, porque en nuestro contexto es muy grave que cualquiera de las dos situaciones se dé o que las dos se den al tiempo. Es decir, que las firmas se equivoquen, que el gobierno no controle o que las firmas se equivoquen y al gobierno se le pase revisar. Para el futuro inmediato recomiendo fuertemente las agencias del gobierno sigan disponiendo de expertos en muestreo y estadística que intervengan cuando sea necesario y que sigan realizando esta labor.
</p>
<p style="text-align: justify">Finalmente, algunos de las labores anexas del auditor deberán también estar enfocadas en:
</p>
<p style="text-align: justify">1.    Establecer una guía de criterios óptimos para la redacción de los estudios previos en los distintos tipos de evaluaciones.
</p>
<p style="text-align: justify">2.    Brindar asesoramiento y acompañamiento al equipo y a las firmas.
</p>
<p style="text-align: justify">3.    Establecer documentos y guías metodológicas documentadas para la calificación de las propuestas.
</p>
<p style="text-align: justify">4.    Crear criterios de estimación de modelos econométricos que tengan en cuenta los pesos del muestreo.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2455/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Si las elecciones fueran hoy… Parody no gana</title>
		<link>http://www.gutierrezandres.com/archives/2434</link>
		<comments>http://www.gutierrezandres.com/archives/2434#comments</comments>
		<pubDate>Wed, 19 Oct 2011 18:55:18 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Colombia]]></category>
		<category><![CDATA[Electorales]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2434</guid>
		<description><![CDATA[Claro, suponiendo mil cosas que no necesariamente se cumplen. Según este artículo, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: &#60;&#60;Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia.&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Claro, suponiendo mil cosas que no necesariamente se cumplen. <a href="http://feeds.univision.com/feeds/article/2011-10-07/encuestas-revelan-cabeza-a-cabeza?refPath=/noticias/ultimas-noticias/">Según este artículo</a>, la intención de voto para la alcaldía de Bogotá está repartida de la siguiente manera: &lt;&lt;<em>Petro, del movimiento independiente Progresistas, se ubicó con 24% en el primer lugar de las preferencias de los electores, según un muestreo realizado por la firma Gallup Colombia. Peñalosa, que se postula por el Partido Verde y el Partido Social de Unidad Nacional (Partido de La U), se situó segundo con 21%, de acuerdo con el sondeo divulgado por el diario El Espectador. En el tercer lugar se ubicó la ex senadora Gina Parody, con 18%.</em>&gt;&gt;</p>
<p>Si asumimos una distribución previa no informativa (<a href="http://en.wikipedia.org/wiki/Dirichlet_distribution">Dirichlett</a> con parámetros constantes e iguales y cercanos a la unidad), se tienen las siguientes estimaciones posteriores, en las cuales no involucré a los restantes candidatos porque no tuve tiempo de buscar la información.</p>
<div style="text-align: center;">
<table style="border-collapse: collapse;" border="0">
<colgroup>
<col style="width: 143px;" />
<col style="width: 143px;" />
<col style="width: 143px;" />
<col style="width: 143px;" /></colgroup>
<tbody valign="top">
<tr style="height: 20px; background: #c0504d;">
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: solid 1.0pt; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: white;"><strong><span style="color: #339966;">Candidato</span></strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid black 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Estimación</strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: none;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Límite inferior</strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Límite superior</strong></span></p>
</td>
</tr>
<tr style="height: 20px; background: #d9d9d9;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Parody</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">29%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">24%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">33%</span></p>
</td>
</tr>
<tr style="height: 20px;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Peñalosa</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">33%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">28%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">38%</span></p>
</td>
</tr>
<tr style="height: 21px; background: #d9d9d9;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: solid 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Petro</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">38%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid 1.0pt; border-right: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">33%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">43%</span></p>
</td>
</tr>
</tbody>
</table>
</div>
<p>La anterior tabla da un resumen de la distribución posterior de la intención de voto para los anteriores candidatos. De alguna forma u otra, observando con detenimiento los límites de credibilidad, es posible concluir que… cualquier cosa podría pasar. Sin embargo, es claro que la menor opción la tiene Gina Parody. La siguiente figura da cuenta de la distribución posterior para cada candidato y es posible observar que efectivamente hay un empate técnico puesto que hay traslape entre las densidades poblacionales.</p>
<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/10/101911_1855_Silaselecci12.png" alt="" width="283" height="294" /></p>
<p>Bajo este escenario, la probabilidad posterior de que Gina Parody le gane a Peñalosa es de tan solo 0.126. La probabilidad posterior de que Parody le gane a Petro es aún más baja, 0.011. Por último la probabilidad posterior de que Peñalosa le gane a Petro es de 0.1286.</p>
<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/10/101911_1855_Silaselecci22.png" alt="" width="518" height="155" /></p>
<p style="text-align: justify;">Por otro lado, acudiendo a la encuesta de Datexco y suponiendo que no se inventaron la mitad de las encuestas (no lo digo yo, <a href="http://www.lasillavacia.com/historia/ex-colaboradores-de-datexco-dicen-que-la-firma-invento-encuestas-para-opinometro-de-el-tiem">lo dicen las denuncias suscitadas acá</a>). Entonces, es posible utilizar esta información para crear un escenario más preciso incluyéndola a manera de información previa informativa. Puesto que, si observó bien en la tabla de estimaciones, existe mucha variabilidad en la distribución posterior y eso explica por qué los intervalos de credibilidad son tan anchos. La información de la <a href="http://feeds.univision.com/feeds/article/2011-10-07/encuestas-revelan-cabeza-a-cabeza?refPath=/noticias/ultimas-noticias/">encuesta de Datexco</a> dice así: &lt;&lt; <em>En tanto, otra encuesta de la firma Datexco también divulgada el viernes y contratada por el diario El Tiempo, ubicó primero a Peñalosa, con 20,9%; segundo a Petro, con 16,4%, y tercera a Parody, con 14,1%.</em> &gt;&gt;</p>
<p>Si asumimos una distribución previa informativa (<a href="http://en.wikipedia.org/wiki/Dirichlet_distribution">Dirichlett</a> con parámetros desiguales y relacionados con la intención de voto en la encuesta de Datexco), se tienen las siguientes estimaciones posteriores:</p>
<div style="text-align: center;">
<table style="border-collapse: collapse;" border="0">
<colgroup>
<col style="width: 143px;" />
<col style="width: 143px;" />
<col style="width: 143px;" />
<col style="width: 143px;" /></colgroup>
<tbody valign="top">
<tr style="height: 20px; background: #c0504d;">
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: solid 1.0pt; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Candidato</strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid black 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Estimación</strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: none;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Límite inferior</strong></span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: solid 1.0pt; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: #339966;"><strong>Límite superior</strong></span></p>
</td>
</tr>
<tr style="height: 20px; background: #d9d9d9;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Parody</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">28%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">24%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">31%</span></p>
</td>
</tr>
<tr style="height: 20px;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Peñalosa</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">37%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">33%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: none; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">40%</span></p>
</td>
</tr>
<tr style="height: 21px; background: #d9d9d9;">
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: solid 1.0pt; border-bottom: solid 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">Petro</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid black 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">35%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid 1.0pt; border-right: none;" valign="middle">
<p style="text-align: center;"><span style="color: black;">31%</span></p>
</td>
<td style="padding-left: 5px; padding-right: 5px; border-top: none; border-left: none; border-bottom: solid 1.0pt; border-right: solid 1.0pt;" valign="middle">
<p style="text-align: center;"><span style="color: black;">38%</span></p>
</td>
</tr>
</tbody>
</table>
</div>
<p>Este escenario es un poco más claro, con menos variabilidad, puesto que la distribución posterior ha recogido los efectos de la distribución previa. Sin emabargo, aunque es má claro estadísticamente, no lo es políticamente. Bueno, dependiendo de la filiación política de cada quién. Por lo menos, a mí me parece un mal escenario. Puesto que yo voy a votar por … En fin, esto sea como sea, el siguiente gráfico muestra un panorámica más clara de la intención de voto posterior.</p>
<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/10/101911_1855_Silaselecci32.png" alt="" width="283" height="294" /></p>
<p style="text-align: justify;">También es posible calcular la probabilidad posterior de que Parody le gane a Peñalosa, ese valor es de 0.00104. Muy pequeño. La probabilidad posterior de que Parody venza a Petro es de 0.00784. Y la probabilidad posterior de que Peñalosa obtenga una victoria sobre Petro es de 0.72. Bueno, como dicen por ahí, la verdadera encuesta es el día de las elecciones. Bla, bla, bla… Por supuesto, si salen más encuestas, haré más predicciones chimbas. No con el fin de predecir nada, sino con el de realizar un análisis de sensibilidad sobre las propuestas en las distribuciones previas. Estén sintonizados con el blog ese día de las elecciones. Con cada reporte de la registraduría estaré realizando una nueva estimación. Esto con el fin de cotejar el poder del enfoque bayesiano que permitiría proclamar al ganador con antelación al conteo total.</p>
<p style="text-align: justify;">Por otro lado, quisiera saber cuál es la técnica súper avanzada para afirmar que hay un empate técnico. Dicen los gerentes de las encuestadoras que hay un empate técnico entre Peñalosa y Petro. Esta conclusión la realizan al sumar y restar el error de muestreo a las estimaciones puntuales. Pero bueno, desde mi humilde punto de vista, creo que falta multiplicar el error estándar (si es que es el error del que se está hablando) por un percentil relacionado con una distribución que dé cuenta del modelo probabilístico detrás del cálculo. Ahora, ese error de muestreo ¿qué es? ¿Cómo es posible hablar de error de muestreo cuando no hay ningún muestreo por detrás? Yo conozco las respuestas a esas preguntas, pero no creo que los gerentes de esas firmas lo sepan y por tanto el engañador ignorante engaña al más ignorante. Podemos estar haciendo negocios sucios… En fin, para no dejarlos preocupados, sí es posible hablar de error incluso cuando no hay ningún muestreo probabilístico. ¿Los dejé peor de asustados?</p>
<p style="text-align: justify;">Por último… 1) Piense su voto… no se deje influenciar por propuestas populistas que ya mucho daño le hicieron a la ciudad. 2) Ayude a pensar en cómo hacemos para enseñarles a los ignorantes colombianos, en materia de estadística, cómo se interpreta un error y con qué cuidado se deberían interpretar estos resultados electorales. Mire que los ignorantes son muchos y que si lográramos permear los medios de comunicación con este mensaje, le haríamos un bien al pueblo a la hora de elegir. Además muchos se interesarían más por la estadística.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2434/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>¿Cuál será mi próxima parada?</title>
		<link>http://www.gutierrezandres.com/archives/2412</link>
		<comments>http://www.gutierrezandres.com/archives/2412#comments</comments>
		<pubDate>Tue, 18 Oct 2011 01:40:34 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Colombia]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2412</guid>
		<description><![CDATA[  Acabo de hacer una lectura rápida del último número de AMSTAT NEWS y hay un artículo muy interesante en donde varios estadísticos responden un chismografo (que en Colombia es una suerte de preguntas con el objetivo único de curiosear la vida de los demás). En este mismo instante estoy leyendo las respuestas de algunos&#8230;]]></description>
			<content:encoded><![CDATA[<p>
 </p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/10/101811_0140_Culsermip16.png" alt=""/>
	</p>
<p style="text-align: justify">Acabo de hacer una lectura rápida del <a href="http://magazine.amstat.org/wp-content/uploads/2011an/September%202011.pdf">último número de AMSTAT NEWS</a> y hay un artículo muy interesante en donde varios estadísticos responden un chismografo (que en Colombia es una suerte de preguntas con el objetivo único de curiosear la vida de los demás). En este mismo instante estoy leyendo las respuestas de algunos personajes y lo que voy a hacer, aunque puede parecer impersonal, es constestar esas preguntas con el ánimo de hacer un balance de mi corta carrera profesional. Además, le insto a que se anime y responda también este chismografo.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">¿Qué o quién lo inspiró a estudiar estadística?<br />
</span></p>
<p style="text-align: justify">Lamentablemente no fue un alguien que me inspiró a estudiar estadística. Esto fue un gran accidente, que de planeado no tuvo nada (me voy a permitir afirmar que fue una Diosalidad: una casualidad guiada por Dios). Como para muchas personas en Colombia, el único lugar dónde es posible tener una educación buena y no tan costosa es la universidad pública. Yo había presentado un examen de admisión a Ingeniería Industrial y afortunadamente no pasé. Luego, pensé: &lt;&lt;si quiero estudiar, debo enfocarme. ¿Para qué soy bueno?&gt;&gt; La respuesta era fácil, yo era bueno para los números. Así que, después de meditarlo un poco y teniendo en cuenta que alguien de mi colegio había sido admitido a la carrera de estadística en la Universidad Nacional, pues me aventuré, sin tener idea que esa decisión cambiaría mi vida por siempre.
</p>
<p style="text-align: justify">Aunque, una mejor pregunta sería ¿quién lo inspiró a estudiar? La respuesta es muy sencilla, mi abuela Lola. Es como mi mamá, ella me crió porque mi mamá biológica falleció cuando yo tenía dos años. Ella todos los días ponía en mí el deseo de vivir y de no dejarme de las circunstancias.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">¿Cuál es la parte más excitante de su trabajo?<br />
</span></p>
<p style="text-align: justify">Por un lado mi pasión siempre ha sido enseñar. Se me da y punto. Me gusta interactuar con las personas y qué mejor manera de hacerlo que siendo profesor. Ésta es una tarea muy difícil, más en una universidad privada en donde la educación es un servició más y en donde los evaluadores de la labor docente son los alumnos. Así que, en mi trabajo en la Universidad Santo Tomás, la parte más excitante es ser mejor docente de lo que fueron mis docentes. Y vaya docentes que he tenido. Algunos muy buenos, otros que podrían mejorar algunas cosas. La Universidad Nacional, al igual que cualquier otra universidad en el mundo, tiene una gama de excelentes maestros, no todos ellos excelentes personas. Así que cada clase es una única oportunidad de ser mejor profesor que mis mejores profesores y también es una oportunidad de no cometer los errores que mis profesores cometieron conmigo. ¿Por qué mis mejores profesores fueron mis mejores profesores? En realidad, no lo fueron por su gran conocimiento. Lo fueron porque me impregnaron algo de su particular forma de enfrentar la vida. ¿Por qué mis peores profesores fueron mis peores profesores?  En realidad, no lo fueron por su escaso conocimiento. Lo fueron por su triste forma de enfrentar la vida. A diferencia de algunas otras profesiones, cuando uno es profesor, la materia prima son personas. Lamentablemente yo tuve algunos profesores y profesoras que no trabajaban (o trabajan) con personas sino con cerebros. Al igual que yo, mis estudiantes tienen dificultades no solamente con el muestreo, sino con la vida. Por eso me gusta la USTA, cuya impronta institucional es criar personas más allá de buenos profesionales. Si usted es profesor (tal vez si fue mi profesor) le doy un pedazo de consejo: &lt;&lt;Cada vez que interactúe con un alumno, piense que está interactuando con una persona con alma, con emociones y sentimientos. No se vea a usted mismo reflejado en ese alumno porque entonces estropeará su labor docente.&gt;&gt; Y es que yo pienso que los profesores malos son malos porque ven el triste reflejo de ellos en la cara de sus alumnos.
</p>
<p style="text-align: justify">Por otro lado, trabajo como investigador en la USTA. Este oficio no se compara un ápice al de profesor. Así que no lo voy a comentar. Por otro lado soy consultor y lo excitante es que me pagan por hacer lo que yo haría gratis. Por último, soy auditor y lo excitante es que estoy creando cultura estadística entre estadísticos en las dependencias públicas. Es cierto, así como lo lee, cultura estadística dentro del gremio. Eso es muy excitante porque forja mi carácter y además da claridad a los procesos estadísticos en el sector gubernamental.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">Nombre algunas habilidades necesarias para realizar su trabajo<br />
</span></p>
<p style="text-align: justify">Por encima de todo la comunicación oral y escrita.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">Nombre una habilidad que le gustaría aprender para hacer un mejor trabajo<br />
</span></p>
<p style="text-align: justify">Me gustaría aprender a tener más disciplina. Me gustaría a utilizar mejor el idioma. Como escritor de libros esto es fundamental.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">¿Tuvo un mentor? Si fue así, ¿cuál fue su mejor consejo?<br />
</span></p>
<p style="text-align: justify">Sin duda. Mi tío Oscar que siempre vio en mí a un ganador. Y aún hoy sigue viendo en mí a un ganador. Mi familia toda me apoyo y les digo que los amo (a los miembros de mi familia). En la cuestión académica mi gran mentor ausente es Leonardo Bautista. Desde el principio nos la llevamos muy bien. Murió muy rápido pero dejó en mí algo de su pasión por el muestreo. Jorge Ortiz me dio un consejo que no tengo cómo agradecer y me auguró mejores éxitos en la USTA que en otros lados. Humberto Mayorga me dijo que yo tenía el factor X del muestreo. Leonardo Trujillo y Pedro Silva han tomado un gran riesgo conmigo al aceptarme como alumno de tesis de doctorado. Leonardo Trujillo me respondía muy amablemente todos los correos que yo le enviaba cuando él estaba en UK. Pero sobre todo mi esposa ha sido mi más fiel apoyo. Como sabe de todo entonces ella me explica las muchas cosas que no entiendo.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">Nombre dos blogs o libros que recomendaría a otros<br />
</span></p>
<p style="text-align: justify">Me gusta leer a John Cook en su blog The Endeavour y me gusta leer Rblogs porque a veces se escriben post de hágalo usted mismo con R, sobre cosas que ni idea en estadística. Los libros infaltables son Statistical Design for Researches de Leslie Kish y uno muy bonito que se llama The Lady Tasting Tea que relata la historia de la estadística de forma muy amena y a manera de chisme.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">¿Qué aviso les daría a los jóvenes que están empezando sus carreras?<br />
</span></p>
<p style="text-align: justify">Que si no les gusta ser profesor que no se metan en eso. Es un buen consejo porque muchos estadísticos en Colombia terminan dictando cátedras en universidades y si la pasión de dictar clase no está en ellos pueden frustarse ellos e imponer una imagen aburrida de la estadística entre sus alumnos.
</p>
<p style="text-align: justify"><span style="color:red; font-size:14pt">¿Qué le gusta hacer en su tiempo libre?<br />
</span></p>
<p style="text-align: justify">Patinar. Gastar tiempo con mis amigos. Estar con Lucas (mi hijo) y dormir junto a él.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2412/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Estadística en los estrados judiciales</title>
		<link>http://www.gutierrezandres.com/archives/2401</link>
		<comments>http://www.gutierrezandres.com/archives/2401#comments</comments>
		<pubDate>Mon, 10 Oct 2011 18:08:24 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Colombia]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2401</guid>
		<description><![CDATA[Ya en otra ocasión había advertido de la excelente labor que realizó el Colombiano Daniel Guzmán al testificar en un juicio en contra de algunos oficiales de la Policía Nacional de Guatemala por la desaparición de Edgar García, un líder estudiantil. El resultado de esta influyente declaración de Daniel, fue una pena máxima de 40&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/10/101011_1808_Estadsticae14.jpg" alt=""/>
	</p>
<p style="text-align: justify"><a href="http://www.gutierrezandres.com/archives/1811">Ya en otra ocasión había advertido de la excelente labor que realizó el Colombiano Daniel Guzmán</a> al testificar en un juicio en contra de algunos oficiales de la Policía Nacional de Guatemala por la desaparición de Edgar García, un líder estudiantil. El resultado de esta influyente declaración de Daniel, fue una pena máxima de 40 años de cárcel contra los agentes involucrados. Pues bien, fue muy grato para mí saber que la revista <a href="http://chance.amstat.org/">CHANCE</a> ha publicado en su último número un <a href="http://chance.amstat.org/2011/09/guatemala/">vasto artículo escrito por Daniel</a> en el que relata con pelos y señales cómo fue todo el proceso. Realmente vale la pena leerlo porque la forma en que lo escribe Daniel hace que la lectura sea muy entretenida. Felicitaciones a Daniel y esperemos que sus técnicas estadísticas sirvan algún día para esclarecer las actividades delictivas que han suscitado miles de desapariciones en Colombia. Esto lo digo a título personal, porque mi familia y yo hemos sido víctimas de este insuceso y por supuesto, entenderán mi emoción al saber que hay personas cercanas por ahí, trabajando e influyendo en los estrados judiciales para evitar la impunidad. Y lo mejor de todo el armamento y la munición estadística de Daniel fue el muestreo.  Claro, no faltan los jueces que impiden que la ciencia tenga lugar en las decisiones judiciales.
</p>
<p style="text-align: justify">Lo anterior lo digo porque hace pocos días <a href="http://www.theregister.co.uk/2011/10/05/bayes_formula/">un juez inglés tumbó la regla de Bayes</a> como evidencia en cualquier clase de juicio criminal. Así es, se trata de un juicio por asesinato en el que el presunto asesino habría dejado en la escena del crimen las huellas de sus tennis Nike, que coincidencialmente eran idénticas a un par encontradas en su casa (la casa del sindicado). El teorema de Bayes habría entrado en acción al intentar calcular la probabilidad de coincidencia de las huellas con los tennis del acusado. Para esto, es necesario tener certeza acercad del número de existencias de esta clase específica de tennis. Como el abogado no pudo demostrar por qué se usan estimaciones gruesas en los cálculos, entonces el juez decidió no tener en cuenta al teorema de Bayes como evidencia contra el presunto asesino. Más aún, ordeno que para cualquier caso de estas características criminales en el Reino Unido, el teorema de Bayes no deberá ser tenido en cuenta. Y pues bien, tumbaron a Bayes.
</p>
<p style="text-align: justify">Eso me hace pensar que aquellos que <a href="http://www.gutierrezandres.com/archives/1956">quieren tomarse un tinto y tumbar el muestreo</a> posiblemente lo logren… Nooo, qué va, con tipos tan duros como Daniel y el reconocimiento que ha tenido les va a quedar muy difícil !!!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2401/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Calibración de razones</title>
		<link>http://www.gutierrezandres.com/archives/2393</link>
		<comments>http://www.gutierrezandres.com/archives/2393#comments</comments>
		<pubDate>Wed, 28 Sep 2011 03:28:53 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2393</guid>
		<description><![CDATA[El método de calibración es uno de los más utilizados en términos de estadísticas oficiales. De hecho, el último censo en Colombia utilizó este método para calibrar las estimaciones en la población. Un momento, si se supone que es censo, ¿de qué estimaciones está hablando?&#8230; ¡Jum! … pues fue censo pero no todos respondimos los&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">El método de calibración es uno de los más utilizados en términos de estadísticas oficiales. De hecho, el último censo en Colombia utilizó este método para calibrar las estimaciones en la población. Un momento, si se supone que es censo, ¿de qué estimaciones está hablando?&#8230; ¡Jum! … pues fue censo pero no todos respondimos los mismos cuestionarios y los encuestadores descubrieron cómo hacer trampa en sus dispositivos y hubo 800 doctores (PhD) en chocó y muchos apartamentos en el parque nacional. En fin, el tema no es el censo, el tema de esta entrada es esta técnica que nos permite hallar nuevos ponderadores que inducen una estrategia de muestreo muy eficiente e insesgada. Estos nuevos pesos, <em>wk</em>, se construyen de tal forma que sean muy cercanos a los pesos originales, que son el inverso de la probabilidades de inclusión. Esta cercanía asegura que el estimador resultante sea insesgado asintóticamente. Además, este método tiene otras agradables propiedades, como la consistencia. Es decir, dada una característica de información auxiliar, para la cual se conoce el total poblacional, <em>tx</em>, entonces, sin importar la muestra seleccionada, siempre el estimador de calibración para la información auxiliar, reproducirá el total verdadero. Mejor, dicho</p>
<p style="text-align: justify;">Esta propiedad es buena porque si <em>x</em> está bien relacionada con <em>y</em>, entonces las estimaciones del total de <em>y</em> serán muy cercanas al total desconocido. Sin embargo, hace unos días leí este artículo de Eric Lesage, en donde advierte un resultado que me dejó &#8220;calibrado&#8221;… Tal vez ustedes ya lo sabían, pero como el artículo es de Junio de este año, entonces pienso que la mayoría de los lectores no lo saben. Así que voy a reproducir este resultado. Y espero que a usted también lo sorprenda.</p>
<p style="text-align: justify;">De manera tradicional, para calibrar es necesario conocer el total auxiliar <em>tx</em>. Sin embargo, Imagínese que no se conoce ese total, pero sí se conoce la razón poblacional, <em>R=ty/tx</em>, que es un parámetro poblacional que es estable en el tiempo. Enfatizo en que lo que sí se conoce es la razón, pero no se conoce ni el numerador ni el denominador. Entonces, siendo así, es posible utilizar el método de calibración para estimar eficientemente tanto el numerador <em>ty</em> como el denominador <em>tx</em>. Entonces, si calibramos la razón, para cualquier muestra, sea cual sea, la división de con siempre será contante e igual a <em>R</em>.</p>
<p style="text-align: justify;"><span style="color: #c00000;"><strong>Resultado:<span style="color: black;"> Calibrar sobre una razón <em>R</em> es equivalente a calibrar sobre el total de una nueva característica auxiliar <em>zk=(y_k)-(R)(x_k)</em></span></strong>. Es decir, </span>después de calibrar surgen unos nuevos pesos <em>wk</em> inducidos por esta metodología. Esos pesos se utilizarán para estimar <em>ty</em>, mediante la siguiente expresión y esos mismos pesos se utilizan para estimar <em>tx</em>, mediante la siguiente expresión . Luego,</p>
<p style="text-align: justify;"><span style="color: #c00000;"><strong>Ejemplo con Marco y Lucy: </strong></span>utilizaremos la base de datos propia del paquete computacional TeachingSampling para reproducir este resultado. Suponemos que se conoce la razón entre el ingreso y los impuestos de las empresas del sector industrial en un país. Además se asume que esta razón ha presentado muy poca variación durante los últimos años y que es igual a R=36.12. Lo que quiere decir que por cada peso que las empresas declaran como impuesto, existe una ganacia de 36 pesos. El siguiente código se utiliza para la selección de una uestra MAS de tamaño n=1000.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;"><span style="color: #666666; font-style: italic;"># Draws a simple random sample without replacement</span>
<a href="http://inside-r.org/r-doc/base/require"><span style="color: #003399; font-weight: bold;">require</span></a><span style="color: #009900;">(</span><a href="http://inside-r.org/packages/cran/TeachingSampling">TeachingSampling</a><span style="color: #009900;">)</span>
<a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">(</span>Marco<span style="color: #009900;">)</span>
<a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">(</span>Lucy<span style="color: #009900;">)</span>
<a href="http://inside-r.org/r-doc/base/attach"><span style="color: #003399; font-weight: bold;">attach</span></a><span style="color: #009900;">(</span>Lucy<span style="color: #009900;">)</span>

ty=<a href="http://inside-r.org/r-doc/base/sum"><span style="color: #003399; font-weight: bold;">sum</span></a><span style="color: #009900;">(</span>Income<span style="color: #009900;">)</span>
tx=<a href="http://inside-r.org/r-doc/base/sum"><span style="color: #003399; font-weight: bold;">sum</span></a><span style="color: #009900;">(</span>Taxes<span style="color: #009900;">)</span>
R=ty/tx

N &lt;- <a href="http://inside-r.org/r-doc/base/dim"><span style="color: #003399; font-weight: bold;">dim</span></a><span style="color: #009900;">(</span>Marco<span style="color: #009900;">)</span><span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span>
n &lt;- <span style="color: #cc66cc;">1000</span>
sam &lt;- S.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #009900;">)</span>
<span style="color: #666666; font-style: italic;"># The information about the units in the sample is stored in an object called data</span>
<a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a> &lt;- Lucy<span style="color: #009900;">[</span>sam<span style="color: #339933;">,</span><span style="color: #009900;">]</span>
<a href="http://inside-r.org/r-doc/base/attach"><span style="color: #003399; font-weight: bold;">attach</span></a><span style="color: #009900;">(</span><a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">)</span>
<a href="http://inside-r.org/r-doc/base/names"><span style="color: #003399; font-weight: bold;">names</span></a><span style="color: #009900;">(</span><a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">)</span>
<span style="color: #666666; font-style: italic;"># Vector of inclusion probabilities for units in the selected sample</span>
Pik&lt;-<a href="http://inside-r.org/r-doc/base/rep"><span style="color: #003399; font-weight: bold;">rep</span></a><span style="color: #009900;">(</span>n/N<span style="color: #339933;">,</span>n<span style="color: #009900;">)</span></pre>
</div>
</div>
<p style="text-align: justify;">Y el siguiente código se utiliza para hacer la calibración de las características de interés sabiendo que la razón entre las estimaciones de Ingreso e Impuestos será siempre 36.12. Note que el total <em>tz</em> es siempre cero porque se anulan algunas expresiones puesto que <em>tz=ty-Rtx=ty-(ty/tx)tx=ty-ty=0</em>.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">estima&lt;-<a href="http://inside-r.org/r-doc/base/data.frame"><span style="color: #003399; font-weight: bold;">data.frame</span></a><span style="color: #009900;">(</span>Income<span style="color: #339933;">,</span> Employees<span style="color: #339933;">,</span> Taxes<span style="color: #009900;">)</span>
z &lt;- Income-R*Taxes
tz &lt;- <span style="color: #cc66cc;">0</span>
b &lt;- E.Beta<span style="color: #009900;">(</span>estima<span style="color: #339933;">,</span>z<span style="color: #339933;">,</span>Pik<span style="color: #339933;">,</span>ck=<span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span>b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>z<span style="color: #339933;">,</span>tz<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>

                 Income    Employees        Taxes
Estimation 1.037084e+06 1.505399e+05 2.870518e+04
Variance   1.002338e+08 2.414943e+06 7.679034e+04
CVE        9.653684e-01 1.032290e+00 9.653684e-01</pre>
</div>
</div>
<p>Por último, el siguiente código verifica que sí se presente la propiedad de calibración sobre la razón. Nótese que =0.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>z<span style="color: #339933;">,</span>tz<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span><span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span>/GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>z<span style="color: #339933;">,</span>tz<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span><span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span><span style="color: #cc66cc;">3</span><span style="color: #009900;">]</span>
<span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span> <span style="color: #cc66cc;">36.12881</span>
&gt; R
<span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span> <span style="color: #cc66cc;">36.12881</span>

w &lt;- Wk<span style="color: #009900;">(</span>z<span style="color: #339933;">,</span>tz<span style="color: #339933;">,</span>Pik<span style="color: #339933;">,</span>ck=<span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span>b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
&gt; <a href="http://inside-r.org/r-doc/base/sum"><span style="color: #003399; font-weight: bold;">sum</span></a><span style="color: #009900;">(</span>z*w<span style="color: #009900;">)</span>
<span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span> -2.875709e-10
&gt; <a href="http://inside-r.org/r-doc/base/sum"><span style="color: #003399; font-weight: bold;">sum</span></a><span style="color: #009900;">(</span>Income*w<span style="color: #009900;">)</span>/sum<span style="color: #009900;">(</span>Taxes*w<span style="color: #009900;">)</span>
<span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span> <span style="color: #cc66cc;">36.12881</span></pre>
</div>
</div>
<p><a title="Created by Pretty R at inside-R.org" href="http://www.inside-r.org/pretty-r">Created by Pretty R at inside-R.org</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2393/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Y ahora con qué ganas&#8230; (Datexco denunciado)</title>
		<link>http://www.gutierrezandres.com/archives/2387</link>
		<comments>http://www.gutierrezandres.com/archives/2387#comments</comments>
		<pubDate>Mon, 26 Sep 2011 21:31:56 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Colombia]]></category>
		<category><![CDATA[Electorales]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2387</guid>
		<description><![CDATA[¿Ahora con qué ganas voy a hacer el análisis bayesiano electoral con las últimas denuncias que se han suscrito a la encuestadora Datexco? En mis pocos años de vida, no he sabido de otra empresa tan cuestionada en el ámbito de las encuestas como Datexco (no es la primera vez que se rumora de sus malas prácticas).&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="aligncenter" src="http://www.corbisimages.com/images/42-27802010.jpg?size=67&amp;uid=109e8fc6-36ba-4890-a7d0-15e1d0a9d0e6" alt="Lonely Party Girl with Balloon" width="448" height="438" /></p>
<p style="text-align: justify;">¿Ahora con qué ganas voy a hacer <a href="http://www.gutierrezandres.com/archives/2339">el análisis bayesiano electoral</a> con las<a href="http://www.lasillavacia.com/historia/ex-colaboradores-de-datexco-dicen-que-la-firma-invento-encuestas-para-opinometro-de-el-tiem"> últimas denuncias</a> que se han suscrito a la encuestadora Datexco? En mis pocos años de vida, no he sabido de otra empresa tan cuestionada en el ámbito de las encuestas como Datexco (no es la primera vez que se rumora de sus malas prácticas). Yo no sé si sea cierto ese rumor, pero lo que sí sé es Datexco debería aclarar su situación. El presidente de esta firma en respuesta a las declaraciones de sus antiguos gerentes ha expresado su inconformidad y ha salido, como en su momento hizo el ex-alcalde Samuel Moreno (hoy en prisión preventiva), con un <a href="http://www.eltiempo.com/politica/datexco-denuncia-campana-negra-en-su-contra_10437685-4">comunicado de prensa</a> que señala que va a tomar acciones penales contra los ex-empleados de su compañía.</p>
<p style="text-align: justify;">Sea que los ex-empleados de Datexco estén o no calumniando a esta empresa, su presidente &#8211; además de salir con amenazas de denuncias &#8211; debería aclarar la situación.</p>
<p style="text-align: justify;">En fin, qué mal que esto pase. Yo doy fe de que muchas encuestadoras en Colombia hacen muy bien su trabajo. Son firmas que se esfuerzan en conseguir las entrevistas y que tienen muchos filtros de supervisión para que haya total transparencia en la recolección de la información. Incluso, aunque tal vez algunos de mis lectores no lo sepan, muchas firmas encuestadoras tienen procesos de selección probabilística (sí, con base en un diseño de muestreo) muy bien estructurado. Lo sé de primera mano pues yo audito y califico algunos procesos que llegan en forma de licitación.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2387/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Sobre Fan-Muller-Rezucha</title>
		<link>http://www.gutierrezandres.com/archives/2384</link>
		<comments>http://www.gutierrezandres.com/archives/2384#comments</comments>
		<pubDate>Mon, 26 Sep 2011 20:55:24 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2384</guid>
		<description><![CDATA[El método de Fan-Muller-Rezucha (ver acá) constituye uno de los más utilizados en la obtención de muestras simples. Acá un pequeño intento para demostrar que efectivamente este algoritmo sí induce las probabilidades de selección de un muestreo aleatorio simple. Es la solución al último punto del segundo parcial de mi materia, Muestreo I. ¿qué opinan? ¿hay&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">El método de Fan-Muller-Rezucha (<a href="http://todoestadistica.blogspot.com/2009/05/metodo-de-fan-muller-y-rezucha-para-la.html">ver acá</a>) constituye uno de los más utilizados en la obtención de muestras simples. <a href="http://www.gutierrezandres.com/wp-content/uploads/2011/09/FMR.pdf">Acá un pequeño intento</a> para demostrar que efectivamente este algoritmo sí induce las probabilidades de selección de un muestreo aleatorio simple. Es la solución al último punto del segundo parcial de mi materia, Muestreo I. ¿qué opinan? ¿hay nivel en la USTA? yo creo que sí y mucho !!!</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2384/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Análisis estadísticos aplicados a la genética en la producción animal</title>
		<link>http://www.gutierrezandres.com/archives/2372</link>
		<comments>http://www.gutierrezandres.com/archives/2372#comments</comments>
		<pubDate>Thu, 22 Sep 2011 17:38:08 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Inferencia]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2372</guid>
		<description><![CDATA[Exactamente eso&#8230; una conversación amena con un investigador en genética animal.]]></description>
			<content:encoded><![CDATA[<p>Exactamente eso&#8230; una conversación amena con un investigador en genética animal.</p>
<script type='text/javascript'>_wpaudio.enc['wpaudio-4f457be37e338'] = '\u0068\u0074\u0074\u0070\u003a\u002f\u002f\u0065\u0072\u0061\u0064\u0069\u006f\u002e\u0075\u0073\u0074\u0061\u002e\u0065\u0064\u0075\u002e\u0063\u006f\u002f\u0070\u006f\u0064\u0063\u0061\u0073\u0074\u002f\u006d\u0061\u0073\u002f\u0050\u0047\u004d\u0025\u0032\u0030\u0032\u0031\u0025\u0032\u0030\u004d\u0041\u0053\u0025\u0032\u0030\u0033\u0031\u0025\u0032\u0030\u0030\u0038\u0025\u0032\u0030\u0031\u0031\u002e\u006d\u0070\u0033';</script><a id='wpaudio-4f457be37e338' class='wpaudio wpaudio-nodl wpaudio-enc' href='#'>Andrés Gutiérrez &amp; Ricardo Camacho - Análisis estadísticos aplicados a la genética en la producción animal</a>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2372/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
<enclosure url="http://eradio.usta.edu.co/podcast/mas/PGM%2021%20MAS%2031%2008%2011.mp3" length="51169907" type="audio/mpeg" />
		</item>
		<item>
		<title>Encuestas multipropósito… no cambie su estimador y respete el diseño</title>
		<link>http://www.gutierrezandres.com/archives/2366</link>
		<comments>http://www.gutierrezandres.com/archives/2366#comments</comments>
		<pubDate>Tue, 20 Sep 2011 00:33:05 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2366</guid>
		<description><![CDATA[En la mayoría de encuestas multipropóstio, el estadístico se enfrenta con el dilema de la utilización del estimador. Es decir, su encuesta tiene ciertos tópicos que son necesarios e importantes y con los cuales usted ha propuesto la mejor opción en términos del diseño de muestreo. En la mayoría de ocasiones este diseño de muestreo&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify">En la mayoría de encuestas multipropóstio, el estadístico se enfrenta con el dilema de la utilización del estimador. Es decir, su encuesta tiene ciertos tópicos que son necesarios e importantes y con los cuales usted ha propuesto la mejor opción en términos del diseño de muestreo. En la mayoría de ocasiones este diseño de muestreo induce probabilidades de inclusión (o de selección) que guían la escogencia del estimador. De esta forma, usted decide utilizar esta estrategia para estimar todos los parámetros de interés. Sin embargo, usted puede preguntarse ¿por qué utilizar la misma estrategia de muestreo para la estimación de todos los parámetros?
</p>
<p style="text-align: justify">Es una pregunta muy válida… De hecho, estoy seguro que todos los que hemos seleccionado muestras la hemos formulado, al menos de forma silenciosa. Yo he tenido esa pregunta desde hace mucho tiempo y la respuesta que encuentro es que no hay por qué considerar la misma estrategia de estimación para todos los parámetros. Por supuesto, con respecto al diseño de muestreo, es imposible cambiar nada. En primera instancia, no es plausible formular distintos diseños de muestreo para una misma encuesta. Ahora, es posible cambiar el estimador. Sin embargo, esta tarea debe realizarse con mucha precaución.
</p>
<p style="text-align: justify">Suponga que su encuesta viene de un diseño de muestreo con probabilidad proporcional al tamaño de una característica de interés. Usted ha escogido hacer un diseño de muestreo PPT porque conoce la buena relación de la característica de interés con la característica auxiliar. Ahora, usted también conoce que no todas las características de interés están relacionadas con la característica auxiliar. Por tanto, usted cree que puede pensar que sería loable suponer que el diseño de muestreo no sea PPT sino MAS. Es decir, para algunos parámetros usted asume que es muy bueno usar el PPT, para otros usted asume que sería muy bueno el MAS. Hasta ahí no problema en asumir y suponer.
</p>
<p style="text-align: justify">Sin embargo, si la solución que usted propone es cambiar el estimador inducido por el PPT, por el estimador de expansión (definido como N veces Y barra), inducido por el MAS, debe estar consciente de que eso induce sesgo en el estimador, sin importar si hay o no correlación con la característica auxiliar. El siguiente histograma muestra la distribución de muestreo del estimador inducido por el PPT, para una característica de interés que no tiene muy buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro (desconocido en el momento de la encuesta) y la línea azul indica la esperanza del estimador. Las dos líneas coinciden puesto que el estimador es insesgado.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/092011_0032_Encuestasmu11.png" alt=""/>
	</p>
<p style="text-align: justify">Por otro lado, el siguiente histograma muestra la distribución de muestreo del estimador de expansión, para la misma característica de interés que no tiene buena correlación con la característica auxiliar del PPT. La línea roja indica el valor del parámetro y la línea azul indica la esperanza del estimador. Las dos líneas no coinciden puesto que el estimador es sesgado bajo un diseño PPT; de hecho bajo cualquier diseño de muestreo que no sea MAS.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/092011_0032_Encuestasmu21.png" alt=""/>
	</p>
<p style="text-align: justify">Así que, piénselo dos veces antes de hacer esta maniobra que puede hacer que, a pesar de su buena voluntad, las estimaciones sean malas. Ahora, existen otros enfoques para cambiar de estimador. Por ejemplo, los estimadores de calibración son una opción.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2366/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Oración a la patria</title>
		<link>http://www.gutierrezandres.com/archives/2355</link>
		<comments>http://www.gutierrezandres.com/archives/2355#comments</comments>
		<pubDate>Sat, 10 Sep 2011 23:01:25 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Colombia]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2355</guid>
		<description><![CDATA[Esto me llena de orgullo&#8230; Con este blog estoy aportando un poco de lo que Colombia me ha dado&#8230; No es la gran cosa, pero me siento bien porque sé que a varios les ha ayudado. Y usted ¿está haciendo algo por Colombia? Colombia patria mía, te llevo con amor en mi corazón, Creo en&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a href="http://www.gutierrezandres.com/wp-content/uploads/2011/09/42-26241170.jpg"><img class="aligncenter size-full wp-image-2359" title="Flag of Colombia" src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/42-26241170.jpg" alt="" width="640" height="434" /></a></p>
<p style="text-align: justify;">
<p style="text-align: justify;">Esto me llena de orgullo&#8230; Con este blog estoy aportando un poco de lo que Colombia me ha dado&#8230; No es la gran cosa, pero me siento bien porque sé que a varios les ha ayudado. Y usted ¿está haciendo algo por Colombia?</p>
<blockquote>
<p style="text-align: justify;">Colombia patria mía,<br />
te llevo con amor en mi corazón,<br />
Creo en tu destino,<br />
Y espero verte siempre grande respetada y libre.</p>
<p style="text-align: justify;">En ti amo todo lo que me es querido,<br />
Tus glorias, tu hermosura,<br />
Mi hogar, las tumbas de mis mayores,<br />
Mis creencias, el fruto de mis esfuerzos,<br />
Y la realización de mis sueños.</p>
<p style="text-align: justify;">Ser hijo tuyo,<br />
Es la mayor de mis glorias,<br />
Y mi ambición más grande,<br />
Es la de llevar con honor<br />
El título de Colombiano,<br />
Y llegado el caso morir por defenderte.</p>
</blockquote>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2355/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Si las elecciones fueran hoy (y además 1, 2, 3, etc.)… Peñalosa gana (P=0.973)</title>
		<link>http://www.gutierrezandres.com/archives/2339</link>
		<comments>http://www.gutierrezandres.com/archives/2339#comments</comments>
		<pubDate>Thu, 08 Sep 2011 23:33:35 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Electorales]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2339</guid>
		<description><![CDATA[Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un análisis bayesiano de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto.  Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><span style="color: #ff0000;">Esta serie de entradas buscan analizar, a manera de ejemplo, la adjudicación de distribuciones previas en un <em>análisis bayesiano</em> de tipo electoral. Los resultados son meramente ilustrativos y no deberían inducir ninguna intención de voto. </span></p>
<p style="text-align: justify;">Antes de que comience a leer, le quiero aclarar dos cosas: la primera es que el título de esta entrada no expresa mi intención de voto, y la segunda es que tanto los análisis como los resultados y discusiones de todas las entradas publicadas en este blog están protegidos por un <em>copyright</em> y usted es libre de leer, comentar y compartir esta información. Lo único que se pide es que se cite la fuente.</p>
<p style="text-align: justify;"><span style="color: #ff0000;">Aunque no estoy de acuerdo con la metodología de muestreo de la mayoría de las encuestas electorales</span>, pienso que la acumulación de la información es de alguna forma ilustrativa. En esta entrada se realiza un análisis bayesiano acerca de la intención de voto para las próximas elecciones de la alcaldía de Bogotá, ciudad donde yo resido. <span style="color: #ff0000;">El ejercicio es meramente académico</span> y voy a actualizar los resultados de manera sistemática hasta el día de las elecciones.</p>
<p style="text-align: justify;">El análisis electoral desde el enfoque bayesiano puede parecer sencillo. En una primera instancia, se trata de conocer la probabilidad de éxito de un candidato, que aplicada a una población específica se traduce en la intención de voto hacia el candidato. Como hay varios candidatos en la disputa, entonces es conveniente suponer que el fenómeno puede ser descrito muy bien mediante el uso de una distribución multinomial. Como el parámetro en este caso es un vector de probabilidades, es adecuado suponer una distribución previa de tipo Dirichlet para este vector. Por lo tanto, haciendo uso del teorema de Bayes, la distribución posterior del parámetro será también de tipo Dirichlet.</p>
<p style="text-align: justify;">En esta primera entrada, <span style="color: #ff0000;">desarrollaremos un análisis básico</span> con base en una primera encuesta realizada del <a href="http://www.semana.com/photos/generales/ImgArticulo_T2_95566_2011817_184843.jpg">12 al 14 de Agosto</a> por la firma Ipsos – Napoleón Franco, en donde según el <a href="http://www.semana.com/nacion/petro-penalosa-empate-intencion-voto/162549-3.aspx">portal WEB de la revista Semana</a> se afirma que:</p>
<blockquote>
<p style="text-align: justify;">&lt;&lt;Según la encuesta de Ipsos Napoleón Franco, hay un cabeza a cabeza (cada uno con el 22%) entre los dos candidatos. Mockus es tercero, pero con notable diferencia: 12%, seguido, muy cerca, por Gina Parody, con 9%&gt;&gt;.</p>
</blockquote>
<p style="text-align: justify;">Con base en esta información, y teniendo en cuenta que hubo 604 respondientes, se afina la distribución previa que es Dirichlet con parámetros 133 (igual a 604*0.22), 133 (604*0.22), 72 (604*0.12) y 64 (604*0.09), para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente.<span style="color: #ff0000;"> En las entradas posteriores se analizarán otras distribuciones previas que pueden ser más convenientes y/o tener ventajas en el análisis</span>.</p>
<p style="text-align: justify;">Por otro lado, según la última encuesta electoral reportada por un medio de comunicación, correspondiente a la realizada por la firma Centro Nacional de Consultoría, entre el 30 de agosto y el primero de Septiembre, y publicada por el <a href="http://m.eltiempo.com/elecciones-2011/alcaldias-2011/bogota/penalosa-lidera-encuesta-realizada-por-centro-nacional-de-consultoria/10274446/1">portal WEB de ElTiempo.com</a> afirma que:</p>
<blockquote>
<p style="text-align: justify;">&lt;&lt;Peñalosa alcanza el 22% de preferencia. Segundo aparece Gustavo Petro, con 17%, en tercer lugar Antanas Mockus, con 12%. El cuarto lugar es para la candidata Gina Parody, con 11%&gt;&gt;.</p>
</blockquote>
<p style="text-align: justify;">Como se trata de la encuesta más reciente, supondremos que estos datos corresponden a la realización de una distribución multinomial.</p>
<p style="text-align: justify;">Es bien sabido que el análisis conjugado, señala que la distribución posterior del parámetro es de tipo Dirichlet, que en este ejercicio particular, tiene parámetros 353, 302, 192 y 164, para los candidatos Peñalosa, Petro, Mockus y Parody, respectivamente. Después de realizar cien mil simulaciones de Monte Carlo y chequear la convergencia de las cadenas y todo lo otro que se deba chequear, los resultados se presentan a continuación:</p>
<p style="text-align: center;"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090811_2233_Silaselecci1.png" alt="" /></p>
<p style="text-align: justify;">Luego, la distribución posterior estima que Peñalosa será el ganador. Nada nuevo hasta acá. La novedad es que realicé un análisis para determinar la probabilidad posterior de que el parámetro de Peñalosa fuese mayor que el parámetro de Petro. Esta probabilidad es del orden de 0.97. Luego, la probabilidad de victoria de Peñalosa sobre Petro al día de hoy y, <span style="color: #ff0000;">aunque sea muy difícil, suponiendo que los datos son válidos</span>, es de 0.97.</p>
<p style="text-align: justify;">PD: El análisis se complementa considerando todos los candidatos en la contienda electoral. Este análisis sólo tuvo en cuenta los cuatro primeros en intención de voto.</p>
<p style="text-align: justify;"><span style="color: #ff0000;">PD2: Entre muchas otras razones, para que estos análisis sean válidos es necesario suponer que 1) el muestreo es aleatorio simple (mejor si es con reemplazo) 2) el modelo es correcto, 3) en este país las firmas encuestadoras sí hacen diseños probabilísticos para seleccionar una muestra, 4) El respondiente va a votar, 5) Va a votar por quien dijo que iba a votar.</span></p>
<p style="text-align: justify;"><span class="Apple-style-span" style="color: #ff0000;">PD3: Gracias a las reflexiones de los comentaristas esta entrada ha sufrido valiosos cambios que ayudaron a darle un enfoque más ilustrativo y académico.</span></p>
<p style="text-align: justify;">
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2339/feed</wfw:commentRss>
		<slash:comments>13</slash:comments>
		</item>
		<item>
		<title>Del muestreo a la teoría estadística… (Si no utilizó un MAS con reemplazo, sus análisis no son válidos)</title>
		<link>http://www.gutierrezandres.com/archives/2308</link>
		<comments>http://www.gutierrezandres.com/archives/2308#comments</comments>
		<pubDate>Tue, 06 Sep 2011 21:37:41 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Uncategorized]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2308</guid>
		<description><![CDATA[En la introducción de su excelente libro, Statistical Design for Researches, Leslie Kish afirmó que el enunciado de la mayoría de libros de inferencia estadística abren con el siguiente enunciado: &#60;&#60;Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas…&#62;&#62; y que cada palabra en el anterior enunciado es engañosa. ¿Quién le da&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_2137_Delmuestreo1.jpg" alt=""/>
	</p>
<p style="text-align: justify">En la introducción de su excelente libro, <em>Statistical Design for Researches</em>, Leslie  Kish afirmó que el enunciado de la mayoría de libros de inferencia estadística abren con el siguiente enunciado: &lt;&lt;Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas…&gt;&gt; y que cada palabra en el anterior enunciado es  engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más,  en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.
</p>
<p style="text-align: justify">Por otro lado, recuerdo cuando, en un simposio nacional de estadística, la expositora hablaba de cómo había ajustado un modelo de regresión logística y de todas las valiosas conclusiones a las que llegó analizando el problema en cuestión. A simple vista, el análisis de la regresión no tenía la más mínima amonestación. Sin embargo, cuando yo pregunté cómo había sido la selección de la muestra, ella contestó que los datos provenían de una encuesta compleja que avistaba estratos, etapas y selecciones proporcionales. Mi contra-pregunta inmediata se refirió a si ella había contemplado este diseño complejo en sus análisis y la respuesta, muy escueta, fue un rotundo no.
</p>
<p style="text-align: justify">A donde quiero llevar a mis queridos lectores es a un lugar en donde no haya excusa alguna para repetir tan álgida práctica. Espero pues que, después de terminar la lectura de este post, usted no vuelva a analizar sus datos sin antes preguntarse acerca del proceso de selección de la muestra. Más aún, espero que se dé cuenta que, en términos de selección de muestras, sólo hay un único caso para el cual la teoría de la inferencia estadística es aplicable.
</p>
<p style="text-align: center"><span style="color:red"><strong>Tipos de muestreo<br />
</strong></span></p>
<p style="text-align: justify">Y es que en términos de selección de muestras, sólo hay dos posibles escenarios generales. La selección con reemplazo y la selección sin reemplazo. Hablemos primero de la selección sin reemplazo, en donde una muestra seleccionada está conformada por algunos elementos de la población que no se repiten. Para seleccionar una muestra sin reemplazo de tamaño n=tres, de una población de tamaño N=5, el proceso de selección puede ser de la siguiente manera. Se escoge una unidad de las cinco posibles, luego se selecciona una unidad de las cuatro restantes, y por último, una unidad de las tres restantes. Esto hace que el proceso de selección de la muestra no se lleve a cabo de forma independiente. Por ejemplo, si el muestreo es aleatorio simple, la probabilidad de selección de la primera unidad es 1/5, la probabilidad de selección de la segunda unidad, es 1/4 y así sucesivamente.
</p>
<p style="text-align: justify">Por otro lado, cuando el muestreo es con reemplazo, la selección se realiza de forma independiente puesto que se trata de realizar el mismo ensayo (seleccionar una unidad de cinco posibles) tres veces, sin importar que las unidades tengan diferentes probabilidades de selección.
</p>
<p style="text-align: center"><span style="color:red"><strong>Construyendo muestras aleatorias como en los libros clásicos<br />
</strong></span></p>
<p style="text-align: justify">Por otra parte, es bien sabido que la teoría de muestreo establece que el valor de la característica de interés, <em>yk</em>, es eso… un valor, por tanto no es aleatorio. Luego, es incorrecto decir que <em>yk</em> es una variable aleatoria asociada con alguna distribución de probabilidad. Antes de que me sacrifiquen, permítame afirmar en mi defensa que así son las cosas en el muestreo y que lo único aleatorio en la inferencia es la muestra. Y entre otras cosas, en investigación social me parece coherente hablar de valores fijos. Ahora, no significa que no podamos construir variables aleatorias en muestreo. Por ejemplo, construyamos la siguiente variable aleatoria <em>Xi, i=1,…,3</em>, definida como el valor de la característica de interés en el individuo <em>k</em>-ésimo, seleccionado en la <em>i</em>-ésima extracción. En este caso, existen tres variables aleatorias, puesto que la muestra es de tamaño tres.
</p>
<p style="text-align: justify">Si consideramos un muestreo aleatorio sin reemplazo, la primera variable aleatoria <em>X1</em>, podría tomar los cinco valores <em>y1, y2, y3, y4, y5</em>. La segunda variable aleatoria <em>X2</em>, sólo podrá tomar cuatro valores, puesto que <em>X1</em> ya fue realizada, y la tercera variable aleatoria <em>X3</em> sólo podrá tomar tres valores, puesto que <em>X1</em> y <em>X2</em> ya fueron realizadas. Esto hace que <em>X1, X2 </em>y<em> X3</em> no constituya una sucesión de variables aleatorias independientes (puesto que la selección sin reemplazo no es un proceso independiente) ni idénticamente distribuidas (puesto que ni siquiera su espacio muestral es el mismo… <em>X1</em> puede tomar cinco valores, <em>X2</em> sólo cuatro y <em>X3</em> sólo tres). Lo cual quiere decir que a partir de un muestreo sin reemplazo (ni siquiera el tan mencionado muestreo aleatorio simple) no es posible construir una muestra aleatoria, como las que aparecen en los libros de teoría estadística.
</p>
<p style="text-align: justify">Sin embargo, algo muy distinto sucede con el muestreo con reemplazo. Cuando construimos las variables aleatorias <em>X1, X2 </em>y<em> X3</em>, resulta ser que ellas sí conforman una sucesión de variables aleatorias independientes (puesto que el muestreo con reemplazo sí define un proceso de extracciones independientes) e idénticamente distribuidas (puesto que conservan el mismo espacio muestral y mantienen la probabilidad de selección… <em>X1, X2 </em>y<em> X3</em> pueden tomar los cinco valores, y para cada uno de esos valores la probabilidad es la misma). Es decir, <em>X1</em> puede tomar los valores <em>y1, y2, y3, y4, y5</em>. La probabilidad de que <em>X1=y1</em> es <em>p1</em>, la probabilidad de selección del primer elemento, la probabilidad de que <em>X1=y2</em> es <em>p2</em>, la probabilidad de selección del segundo elemento y así sucesivamente hasta obtener que la probabilidad de que <em>X1=y5</em> es <em>p5</em>, la probabilidad de selección del primer elemento primer elemento. La misma distribución la tienen <em>X2 </em>y<em> X3</em>. Por lo tanto, <em>X1, X2, X3</em> conforman una muestra aleatoria, como las que aparecen en los libros clásicos de inferencia estadística.
</p>
<p style="text-align: center"><span style="color:red"><strong>Obteniendo los mismos resultados como en los libros clásicos<br />
</strong></span></p>
<p style="text-align: justify">Entonces, hemos llegado a un punto sin retorno, en donde la conclusión es que si la muestra fue seleccionada con reemplazo, entonces podemos inducir una muestra aleatoria. Sin embargo, existen muchas variantes en el muestreo con reemplazo. A continuación, vamos a dilucidar cuál de ellas es la indicada para analizar la muestra de acuerdo a la teoría de los libros de inferencia. Lo vamos a hacer mediante un ejemplo muy sencillo, el estimador <em>X barra</em>, su esperanza y su varianza.
</p>
<p style="text-align: justify">En primera instancia, veamos que para que la esperanza (bajo el diseño de muestreo, por eso el suscrito <em>p</em>) de cualquier variable aleatoria <em>Xi, i=1,…,n</em>,  sea igual a la media poblacional, es necesario que, para todos los individuos en la población, la probabilidad de selección sea idéntica e igual a 1/N, como se muestra a continuación:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_2137_Delmuestreo25.png" alt=""/>
	</p>
<p style="text-align: justify">De la misma manera, para que la varianza de cualquier variable aleatoria <em>Xi, i=1,…,n</em>,  sea igual a la varianza poblacional, se requiere la misma condición, puesto que:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_2137_Delmuestreo35.png" alt=""/>
	</p>
<p style="text-align: justify">Por lo tanto, la esperanza y la varianza de <em>X barra</em> coincidirán con los bien conocidos resultados de la inferencia clásica.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_2137_Delmuestreo45.png" alt=""/>
	</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_2137_Delmuestreo5.png" alt=""/>
	</p>
<p style="text-align: justify">Pero, para llegar a esto, es necesario que el muestreo haya sido aleatorio simple con reemplazo. De otra forma, no se tienen las propiedades. Por lo tanto, esto aplica para pruebas de hipótesis, construcción de intervalos de confianza, modelos de regresión, y hasta diseño de experimentos. Ahora, si su encuesta está en marcha y los datos no fueron extraídos de manera aleatoria simple con reemplazo, usted puede analizarla confiadamente desde que incluya los pesos de muestreo en sus análisis, ya sean regresiones logísticas o simples varianzas del promedio.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2308/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>Otros comentarios sobre la estimación de la varianza en encuestas multi-etápicas</title>
		<link>http://www.gutierrezandres.com/archives/2289</link>
		<comments>http://www.gutierrezandres.com/archives/2289#comments</comments>
		<pubDate>Tue, 06 Sep 2011 01:10:08 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/archives/2289</guid>
		<description><![CDATA[Siguiendo con la estimación de la varianza en encuestas multi-etápicas, los programas computacionales como SAS, WesVar, entre otros, utilizan una aproximación, sesgada, para obtener esta cifra. Esta aproximación, solo tienen en cuenta la varianza de los totales estimados en la primera etapa, suponiendo que el muestreo en la primera etapa es aleatorio simple. Para la&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify">Siguiendo con la estimación de la varianza en encuestas multi-etápicas, los programas computacionales como SAS, WesVar, entre otros, utilizan una aproximación, sesgada, para obtener esta cifra. Esta aproximación, solo tienen en cuenta la varianza de los totales estimados en la primera etapa, suponiendo que el muestreo en la primera etapa es aleatorio simple. Para la estimación de un total, suponiendo un diseño de muestreo en dos etapas, la fórmula que induce una estimación insesgada es la siguiente:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment14.png" alt=""/>
	</p>
<p style="text-align: justify">La expresión que utilizan los paquetes computacionales es la primera parte de la anterior expresión, es decir:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment21.png" alt=""/>
	</p>
<p style="text-align: justify">Y existe otra aproximación común, que se tiene al suponer que el muestreo en la primera etapa fue con reemplazo. La expresión de la estimación (sesgada) de la varianza en este caso es la siguiente:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment31.png" alt=""/>
	</p>
<p style="text-align: justify">Retomando las ideas del ejercicio anterior, simulé dos escenarios que se pueden encontrar en la vida real, para características  de interés en el contexto de investigación social y económica. El primer escenario, está conformado por mil unidades primarias de muestreo, dentro de las cuales hay contenidos diez mil individuos en cada una de ellas. La distribución de la característica de interés es simétrica con forma gaussiana.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment41.png" alt=""/>
	</p>
<p style="text-align: justify">Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, <em>f1</em> y <em>f2</em>, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. Por supuesto, <a href="http://www.gutierrezandres.com/archives/2223">como ya se explicó antes</a>, se quisiera llegar al mismo nivel de precisión, pero en caso de no poder alcanzarlo, el peor panorama corresponde a la subestimación de la varianza. Es decir, es mejor que la aproximación sobreestime la varianza y no al contrario. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment51.png" alt=""/>
	</p>
<p style="text-align: justify">Se nota que la aproximación es buena cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. Lo cual concuerda con el comentario que asegura lo siguiente: <span style="color:red; font-family:Segoe UI; font-size:11pt; background-color:white"><em>&lt;&lt;The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level&gt;&gt;.</em></span>  Ahora, como el estimador de SAS, y otros paquetes, es básicamente la primera parte del estimador insesgado, entonces también es posible calcular el porcentaje de varianza, y tener una idea del sesgo. Se ve claramente que esta aproximación es óptima para tamaños de muestra pequeños en la primera etapa.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment61.png" alt=""/>
	</p>
<p style="text-align: justify">De igual manera, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment71.png" alt=""/>
	</p>
<p style="text-align: justify">El segundo escenario, está conformado por cien unidades primarias de muestreo, dentro de las cuales hay contenidos cien mil individuos en cada una de ellas. La distribución de la característica de interés es sesgada, como es usual en muchas encuestas económicas y sociales.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment81.png" alt=""/>
	</p>
<p style="text-align: justify">Para este escenario, se simularon distintos valores de la fracción de muestreo y submuestreo en la primera y segunda etapa, f1 y f2, respectivamente. Y como criterio de comparación, se utilizó el promedio de la razón entre la varianza real (estimación insesgada) con las aproximaciones sugeridas. Resultados iguales a uno, indican que la aproximación es igual de precisa que la estimación insesgada, resultados mayores que uno indican que se presenta una subestimación de la varianza real y resultados menores que uno, indican que se presenta una sobreestimación de la varianza. El siguiente cuadro muestra los resultados obtenidos para la aproximación de SAS y otros paquetes.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment91.png" alt=""/>
	</p>
<p style="text-align: justify">Se nota que la aproximación es decente cuando en la primera etapa se selecciona una muestra pequeña de unidades primarias y en la segunda etapa se selecciona una muestra grande de unidades secundarias. De igual forma, también es posible calcular el porcentaje de varianza. Se observa que esta aproximación es mejor para tamaños de muestra pequeños en la primera etapa.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment101.png" alt=""/>
	</p>
<p style="text-align: justify">Por último, se comparó el estimador insesgado con el estimador que tiene en cuenta el reemplazo. Se nota que, al contrario de la anterior aproximación, este estimador nunca subestima la varianza real y funciona mejor cuando el tamaño de muestra en la primera etapa y en la segunda etapa es pequeño.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment111.png" alt=""/>
	</p>
<p style="text-align: center"><span style="color:red; font-size:26pt">¡ESPERE UN MOMENTO!<br />
</span></p>
<p style="text-align: justify">Ahora, aunque los resultados anteriores son muy claros, no significa que el diseño de muestreo deba estar supeditado a la utilización de la aproximación de la varianza. Como lo muestra el siguiente cuadro, en términos de eficiencia, cuando se utiliza el estimador de Horvitz-Thompson, hay Menor varianza cuando la fracción de muestreo en la primera etapa es alta y, de igual forma, cuando la fracción de muestreo en la última etapa es alta. A continuación se presenta la razón de coeficientes de variación estimados entre el mínimo de la tabla y el resto. Se nota que el mínimo es coeficiente de variación se presenta cuando las dos fracciones de muestreo son altas.  Cuando la fracción de muestreo de la primera etapa es baja, como el caso en donde las aproximaciones son buenas, el estimador es altamente variable y pierde eficiencia. A continuación se muestra los resultados de la razón de coeficientes de variación reales para ambos escenarios, 1 y 2, respectivamente.
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment121.png" alt=""/>
	</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/09/090611_0109_Otroscoment131.png" alt=""/>
	</p>
<p>Por lo tanto, lo primero que se debe plantar es una muy buena estrategia de muestreo que asegure que la varianza del estimador es pequeña, luego, si se da el caso, utilizar la aproximación de la varianza. Pero si no se da el caso, se debe omitir la utilización de estas expresiones que subestiman la varianza.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2289/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>TEAM</title>
		<link>http://www.gutierrezandres.com/archives/2269</link>
		<comments>http://www.gutierrezandres.com/archives/2269#comments</comments>
		<pubDate>Mon, 05 Sep 2011 02:30:28 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Biografías]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Control de calidad]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Diseño experimental]]></category>
		<category><![CDATA[Econometría]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Gráficos]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Libros]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[Métodos multivariados]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Probabilidad]]></category>
		<category><![CDATA[Psicometría]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Series de tiempo]]></category>
		<category><![CDATA[Simulación]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Uncategorized]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2269</guid>
		<description><![CDATA[Contenido (clic acá) Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe&#8230;]]></description>
			<content:encoded><![CDATA[<div>
<p><a href="http://www.gutierrezandres.com/wp-content/uploads/2010/12/TEAM.png"><br />
<img class="aligncenter" title="TEAM" src="http://www.gutierrezandres.com/wp-content/uploads/2010/12/TEAM-281x300.png" alt="" width="281" height="300" /></a></p>
<p><a href="http://www.gutierrezandres.com/wp-content/uploads/2010/12/Contenido.pdf">Contenido (clic acá)</a></p>
<p>Este libro conduce al lector por el apasionante viaje de la práctica estadística la cual ciertamente debe estar fundamentada en una rigurosidad teórica bien definida. El análisis de datos no empieza con un modelo de probabilidad. El análisis de datos empieza con los mismos datos; en la vida práctica el profesional debe cuestionarse acerca de la naturaleza de los datos: ¿qué rango tienen? ¿cuál es la fuente de los datos? ¿cómo se obtuvieron? En la vida real no sucede que el profesional sea contratado para analizar una muestra aleatoria que proviene de una distribución continua o discreta. No, en la vida real, el profesional decide qué tipo de distribución se ajusta mejor y sobre ello utiliza las mejores herramientas para inferir y convertir su análisis en información valiosa. Este texto tiene ese enfoque y la particularidad de poner en contexto al lector y mediante ejemplos prácticos afianzar la teoría e introducir al lector en el interesante camino de la programación estadística.</p>
<p><strong><a href="http://books.google.es/books?printsec=frontcover&amp;id=62u0U46_QLsC#v=onepage&amp;q&amp;f=false">Obtenga una visualización del texto acá </a>(Google books)</strong></p>
<p><strong><a href="http://www.lalibreriadelau.com/libros-de-estadistica-ca39_79/libro-teoria-estadistica-aplicaciones-y-metodos-p69707">Compre el libro acá (Librería de la U)</a></strong></p>
<p><strong><a href="http://www.lemoineeditores.com/catalog/product_info.php?products_id=2376">Compre el libro acá (Lemoine editores)</a></strong></p>
<p><strong><a href="http://www.librerianacional.com/es/index.php?option=com_catalogo&amp;task=mostrarDetalleProducto&amp;idProducto=273633">Compre el libro acá (Librería Nacional)</a></strong></p>
<p><strong><br />
</strong></p>
<p><strong>Puntos de venta:</strong></p>
<p><strong>Librería de la Universidad Santo Tomás: Carrera 13 No 51 (Bogotá)</strong></p>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2269/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Muestreo inverso, no-respuesta y otros temas</title>
		<link>http://www.gutierrezandres.com/archives/2257</link>
		<comments>http://www.gutierrezandres.com/archives/2257#comments</comments>
		<pubDate>Tue, 30 Aug 2011 20:21:34 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2257</guid>
		<description><![CDATA[Un colega me pregunta lo siguiente: Suponga un universo de 10 individuos U={12,…,10} de los cuales se quiere seleccionar 3 por muestreo aleatorio simple (MAS). Para esto, se aplica el método de coordinado negativo el cual re-ordena los 10 individuos de la siguiente forma 7,2,9,10,5,1,4,3,6,8. Por supuesto, se selecciona la muestra {7,2,9} y el estadístico&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify">Un colega me pregunta lo siguiente:
</p>
<p style="text-align: justify; margin-left: 36pt">Suponga un universo de 10 individuos U={12,…,10} de los cuales se quiere seleccionar 3 por muestreo aleatorio simple (MAS). Para esto, se aplica el método de coordinado negativo el cual re-ordena los 10 individuos de la siguiente forma 7,2,9,10,5,1,4,3,6,8. Por supuesto, se selecciona la muestra {7,2,9} y el estadístico a cargo guarda el orden en el cual quedaron los individuos en un archivo. Por problemas operativos no se puede contactar a los individuos 7 y 9, y se decide reemplazarlos por los individuos 10 y 5 sin ninguna selección aleatoria entre los restantes… simplemente se consideran &#8220;los que siguen en la lista&#8221;. ¿Es correcto afirmar que esa muestra {2,10,5} es generada por un diseño MAS (10,3)?
</p>
<p style="text-align: justify">Por supuesto, me parece que este ejemplo viene del día a día de las encuestas complejas. Antes de formular cualquier cosa hay varias consideraciones al respecto (algunas mías y la mayoría de otros colegas extranjeros con quiénes discutí el tema en el <em>Survey Research Methods Section</em> de la <em>ASA</em>):
</p>
<ol>
<li>
<div style="text-align: justify">Existe un problema de ausencia de respuesta que no debe ser pasado por alto. Hay muchos métodos para modelar esta ausencia y es mandatorio ponerlos en práctica cuando este fenómeno (que cada vez se va convirtiendo en una regla, en vez de la excepción) de ausencia de respuesta aparece. En general, se trata de modelar la respuesta como un evento aleatorio con probabilidad P(R); por lo tanto la probabilidad de ausencia de respuesta es 1-P(R). Si después de analizar la información, el estadístico decide que la ausencia de respuesta sigue un patrón completamente aleatorio MCAR (<em>missing completely at random, </em>por sus siglas en inglés) y no es debida a comportamientos intrínsecos en los subgrupos poblacionales, entonces, bajo este supuesto, todos los individuos tendrán la misma probabilidad de responder y, por tanto, la misma probabilidad de no responder.
</div>
</li>
<li>
<div style="text-align: justify">El algoritmo coordinado negativo ordena la población de forma aleatoria. De hecho, se trata de una permutación aleatoria de los elementos de la población. De esta forma, si la población tiene N individuos, y se ordenan aleatoriamente, entonces los primeros (o los últimos) <em>k</em> elementos conforman una muestra aleatoria simple de tamaño <em>k</em>.
</div>
</li>
<li>
<div style="text-align: justify">Para evitar esos inconvenientes técnicos, en la fase de diseño, se acostumbra a extraer la muestra de reemplazo para permitir la ausencia de respuesta. Cuando uno no ordena toda la lista de forma aleatoria, la muestra de reemplazo es una muestra separada de la población que queda después de extraer la muestra principal.) Por lo tanto, si los individuos 7 y 9 fueron los que no respondieron porque no estaban disponibles (<em>missing</em> o faltantes), y se reemplazaron con los individuos 10 y 5, entonces es plausible suponer que se tiene una muestra aleatoria de tamaño 5 que incluye dos individuos que no respondieron. Por supuesto, el siguiente paso debe ser el ajuste de los pesos de los encuestados para tener en cuenta la falta de respuesta.
</div>
</li>
<li>
<div style="text-align: justify">El proceso de muestreo que se describe puede ser llamado &#8220;muestreo inverso&#8221; puesto que no se dejan de seleccionar individuos hasta obtener tres observaciones que efectivamente sí respondieron y que conforman la muestra válida. En este caso, el tamaño de la muestra no es 3 y se convierte en una cantidad aleatoria. Este método, descrito en Cochran (1977), fue propuesto por Haldane (1949). Sin embargo, los desarrollos para la estimación insesgada de totales, media y proporciones son recientes.
</div>
</li>
</ol>
<p style="text-align: justify">A continuación vamos a tratar de elaborar un poco más el tema. Si se decide que el modelo pertinente para la falta de respuesta es MCAR, entonces se puede suponer (muy importante… suponer es diferente a definir) que la muestra es de 5 observaciones aleatoria simple y reajustar los pesos de las dos observaciones faltantes. De esta forma, si los individuos 7 y 9 no respondieron, se puede utilizar esa información para estimar la proporción de la población que no responde. De esta forma, sea S1 la muestra en la primera selección (esta muestra es de tamaño 3). Sea S2 la muestra efectiva en la segunda selección (esta muestra es de tamaño 2). Por último, sea R el conjunto de respondientes en la primera selección. Luego, dado que las selecciones no son independientes (puesto que para obtener S2, se debió haber seleccionado S1 y definido R), la probabilidad de inclusión de un individuo en la muestra final es:
</p>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/08/083011_2021_Muestreoinv13.png" alt=""/>
	</p>
<p style="text-align: justify">Bajo esta perspectiva, muestreo aleatorio simple de 5 unidades con 2 faltantes, cada individuo en la muestra final tiene la misma ponderación. Lo anterior no significa que la muestra final provenga de un muestreo aleatorio simple de tamaño 3. Con este desarrollo, es posible utilizar el estimador de Horvitz-Thompson para estimar sesgadamente (pero con sesgo moderado) funciones de totales. Dada esta configuración, se deben desarrollar expresiones para las probabilidades de inclusión de segundo orden para tener un acercamiento apropiado a la varianza de las estimaciones. También se pueden aplicar los principios de la estimación en dos fases, entre otros.
</p>
<p style="text-align: justify">Por otra parte, nos podemos permitir ajustar esta situación al muestreo inverso, en donde para satisfacer un tamaño de muestra r (en nuestro ejemplo, r=3) se continúan seleccionado unidades en la población hasta que las r respondan. Para profundizar en algunos algoritmos de selección de muestras inversas, el lector puede remitirse al <a href="http://www.box.net/shared/352z0prt5dra07t5st7e">artículo de Hinkins, Lock Oh &amp;  Scheuren (1997)</a>. Si se pretende estimar  la media de la población o la proporción de respondientes es posible utilizar las técnicas planteadas en la <a href="http://www.box.net/shared/bxv4u5fpyo4suoiyz17h">Sección 3 de Salehi &amp; Seber (2001)</a>. Algunas expresiones acerca de la probabilidad de selección de muestras inversas sin reemplazo se pueden encontrar en <a href="http://www.box.net/shared/mlu7ofbrg8dcgxgy4zt6">el artículo de Espejo, Singh &amp; Saxena (2008)</a>. Por último, si desea utilizar este diseño de muestreo para combinarlo con el estimador de Horvitz-Thompson, entonces le recomiendo <a href="http://www.box.net/shared/bgvi96inyxt1xfmsl7lx">este excelente artículo de Mohammadi &amp; Salehi (2011)</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2257/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Cuidado con la estimación de la varianza… ¡SAS, PC-Carp, Sudaan, Wesvar y R pueden arrojar malos resultados!</title>
		<link>http://www.gutierrezandres.com/archives/2248</link>
		<comments>http://www.gutierrezandres.com/archives/2248#comments</comments>
		<pubDate>Mon, 29 Aug 2011 19:13:25 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2248</guid>
		<description><![CDATA[Y en principio no estoy insinuando que estos excelentes paquetes computacionales sean malos o que su programación esté errada, de ninguna manera… Sin embargo, en mi ejercicio como auditor de metodologías de muestreo, he encontrado que en algunas ocasiones, para diseños de muestreo complejos que involucran estratificación y varias etapas, los errores estándar (definidos como&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Y en principio no estoy insinuando que estos excelentes paquetes computacionales sean malos o que su programación esté errada, de ninguna manera… Sin embargo, en mi ejercicio como auditor de metodologías de muestreo, he encontrado que en algunas ocasiones, para diseños de muestreo complejos que involucran estratificación y varias etapas, los errores estándar (definidos como la raíz cuadrada de la varianza), los coeficientes de variación (definidos como el cociente entre el error estándar y la estimación puntual), la longitud de los intervalos de confianza (definida como el producto del error estándar y el percentil adecuado de la distribución del estimador) y hasta los efectos de diseño (definidos como el cociente entre la varianza del diseño complejo y la varianza del muestreo aleatorio simple) parecen ser sospechosos.</p>
<p style="text-align: justify;">De repente, para alguna muestra que se sabe que debería tener un efecto de aglomeración bastante alto, aparecen efectos de diseño muy bajos y errores estándar muy bajos. De esa manera, al revisar los informes metodológicos uno se encuentra con excelentes formulaciones de estrategias de muestreo que no responden a la sospecha de esas cifras y entonces uno infiere que el problema debe ser computacional. De esa forma, sistemáticamente he encontrado que muchos estadísticos dejan el tema de la estimación de la varianza en manos del software computacional.</p>
<p style="text-align: justify;">En particular, en alguna ocasión me encontré estimando el tamaño de muestra de una gran encuesta y mis cifras diferían un poco con los tamaños de muestra de una respetada firma. Después de revisar muy bien, me encontré con que su estimación de los errores estándar no coincidía con la mía. Así que indagué a profundidad y encontré que la expresión que se utilizó para este cálculo de los errores estándar dentro de un estrato (para una encuesta en varias etapas) es la siguiente:</p>
<p style="text-align: center;"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/08/082911_1913_Cuidadoconl1.jpg" alt="" /></p>
<p style="text-align: justify;">Y ya… sin importar el número de etapas, sin importar si la selección dentro de las etapas haya sido proporcional o simple… sin importar nada más, esta es la fórmula que veo y veo y sigo viendo en los informes metodológicos. Ahora, por supuesto que se trata de un a aproximación a la varianza real. Por lo tanto, está bien que se utilice y me imagino que la seguiré viendo con frecuencia, máxime cuando el PROC SURVEY MEANS del SAS, el WESVAR 4.0, el SUDAAN, el PC-CARP, entre otros, utilizan dentro de sus procedimientos de estimación esta expresión para el cálculo de los errores estándar. Escribí acerca de la validez de esta aproximación en el Survey Research Methods Section de la ASA y un experto muy reconocido me respondió lo siguiente:</p>
<blockquote>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: red;">Most variance estimators work with municipality level estimates.  The sampling procedures at further stages of selection are typically ignored unless the fpc (1-f) is important at the municipality level.  See for example Appendix D of the WesVar 4.0 manual or chapter 3 of the SUDAAN manual.<br />
</span></p>
</blockquote>
<p style="text-align: justify;">Luego, lo discutí con Felipe Ortiz, un amigo y colega a quien respeto y admiro mucho por su amplia visión de la estadística y el muestreo, y quien dirige la cátedra de diseño de encuestas en la Facultad de Estadística de la Universidad Santo Tomás. Cuál sería mi sorpresa al saber que en la entidad en donde él trabaja se había realizado una simulación para evaluar la validez de esta misma aproximación. <a href="http://www.gutierrezandres.com/wp-content/uploads/2011/08/NUEVAS-TECNICAS-PARA-LA-ESTIMACION-DE-PARAMETROS-EN.pdf">Los resultados del ejercicio están acá </a>y al parecer son muy claros.</p>
<p style="text-align: justify;">En conclusión, es muy plausible usar esta aproximación, pero se debe usar teniendo en cuenta que la fracción de muestreo dentro de la primera unidad de muestreo no debe ser grande… Esto implica que el factor de corrección para poblaciones finitas (1-f) debe ser pequeño, luego el submuestreo en las USM debería ser grande. Por otra parte, si se usan estas expresiones, sería muy enriquecedor para el informe aclarar que no se trata de una expresión exacta, sino lo que es, una aproximación de la varianza.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2248/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Videos divertidos del Statistical Planet</title>
		<link>http://www.gutierrezandres.com/archives/2237</link>
		<comments>http://www.gutierrezandres.com/archives/2237#comments</comments>
		<pubDate>Wed, 24 Aug 2011 17:17:06 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Software]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2237</guid>
		<description><![CDATA[El Grupo de conocimiento público de la American Statistical Association (ASA) realizó un concurso de videos llamado &#8220;promoción de la práctica y profesión de la Estadística&#8221;. A continuación el video más bayesiano. Este es un video en el que el cantante no se explica cómo es la situación de dos personas que estadísticamente comen un&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">El Grupo de conocimiento público de la American Statistical Association (ASA) realizó un concurso de videos llamado &#8220;promoción de la práctica y profesión de la Estadística&#8221;. A continuación el video más bayesiano.<br />
<span style="text-align:center; display: block;"><a href="http://www.gutierrezandres.com/archives/2237"><img src="http://img.youtube.com/vi/TNHJM_ZdxSM/2.jpg" alt="" /></a></span></p>
<p style="text-align: justify;">Este es un video en el que el cantante no se explica cómo es la situación de dos personas que estadísticamente comen un pollo, pero en la realidad uno de ellos comió dos pollos, mientras que el otro no comió nada.<br />
<span style="text-align:center; display: block;"><a href="http://www.gutierrezandres.com/archives/2237"><img src="http://img.youtube.com/vi/hwd544YmzJ4/2.jpg" alt="" /></a></span></p>
<p style="text-align: justify;">Y este es un video que bien podría ser el cabezote de un infomercial.<br />
<span style="text-align:center; display: block;"><a href="http://www.gutierrezandres.com/archives/2237"><img src="http://img.youtube.com/vi/7GQblT8Bf5w/2.jpg" alt="" /></a></span></p>
<p style="text-align: justify;">Hay muchos otros videos divertidos (y otros no tanto) <a href="www.amstat.org/youtube/index.cfm">acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2237/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Estimación de la varianza con tamaños de muestra uno… La técnica de los estratos colapsados</title>
		<link>http://www.gutierrezandres.com/archives/2223</link>
		<comments>http://www.gutierrezandres.com/archives/2223#comments</comments>
		<pubDate>Sat, 13 Aug 2011 00:50:44 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2223</guid>
		<description><![CDATA[Termina la clase de muestreo avanzado. Son las diez de la noche y una de mis mejores alumnas me hace una pregunta: &#60;&#60;profe, ¿el siguiente esquema de muestreo es adecuado?&#62;&#62; Le respondo que sí, convencido de que sí es procedente. Llego a mi casa y comienzo a pensar un poco más en ese esquema de&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Termina la clase de muestreo avanzado. Son las diez de la noche y una de mis mejores alumnas me hace una pregunta: &lt;&lt;profe, ¿el siguiente esquema de muestreo es adecuado?&gt;&gt; Le respondo que sí, convencido de que sí es procedente. Llego a mi casa y comienzo a pensar un poco más en ese esquema de muestreo. Es una situación intrincada y en verdad, aunque la respuesta que di, en primera instancia es acertada, también es cierto que está condicionada. Por lo tanto, de algunos vericuetos mentales, surge esta entrada que trata de dar una solución al problema de las varianzas con tamaño de muestra uno y afianza una vez más el consejo que les di a mis estudiantes en esa misma clase: lo importante no es aprenderse las fórmulas de memoria, sino darles sentido.</p>
<p style="text-align: justify;">El tema es el siguiente: Se tiene una encuesta probabilística en varias etapas. En las primeras etapas se seleccionan municipios, sectores cartográficos, manzanas y por últimos viviendas. En cada vivienda, se entrevistan a todos los habitantes, pero se selecciona aleatoriamente a uno de ellos para que complete un registro más largo. En pocas palabras, todos contestan ciertas preguntas básicas y sólo uno de ellos contesta otra batería de preguntas.</p>
<p style="text-align: justify;">Bajo este contexto, con esta poca información, en términos de estimación de la varianza, la situación se divide en dos. Por una parte, es posible que el entrevistado de la vivienda esté respondiendo cuestiones inherentes al hogar. Siendo así, la unidad de interés es la vivienda y no existe ningún problema en que haya sólo un respondiente, pues está contestando preguntas de la vivienda. De esta manera, la muestra en la última etapa, no estaría dada por una sola vivienda, sino que estaría conformada por el total de viviendas pertenecientes a las manzanas seleccionadas. Ese fue mi razonamiento a priori y por ende, no deduje nada extraño en el planteamiento del problema, puesto que el tamaño de muestra (viviendas) es mayor a uno y no existiría ninguna complicación al estimar la varianza.</p>
<p style="text-align: justify;">Sin embargo, después de pensarlo un poco más, la situación cambia totalmente si se supone que el único individuo seleccionado en la muestra está respondiendo preguntas relacionadas con él mismo. De esta manera, la unidad de muestreo correspondería a la persona (no el hogar o vivienda) y por ende, la muestra de la última etapa efectivamente sería de sólo un individuo en las viviendas. En este escenario, existiría una gran complicación para estimar la varianza, puesto que es bien sabido que si el tamaño de muestra es uno (<img src='http://s0.wp.com/latex.php?latex=n%3D1&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='n=1' title='n=1' class='latex' />), entonces la probabilidad de inclusión conjunta es nula (<img src='http://s0.wp.com/latex.php?latex=%5Cpi_%7Bkl%7D%3D0&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='&#92;pi_{kl}=0' title='&#92;pi_{kl}=0' class='latex' />, para todo <img src='http://s0.wp.com/latex.php?latex=k%5Cneq+l+&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='k&#92;neq l ' title='k&#92;neq l ' class='latex' />). Lo anterior se traduce en que es imposible obtener una estimación insesgada de la varianza del estimador.</p>
<p style="text-align: justify;">Por supuesto, es una situación difícil, pero no es el fin del mundo. Es posible que no podamos acceder a una estimación insesgada, pero siempre es posible obtener una estimación sesgada. El problema con las varianzas es que la estimación sesgada debe sobre-estimar la varianza real. Por supuesto, es mucho más grave reportar coeficientes de variación menores a la cifra real, que coeficientes de variación mayores. De la misma forma, las complicaciones son mayores si se reportan intervalos de confianza más estrechos que en la realidad, que si se reportan intervalos de confianza más anchos que en la realidad. Por lo tanto, como los coeficientes de variación y los intervalos de confianza están en función de la estimación de la varianza, entonces definitivamente optaremos por encontrar expresiones que sobre-estimen el verdadero valor de la varianza.</p>
<p style="text-align: justify;">Existen muchas técnicas que permiten obtener un estimador sesgado. Sin embargo, algunas de ellas inducen sub-estimación de la varianza real. Por lo tanto, creo que una solución viable para esta problemática es utilizar la técnica de los estratos colapsados, por supuesto, después de modificarla un poco y acomodarla al contexto de varias etapas (lo cual constituye una tarea muy sencilla). El lector interesado puede encontrar más información en Cochran (1977, pg 138), Raj (1968, pg 74) y Sarndal, et.al. (1992, pg 109). Lehtonen y Pahkinen (2004, pg 132) proveen un ejemplo práctico, similar al que originó esta discusión. Básicamente, se supone que en las últimas etapas, la encuesta tiene muchos estratos y, por conveniencia logística y/o económica, se decide seleccionar sólo un elemento dentro de cada estrato. Por supuesto, no es posible obtener una estimación insesgada de la varianza. Por lo tanto, se propone el agrupamiento de los estratos en pares. Es decir, se crean nuevos estratos uniendo pares y, de esta manera, cada nuevo estrato tendrá un tamaño de muestra igual a dos.</p>
<p style="text-align: justify;">Bajo este esquema, y suponiendo que el submuestreo fue aleatorio simple, se tienen H/2 pares de estratos y se propone el siguiente estimador sesgado</p>
<p style="text-align: justify;"><img src='http://s0.wp.com/latex.php?latex=%5Chat%7BV%7D_1%28%5Chat%7Bt%7D_y%29%3D%5Csum_%7Bh%3D1%7D%5E%7BH%2F2%7D%28%5Chat%7Bt%7D_%7Bh1%7D-%5Chat%7Bt%7D_%7Bh2%7D%29%5E2&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='&#92;hat{V}_1(&#92;hat{t}_y)=&#92;sum_{h=1}^{H/2}(&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2' title='&#92;hat{V}_1(&#92;hat{t}_y)=&#92;sum_{h=1}^{H/2}(&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2' class='latex' /></p>
<p style="text-align: justify;">Nótese que en el h-ésimo par, se tiene que</p>
<p style="text-align: justify;"><img src='http://s0.wp.com/latex.php?latex=%5Chat%7Bt%7D_%7Bh1%7D-%5Chat%7Bt%7D_%7Bh2%7D%3D%28%7Bt%7D_%7Bh1%7D-%7Bt%7D_%7Bh2%7D%29%2B%28%5Chat%7Bt%7D_%7Bh1%7D-%7Bt%7D_%7Bh1%7D%29-%28%5Chat%7Bt%7D_%7Bh2%7D-%7Bt%7D_%7Bh2%7D%29&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='&#92;hat{t}_{h1}-&#92;hat{t}_{h2}=({t}_{h1}-{t}_{h2})+(&#92;hat{t}_{h1}-{t}_{h1})-(&#92;hat{t}_{h2}-{t}_{h2})' title='&#92;hat{t}_{h1}-&#92;hat{t}_{h2}=({t}_{h1}-{t}_{h2})+(&#92;hat{t}_{h1}-{t}_{h1})-(&#92;hat{t}_{h2}-{t}_{h2})' class='latex' /></p>
<p style="text-align: justify;">Por lo tanto, promediando sobre todas las posibles muestras en ese par, se tiene que</p>
<p style="text-align: justify;"><img src='http://s0.wp.com/latex.php?latex=E%28%5Chat%7Bt%7D_%7Bh1%7D-%5Chat%7Bt%7D_%7Bh2%7D%29%5E2%3D%28%7Bt%7D_%7Bh1%7D-%7Bt%7D_%7Bh2%7D%29%5E2%2BN_%7Bh1%7D%5E2%281-1%2F+N_%7Bh1%7D%29S%5E2_%7BUh1%7D%2BN_%7Bh2%7D%5E2%281-1%2F+N_%7Bh2%7D%29S%5E2_%7BUh2%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='E(&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2=({t}_{h1}-{t}_{h2})^2+N_{h1}^2(1-1/ N_{h1})S^2_{Uh1}+N_{h2}^2(1-1/ N_{h2})S^2_{Uh2}' title='E(&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2=({t}_{h1}-{t}_{h2})^2+N_{h1}^2(1-1/ N_{h1})S^2_{Uh1}+N_{h2}^2(1-1/ N_{h2})S^2_{Uh2}' class='latex' /></p>
<p style="text-align: justify;">Por lo tanto, la esperanza de la suma sobre todos los estratos, que coincide con la esperanza de <img src='http://s0.wp.com/latex.php?latex=%5Chat%7BV%7D_1%28%5Chat%7Bt%7D_y%29&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='&#92;hat{V}_1(&#92;hat{t}_y)' title='&#92;hat{V}_1(&#92;hat{t}_y)' class='latex' /> es</p>
<p style="text-align: justify;"><img src='http://s0.wp.com/latex.php?latex=%5Csum_%7Bh%3D1%7D%5E%7BH%2F2%7DE+%28%5Chat%7Bt%7D_%7Bh1%7D-%5Chat%7Bt%7D_%7Bh2%7D%29%5E2%3DE%28%5Chat%7BV%7D_1%28%5Chat%7Bt%7D_y%29%29%3D+%5Csum_%7Bh%3D1%7D%5E%7BH%7D+N_%7Bh%7D%5E2%281-1%2F+N_%7Bh%7D%29S%5E2_%7BUh%7D%2B%5Csum_%7Bh%3D1%7D%5E%7BH%2F2%7D%28%7Bt%7D_%7Bh1%7D-%7Bt%7D_%7Bh2%7D%29%5E2&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='&#92;sum_{h=1}^{H/2}E (&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2=E(&#92;hat{V}_1(&#92;hat{t}_y))= &#92;sum_{h=1}^{H} N_{h}^2(1-1/ N_{h})S^2_{Uh}+&#92;sum_{h=1}^{H/2}({t}_{h1}-{t}_{h2})^2' title='&#92;sum_{h=1}^{H/2}E (&#92;hat{t}_{h1}-&#92;hat{t}_{h2})^2=E(&#92;hat{V}_1(&#92;hat{t}_y))= &#92;sum_{h=1}^{H} N_{h}^2(1-1/ N_{h})S^2_{Uh}+&#92;sum_{h=1}^{H/2}({t}_{h1}-{t}_{h2})^2' class='latex' /></p>
<p style="text-align: justify;">El primer término del sumando corresponde a la varianza real con tamaño de muestra uno y el segundo término es el sesgo positivo del estimador. Se dice que el tamaño del sesgo depende de qué tanto difieran los pares. Es decir, a la hora de construir estos pares, se debe procurar que se parezcan al máximo.</p>
<p style="text-align: justify;">¿Alguna otra idea?</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2223/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Mi artículo de muestreo en Comunicaciones en Estadística 2011</title>
		<link>http://www.gutierrezandres.com/archives/2219</link>
		<comments>http://www.gutierrezandres.com/archives/2219#comments</comments>
		<pubDate>Mon, 08 Aug 2011 22:15:35 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2219</guid>
		<description><![CDATA[Una estrategia de muestreo es una dupla compuesta de un diseño de muestreo y un estimador, en este artículo se tratará el problema de escoger una estrategia de muestreo representativa para las variables auxiliares con el fin de aumentar la precisión de las estimaciones del total de una variable de interés en una población finita.&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Una estrategia de muestreo es una dupla compuesta de un diseño de muestreo y un estimador, en este artículo se tratará el problema de escoger una estrategia de muestreo representativa para las variables auxiliares con el fin de aumentar la precisión de las estimaciones del total de una variable de interés en una población finita. Aunque existen diseños de muestreo y estimadores que inducen estrategias representativas, se concluye, por medio de una simulación de Monte Carlo que, en términos de eficiencia, no siempre es mejor utilizar un estimador de calibración bajo un diseño de muestreo balanceado, como uno podría suponer.</p>
<p style="text-align: justify;">El artículo lo pueden descargar haciendo <a href="http://comunicacionesenestadistica.usta.edu.co/documents/vol4n1/pdf/A3.pdf">clic acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2219/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>My talk in JSM 2011</title>
		<link>http://www.gutierrezandres.com/archives/2207</link>
		<comments>http://www.gutierrezandres.com/archives/2207#comments</comments>
		<pubDate>Mon, 08 Aug 2011 22:11:25 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2207</guid>
		<description><![CDATA[La presentación de esta charla la pueden descargar haciendo clic acá.]]></description>
			<content:encoded><![CDATA[<span style="text-align:center; display: block;"><a href="http://www.gutierrezandres.com/archives/2207"><img src="http://img.youtube.com/vi/c3bZRvJ7SHw/2.jpg" alt="" /></a></span>
<p>La presentación de esta charla la pueden descargar haciendo <a href="http://www.gutierrezandres.com/wp-content/uploads/2010/12/JSM2011AG.pdf">clic acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2207/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Comunicaciones en Estadística Volumen 4 No. 1</title>
		<link>http://www.gutierrezandres.com/archives/2191</link>
		<comments>http://www.gutierrezandres.com/archives/2191#comments</comments>
		<pubDate>Mon, 08 Aug 2011 18:59:51 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Biografías]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Control de calidad]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Diseño experimental]]></category>
		<category><![CDATA[Econometría]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Gráficos]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Libros]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[Métodos multivariados]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Probabilidad]]></category>
		<category><![CDATA[Psicometría]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Series de tiempo]]></category>
		<category><![CDATA[Simulación]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Uncategorized]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2191</guid>
		<description><![CDATA[&#160; http://comunicacionesenestadistica.usta.edu.co/ En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un&#8230;]]></description>
			<content:encoded><![CDATA[<p>&nbsp;</p>
<p style="text-align: center;"><img class="size-full wp-image-2192 aligncenter" title="revista" src="http://www.gutierrezandres.com/wp-content/uploads/2011/08/revista.png" alt="" width="646" height="388" /></p>
<h3 style="text-align: center;"><a href="http://comunicacionesenestadistica.usta.edu.co/">http://comunicacionesenestadistica.usta.edu.co/</a></h3>
<p style="text-align: justify;">En el sexto número de la revista Comunicaciones en Estadística queremos extender un afectuoso saludo a nuestros lectores y a través de esta editorial manifestarles nuestro agradecimiento por habernos puesto en un importante lugar en el medio estadístico nacional. Cada vez se acerca más la tan anhelada indexación nacional. Esperamos que en un tiempo muy corto esta publicación esté indexada en una muy buena categoría. Por lo pronto, ya somos reconocidos por Colciencias y estamos dentro de su repositorio de revistas científicas reconocidas.</p>
<p style="text-align: justify;">Este número de la revista Comunicaciones en Estadística abre con un artículo escrito por González y Zambrano, en donde se profundiza en la implementación de cartas de control, sistematizadas en el paquete estadístico R, con el fin de monitorear la media de procesos que se desvían del supuesto usual de ausencia de autocorrelación. Con este fin, los autores implementan varios códigos computacionales que permiten el ajuste de modelos ARMA, cartas EWMA y ajuste de residuales con modelos que asumen autocorrelación.</p>
<p style="text-align: justify;">Por otro lado, Rodríguez y Cepeda consideran algunos resultados de un estudio de la concentración de la tierra en Colombia. Mediante un análisis descriptivo, establecen una relación entre porcentajes de propietarios y porcentajes de tierra acumulada. Este artículo concluye con el análisis de coeficientes de Gini para algunas regiones de Colombia.</p>
<p style="text-align: justify;">El tercer artículo de este número, escrito por Gutiérrez, trata sobre el tema del principio de representatividad en algunas estrategias de muestreo que utilizan información auxiliar para mejorar la eficiencia de las estimaciones. Se trata de un artículo que expone, mediante simulaciones empíricas, que, en algunas ocasiones, es mejor utilizar estrategias de muestreo básicas puesto que inducen mejores resultados que aquellas que utilizan información auxiliar que no está bien correlacionada estructuralmente con la característica de interés.</p>
<p style="text-align: justify;">Camacho, utilizando un modelo lineal generalizado, expone los resultados de un estudio realizado en Colombia, con el fin de encontrar asociaciones de polimorfismos genéticos de algunas razas de bovinos con el desarrollo muscular y el peso al nacimiento. El artículo finaliza con algunas conclusiones sobre el desempeño que poseen ciertas razas sobre el ganado cebuino.</p>
<p style="text-align: justify;">Por último, Ortiz explora las propiedades de la prueba hipergeométrica aleatorizada y propone algunos métodos computacionales que permiten concluir acerca de la eficiencia de la prueba, que está basada en el manejo de datos cuya naturaleza es discreta. En este artículo, Ortiz expone de manera detallada y muy pedagógica que en términos de pruebas estadísticas, la aletaorización está centrada en la regla de decisión y no en el resultado obtenido de la prueba.</p>
<p style="text-align: justify;">Una vez más, desde la Facultad de Estadística de la Universidad Santo Tomás, enviamos un mensaje de agradecimiento a nuestros lectores y les invitamos a hacerse partícipes mediante el envío de sus artículos.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2191/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Ideas al azar (Julio)</title>
		<link>http://www.gutierrezandres.com/archives/2179</link>
		<comments>http://www.gutierrezandres.com/archives/2179#comments</comments>
		<pubDate>Sat, 23 Jul 2011 01:34:03 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Libros]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/?p=2179</guid>
		<description><![CDATA[Hoy, mientras esperaba por unas copias en la Universidad Nacional de Colombia, me encontré de pronto ojeando libros en la librería de la universidad. Sin darme cuenta, estaba leyendo los prólogos de algunos libros escritos por autores de la universidad. En uno de ellos la autora afirmaba que el libro había nacido debido a la&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Hoy, mientras esperaba por unas copias en la Universidad Nacional de Colombia, me encontré de pronto ojeando libros en la librería de la universidad. Sin darme cuenta, estaba leyendo los prólogos de algunos libros escritos por autores de la universidad. En uno de ellos la autora afirmaba que el libro había nacido debido a la necesidad de los estudiantes de seguir un texto así y bla, bla, bla…</p>
<p style="text-align: justify;">Con respecto a lo anterior me surgen dos ideas al azar… La primera es en forma de exclamación. Lo primero que pensé fue &lt;&lt;ay no, gracias por escribir el libro&gt;&gt;. En realidad no tengo ni idea acerca de las bondades del libro, puesto que ni siquiera es de estadística o matemáticas. Sin embargo, bueno o no, es realmente altruista que una doctora entre en la ardua tarea de escribir un libro de 500 páginas porque los estudiantes lo necesitan. De hecho, me parece una motivación influida de delirios mesiánicos y fuera de tono con la realidad de las nuevas tecnologías. Me explico, es mesiánica porque ella cree que les está haciendo un favor a los estudiantes, que no existe un libro mejor sobre el tema, que no existirá un mejor texto. Realmente, me parece que los estudiantes le están haciendo un favor a ella. Por supuesto, le están comprando el libro, le corrigen los posibles errores, le brindan alegría, entre otras. No creo ni siquiera que el estudiante esté enterado de que existe un gran vacío en la literatura y que sólo la profesora pueda llenar ese vacío.</p>
<p style="text-align: justify;">El segundo pensamiento que tuve fue ¿Por qué no decir simplemente que la motivación es que a ella le gusta esa área de las ciencias, además le gusta enseñar, y por consiguiente, la haría muy feliz enseñar con su libro? No creo que haya nada de malo en eso. De hecho, con esa motivación estoy seguro que se escriben los mejores textos. Es así de sencillo, en materia de libros (pilas, no estoy hablando de investigación formativa) de texto, ya todo está escrito. El cálculo que hoy dictan en las universidades ya se inventó hace muchos siglos, miles de libros han sido escritos. En mi biblioteca, cuento con más de treinta libros de muestreo, incluyendo el mío. A decir la verdad, podría escoger al azar cualquiera y aun así podría dictar un muy buen curso de muestreo. No es que mi libro sea el mejor libro de muestreo, es simplemente que me gusta ese tema, me apasiona y como también me gusta mucho enseñar, pues enseño con el libro que yo escribí. Es por eso que no dicto el curso de muestreo con otro texto, sino con el mío, aun sabiendo que los otros pueden ser considerados como mejores. De hecho, la parte humana se alimenta cuando el alumno se da cuenta que el profesor sí comete errores, que el profesor es de carne y hueso, y eso aumenta el sentimiento de aprecio y, por qué no decirlo la calidad de las exposiciones.</p>
<p style="text-align: justify;">I.D. me preguntó un día ¿para qué escribir un texto de inferencia estadística? Él argumentaba que habían otros textos, seguramente mucho mejores. Pues bien, hoy descubrí que en realidad, ese texto lo escribimos con ninguna motivación científica (eso no quiere decir que no sea un trabajo serio). De hecho, otros libros exponen lo mismo, pero en nuestro proceso de aprendizaje, quisimos plasmar nuestro punto de vista, que es muy diferente al de los otros textos. Quisimos entrar en ese bello camino de mostrarle al estudiante nuestra pasión por la estadística. Realmente lo escribimos con muchas motivaciones personales, pensando en todo tiempo en beneficiarnos de los comentarios de los estudiantes y colegas. Las añadiduras que trae, son simplemente producto de esa pasión y son la mejor versión de nosotros.</p>
<p style="text-align: justify;">Este blog es fiel a esa filosofía, lo escribo porque sí, porque me apasiona, porque me gusta estar en contacto con mis valiosos lectores. No lo escribo pensando en que hay un vacío que llenar, no lo escribo por hacerle un favor a nadie. No creo que mis entradas sean la salvación del gremio. Simplemente lo hago por satisfacerme a mí mismo. Esa es la alegría de mi vida, satisfacerme con las pequeñas cosas.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2179/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Mi artículo de muestreo y políticas públicas</title>
		<link>http://www.gutierrezandres.com/archives/2103</link>
		<comments>http://www.gutierrezandres.com/archives/2103#comments</comments>
		<pubDate>Wed, 20 Jul 2011 18:33:24 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=2103</guid>
		<description><![CDATA[Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación Política Pública Hoy. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi correo. El artículo lo pueden descargar acá.]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Muy amablemente, la Dirección de Evaluación de Políticas Públicas, del Departamento Nacional de Planeación, me ha invitado a ser partícipe, mediante un artículo, en su publicación <strong><a href="http://sinergia.dnp.gov.co/PortalDNP/default.aspx?txtAplicacion=Sinergia&amp;txtUrl=http://sinergia.dnp.gov.co/Sinergia/Boletines.aspx">Política Pública Hoy</a></strong>. Antés de someterlo quisiera que ustedes los revisaran y me hicieran llegar sus comentarios a mi <a href="mailto:contacto@gutierrezandres.com">correo</a>.</p>
<p style="text-align: justify;"><a href="http://www.gutierrezandres.com/wp-content/uploads/2011/07/Muestreo-PP.pdf">El artículo lo pueden descargar acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2103/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Algunas afirmaciones no del todo ciertas (parte I)</title>
		<link>http://www.gutierrezandres.com/archives/2100</link>
		<comments>http://www.gutierrezandres.com/archives/2100#comments</comments>
		<pubDate>Mon, 18 Jul 2011 00:18:26 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/07/algunas-afirmaciones-no-del-todo-ciertas-parte-i/</guid>
		<description><![CDATA[En muchas ocasiones, debido a mi trabajo, reviso, evalúo y audito muchas propuestas de metodologías de encuestas que abordan una determinada problemática. Me he encontrado con algunas afirmaciones que si bien, pueden llegar a ser ciertas bajo el debido contexto, son utilizadas como clichés y relleno en la propuesta metodológicas. A continuación tres de ellas:&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify">En muchas ocasiones, debido a mi trabajo, reviso, evalúo y audito muchas propuestas de metodologías de encuestas que  abordan una determinada problemática. Me he encontrado con algunas afirmaciones que si bien, pueden llegar a ser ciertas bajo el debido contexto, son utilizadas como clichés y relleno en la propuesta metodológicas. A continuación tres de ellas:
</p>
<ol>
<li>
<div style="text-align: justify">&lt;&lt;<strong>El muestreo estratificado es el mejor método de muestreo</strong>&gt;&gt; No necesariamente, ya Leonardo Bautista había abordado este tema, esta afirmación la he encontrado en una gran cantidad de propuestas técnicas que utilizan, obviamente, este tipo de diseño de muestreo. Ahora, aunque en esas propuestas la opción de estratificar es adecuada, no es cierto estrictamente que el muestreo estratificado sea el mejor. De hecho, la varianza del diseño aleatorio estratificado puede llegar a ser más grande cuando no hay una clara homogeneidad en el comportamiento de la característica de interés dentro de los estratos.
</div>
</li>
<li>
<div style="text-align: justify">&lt;&lt;<strong>La asignación de probabilidades desiguales inducen sesgo al estimador</strong>&gt;&gt; Esta frase es cierta, siempre y cuando el estimador que se utilice sea el estimador de expansión, es decir N veces y barra. La frase pierde su validez cuando se utiliza el estimador de Hansen-Hurwitz, para el caso de muestreos con reemplazo, o cuando se utiliza el estimador de Horvitz-Thompson, en muestreos sin reemplazo. Ahora, lo natural es que si el diseño es con probabilidades desiguales, pues no se utilice el estimador de expansión.
</div>
</li>
<li>
<div style="text-align: justify">&lt;&lt;<strong>Los conglomerados de tamaño desigual aumentan la varianza de estimador</strong>&gt;&gt; Es por esto que, en encuestas probabilísticas, se crean conglomerados pequeños, a nivel de manzana, o subsección cartográfica, e incluso hogares. Esta es una práctica muy pertinente, siempre y cuando el muestreo de los conglomerados sea aleatorio simple sin reemplazo. Por supuesto, como la varianza del estimador de expansión está en función de la varianza de los totales de los conglomerados, entonces si hay harta variación en los tamaños, habrá harta variación en los totales y por consiguiente la varianza del estimador será alta. De otra forma, si se tiene conocimiento de una característica de información auxiliar a nivel de conglomerados, es posible definir un diseño de muestreo con conglomerados muy desiguales en tamaño, pero que  al final induzcan una muy pequeña varianza en el estimador, incluso más pequeña que la del muestreo aleatorio simple con conglomerados iguales en tamaño.
</div>
</li>
</ol>
<p style="text-align: justify">PD: En algunos estudios de consumo, una característica de información auxiliar muy correlacionada con los totales (cantidad de consumo total) de los conglomerados es el tamaño mismo de los conglomerados. Es muy cierto que el consumo está correlacionado con el tamaño del conglomerado, pues entre más personas haya en el conglomerado, mayor el consumo, y viceversa. De hecho, en los libros clásicos de muestreo, a las características de información auxiliar se les llama variables de tamaño, justamente porque se derivan del tamaño de los conglomerados.
</p>
<p style="text-align: justify">
 </p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2100/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>I Concurso de Análisis de Datos con R</title>
		<link>http://www.gutierrezandres.com/archives/2097</link>
		<comments>http://www.gutierrezandres.com/archives/2097#comments</comments>
		<pubDate>Sun, 17 Jul 2011 16:10:05 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=2097</guid>
		<description><![CDATA[Como una actividad complementaria a las III Jornadas de Usuarios de R, a celebrar en Madrid el 17 y 18 de noviembre de 2011. Nestoria y Lokku Labs buscan mejorar la comprensión y la información que se puede obtener de sus bases de datos y pretenden contactar con brillantes estadísticos que aporten un valor añadido&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Como una actividad complementaria a las III Jornadas de Usuarios de R, a celebrar en Madrid el 17 y 18 de noviembre de 2011. Nestoria y Lokku Labs buscan mejorar la comprensión y la información que se puede obtener de sus bases de datos y pretenden contactar con brillantes estadísticos que aporten un valor añadido a los datos disponibles sobre precios de viviendas. Los organizadores, por su parte, desean mostrar las aplicaciones del R en el ámbito empresarial y demostrar el beneficio que pueden obtener las empresas analizando sus bases de datos con R.</p>
<h5 style="text-align: justify;">1.500€ en premios&#8230; y más</h5>
<p style="text-align: justify;">
<p style="text-align: justify;">El ganador obtendrá un cheque por importe de 1.000 euros y el segundo otro por 500 euros, además del certificado correspondiente en ambos casos. El concurso se podrá declarar desierto si el jurado considera una escasa calidad o interés en los trabajos presentados. Asimismo, uno o más de los participantes podrán ser invitados a una entrevista de trabajo en Londres, Reino Unido, para una colaboración inicial de tres meses en la sede central de Nestoria. Todos los participantes recibirán un certificado de su participación en el concurso con el título de su trabajo.</p>
<p style="text-align: justify;">
<p style="text-align: justify;">La página de las bases de la competición es: <a href="http://www.usar.org.es/concurso_es.php">http://www.usar.org.es/concurso_es.php</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2097/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Que no y que no y que no… ¡No es estratificado, es por cuotas!</title>
		<link>http://www.gutierrezandres.com/archives/2093</link>
		<comments>http://www.gutierrezandres.com/archives/2093#comments</comments>
		<pubDate>Wed, 13 Jul 2011 23:53:16 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Estadística]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/07/que-no-y-que-no-y-que-no%e2%80%a6-%c2%a1no-es-estratificado-es-por-cuotas/</guid>
		<description><![CDATA[  DG me escribe lo siguiente: Andrés, le escribo para sugerirle que incluya este artículo en su blog. Puede ser un error, pero si no lo es, la comunidad estadística debe manifestarse de alguna manera. Se trata de una encuesta de percepción para la alcaldía de Bogotá, esta medición la realizó la firma encuestadora Ipsos&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/07/071311_2353_Quenoyqueno11.jpg" alt=""/>
	</p>
<p style="text-align: justify">
 </p>
<p style="text-align: justify">DG me escribe lo siguiente: Andrés, le escribo para sugerirle que incluya <a href="http://www.semana.com/nacion/cosa-pinta-buena/157934-3.aspx">este artículo</a> en su blog. Puede ser un error, pero si no lo es, la comunidad estadística debe manifestarse de alguna manera.
</p>
<p style="text-align: justify">Se trata de una encuesta de percepción para la alcaldía de Bogotá, esta medición la realizó la firma encuestadora Ipsos Napoleón Franco y en la ficha técnica se puede encontrar esta descripción del diseño de muestreo: &#8220;<strong>Tipo de la muestra: Muestreo no probabilístico, aleatorio estratificado, por conglomerados</strong>.&#8221;
</p>
<p style="text-align: justify">Lo único que puedo decir es &#8220;no hay derecho&#8221;… No hay derecho a que una firma tan respetable y de tanta trayectoria cometa este tipo de errores. Puede no serlo, pero a mi parecer no se trata de un error tipográfico sino de un intento de darle un estatus de ciencia a una encuesta que es simplemente una medición de percepción al azar. Se me antoja que, en este escenario, es muy aplicable el viejo y conocido refrán &#8220;<strong>confunde y reinarás</strong>&#8220;. Es una más de las expresiones de autenticidad de los empresario latinoamericanos.
</p>
<p style="text-align: justify"><a href="http://www.stat.columbia.edu/~cook/movabletype/archives/2011/06/a_surveys_not_a.html">Andrew Gelman afirma</a> que una encuesta no es una encuesta, a no ser que se describa cómo fueron recolectados los datos y cómo se hizo el análisis de la información. De hecho, no es posible confiar en ningún reporte técnico que no explique la manera de recolección de la información; pero en este caso vale la pena, no sólo desestimar los resultados de la medición, sino también rechazar este tipo de prácticas que sólo confunden a la opinión pública. Si esta, o cualquier otra firma, contratara con el Estado para realizar un levantamiento de información que resultara ser &#8220;no probabilístico, pero aleatorio estratificado&#8221;, sí habría herramientas para levantar algún tipo de acción judicial. Es algo así como que se contratara un puente de concreto y el contratista entregara un puente de madera; algo como que se contratara una troncal en una gran ciudad y <a href="http://www.elespectador.com/articulo185562-los-nule-y-26">se entregara un camino de herradura</a>; algo como que se contratara un dique para resistir el embate del invierno, <a href="http://www.elcolombiano.com/BancoConocimiento/E/en_dos_semanas_estaria_reparado_canal_del_dique_santos/en_dos_semanas_estaria_reparado_canal_del_dique_santos.asp">y el dique se rompiera a las pocas semanas de haberse contruido</a>. Qué vaina que los Colombianos nos acostumbremos a estas instancias tan mediocres.
</p>
<p style="text-align: justify">Insisto, si hubiese una asociación de estadísticos en Colombia, podríamos hacer mucho ruido y tomar medidas conjuntas, como por ejemplo enviar una nota de protesta ante el Consejo Nacional Electoral, para que frene este tipo de prácticas hediondas. Pero ya habrá tiempo para eso… mientras tanto, seguiré escribiendo estas entradas para que alimenten la indignación de nuestro adormecido &#8220;gremio&#8221;.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2093/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>Bradley Efron sobre genes y micro-arreglos… Inferencia a gran escala (Parte 2)</title>
		<link>http://www.gutierrezandres.com/archives/2082</link>
		<comments>http://www.gutierrezandres.com/archives/2082#comments</comments>
		<pubDate>Tue, 12 Jul 2011 23:28:43 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Libros]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/07/bradley-efron-sobre-genes-y-micro-arreglos%e2%80%a6-inferencia-a-gran-escala-parte-2/</guid>
		<description><![CDATA[Algoritmos para chequear la significión estadística El tercer capítulo del libro de BE empieza abordando el tema de las pruebas de hipótesis que se realizan simultáneamente. El autor hace una reseña del libro Simultaneous Statistical inference, escrito por Rupert Miller en 1966, y concluye que este gran aporte, que es en esencia de tipo frecuentista,&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/07/071211_2328_BradleyEfro1.png" alt="" /></p>
<p style="text-align: justify;"><span style="color: #0070c0; font-size: 16pt;"><strong>Algoritmos para chequear la significión estadística</strong></span></p>
<p style="text-align: justify;"><span style="color: #0070c0; font-size: 16pt;"><strong><br />
</strong></span></p>
<p style="text-align: justify;">El tercer capítulo del libro de BE empieza abordando el tema de las pruebas de hipótesis que se realizan simultáneamente. El autor hace una reseña del libro <em>Simultaneous Statistical inference</em>, escrito por Rupert Miller en 1966, y concluye que este gran aporte, que es en esencia de tipo frecuentista, se enfoca en el control del error tipo I y se enfoca en situaciones de comparaciones múltiples para situaciones de casos entre dos y diez. Por supuesto, con los avances científicos, ahora se tiene que considerar comparaciones múltiples con muchos más individuos. Con base en lo anterior, este capítulo, a manera de repaso obligatorio, aborda algunos algoritmos que se utilizan para controlar el error tipo I.</p>
<p style="text-align: justify;">Antes de empezar el recuento de los procedimientos de comparaciones múltiples, el autor discute el uso y abuso de los <em>valores p</em>, que suponen un lenguaje universal para las pruebas de hipótesis estadísticas. Análogamente, plantea su similitud con los <em>valores z</em>, que se definen como la función inversa de la función de distribución de una normal estándar, evaluada en la realización del <em>valor p</em>. Algunas caracterizaciones de los procedimientos son visibles a simple vista con la realización de un histograma, dado que, bajo la hipótesis nula, los valores p tienen distribución uniforme en el intervalo cero-uno, y los valores z, tienen distribución normal estándar. Por ejemplo, es posible chequear las discrepancias que se presentan entre las barras del histograma y la distribución teórica, como picos o colas pesadas.</p>
<p style="text-align: justify;">Luego, el autor presenta la tasa de error <em>family-wise</em> (<em>FWER</em>, por sus siglas en inglés), definida como la probabilidad de realizar al menos un falso rechazo en una familia de pruebas de hipótesis. Un procedimiento de control FWER es un algoritmo que, al ingresar una familia de valores p, arroja una lista de hipótesis nulas aceptadas y rechazadas, sujeta a que la FWER sea menor o igual al error tipo I.</p>
<p style="text-align: justify;">Los límites de Bonferroni son un claro ejemplo de un algoritmo de control, el cual no requiere del supuesto de independencia entre los valores p. El procedimiento de Sidák presenta mejores resultados que los límites de Bonferroni, pero supone independencia. El procedimiento de Holm presenta un mejor desempeño, puesto que sus regiones de rechazo son más grandes. Luego, el autor introduce los algoritmos paso a paso y los algoritmos basados en permutaciones.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2082/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Bradley Efron sobre genes y micro-arreglos&#8230; Inferencia a gran escala (Parte 1)</title>
		<link>http://www.gutierrezandres.com/archives/2051</link>
		<comments>http://www.gutierrezandres.com/archives/2051#comments</comments>
		<pubDate>Thu, 23 Jun 2011 18:14:17 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Libros]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=2051</guid>
		<description><![CDATA[Hace unas semanas el Journal of Official Statistics me envió el último libro de Bradley Efron (BE), Large-Scale Inference, para hacerle una reseña. A parte de que es una gran dignidad hacerle una reseña a este autor, inventor del Bootstrap y el único estadístico ganador de la Medalla Nacional de las Ciencias (el más grande&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/06/062311_1814_BradleyEfro14.jpg" alt=""/>
	</p>
<p style="text-align: justify">Hace unas semanas el <a href="http://www.jos.nu">Journal of Official Statistics</a> me envió el último libro de <a href="http://en.wikipedia.org/wiki/Bradley_Efron">Bradley Efron</a> (BE), <a href="http://www.amazon.com/Large-Scale-Inference-Estimation-Prediction-Mathematical/dp/0521192498/ref=sr_1_7?s=books&amp;ie=UTF8&amp;qid=1308857663&amp;sr=1-7">Large-Scale Inference</a>, para hacerle una reseña. A parte de que es una gran dignidad hacerle una reseña a este autor, inventor del Bootstrap y el único estadístico ganador de la Medalla Nacional de las Ciencias (el más grande honor científico en los Estados Unidos), voy a dedicar un par de entradas para abarcar este tema que es realmente apasionante y concluir con la reseña. La idea es que con sus comentarios se enriquezca la reseña.
</p>
<p style="text-align: justify">En primer lugar, algo realmente digno de mencionar es la diferenciación que hace BE acerca de la historia de la estadística como una disciplina reconocida:
</p>
<ol>
<li>
<div style="text-align: justify">La era de Quetelet y sus sucesores, en la cual se utilizaron enormes conjuntos de datos, provenientes de censos, para resolver preguntas simples pero muy importantes: ¿nacen más mujeres que hombres? ¿La tasa de mortalidad de los niños está aumentando?
</div>
</li>
<li>
<div style="text-align: justify">El periodo clásico de Pearson, Neyman, Fisher y Hotelling, gigantes intelectuales que desarrollaron una teoría de inferencia estadística tan buena que es capaz de sacar hasta la última gota de información en experimentos científicos. Las preguntas en este periodo seguían siendo simples: ¿El tratamiento A es mejor que el tratamiento B? Sin embargo, estas nuevas metodologías están supeditadas a los pequeños conjuntos de datos que los investigadores pudiesen recolectar.
</div>
</li>
<li>
<div style="text-align: justify">La era de la producción científica masiva, en donde las nuevas tecnologías, tipificadas por los micro-arreglos, que permiten la producción de datos de un tamaño que el propio Quetelet envidiaría. Esta era está acompañada por muchísimas preguntas y quizás miles de estimaciones y pruebas de hipótesis que el estadístico debe resolver. Definitivamente, no es la clase de trabajo que el estadístico clásico tenía en mente.
</div>
</li>
</ol>
<p style="text-align: justify"><span style="color:#0070c0; font-size:16pt"><strong>Abordando el problema<br />
</strong></span></p>
<p style="text-align: justify">Los dos primeros capítulos del libro tratan el problema general. Cuando se tiene una gran masa de datos, el enfoque que se debe utilizar es multivariante. De manera tradicional, el enfoque más utilizado es el de máxima verosimilitud. Sin embargo, que sea el más utilizado no implica que sea el correcto. BE cita el trabajo de Stein en 1955 que conmovió las bases de la estadística con un resultado que asegura que, para dimensiones mayores a dos, el estimador de máxima verosimilitud puede ser mejorado en términos del error cuadrático total esperado. Más adelante, Stein desarrolló junto con James un estimador basado en la metodología de Bayes empírico, que domina al estimador de máxima verosimilitud, para cualquier escogencia de distribución previa. Aunque el estimador de James-Stain sea mejor, lo cierto es que para algunas circunstancias subestima al parámetro de interés, razón por la cual es a veces preferido el uso del estimador de máxima verosimilitud. El primer capítulo, así como a lo largo de todo el texto, hace énfasis en el desarrollo de problemas, teóricos y prácticos, que contextualizan la lectura.
</p>
<p style="text-align: justify"><span style="color:#0070c0; font-size:16pt"><strong>Micro-arreglos<br />
</strong></span></p>
<p style="text-align: justify">Mediante un ejemplo de micro- arreglos, el segundo capítulo aborda la problemática de  las pruebas de hipótesis para grandes masas de datos. Este ejemplo, enmarcado en un estudio de cáncer de próstata, mide los niveles de expresión para <em>6033</em> genes en <em>102</em> pacientes, <em>50</em> controles y <em>52</em> tratamientos. De esta manera, se establece una matriz de dimensión <em>6033 X 102</em>, con entradas <em>x_ij</em>, concernientes al nivel de expresión del gen <em>i</em> en el paciente <em>j</em>. El interés está en conocer si algún gen hace diferencia en el desarrollo de cáncer de próstata, entre controles y tratamientos. Para esto, la estadística clásica recomendaría el uso de la prueba t para cada uno de los 6033 genes, para probar la hipótesis nula <em>Ho: el gen es nulo</em>. Bajo los supuestos clásicos de muestreo de una distribución normal, la estadística de prueba normalizada tendrá distribución normal estándar. Suponiendo que la expresión genética es independiente para cada gen, entonces un histograma de los <em>6033</em> valores de las estadísticas de prueba, y basado en la hipótesis nula, debería ajustar a una curva de densidad normal estándar. Las barras que no ajustan indican sospecha de la no nulidad del gen.
</p>
<p style="text-align: justify">El enfoque frecuentista a este tipo de problemas está basado en el uso de los límites de Bonferroni, al ajustar el valor crítico de <em>0.05</em> a <em>0.05/6033</em>. Sin embargo, este acercamiento subestima el número total de genes no nulos. Por otra parte, al proponer distribuciones previas para la probabilidad de que el gen sea nulo y  para la probabilidad de que el gen sea no-nulo, se crea un enfoque Bayesiano, al suponer una verosimilitud para los datos, que permite además permite estimar la tasa de descubrimientos falsos.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2051/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>¡Que no y que no! No hay poblaciones infinitas</title>
		<link>http://www.gutierrezandres.com/archives/2030</link>
		<comments>http://www.gutierrezandres.com/archives/2030#comments</comments>
		<pubDate>Fri, 17 Jun 2011 23:21:30 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=2030</guid>
		<description><![CDATA[Después de 40, la población se considera como infinita. Esta es la excusa perfecta a la que convergen los profesionales de todas las disciplinas cuando quieren defender sus ideas del tamaño de muestra o simplemente cuando su impertinencia hace que hablen más de la cuenta. Lo cierto es que esa regla de los cuarenta y&#8230;]]></description>
			<content:encoded><![CDATA[<ul>
<li>
<div style="text-align: justify">Después de 40, la población se considera como infinita.
</div>
</li>
</ul>
<p style="text-align: center"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/06/061711_2321_Quenoyquen13.jpg" alt=""/>
	</p>
<p style="text-align: justify">Esta es la excusa perfecta a la que convergen los profesionales de todas las disciplinas cuando quieren defender sus ideas del tamaño de muestra o simplemente cuando su impertinencia hace que hablen más de la cuenta. Lo cierto es que esa regla de los cuarenta y las poblaciones infinitas se hace muy difícil de entender. Tal vez yo no sea demasiado avezado para comprender tal &#8220;teorema&#8221; del muestreo, pero a continuación expondré mis argumentos y con eso me daré por bien servido, porque será un medio para desfogar mi ira, no contra mis colegas de otras disciplinas, sino contra la idiosincrasia impertinente que domina estas latitudes.
</p>
<p style="text-align: justify">Un buen ejemplo del dominio de este arte, diría yo oscura, de dominar el infinito, lo viví hace poco en una reunión en la que se negociaba la realización de un estudio con una firma encuestadora de renombre nacional. Uno de los presentes hizo un comentario que me hizo sentir todo un neófito en temas estadísticos. Se trataba de un profesional no estadístico, que de verdad admiro mucho por sus características administrativas, que exponía que cuando él estaba en la universidad, cursando el pregrado, tomó una clase de probabilidad en donde el profesor hacía referencia a la ley fuerte de los grandes números. Después de argumentar lo anterior, afirmó que el tamaño de muestra en el estudio en cuestión era adecuado porque después de cierto número de encuestas la población se consideraba infinita.
</p>
<p style="text-align: justify">Otro ejemplo lo viví en el marco de una asesoría que realicé a una propuesta técnica en la que me disgustaba el tamaño de muestra que habían propuesto. Yo sugerí que debían aumentar el tamaño de muestra para que se alcanzaran los errores mínimos de muestreo. Craso error… Acto seguido, me citaron a una reunión a la que asistió hasta el gerente de la compañía para indagar más acerca de mi recomendación. En esa reunión, uno de los funcionarios de la firma, con marcador en mano, me < <enseñó>> que no se debía aumentar el tamaño de muestra, puesto que la población era grande y esto era equivalente a que la población pudiera ser considerada como infinita. Por tanto, el tamaño de muestra que ellos proponían no debía cambiar. Lo más valioso, en ese proceso de aprendizaje, ocurrió cuando el funcionario dibujó en el tablero una curva y me explicó el concepto de asíntota.
</p>
<p style="text-align: justify">En primer lugar, y esto lo digo en mis clases, yo jamás he trabajado en estudios o investigaciones que involucren poblaciones infinitas. Realmente no creo que ninguno de mis colegas estadísticos lo haya hecho alguna vez. De hecho, si alguna vez me ofrecen trabajar en alguna investigación que tenga como objeto una población infinita, yo declinaría inmediatamente la oferta, simplemente porque el infinito es algo que yo no entiendo aún, incluso cuando algunos colegas estadísticos y no estadísticos parecen dominarlo con excelencia.
</p>
<p style="text-align: justify">Mi segundo argumento puntual es el siguiente: no existen poblaciones infinitas. O.K., existen las estrellas, los átomos y demás. Pero  ese tipo de poblaciones no son de interés en estudios sociales, o de mercadeo, que es donde se utiliza el muestreo. Como ese tipo de poblaciones no es de interés, entonces no me gusta que me salgan con argumentos traídos de los cabellos.
</p>
<p style="text-align: justify">Tercero, aunque la teoría de probabilidad es la base del muestreo, no es posible afirmar que las poblaciones son infinitas. En realidad, si después de cuarenta, todas las poblaciones son infinitas, entonces todas las estrategias de muestreo serían iguales, todos los tamaños de muestra serían iguales y todos los errores de muestreo serían los mismos. En estudios por muestreo, el hecho de que la población sea grande, no garantiza nada.
</p>
<p style="text-align: justify">Cuarto, la inferencia que nos enseñaron en el pregrado, no es apta para ningún diseño de muestreo, a excepción del diseño de muestreo aleatorio simple con reemplazo. Espero que esto quede claro, si usted o sus clientes realizan una muestra, la inferencia que se debe utilizar es diferente a la que nos han enseñado, y esto se debe tener en cuenta cuando se realizan los diseños del tamaño de muestra.
</p>
<p style="text-align: justify">Quinto, no es cierto que entre más muestra haya, menos error de muestreo existe. Lo anterior, si bien es válido para estrategias de muestreo aleatorias simples, no es necesariamente lo que ocurre cuando se utilizan diseños de muestreo complejos. Por ejemplo, si se utiliza un diseño de muestreo de tamaño de muestra aleatorio, como Bernoulli o Poisson, así se realice un censo, va a existir error de muestreo. Por lo tanto, la asíntota en estos casos es simplemente un argumento que no aplica en nada.
</p>
<p style="text-align: justify">Seis, que por favor, por misericordia, el que no sepa de muestreo que no se meta, que no opine y que no se inmiscuya en asuntos que no le conciernen. Yo, siendo estadístico, jamás opinaría acerca de un modelo de riesgo o de un modelo de series de tiempo. Así de sencillo, un curso en pregrado no es suficiente para licitar, no es suficiente para auditar y no es suficiente para siquiera pretender dar una estimación del tamaño de muestra en un estudio. Si se quiere ser efectivo, hay que especializarse en el tema. Afortunadamente, cada vez son más los muchachos que se interesan por el muestreo. Alguien me dijo que hay más de sesenta alumnos en la UNAL-Bogotá en muestreo II y en la USTA-Bogotá la cifra, si bien no es tan alta, no es nada despreciable y es una de las electivas más pedidas. </p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2030/feed</wfw:commentRss>
		<slash:comments>10</slash:comments>
		</item>
		<item>
		<title>Respuestas al manifiesto</title>
		<link>http://www.gutierrezandres.com/archives/2000</link>
		<comments>http://www.gutierrezandres.com/archives/2000#comments</comments>
		<pubDate>Tue, 17 May 2011 20:02:02 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Biografías]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Control de calidad]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Diseño experimental]]></category>
		<category><![CDATA[Econometría]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Gráficos]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Libros]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[Métodos multivariados]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Probabilidad]]></category>
		<category><![CDATA[Psicometría]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Series de tiempo]]></category>
		<category><![CDATA[Simulación]]></category>
		<category><![CDATA[Software]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/05/respuestas-al-manifiesto/</guid>
		<description><![CDATA[Algún lector anónimo escribe lo siguiente: Andrés, Para impulsar estas ideas, hay que empezar por el principio. ¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse. ¿Cuántos profesores motivan&#8230;]]></description>
			<content:encoded><![CDATA[<p>Algún lector anónimo escribe lo siguiente:</p>
<blockquote>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: Segoe UI; font-size: 10pt;">Andrés,<br />
</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: 'Segoe UI';">Para impulsar estas ideas, hay que empezar por el principio.</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: Segoe UI; font-size: 10pt;">¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados? definitivamente la prioridad 1 se debe enfocar en formar excelentes estudiantes motivados por el quehacer científico porque de nada sirve inflarse por inflarse.<br />
</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: Segoe UI; font-size: 10pt;">¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia? Los dedos de una mano son demasiados para hacer la cuenta.</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: Segoe UI; font-size: 10pt;">¿Qué intercambios interfacultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: Segoe UI; font-size: 10pt;">Hay algunas de sus premisas que deben ser estudiadas en detalle antes de echarlas a ruedo porque como casi todo en la vida, se necesitan pre-requisitos.<br />
Todas ellas hablan de un después de un Estadístico ya formado y NO en formación, por ejemplo dígame usted, para quién va dirigido el Workshop que hace la USTA?, porque los alumnos de allá presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel, por favor seamos consistentes en los sueños, primero lo primero. No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.<br />
</span></p>
<p style="text-align: justify; margin-left: 36pt;"><span style="color: #4e4e4e; font-family: 'Segoe UI';">Saludes!</span></p>
</blockquote>
<p>Querido lector anónimo&#8230; gracias por su comentario&#8230; Permítame responder a sus acotaciones:</p>
<p style="text-align: justify;"><span style="color: red; font-family: Segoe UI; font-size: 10pt;">¿De qué sirve una escuela con buenos profesores pero alumnos malos, desmotivados?<br />
</span></p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">Me parece muy importante su pregunta, que a la vez resalta su punto de vista sobre nuestra práctica académica. Sin embargo, quisiera reiterarle que si existen buenos profesores y alumnos malos, entonces es muy discutible el calificativo de &lt;&lt;buenos profesores&gt;&gt;. Por otro lado, en mi experiencia recorriendo las facultades (o departamentos) de estadística en Colombia (sí, a mi corta edad soy bien destacado en Bogotá, Medellín, Cordoba, Tolima, entre otras, y conozco la excelente labor que se adelante en cada una de esas escuelas) me he encontrado con excelentes profesores y excelentes alumnos. Así que, en honor a la verdad, me permito contradecirle puesto que lo que yo veo, a diferencia suya, es un conglomerado de alumnos motivados, apoyados por unos excelentes profesores. Pero, respondiendo a su pregunta, y suponiendo que así fuera, una escuela con buenos profesores y malos alumnos sirve como caldo de cultivo para que los que se creen buenos profesores profundicen más y se bajen de la nube, porque seguramente, si hay malos alumnos es porque los profesores son aún más malos. Después de que los excelentes profesores se den cuenta de su verdadero estatus, entonces verán que sus alumnos no son malos. Pero, una vez más, eso no es lo que pasa en el país.<br />
</span></p>
<p style="text-align: justify;"><span style="color: red; font-family: Segoe UI; font-size: 10pt;">¿Cuántos profesores motivan a sus estudiantes para estudiar en las mejores escuelas del mundo en el departamento de estadística en Colombia?<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">No lo sé, pero creo que la mayoría. Si le sirve de algo, cuando yo estudiaba en el pregrado y maestría, el 80% de mis profesores alguna vez me mencionaron que yo debía salir a estudiar en el exterior. Además, me impulsaron y patrocinaron con dinero para presentar mis trabajos de muestreo en el exterior. Resultado de esto, conocí a profesores internacionales que me ofrecieron becas para estudiar en Europa. No me fui, porque creo que el papel que debo jugar está al pie de mi familia, que en ese momento atravesaba una difícil situación de victimización por la violencia en Colombia. Si de algo le sirve, estoy seguro de que la mayoría de estudiantes colombianos en el exterior fueron motivados por los buenos profesores para aceptar el reto de estudiar en las mejores escuelas del mundo. Como organizador de los Workshop de la USTA, he tenido el agrado de conocer a personalidades muy importantes de la estadística en el mundo y mi sorpresa ha sido grata al escuchar del buen desarrollo de estudiantes colombianos en sus facultades. Así, que una vez más, me permito contradecirlo. Los profesores sí motivan a sus estudiantes. Por otra parte, me sorprende saber que usted tenga tantos dedos en su mano.<br />
</span></p>
<p style="text-align: justify;"><span style="color: red; font-family: Segoe UI; font-size: 10pt;">¿Qué intercambios inter-facultades con prestigiosas universidades con área en estadística maneja la Universidad Nacional de Colombia?<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">No lo sé, pero en el caso de la USTA tenemos convenios activos con la Universidad De Buenos Aires, con la UNAM y con varias universidades de Chile. Este semestre recibimos dos estudiantes de estadística en intercambio desde la UNAM y dos muchachas de acá van a terminar sus estudios en universidades de Brasil. Si eso lo hacemos nosotros con cuatro años, me imagino que la Universidad Nacional de Colombia debe tener muchos más convenios. Aunque las estadísticas exactas son desconocidas para mí. Pero creo que los invitados al simposio dan cuenta de las excelentes relaciones que tienen la UNAL con otros departamentos en el mundo.<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;"><span style="color: red;">¿Para quién va dirigido el Workshop que hace la USTA?</span><br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">Para estadísticos egresados y en formación. Siempre hay un par de cursos introductorios y un par de cursos avanzados. Y siempre hay espacio para que los muchachos presentes sus trabajos resultantes de investigaciones pequeñas surgidas en los semilleros de investigación.<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="color: red; font-family: Segoe UI; font-size: 10pt;">Los alumnos de allá (USTA) presentan trabajos muy regulares y ellos tanto como los de la nacional asisten muy poco sabiendo que vienen excelentes profesores reconocidos internacionalmente a dar conferencias de muy alto nivel.<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">Tres cosas, la primera es que, a no ser que usted sea parte del equipo de docentes en la USTA (que no creo), se abstenga de lanzar esa clase de juicios con respecto a la clase de trabajos de los alumnos de la USTA. La segunda es que me permito informarle que los alumnos de la USTA son muy buenos y están siendo reconocidos localmente por su compromiso y entrega. Prueba de esto son muchas convocatorias de trabajo a la decanatura y a mi oficina, pidiendo alumnos para trabajar. Por otro lado, le garantizo que los alumnos de la USTA son muy buenos pues han sido formados por mí, por Jorge Ortiz, por Francisco Rincón, por Felipe Ortiz, por Hanwen Zhang, entre otros. Y déjeme decirle que nosotros conformamos una excelente planta docente, reconocida a nivel local. Y como somos buenos profesores, consideramos que nuestros alumnos son buenos. En tercer lugar, si los invitados internacionales vienen a dar conferencia de altísimo nivel, es más que entendible que los alumnos no asistan a esas conferencias y prefieran asistir a conferencias más descifrables.<br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;"><span style="color: red;">No confundamos el VERDADERO desarrollo científico nacional en estadística con el crecimiento desmesurado de la misma.</span><br />
</span></p>
<p style="text-align: justify;">&nbsp;</p>
<p style="text-align: justify;"><span style="font-family: Segoe UI; font-size: 10pt;">¿A qué se referirá usted con el verdadero desarrollo científico nacional? Tal vez a sus múltiples artículos en revistas indexadas internacionalmente, o a sus muchos libros publicados por editoriales de punta, o a su extensa participación como invitado en eventos mundialmente reconocidos. Si es así, déjeme felicitarle de todo corazón.<br />
Así como yo quiero ser cabeza de ratón, usted ha decidido se cola de león y es muy respetable. Sin embargo, en estas metas no estoy contemplando nada de procesos investigativos (que sí son muy importantes) sino cosas más terrenales y vulgares (pero aún más importantes) como el afianzamiento de nuestro gremio y la unión generada e institucionalizada en una asociación de PROFESIONALES (no de investigadores) en estadística.  Le invito a crear su propia asociación de Investigadores de alto nivel en estadística. Estoy seguro que los dedos de su mano le alcanzarán para contar los posibles miembros. Por lo demás, no sobra invitarlo a que haga parte de nuestro esfuerzo que tendrá muchas manos unidas en pro de nuestros profesionales.<br />
</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/2000/feed</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>Manifiesto: quiero ser cabeza de ratón</title>
		<link>http://www.gutierrezandres.com/archives/1995</link>
		<comments>http://www.gutierrezandres.com/archives/1995#comments</comments>
		<pubDate>Tue, 17 May 2011 17:53:58 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Biografías]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Control de calidad]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Diseño experimental]]></category>
		<category><![CDATA[Econometría]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Gráficos]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Libros]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[Métodos multivariados]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Probabilidad]]></category>
		<category><![CDATA[Psicometría]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Series de tiempo]]></category>
		<category><![CDATA[Simulación]]></category>
		<category><![CDATA[Software]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/05/manifiesto-quiero-ser-cabeza-de-raton/</guid>
		<description><![CDATA[Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a: Impulsar la creación de la Asociación Colombiana de Estadísticos. Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img src="http://www.gutierrezandres.com/wp-content/uploads/2011/05/051711_1753_Manifiestoq11.jpg" alt="" /></p>
<p style="text-align: justify;">Quiero ser cabeza de ratón… No me interesa cambiar el mundo… quiero impactar en mi país y en mi región… Desde hoy y en los próximos treinta años voy a:</p>
<ol>
<li>
<div style="text-align: justify;">Impulsar la creación de la Asociación Colombiana de Estadísticos.</div>
</li>
<li>
<div style="text-align: justify;">Ayudar en el posicionamiento y estabilización del gremio a través de la publicación y divulgación de ofertas laborales y de investigación en un portal institucional liderado por un consejo de facultades de estadística en Colombia.</div>
</li>
<li>
<div style="text-align: justify;">Promover la institucionalización de la tarjeta profesional para los estadísticos.</div>
</li>
<li>
<div style="text-align: justify;">Motivar la creación de un programa de posgrado en metodología de encuestas.</div>
</li>
<li>
<div style="text-align: justify;">Posicionar la Revista Comunicaciones en Estadística.</div>
</li>
<li>
<div style="text-align: justify;">Organizar un encuentro bienal de Estadística Aplicada, patrocinado por la Asociación Colombiana de Estadísticos, y promovido por las universidades públicas y privadas y también por las empresas privadas y los institutos de estadísticas oficiales.</div>
</li>
<li>
<div style="text-align: justify;">Crear una editorial de libros de texto en estadística.</div>
</li>
</ol>
<p style="text-align: justify;">Y lo más ambicioso y controvertido:</p>
<p style="text-align: justify;">8. Impulsar la acreditación de los estadísticos en Colombia. Eso promoverá más competencia y más calidad… El estadístico graduado debe acreditarse ante un consejo de expertos. Algo así como los exámenes de la SOA en actuaría… Pues bien, habrán exámenes de la ACE en estadística. El que no los quiera presentar va a quedar en desventaja frente a los que sí nos acreditemos. Muchos estadísticos hispanoamericanos vendrán de otros países para acreditarse e Colombia.</p>
<p style="text-align: justify;">Claro, no puedo hacerlo solo… sería imposible… Le pido a Dios que me ayude y a los lectores de este espacio que piensen en estas ocho opciones y que apoyen nuestros esfuerzos en este largo y tedioso proceso. Surgirán muchas críticas y rivalidades…. No me importa, me la juego por el gremio. En últimas, las ventajas son mucho más claras y los beneficiados no seremos nosotros directamente, sino la próxima generación de estadísticos.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1995/feed</wfw:commentRss>
		<slash:comments>9</slash:comments>
		</item>
		<item>
		<title>El principio de representatividad (My talk in Ibague)</title>
		<link>http://www.gutierrezandres.com/archives/1987</link>
		<comments>http://www.gutierrezandres.com/archives/1987#comments</comments>
		<pubDate>Thu, 12 May 2011 07:40:42 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1987</guid>
		<description><![CDATA[La teoría y práctica de la inferencia basada en el diseño de muestreo descansa en el principio de la representatividad de las muestras; este artículo discute el papel que este principio juega en la consideración de la mejor estrategia de muestreo para la consecución de estadísticas oficiales. En algunas ocasiones, el estadístico puede diseñar un&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">La teoría y práctica de la inferencia basada en el diseño de muestreo descansa en el principio de la representatividad de las muestras; este artículo discute el papel que este principio juega en la consideración de la mejor estrategia de muestreo para la consecución de estadísticas oficiales. En algunas ocasiones, el estadístico puede diseñar un excelente plan de muestreo que al final no es considerado en la etapa de estimación debido a la escogencia de un determinado estimador; en algunas otras ocasiones, el estadístico puede agotar todos sus recursos en la búsqueda de un excelente estimador y restar importancia a la forma de consecución de la información. Aunque la práctica estadística es difícil en el sentido de determinar cuál es el mejor diseño de muestreo y cuál es el mejor estimador, el estadístico debe paliar este tipo de situaciones considerando que en realidad se trata de escoger una estrategia óptima para cada tipo de investigación. <a href="http://www.gutierrezandres.com/wp-content/uploads/2011/05/Representatividad.pdf">Descargar la presentación acá</a>.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1987/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>La entropía de un diseño muestral</title>
		<link>http://www.gutierrezandres.com/archives/1984</link>
		<comments>http://www.gutierrezandres.com/archives/1984#comments</comments>
		<pubDate>Tue, 03 May 2011 17:39:09 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/05/la-entropia-de-un-diseno-muestral/</guid>
		<description><![CDATA[Suponga que se desea seleccionar una muestra aleatoria de una población finita de tamaño N. Para esto, usted escoge la mejor estrategia de muestreo que le permite hacer todo tipo de inferencias precisas sobre los parámetros de interés. Una estrategia de muestreo tiene dos componentes: la primera, el diseño de muestreo y la segunda, el&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Suponga que se desea seleccionar una muestra aleatoria de una población finita de tamaño N. Para esto, usted escoge la mejor estrategia de muestreo que le permite hacer todo tipo de inferencias precisas sobre los parámetros de interés. Una estrategia de muestreo tiene dos componentes: la primera, el diseño de muestreo y la segunda, el estimador utilizado. Como ya lo he repetido en diferentes ocasiones, la planeación de un estudio por muestreo tiene que estar condicionada a la estrategia y no a l diseño o al estimador por separados. Es así como la estrategia, siguiendo la regla de oro del muestreo y el principio de representatividad, debería inducir ponderaciones cuyo comportamiento estructural sean directamente proporcional al comportamiento de la característica de interés.</p>
<p style="text-align: justify;">En esta ocasión, voy a referirme a una propiedad bastante útil, pero desconocida de un diseño de muestreo, la entropía. Recalco que un diseño de muestreo no es otra cosa que una medida de probabilidad discreta definida sobre un conjunto aleatorio (o si se quiere, sobre un vector aleatorio) que toma distintas realizaciones sobre un soporte Q. A una realización de la muestra aleatoria se le conoce con el nombre de muestra seleccionada y el soporte Q contiene todas las posibles realizaciones. De esta forma, la entropía se define como</p>
<p style="text-align: center;"><img src='http://s0.wp.com/latex.php?latex=-%5Csum_%7Bs+%5Cin+Q%7Dp%28s%29log+p%28s%29&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='-&#92;sum_{s &#92;in Q}p(s)log p(s)' title='-&#92;sum_{s &#92;in Q}p(s)log p(s)' class='latex' /></p>
<p style="text-align: justify;">La entropía es una medida contraria a la información. Entre más entropía exista en un diseño de muestreo, se dice que hay más incertidumbre. Por el contrario, cuando hay baja entropía, hay más información y menos dispersión. Tillé (2010) afirma que un diseño de muestreo tiene alta entropía cuando existe una gran cantidad de &#8220;sorpresa&#8221; en la muestra seleccionada y que cuando un diseño de muestreo tiene alta entropía es muy difícil predecir el tipo de muestra que se obtendrá.</p>
<p style="text-align: justify;">En algunas ocasiones es deseable que un diseño de muestreo tenga alta entropía. En muchas consultorías, el cliente suele estar preocupado por el tipo de muestra que se va a seleccionar: que si es posible que la muestra esté sesgada, que si es posible que la muestra contenga sólo a personas de estratos altos, que si la muestra va a llegar a todos los grupos etarios, que cómo hacemos para garantizar la representatividad de la muestra. Entre otro tipo de comentarios, lo que el cliente expresa en las primeras etapas del estudio es su afán porque la muestra sea &#8220;representativa&#8221;. Cuando esto sucede, simplemente le digo que confíe en el experto y que el principio de aleatorización es muy acertado y seguramente la muestra tendrá la dispersión que el cliente está esperando. Por supuesto que lo anterior, es simplemente un paliativo y una muy sutil explicación de la entropía.</p>
<p style="text-align: justify;">De hecho, haciendo un paréntesis, una de las causas de éxito en esta profesión de consultor es poder expresar sin tecnicismos los conceptos inherentes a la teoría que sustenta nuestro trabajo. Si quiere perder el próximo contrato, le sugiero que le diga al cliente que no debe estar preocupado porque la entropía es una medida de la información de diseño de muestreo definida sobre un soporte… bla, bla, bla… El cliente no le va a entender nada de esas explicaciones técnicas y me va a contratar a mí <span style="font-family: Wingdings;">J</span> . Es en serio, un consultor es un profesional altamente adiestrado para transmitir conceptos y para aplicarlos en su área de experticia, un consultor no es un entrenador y no es un profesor.</p>
<p style="text-align: justify;">Volviendo al tema de la entropía, un muestreo aleatorio simple tiene una alta entropía. Es muy útil este diseño en las últimas etapas de una investigación puesto que garantiza que la muestra no estará concentrada en ciertos subgrupos de la población (la muestra no estará &#8220;sesgada&#8221;). El diseño de muestreo sistemático, es un diseño que tiene muy poca entropía, puesto que si la población está ordenada sistemáticamente en el marco de muestreo, por ejemplo, un hombre, una mujer, un hombre, una mujer, etc., entonces si se escoge un arranque aleatorio cualquiera, la muestra estará conformada por sólo hombres o sólo mujeres, que sería precisamente lo que queremos evitar.</p>
<p style="text-align: justify;">Bajo la familia de diseños de muestreo exponenciales, también llamados piPT y que no tienen nada que ver con la familia exponencial de la inferencia estadística clásica, caracterizados por tener probabilidades de inclusión desiguales, ser de tamaño de muestra fijo y sin reemplazo, el diseño con más alta entropía es el de Poisson condicional (que es un muestreo Poisson con tamaño de muestra fijo, que se implementa fijando el tamaño de muestra y seleccionando muestras Poisson hasta llegar a una muestra con el tamaño deseado). Así que, cuando utilice diseños proporcionales al tamaño, tenga en cuenta que tal vez la propiedad de alta entropía no es deseable. En otras palabras, cuando se tiene información auxiliar de tipo continúo y se sabe que tiene una muy buena correlación con la característica de interés, debemos sacrificar entropía por eficiencia. El uso de la información auxiliar hace que la muestra tenga un bajo nivel de sorpresa, pues lo que uno espera es que la muestra contenga los elementos con probabilidades de inclusión más altas y por lo tanto, un bajo nivel de entropía. Bajo estas condiciones, el estimador resultante será muy concentrado y con poca varianza produciendo coeficientes de variación más bajos y mayor eficiencia.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1984/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Otro evento de estadística en Colombia</title>
		<link>http://www.gutierrezandres.com/archives/1967</link>
		<comments>http://www.gutierrezandres.com/archives/1967#comments</comments>
		<pubDate>Fri, 29 Apr 2011 16:32:33 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Seminarios]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1967</guid>
		<description><![CDATA[Desde el año 2000 el Departamento de Matemáticas y Estadística de la Universidad del Tolima, ha venido desarrollando encuentros de Matemáticas y Estadística donde nos reunimos para comunicar resultados de investigación llevadas a cabo por estudiantes y profesores de las carreras de Matemáticas con énfasis en Estadística y licenciatura en Matemáticas, además de egresados de&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Desde el año 2000 el Departamento de Matemáticas y Estadística de la Universidad del Tolima, ha venido desarrollando encuentros de Matemáticas y Estadística donde nos reunimos para comunicar resultados de investigación llevadas a cabo por estudiantes y profesores de las carreras de Matemáticas con énfasis en Estadística y licenciatura en Matemáticas, además de egresados de dichas carreras. Tambien se ha contado con la presencia de invitados especiales a nivel nacional e internacional.</p>
<p style="text-align: justify;">En el mes de Mayo, los días 11, 12 y 13, se estará organizando el I Encuentro Nacional de Matemáticas y Estadística.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1967/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>¡Me tomo un tinto y tumbo el muestreo!</title>
		<link>http://www.gutierrezandres.com/archives/1956</link>
		<comments>http://www.gutierrezandres.com/archives/1956#comments</comments>
		<pubDate>Sat, 16 Apr 2011 23:27:19 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Muestreo]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1956</guid>
		<description><![CDATA[El título de este post refleja literalmente las palabras de algunos obstinados colegas que, además de arribistas, muestran su ignorancia tratando de enmarcarlo todo dentro de modelos de probabilidad, despreciando la teoría de la aleatorización. Está bien que no les guste el muestreo, pero una cosa es la antipatía por una materia y otra es llegar a tal&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">El título de este <em>post</em> refleja literalmente las palabras de algunos obstinados colegas que, además de arribistas, muestran su ignorancia tratando de enmarcarlo todo dentro de modelos de probabilidad, despreciando la teoría de la aleatorización. Está bien que no les guste el muestreo, pero una cosa es la antipatía por una materia y otra es llegar a tal punto de negar la realidad.</p>
<p style="text-align: justify;">Definitivamente se debe tener muy poco sentido común para afirmar que al tomarse un tinto, es posible invalidar una teoría con décadas de existencia, que ha sido formulada por las mentes más brillantes de la estadística. A lo que me refiero es que existe una actitud incorrecta de parte de un pequeño cúmulo de profesionales, que desestiman el muestreo.</p>
<p style="text-align: justify;">Quiero traer a colación las palabras de uno de los estadísticos más importantes del mundo, Andrew Gelman. Este tipo adora los modelos, es un bayesiano de ultra-derecha, ha escrito muchos libros y atículos en temas de modelos y fíjense en lo que dice:</p>
<blockquote>
<p style="text-align: justify;"><span style="color: #000080;">&#8230; el muestreo es más que una metáfora, es crucial en muchos aspectos de la estadística. Esto es evidente en los estudios de opinión pública y salud, donde los análisis se basan en muestras aleatorias, y en las estadísticas del medio ambiente, donde variables continuas de naturaleza física se estudian a partir de muestras del espacio-tiempo. Pero, incluso en las zonas donde el muestreo es menos evidente, puede ser importante. Considere la posibilidad de experimentos médicos, donde el objetivo siempre es la inferencia de la población en general, no sólo para los pacientes en el estudio. Del mismo modo, el objetivo de los neurocientíficos es conocer los aspectos generales de los cerebros de humanos y animales, no sólo para estudiar las criaturas en particular de las que se dispone de datos. En última instancia, la muestra es sólo otra palabra para subconjunto, y en ambas inferencia bayesiana y clásica, la generalización adecuada de la muestra a la población depende de un modelo para la toma de muestras o el proceso de selección. No tengo ningún problema con el uso del muestreo como marco para la inferencia, y yo creo que esto funcionará aún mejor si se hace hincapié en la generalización a partir de muestras reales de las poblaciones reales - no sólo construcciones matemáticas - que son esenciales para gran parte de nuestras inferencias aplicadas.</span></p>
</blockquote>
<p style="text-align: justify;"><span style="color: #000080;"><br />
</span></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1956/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
		<item>
		<title>¿Qué tan insignificante es la significación estadística?</title>
		<link>http://www.gutierrezandres.com/archives/1954</link>
		<comments>http://www.gutierrezandres.com/archives/1954#comments</comments>
		<pubDate>Thu, 14 Apr 2011 02:06:15 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Probabilidad]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1954</guid>
		<description><![CDATA[Como algunos de ustedes habrán leído acerca del caso Zicam, la corte suprema de EE.UU. ha omitido un concepto desfavorable para los estadísticos puristas que se aferran fervientemente a los valores p. En pocas palabras, el concepto afirma que la divulgación de posibles efectos colaterales en el uso de fármacos no debe basarse solamente en&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;">Como algunos de ustedes habrán leído acerca <a href="http://www.gutierrezandres.com/blog/2011/01/cuando-la-significacion-estadistica-apesta-el-caso-zicam/">del caso Zicam</a>, la corte suprema de EE.UU. ha omitido <a href="http://www.supremecourt.gov/opinions/10pdf/09-1156.pdf">un concepto desfavorable</a> para los estadísticos puristas que se aferran fervientemente a los valores <em>p</em>. En pocas palabras, el concepto afirma que la divulgación de posibles efectos colaterales en el uso de fármacos no debe basarse solamente en la significación estadística. <a href="http://www.johndcook.com/SupremeCourtRuling2.pdf">Luis Pericchi ha escrito esta interesante nota</a> que devela, desde el punto de vista de la teoría de la decisión, que la inferencia estadística también debería depender del propósito del estudio y de las consecuencias de las decisiones que se tomarán.</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1954/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Soy parte de los 300mil</title>
		<link>http://www.gutierrezandres.com/archives/1941</link>
		<comments>http://www.gutierrezandres.com/archives/1941#comments</comments>
		<pubDate>Wed, 06 Apr 2011 03:37:19 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Bayesiano]]></category>
		<category><![CDATA[Biografías]]></category>
		<category><![CDATA[Causalidad]]></category>
		<category><![CDATA[Control de calidad]]></category>
		<category><![CDATA[Data Mining]]></category>
		<category><![CDATA[Diseño experimental]]></category>
		<category><![CDATA[Econometría]]></category>
		<category><![CDATA[Enseñanza]]></category>
		<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Gráficos]]></category>
		<category><![CDATA[Inferencia]]></category>
		<category><![CDATA[Libros]]></category>
		<category><![CDATA[Marketing]]></category>
		<category><![CDATA[Métodos multivariados]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[Probabilidad]]></category>
		<category><![CDATA[Psicometría]]></category>
		<category><![CDATA[R]]></category>
		<category><![CDATA[Seminarios]]></category>
		<category><![CDATA[Series de tiempo]]></category>
		<category><![CDATA[Simulación]]></category>
		<category><![CDATA[Software]]></category>
		<category><![CDATA[Uncategorized]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1941</guid>
		<description><![CDATA[Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de 300mil vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, una página virtual en Facebook con más de 400 fans y&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><a rel="attachment wp-att-1942" href="http://www.gutierrezandres.com/blog/2011/04/soy-parte-de-los-300mil/imagen1-7/"><img class="aligncenter size-large wp-image-1942" src="http://www.gutierrezandres.com/wp-content/uploads/2011/04/Imagen1-1024x714.png" alt="" width="491" height="342" /></a></p>
<p style="text-align: justify;">Hoy este blog alcanzó los 300mil visitantes. Agradezco a todos los lectores. Este blog empezó en abril de 2008 en la plataforma WordPress y hasta el momento cuenta con más de <strong>300mil</strong> vistias, 251 posts, 571 comentarios, cientos de correos electrónicos, 25 categorías, 77 etiquetas, <a href="http://www.facebook.com/pages/Apuntes-de-Estad%C3%ADstica/170838552930678">una página virtual en Facebook</a> con más de 400 fans y una comunidad de seguidores en <a href="http://www.facebook.com/group.php?gid=8450174989">un grupo de FaceBook</a> que recoge a más de 680 miembros. Las cifras son asombrosas. Más aún, desde que se tiene esta plataforma propia, este blog ha publicado<a href="http://www.gutierrezandres.com/blog/empleos/"> más de 63 ofertas laborales </a>para los estadísticos, principalmente en Colombia.</p>
<p style="text-align: justify;">¡¡¡Una vez más gracias!!!</p>
<p style="text-align: justify;">&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1941/feed</wfw:commentRss>
		<slash:comments>3</slash:comments>
		</item>
		<item>
		<title>TeachingSampling v2.0.1 now on CRAN</title>
		<link>http://www.gutierrezandres.com/archives/1934</link>
		<comments>http://www.gutierrezandres.com/archives/1934#comments</comments>
		<pubDate>Tue, 05 Apr 2011 02:43:41 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1934</guid>
		<description><![CDATA[The latest version of the TeachingSampling package is now available for download. Discover the newest features in the package !!! Download Now]]></description>
			<content:encoded><![CDATA[<p>The latest version of the TeachingSampling package is now available for download. Discover the newest features in the package !!!</p>
<p><a href="http://cran.r-project.org/web/packages/TeachingSampling/index.html" target="_blank">Download Now</a></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1934/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Escribiendo emails</title>
		<link>http://www.gutierrezandres.com/archives/1930</link>
		<comments>http://www.gutierrezandres.com/archives/1930#comments</comments>
		<pubDate>Fri, 01 Apr 2011 03:21:27 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Estadística]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/03/escribiendo-emails/</guid>
		<description><![CDATA[]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/03/040111_0321_Escribiendo1.jpg" alt="" width="600" height="260" /></p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1930/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
		<item>
		<title>Calificando…</title>
		<link>http://www.gutierrezandres.com/archives/1928</link>
		<comments>http://www.gutierrezandres.com/archives/1928#comments</comments>
		<pubDate>Fri, 01 Apr 2011 03:19:49 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Estadística]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/2011/03/calificando%e2%80%a6/</guid>
		<description><![CDATA[&#160;]]></description>
			<content:encoded><![CDATA[<p style="text-align: justify;"><img src="http://francisthemulenews.files.wordpress.com/2011/03/dibujo20110401_undergrade_are_the_future_were_all_doomed_phdcomic3_600x260.jpg?w=600&amp;h=260" alt="" /></p>
<p>&nbsp;</p>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1928/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Técnicas básicas de estimación en dominios VS enfoque de postestratificación (TeachingSampling)</title>
		<link>http://www.gutierrezandres.com/archives/1890</link>
		<comments>http://www.gutierrezandres.com/archives/1890#comments</comments>
		<pubDate>Thu, 31 Mar 2011 18:51:58 +0000</pubDate>
		<dc:creator>andres</dc:creator>
				<category><![CDATA[Estadística]]></category>
		<category><![CDATA[Muestreo]]></category>
		<category><![CDATA[R]]></category>

		<guid isPermaLink="false">http://www.gutierrezandres.com/blog/?p=1890</guid>
		<description><![CDATA[Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por&#8230;]]></description>
			<content:encoded><![CDATA[<p style="text-align: center;"><img class="aligncenter" src="http://www.gutierrezandres.com/wp-content/uploads/2011/03/032511_0102_Tcnicasbsic11.jpg" alt="" width="431" height="351" /></p>
<p style="text-align: justify;">Es cierto, lo he visto. Aquel rumor que corría por las aulas de mi alma mater en las clases de muestreo es cierto. No sólo es un error de estudiantes, es un error sistemático que se presenta en nuestras respetadas instituciones de estadísticas oficiales, en instituciones dedicadas a las encuestas y en auditorías realizadas por expertos estadísticos. No es para alarmarse, hasta las mejores familias tienen problemas, y vaya que la nuestra es una familia peculiar.</p>
<p style="text-align: justify;">Pero no estoy queriendo increpar a nadie ni mucho menos. En este post quiero que mis lectores entiendan que existe una gran precio que se paga al utilizar las técnicas básicas de la estimación en dominios, y de paso profundizar un poco en cuáles son las expresiones correctas de la varianza cuando se trabaja con dominios. De esta forma, ese rumor maluco, será sólo eso, un rumor, y dejara de ser una práctica sistemática en nuestras entidades.</p>
<p style="text-align: justify;">Empecemos por establecer que la varianza del estimador de Horvitz-Thompson para el total de la característica de interés en el dominio <em>U_d</em>, para cualquier diseño de muestreo, es</p>
<p style="text-align: center;"><strong><img src='http://s0.wp.com/latex.php?latex=Var%28hat%7Bt%7D_%7Bdpi%7D%29%3Dsumsum_%7BU_d%7DDelta_%7Bkl%7Dfrac%7By_k%7D%7Bpi_k%7Dfrac%7By_l%7D%7Bpi_l%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='Var(hat{t}_{dpi})=sumsum_{U_d}Delta_{kl}frac{y_k}{pi_k}frac{y_l}{pi_l}' title='Var(hat{t}_{dpi})=sumsum_{U_d}Delta_{kl}frac{y_k}{pi_k}frac{y_l}{pi_l}' class='latex' /><br />
</strong></p>
<p style="text-align: justify;">Con esta expresión, el estadístico se emociona y para un diseño de muestreo aleatorio simple de tamaño de muestra <em>n</em> para una población de tamaño <em>N</em>, hace analogía de fórmulas y resulta que empieza a realizar cálculos erróneos sobre la anterior expresión. En muchas entidades, se supone erróneamente que para este diseño de muestreo, en particular, la expresión que se debe utilizar para la varianza es</p>
<p style="text-align: center;"><strong><img src='http://s0.wp.com/latex.php?latex=Var_%7BMAS%7D%28hat%7Bt%7D_%7Bdpi%7D%29%3Dfrac%7BN%5E2_d%7D%7Bn_d%7D%281-frac%7Bn_d%7D%7BN_d%7D%29S%5E2_%7ByU_d%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}' title='Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}' class='latex' /><br />
</strong></p>
<p style="text-align: justify;">Pues bien, la anterior expresión es equivocada. En primer lugar, el hecho de que la doble suma esté definida sobre <em>U_d</em>, no significa que se deba utilizar la misma fórmula del muestreo aleatorio simple. Además, las probabilidades de inclusión de primer orden, de segundo orden y la covarianza de las variables indicadoras conservan sus mismas expresiones que en muestreo aleatorio simple de una población de tamaño <em>N</em> y con una muestra de tamaño <em>n</em>. Al utilizar la anterior expresión, se supondría que se planeó un diseño de muestreo aleatorio simple de tamaño de muestra <em>n_d</em> para una población de tamaño <em>N_d. </em>La verdadera expresión para el cálculo de esta varianza debe ser la siguiente:</p>
<p style="text-align: center;"><strong><img src='http://s0.wp.com/latex.php?latex=Var_%7BMAS%7D%28hat%7Bt%7D_%7Bdpi%7D%29%3Dfrac%7BN%5E2%7D%7Bn%7D%281-frac%7Bn%7D%7BN%7D%29S%5E2_%7By_dU%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}' title='Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}' class='latex' /><br />
</strong></p>
<p style="text-align: justify;">En principio hay varias diferencias entre las dos expresiones: en primer lugar lugar es obvio que <em>N_d</em> y <em>N</em> no son semejante; de la misma manera <em>n_d</em> y n tampoco lo son. La expresión <img src='http://s0.wp.com/latex.php?latex=S%5E2_%7ByU_d%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='S^2_{yU_d}' title='S^2_{yU_d}' class='latex' /> implica una cuasi-varianza entre los valores de la característica de interés únicamente en el dominio <em>U_d</em>. Por otro lado, <img src='http://s0.wp.com/latex.php?latex=S%5E2_%7By_dU%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='S^2_{y_dU}' title='S^2_{y_dU}' class='latex' />, implica una cuasi-varianza entre los valores de la característica de interés en el dominio <em>U_d</em> y muchos ceros para los individuos de la muestra que no pertenezcan al dominio <em>U_d</em>. Obviamente, esta última expresión verdadera arroja cifras más grandes y al momento de calcular los coeficientes de variación, estos serán también muy grandes.</p>
<p style="text-align: justify;">No estoy diciendo que la fórmula <strong><img src='http://s0.wp.com/latex.php?latex=Var_%7BMAS%7D%28hat%7Bt%7D_%7Bdpi%7D%29%3Dfrac%7BN%5E2_d%7D%7Bn_d%7D%281-frac%7Bn_d%7D%7BN_d%7D%29S%5E2_%7ByU_d%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}' title='Var_{MAS}(hat{t}_{dpi})=frac{N^2_d}{n_d}(1-frac{n_d}{N_d})S^2_{yU_d}' class='latex' /></strong> no se pueda utilizar nunca. En efecto, sólo cuando se conoce el tamaño absoluto del dominio, <em>N_d</em>, y se controla el tamaño de la muestra del mismo, <em>n_d</em>, se puede utilizar. Esta situación sería similar a una estratificación. Sin embargo, el control del tamaño de muestra en el dominio, <em>n_d</em>, no siempre se tiene en la práctica. Lo anterior tampoco implica que estemos supeditados a utilizar siempre la fórmula <strong><img src='http://s0.wp.com/latex.php?latex=Var_%7BMAS%7D%28hat%7Bt%7D_%7Bdpi%7D%29%3Dfrac%7BN%5E2%7D%7Bn%7D%281-frac%7Bn%7D%7BN%7D%29S%5E2_%7By_dU%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}' title='Var_{MAS}(hat{t}_{dpi})=frac{N^2}{n}(1-frac{n}{N})S^2_{y_dU}' class='latex' /> </strong>que arroja grandes coeficientes de variación. De hecho, cuando se trabaja con dominios, es posible reducir la varianza sin tener que controlar el tamaño de muestra <em>n_d</em>. Para eso, se utiliza un enfoque de post-estratificación, en donde se requiere el conocimiento de los tamaños absolutos de los dominios, <em>N_d</em>, que fácilmente pueden ser obtenidos mediante registros administrativos confiables. De esta manera, la expresión genérica de la varianza (aproximada por la linealización de Taylor) del estimador de postestratificación es la siguiente:</p>
<p style="text-align: center;"><strong><img src='http://s0.wp.com/latex.php?latex=AVar%28tilde%7Bt%7D_%7Bd%7D%29%3Dsumsum_%7BU_d%7DDelta_%7Bkl%7Dfrac%7By_k-bar%7By%7D_%7BU_d%7D%7D%7Bpi_k%7Dfrac%7By_l-bar%7By%7D_%7BU_d%7D%7D%7Bpi_l%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='AVar(tilde{t}_{d})=sumsum_{U_d}Delta_{kl}frac{y_k-bar{y}_{U_d}}{pi_k}frac{y_l-bar{y}_{U_d}}{pi_l}' title='AVar(tilde{t}_{d})=sumsum_{U_d}Delta_{kl}frac{y_k-bar{y}_{U_d}}{pi_k}frac{y_l-bar{y}_{U_d}}{pi_l}' class='latex' /><br />
</strong></p>
<p>La cual, bajo un diseño de muestreo aleatorio simple, toma la siguiente forma:</p>
<p style="text-align: center;"><strong><img src='http://s0.wp.com/latex.php?latex=AVar_%7BMAS%7D%28tilde%7Bt%7D_%7Bd%7D%29%3Dfrac%7BN%5E2%7D%7Bn%7D%281-frac%7Bn%7D%7BN%7D%29+S%5E2_%7ByU_d%7D&#038;bg=ffffff&#038;fg=000&#038;s=0' alt='AVar_{MAS}(tilde{t}_{d})=frac{N^2}{n}(1-frac{n}{N}) S^2_{yU_d}' title='AVar_{MAS}(tilde{t}_{d})=frac{N^2}{n}(1-frac{n}{N}) S^2_{yU_d}' class='latex' /><br />
</strong></p>
<p style="text-align: justify;">Nótese que, si bien se siguen manteniendo las cantidades <em>N</em> y <em>n</em>, la cuasi-varianza sólo está supeditada a los valores de la característica de interés únicamente en el dominio <em>U_d</em>. Lo cual implica una gran reducción en términos de la varianza. A continuación ilustro esta situación con ayuda de las bases de datos Marco &amp; Lucy, del paquete TeachingSampling. En primer lugar se selecciona una muestra aleatoria simple:</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; <a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">(</span>Marco<span style="color: #009900;">)</span>
&gt; <a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">(</span>Lucy<span style="color: #009900;">)</span>

&gt; N &lt;- <a href="http://inside-r.org/r-doc/base/dim"><span style="color: #003399; font-weight: bold;">dim</span></a><span style="color: #009900;">(</span>Marco<span style="color: #009900;">)</span><span style="color: #009900;">[</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span>
&gt; n &lt;- <span style="color: #cc66cc;">400</span>
&gt; Pik&lt;-<a href="http://inside-r.org/r-doc/base/rep"><span style="color: #003399; font-weight: bold;">rep</span></a><span style="color: #009900;">(</span>n/N<span style="color: #339933;">,</span>n<span style="color: #009900;">)</span>
&gt; sam &lt;- S.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #009900;">)</span>
&gt; <a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a> &lt;- Lucy<span style="color: #009900;">[</span>sam<span style="color: #339933;">,</span><span style="color: #009900;">]</span>
&gt; <a href="http://inside-r.org/r-doc/base/attach"><span style="color: #003399; font-weight: bold;">attach</span></a><span style="color: #009900;">(</span><a href="http://inside-r.org/r-doc/utils/data"><span style="color: #003399; font-weight: bold;">data</span></a><span style="color: #009900;">)</span></pre>
</div>
</div>
<p style="text-align: justify;">Luego, se utiliza la función Domains para crear los dominios de interés como una matriz de variables indicadoras. Tantas columnas como dominios exista. Al multiplicarlas por las características de interés en la muestra, se obtiene una matriz de ceros, para los elementos que no pertenecen al dominio, y de valores, para los que sí pertenecen al dominio.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; Doma &lt;- Domains<span style="color: #009900;">(</span><a href="http://inside-r.org/packages/cran/spam">SPAM</a><span style="color: #009900;">)</span>
&gt; estima &lt;- <a href="http://inside-r.org/r-doc/base/data.frame"><span style="color: #003399; font-weight: bold;">data.frame</span></a><span style="color: #009900;">(</span>Income<span style="color: #339933;">,</span> Employees<span style="color: #339933;">,</span> Taxes<span style="color: #009900;">)</span>
&gt; SPAM.no &lt;- estima*Doma<span style="color: #009900;">[</span><span style="color: #339933;">,</span><span style="color: #cc66cc;">1</span><span style="color: #009900;">]</span>
&gt; SPAM.yes &lt;- estima*Doma<span style="color: #009900;">[</span><span style="color: #339933;">,</span><span style="color: #cc66cc;">2</span><span style="color: #009900;">]</span></pre>
</div>
</div>
<p style="text-align: justify;">Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 7 % hasta el 11%, en el dominio SPAM.NO y del orden del 5% al 9% en el otro dominio.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; E.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>SPAM.no<span style="color: #009900;">)</span>
                 Income    Employees        Taxes
Estimation 3.799757e+05 5.721648e+04 1.094673e+04
Variance   8.821093e+08 1.691118e+07 1.647727e+06
CVE        7.816376e+00 7.187301e+00 1.172623e+01

&gt; E.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>SPAM.yes<span style="color: #009900;">)</span>
                 Income    Employees        Taxes
Estimation 6.166226e+05 9.045499e+04 1.655636e+04
Variance   1.013343e+09 1.786384e+07 2.540981e+06
CVE        5.162485e+00 4.672560e+00 9.627995e+00</pre>
</div>
</div>
<p style="text-align: justify;">Por supuesto que al sumar las estimaciones se tendrá el total estimado de la población y el coeficiente de variación se reduce.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; E.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #009900;">)</span>
                 Income    Employees        Taxes
Estimation 9.965982e+05 1.476715e+05 2.750309e+04
Variance   9.170756e+08 1.316354e+07 3.431910e+06
CVE        3.038662e+00 2.456913e+00 6.735759e+00</pre>
</div>
</div>
<p style="text-align: justify;">Si utilizamos el estimador de postestratificación en cada dominio, se obtienen mejores estimaciones de los coeficientes de variación.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; estima&lt;-Doma*Income
&gt; tx &lt;- <a href="http://inside-r.org/r-doc/base/c"><span style="color: #003399; font-weight: bold;">c</span></a><span style="color: #009900;">(</span><span style="color: #cc66cc;">937</span><span style="color: #339933;">,</span> <span style="color: #cc66cc;">1459</span><span style="color: #009900;">)</span>
&gt; b &lt;- E.Beta<span style="color: #009900;">(</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>Pik<span style="color: #339933;">,</span>ck=<span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span>b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>tx<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
                     no          yes
Estimation 4.099213e+05 5.889897e+05
Variance   3.519767e+08 5.619366e+08
CVE        4.576742e+00 4.024723e+00

&gt; estima&lt;-Doma*Employees
&gt; tx &lt;- <a href="http://inside-r.org/r-doc/base/c"><span style="color: #003399; font-weight: bold;">c</span></a><span style="color: #009900;">(</span><span style="color: #cc66cc;">937</span><span style="color: #339933;">,</span> <span style="color: #cc66cc;">1459</span><span style="color: #009900;">)</span>
&gt; b &lt;- E.Beta<span style="color: #009900;">(</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>Pik<span style="color: #339933;">,</span>ck=<span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span>b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>tx<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
                     no          yes
Estimation 6.172568e+04 8.640141e+04
Variance   4.890882e+06 8.149935e+06
CVE        3.582842e+00 3.304123e+00

&gt; estima&lt;-Doma*Taxes
&gt; tx &lt;- <a href="http://inside-r.org/r-doc/base/c"><span style="color: #003399; font-weight: bold;">c</span></a><span style="color: #009900;">(</span><span style="color: #cc66cc;">937</span><span style="color: #339933;">,</span> <span style="color: #cc66cc;">1459</span><span style="color: #009900;">)</span>
&gt; b &lt;- E.Beta<span style="color: #009900;">(</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>Pik<span style="color: #339933;">,</span>ck=<span style="color: #cc66cc;">1</span><span style="color: #339933;">,</span>b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>tx<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
                     no          yes
Estimation 1.180943e+04 1.581442e+04
Variance   1.207738e+06 2.215550e+06
CVE        9.305880e+00 9.412124e+00</pre>
</div>
</div>
<p style="text-align: justify;">Las estimaciones para los dominios de interés cuentan con un coeficiente de variación estimado del orden del 3 % hasta el 9%, en el dominio SPAM.NO y del orden del 3% al 9% en el otro dominio. Lo anterior representa una pérdida significativa en la magnitud de los coeficientes de variación. Por supuesto, al sumar, obtenemos las estimaciones poblacionales con coeficientes de variación mucho menores.</p>
<div style="overflow: auto;">
<div class="geshifilter">
<pre class="r geshifilter-R" style="font-family: monospace;">&gt; GREG.SI<span style="color: #009900;">(</span>N<span style="color: #339933;">,</span>n<span style="color: #339933;">,</span>estima<span style="color: #339933;">,</span>Doma<span style="color: #339933;">,</span>tx<span style="color: #339933;">,</span> b<span style="color: #339933;">,</span> b0=<span style="color: #000000; font-weight: bold;">FALSE</span><span style="color: #009900;">)</span>
                 Income    Employees        Taxes
Estimation 9.989111e+05 1.481271e+05 2.762385e+04
Variance   9.139133e+08 1.304082e+07 3.423289e+06
CVE        3.026395e+00 2.437911e+00 6.697884e+00</pre>
</div>
</div>
]]></content:encoded>
			<wfw:commentRss>http://www.gutierrezandres.com/archives/1890/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
	</channel>
</rss>

