Muestreo bla, bla, bla.

En la primera página de cualquier libro de texto clásico de inferencia estadística se lee lo siguiente:

Dadas n variables aleatorias, seleccionadas de una población, independientes e idénticamente distribuidas, para estimar el parámetro…

Cada palabra en el anterior enunciado es  engañosa. ¿Quién le da a uno las muestras? ¿Existe algún sitio en dónde las repartan? Las muestras no son dadas, las muestras deben ser seleccionadas, asignadas o capturadas. El tamaño de la muestra no siempre es un número n fijo, en la mayoría de casos prácticos es una variable aleatoria. Los datos no siguen el supuesto de independencia ni de idéntica distribución; es más,  en muchas ocasiones no existe una sola población, sino que la muestra seleccionada es el resultado de una selección de sub-poblaciones para las cuales se deben producir, no sólo una estimación sino un montón de estimaciones. Así que la historia que nos contaron no aplica en la mayoría de situaciones prácticas.

Esta afirmación fue hecha por una de las cabezas más brillantes (no sólo por su capacidad intelectual) del muestreo, el respetado Dr. Leslie Kish quien, también sugirió que se debería realizar una acotación en la academia en el momento de analizar la información con cualquier software de tipo estadístico como SPSS o TESI.  Se debe tener conciencia de que los datos que se están analizando no han sido seleccionados mediante muestreo aleatorio simple con reemplazo  y por lo tanto el cálculo de errores estándar que arrojaría el software resulta ser inapropiado. Es hora de que los paquetes estadísticos incluyan en sus análisis rutinas que permitan el ajuste del diseño de muestreo utilizado en la recolección de los datos, por ejemplo por conglomerados o estratos, que no han sido seleccionados mediante muestreo aleatorio simples con reemplazo.

Kish motivó a los estadísticos aplicados a entender completamente la relación existente entre conceptos tales como estratificación y regresión lineal. El lector debe notar que Kish ayudó a crear un departamento de Bio-estadística en los Estados Unidos que combina el diseño experimental y el muestreo, él afirma que estas dos ramas están ligadas en sus raíces por el principio de aleatorización.

Así mismo, afirmó que los libros actuales de muestreo no cumplen el cometido de enseñar el análisis adecuado de la información para la selección de muestras en una población, en vez de esto se dedican a enseñar fórmulas sin preocuparse realmente por la enseñanza del diseño de muestreo que ha venido siendo reemplazado por la inferencia basada en modelos poblacionales sin tener en cuenta el principio de aleatorización. Como Tukey dijo: Abrace a sus datos no al modelo. Los modelos pueden jugar papeles muy importantes en problemas de tipo genético o físico, pero juegan roles menos importantes en las ciencias sociales. No podemos vivir enteramente sin modelos, porque en un ejercicio práctico existe ausencia de respuesta y  problemas del marco de muestreo. Los modelos deberían decir qué variables se tienen que incluir en una regresión y posiblemente la forma funcional de las ecuaciones. Sin embargo, los modelos no dicen el valor que los coeficientes de regresión toman y estas estimaciones están sujetas a variaciones de muestreo y efectos de diseño.

De todos los universos que se puedan suponer, en la vida práctica no existe ninguno que siga el patrón de la urna con bolas bien revueltas. En la práctica se trata con universos complejos y por tanto se deben utilizar diseños de muestreo complejos que contemplen el efecto de diseño.

Las estadísticas son zorras


y, por supuesto, los estadísticos son zorros…
En una revisión de libros del new Yok Times, Freeman Dyson escribe:

Los grandes científicos se dividen en dos clases, que Isaiah Berlín, citando al poeta Archilochus del siglo séptimo A.C., llamó zorros y erizos. Los zorros saben muchos trucos, los erizos solamente uno. Los zorros están interesados en todo y se mueven fácilmente de un problema a otro. Los erizos están interesados solamente en pocos problemas que consideren fundamentales, y trabajan con los mismos problemas por años o décadas. La mayor parte de los grandes descubrimientos son hechos por los erizos, la mayoría de los pequeños descubrimientos por los zorros.

La ciencia necesita de los erizos y de los zorros para su crecimiento sano: erizos para cavar profundamente en la naturaleza de cosas, zorros para explorar los detalles complicados de nuestro universo maravilloso

  • Albert Einstein era un erizo y
  • Richard Feynman era un zorro.
Andrew Gelman, escribe al respecto:
¡Pienso que casi todos somos zorros!

Los principales estadísticos parecen haber trabajado en porciones de problemas grandes. Aunque sí tenemos unos cuantos erizos, las ideas sistemáticas desarrolladas a través de los años, se han convertido en una serie de útiles herramientas.
Me pregunto si la profusión de zorros se relaciona con la posición de la estadística que, comparada, por ejemplo, a la física, es una ciencia menos “madura”. En física y matemáticas, los problemas importantes pueden ser fáciles de formular pero extremadamente difíciles de solucionar. Un erizo se enfoca para conseguir algo bastante cercano a la frontera de la investigación al intentar solucionar problemas abiertos. En cambio, en estadística, se necesita un background muy pequeño, no sólo para formular problemas abiertos sino también para adquirir muchas de las herramientas necesitadas en la solución de estos problemas. Me refiero a problemas del tipo: Cómo incluir un gran número de interacciones en un modelo. La mayoría del progreso hecho por los estadísticos se ha hecho en el contexto de usos particulares.
Pensemos en algunos grandes nombres del pasado:
  1. Laplace: posiblemente fuera un erizo en la teoría de las probabilidades, pero se conviertió en un zorro pues, con su trabajo en la estadística social (con encuestas), dió la motivación necesaria para desarrollar métodos bayesianos prácticos.
  2. Gauss: los mínimos cuadrados son un gran logro. Estos se convirtieron en una herramienta matemática particular para solucionar algunos problemas del error de medida. En el contexto de su carrera, es un zorro.
  3. Galton: se podría llamar un “erizo” por su obsesión con la regresión, pero pienso en él como un zorro.
  4. Fisher: Es un zorro. Desarrolló métodos según lo necesitado.
  5. Pearson: La familia de distribuciones huele a erizo, pero su legado, incluyendo las pruebas Ji, dan buenas pruebas de zorro.
  6. Neyman: Quizás deseó ser un erizo, pero en última instancia era un zorro, él muchas hizo contribuciones a diversos problemas de estimación y juzgamiento de hipótesis.

¿Qué se puede decir sobre los principales estadísticos del siglo veinte?

Cox: zorro
Cochran: zorro
Tukey: estupendo zorro
Efron: zorro
Rubin: zorro

Tal vez, América Latina tendría un desarrollo significativo en materia de teoría y actualización estadística si fueramos un poco más zorros, si tuvieramos la mente abierta y nos permitieramos aprender cosas nuevas y aplicaciones desde otro punto de vista. Mi percepción es que la educación estadísitica tiene que ser integral, antes que nada somos estadísticos!!!