“Llegará el día en el que el pensamiento estadístico será una condición tan necesaria para la convivencia eficiente como la capacidad de leer y escribir” — H.G. Wells
Posts tagged R
Citando R en artículos científicos
Oct 9th
Es cierto que R es el más usado de los lenguajes estadísticos en los artículos de publicaciones seriadas. Sin embargo, también es cierto que, aunque es un software gratis, es necesario citarlo si lo hemos usado para usufructúo personal. No nos cuesta nada abrir el programa y darle la siguiente instrucción:
citation()
El resultado será:
R Development Core Team (2008). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
Si se está trabajndo en LaTeX, específicamente con el módulo BibTeX, el resultado será el siguiente:
@Manual{,
title = {R: A Language and Environment for Statistical Computing},
author = {{R Development Core Team}},
organization = {R Foundation for Statistical Computing},
address = {Vienna, Austria},
year = {2008},
note = {{ISBN} 3-900051-07-0},
url = {http://www.R-project.org},
}
Si además de usar el ambiente de R, hemos recurrido a la utilización de algún paquete avalado por CRAN, la siguiente instrucción dará cuenta de la forma de citación pertinente
citation(“pckgname”)
Por ejemplo, al usar el paquete MASS, citation(“MASS”) dará el siguiente resultado:
Venables, W. N. & Ripley, B. D. (2002) Modern Applied Statistics with S. Fourth Edition. Springer, New York. ISBN 0-387-95457-0
Y para BibTeX en LaTeX:
@Book{,
title = {Modern Applied Statistics with S},
author = {W. N. Venables and B. D. Ripley},
publisher = {Springer},
edition = {Fourth},
address = {New York},
year = {2002},
note = {ISBN 0-387-95457-0},
url = {http://www.stats.ox.ac.uk/pub/MASS4},
}
Ya no hay excusa para no citar R, el más grande contribuidor de la ciencia estadística computacional en los últimos tiempos.
P valores aleatorios
Aug 19th
En esta época de avances computacionales, una lección de intervalos de confianza incluye, además de teoría, simulaciones que tienden a enfatizar el carácter aleatorio de los límites de los intervalos de confianza: Un parámetro se fija y el 95% de los intervalos construidos en la simulación lo cubren. Pero y qué pasa con la enseñanza de otros conceptos fundamentales de la inferencia estadística. En esta entrada vamos a enfocarnos en una metodología alternativa en la enseñanza del p valor.
La respuesta que muchos usuarios de la estadística – no estadísticos – encuentran frente a la pregunta ¿Qué es un p valor? es
Un p valor es la probabilidad de que la hipótesis nula (Ho) sea cierta.
La anterior respuesta es, además de pragmática y utilitarista, falsa. Lo cierto es que, técnicamente, la definición de p valor es la siguiente:
Un p valor es la probabilidad, calculada al asumir que Ho es cierta, de que la estadística de prueba tome valore tan extremos o más extremos que los calculados con la muestra actual.
Ahora, dado que las estadísticas de prueba se construyen para cuantificar las desviaciones de la hipótesis nula con los datos actuales, entonces rechazamos Ho cuando el p valor es pequeño porque si éste es pequeño entonces los datos actuales proveen una fuerte evidencia en contra de Ho. En otras palabras, el hecho de que el p valor sea grande hace que Ho sea difícil de rechazar; por tanto es casi intuitivo, pero no valido, tomar al p valor como una medida de soporte en contra (o a favor) del rechazo de Ho.
Sin embargo, esta presentación estándar esconde la aleatoriedad del p valor. Sí, el p valor es una estadística por tanto es aleatorio y no puede ser interpretado como una medida de soporte. Este blog sugiere, siguiendo los lineamentos de Murdoch (2008), que la enseñanza de este importante concepto siga una metodología alternativa – basada en simulaciones- totalmente diferente a lo que hasta ahora se está realizando. Con un simple ejemplo es posible que el estudiante entienda que un p valor es una cantidad aleatoria condicionada a las realizaciones de las variables aleatorias de la muestra y, por consiguiente será posible liberarnos de las definiciones incorrectas que pueden guiar a malinterpretaciones en el campo aplicado.
Considere una prueba t, basada en una muestra aleatoria de tamaño n y con distribución normal (mu, 1), apoyada en el siguiente sistema de hipótesis
Ho: mu igual a cero VS. Ha: mu distinto de cero.
Es claro que la estadística de prueba sigue una distribución t-student con (n-1) grados de libertad. Para presentar los resultados en clase, es conveniente empezar con Ho: mu igual a cero
- Bajo la hipótesis nula, el histograma de los p valores toma la forma de una distribución plana y uniforme sobre el intervalo [0, 1]. Para enfatizar el punto de que un p valor no es la probabilidad de que Ho sea cierto, el instructor sólo necesita explicar este histograma, en donde claramente Ho es cierta, sin embargo el p valor está uniformemente distribuido entre cero y uno.
- Bajo la hipótesis alternativa, la distribución de los p valores no es uniforme. Para el estudiante será obvio que el chance de obtener p valores menores al nivel de significación será más alto bajo la hipótesis alterna que bajo la hipótesis nula y ese efecto es más claro a medida que mu incrementa su valor. En este punto, es posible introducir el concepto de potencia.
Una vez que el estudiante ha comprendido el comportamiento básico, podemos introducir la posibilidad de que el sistema de hipótesis sea tal que Ho: mu menor a cero
- Si mu menor que cero, la distribución de los p sobre el intervalo [0, 1] no será uniforme y tenderá al valor uno. En este punto, el estudiante entenderá que la distribución de los p valores no está determinada por el sistema de hipótesis sino por los parámetros.
Cuando el estudiante entiende que el p valor es una variable aleatoria, entonces comprenderá mejor el razonamiento detrás del juzgamiento de hipótesis, interpretará correctamente los resultados y los efectos en la violación de los supuestos. Haciendo clíc acá encontrará el programa en R de la simulación de los p valores que generaron las anteriores gráficas.
R + MS Office
Jul 26th

Inference for R permite el uso de los ambientes computacionales de Microsoft Excel y Word para establecer documentos dinámicos que contengan programación e información en R, objetos creados en R, comandos de R y anotaciones de texto (comentarios). Cuando se ejecuta el documento dinámico corre los comandos de R y genera un documento resultante que contiene las salidas textuales, numéricas y gráficas que genera directamente R. Estos documentos resultantes son útiles para documentas procesos en R, crear análisis estandarizados, explicar y publicar conceptos con R y publicar y compartir los resultados de una investigación. El video que explica el manejo y aplicación del software puede ser visto aquí. Nótese que el proyecto es patrocinado por Microsoft y el software no es gratis, en total discordancia con los fundamentos del núcleo GNU. Sin embargo, cada vez que salen aplicaciones comerciales con R, me convenza aún más que R será el software estadístico por obligación.
Escribiendo paquetes para R
Jul 21st
Es cierto, no es sencillo escribir paquetes en R, como tampoco lo es darlos de alta en la WEB, o simplemente crear un archivo .ZIP para que otros puedan acceder a las funciones de nuestro paquete. Siguiendo fielmente estos pasos encontramos cómo crear un paquete para R de la manera más sencilla.
Personalmente, estoy escribiendo un paquete en R para la enseñanza y aplicación del muestreo y de la inferencia en poblaciones finitas y al seguir estas indicaciones me ha resultado muy sencillo compilar, ejecutar y crear el archivo .zip para que cualquier persona pueda hacer uso del paquete.
Quick-R, el único portal decente de R en internet
May 1st
Para usuarios o potenciales usuarios de R …
Realmente no existe otro software que tenga la potencia de R, en realidad lo prefiero sobre otros pues permite todo tipo de interacciones y se puede hacer tan robusto (con respecto a la capacidad de procesamiento de los datos) como uno quiera. Sin embargo, aunque tenga un profundo sentimiento de amor y lealtad hacia R, tengo que decir que tiene una documentación simplemente horrible y esto hace que el proceso de aprendizaje sea lento. Recientemente comencé a leer la página de Quick-R, un sitio de excelente documentación. Pienso que ha sido dramáticamente útil para mí.
R es un elegante lenguaje de programación estadística y gráfica. Quick-R fue creado para usuarios experimentados de otros paquetes estadísticos como SAS, SPSS, Stata, y Systat. El propósito del sitio es ayudar a lograr un rápido acceso a este lenguaje. Se asume que el usuario está familiarizado con la mayoría de métodos estadísticos. Además de proveer el código necesario para empezar rápidamente la herramienta lo orienta para futuros aprendizajes.
¿Por qué usar R?
Si usted es usuario de paquetes como SAS, SPSS, Stata, o Systat ¿por qué usar R?
- Es gratis. Si usted es un profesor o un estudiante, los beneficios son obvios.
- Es ejecutable en una variedad de plataformas incluyendo Windows, Unix y MacOS.
- Provee una plataforma para la programación de nuevos métodos estadísticos de un amanera sencilla.
- Contiene rutinas estadísticas avanzadas que aún no están disponibles en otros paquetes.
- Genera potentes gráficos actualizados con el estado del arte.
Estadísticas básicas
Esta sección de Quic-R describe el manejo estadísticas básicas (y no tan básicas). Incluye el código para obtener estadísticas descriptivas, conteos de frecuencia y tabulación cruzada (junto con las pruebas de independencia), correlaciones (Pearson, Spearman y Kendall), pruebas-t (asumiendo varianzas iguales y diferentes), pruebas no-paramétricas de diferencias de grupo ( Mann White U, rango signado de Wilcoxon, pruebas de Kruskall Wallis, pruebas de Friedman), regresión lineal múltiple (diagnóstico, validación cruzada y selección de variables), análisis de varianza (también ANCOVA y MANOVA) y algunas estadísticas basadas en re muestreo.
Estadísticas Avanzadas
Esta sección de Quick-R describe métodos estadísticos un poco más avanzados. Incluye la descripción y exploración de relaciones multivariados complejas entre las variables de estudio.
- Modelos predictivos
Modelos lineales generalizados (regresión logística, Poisson y análisis de sobrevida), análisis discriminante (lineal y cuadrático), y modelamiento de series temporales.
- Modelos de Variable latente
Incluyendo análisis factorial (componentes principales, análisis de factores exploratorio y confirmatorio), análisis de correspondencias, y escalonamiento multidimensional (métrico y no – métrico).
- Métodos de partición
Análisis de clústeres (k-medias), aglomerativo jerárquico y basado en modelos. Métodos de árbol (!aunque también pueden ser incluidos como modelos predictivos!) de clasificación y árboles de regresión.
- Otras herramientas
Esta sección incluye bootstrapping en R y programación de álgebra de matrices (algo como los procedimientos MATRIX en SPSS o PROC IML en SAS).
Junto con cada uno de los métodos estadísticos está la contraparte gráfica. Una de las razones principales por la cual deberíamos utilizar R es por su potencia con respecto a la graficación. Por esta y mil razones, usemos R !!!
Usando simulación para recordar la teoría
Mar 21st
Estudiando algunas correlaciones entre ingreso y diversas medidas de ideología política, Andrew Gelman se deseaba obtener cierto sentido de la variabilidad muestral en su análisis. Él recordaba, vagamente, que la correlación muestral tiene una varianza de aproximadamente 1/n. Para corroborar la fórmula se hizo una simulación:
> var(replicate(1000,cor(rnorm(100),rnorm(100))))
[1] 0.001
Que en pasos más largos puede ser escrita de la siguiente manera:
> corrs <- rep (NA, 1000)
> for (i in 1:1000) corrs[i]<-cor(rnorm(100),rnorm(100))
> mean(corrs)
[1] -0.0021
> sd(corrs)
[1] 0.01
¡Sí, en efecto, 1/n era correcto! Funcionó bien y fue más rápido y productivo que investigar en un libro.
PD: En el anterior ejemplo se utilizaron muestras no correlacionadas de tamaño 100 de variables aleatorias con distribución normal estándar. Sin embargo, si hubiese correlación rho, entonces la varianza asintótica sería (1/n)* [1-rho^2]^2.









Comentarios