Estadística descriptiva en R

Estadística descriptiva en R
Información sobre la plantilla

Estadística descriptiva en R: Permite estimar y describir el comportamiento de la información registrada en un proceso de observación. Los más comunes son el promedio, la media aritmética, el rango de variación, la desviación estándar y el coeficiente de variación.
Estos se deben realizar antes de cualquier análisis multivariado, ya que proporcionan una idea general de la variabilidad, y permiten inmediatamente detectar datos no esperados y errores de medición en el ingreso de datos, entre otros. (Franco and Hidalgo, 2003)

Introducción

R es un lenguaje de programación especialmente indicado para el análisis estadístico. A diferencia de la mayoría de los programas que solemos utilizar en nuestros ordenadores, que tienen interfaces tipo ventana, R es manejado a través de una consola en la que se introduce código propio de su lenguaje para obtener los resultados deseados.

Implementación en R

Las funciones básicas para extraer información de parámetros como media y varianza son sencillas y similares.

La funciones mean() y range() del paquete {base} de R proporcionan la media y el rango de una muestra y las funciones median(), var(), sd(), quantile() del paquete {stats} proveen la mediana, la varianza muestral, la desviación estandar y los cuantiles.

Se puede definir la media como el resultado de dividir la suma de todas las observaciones entre el número de ellas.
mean(USArrests$Murder, na.rm = TRUE)# El primer argumento es el nombre de la columna, el segundo indica qué hacer con los NA.

La mediana es el valor de la variable que está en el centro de las mismas. Es decir, al valor de la variable, que deja a su izquierda el mismo número de frecuencias que a su derecha.

median(USArrests$Murder, na.rm = TRUE)# Calcula la mediana.

La varianza es la media de los cuadrados de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmética.

var(USArrests$Murder, na.rm = TRUE)# Calcula la varianza muestral.

La desviación estándar se define como la raíz cuadrada de la varianza de la variable. O sea, mide cuánto se separan los datos.
sd(USArrests$Murder, na.rm = TRUE)# Calcula la desviación estándar muestral (sobre N-1).

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. O sea, los cuantiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

quantile(USArrests$Murder, probs = seq(0, 1, by = 0.25), na.rm = TRUE, type= 7)# Calcula los cuantiles. El argumento probs determina cuantos cuantiles calcular, por ej. seq (0, 1, 0.25) indica que calculará el mínimo (0), los cuantiles 25, 50 y 75% y el máximo (1). type = 7, indica una de las nueve formas de calcular cuantiles.

El rango se define, como la diferencia existente entre los valores máximo y mínimo observados.
range(USArrests$Murder, na.rm = TRUE)# Muestra el valor mínimo y máximo.

Se puede obtener un resumen con la función summary():
summary(USArrests)#Obtienes la media, medianas, quantiles, valores mínimos y máximos de aquellas columnas que sean numéricas.

Para aquellas que son factores te indica cuantos niveles tiene el factor y el numero de replicas que tiene cada nivel.

Las matrices de covarianza y de correlación de un conjunto de datos pueden obtenerse con las funciones cov() y cor() respectivamente, definidas en el paquete {stats}.

La distribuciones de frecuencias se puede obtener con las funciones table() y prop.table() descritas en el paquete {base} de R.
tabla <- table(USArrests$Murder)# frecuencias relativas

prop.table(tabla)# frecuencias absolutas.

Representaciones gráficas

Gráfico de Barras

Una aplicación muy usada de estos gráficos es la representación de frecuencias absolutas o relativas de distintas categorías en las que se pueden clasificar las unidades de observación.
barplot(height, ...) # función descrita en el paquete {graphics} de R.
Ejemplo:
barplot(VADeaths, plot = TRUE)
barplot(VADeaths, plot = TRUE, beside = TRUE)

Diagrama de caja

Para variables cualitativas o cuantitativas no agrupadas en intervalos. Estos gráficos tienen por objeto representar una distribución de frecuencias.
boxplot(x, ...)# función descrita en el paquete {graphics} de R.
ejemplo:
boxplot(count ~ spray, data = InsectSprays, col = "lightgray")

Histograma

Representativo de las variables agrupadas en intervalos.
hist(x, ...)o plot(..., type = "h")# histogram, funciones descritas en el paquete {graphics} de R.
Ejemplo:
hist(islands)

Diagramas de sectores

Utilizable en cualquier tipo de variable. Una alternativa para la representación de frecuencias relativas de un conjunto de categorías.
pie(x,...)# función descrita en el paquete {graphics} de R.
Ejemplo:
pie(rep(1, 24), col = rainbow(24), radius = 0.9)

Q-Q Plots

Este gráfico permite la comparación de la distribución de frecuencias de una variable con una distribución teórica.
qqnorm(y, ...)# función descrita en el paquete {stats} de R
Ejemplo:
x- rnorm(20)
qqnorm(x)

Diagramas de Dispersión

plot(x, y, ...)# función descrita en el paquete {graphics} de R.
Ejemplo:
data <- iris[,1:4 ]
plot(Sepal.Length ~ Sepal.Width,data)

Fuentes

  • FRANCO, T. L. & HIDALGO, R. E. (2003) Análisis Estadístico de Datos de Caracterización Morfológica de Recursos Fitogenéticos. Boletín técnico No. 8, 89.
  • R Development Core Team. 2014. R: A language and environment for statistical computing. R Foundation for Statistical Computing. R Foundation for Statistical Computing. http://www.r-project.org/. 17/12/2014