Estadística descriptiva en R

Revisión del 14:29 30 jun 2015 de Raquel.INIVIT (discusión | contribuciones) (Página creada con «{{Definición |nombre= Estadística descriptiva en R |imagen= |tamaño= |concepto= }} <div align="justify"> '''Estadística descriptiva en R''': Permite estimar y describi...»)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Estadística descriptiva en R
Información sobre la plantilla

Estadística descriptiva en R: Permite estimar y describir el comportamiento de la información registrada en un proceso de observación. Los más comunes son el promedio, la media aritmética, el rango de variación, la desviación estándar y el coeficiente de variación. Estos se deben realizar antes de cualquier análisis multivariado, ya que proporcionan una idea general de la variabilidad, y permiten inmediatamente detectar datos no esperados y errores de medición en el ingreso de datos, entre otros. (Franco and Hidalgo, 2003)

Código en R

Las funciones básicas para extraer información de parámetros como media y varianza son sencillas y similares.

La funciones mean() y range() del paquete {base} de R proporcionan la media y el rango de una muestra y las funciones median(), var(), sd(), quantile() del paquete {stats} proveen la mediana, la varianza muestral, la desviación estandar y los cuantiles.

Se puede definir La media como el resultado de dividir la suma de todas las observaciones entre el número de ellas.

mean(USArrests$Murder, na.rm = TRUE)# El primer argumento es el nombre de la columna, el segundo indica qué hacer con los NA.

La mediana es el valor de la variable que está en el centro de las mismas. Es decir, al valor de la variable, que deja a su izquierda el mismo número de frecuencias que a su derecha.

median(USArrests$Murder, na.rm = TRUE)# Calcula la mediana.

La varianzaes la media de los cuadrados de las desviaciones o separaciones de cada una de las observaciones, respecto a la media aritmética.

var(USArrests$Murder, na.rm = TRUE)# Calcula la varianza muestral.

La desviación estándar se define como la raíz cuadrada de la varianza de la variable. O sea, mide cuánto se separan los datos.

sd(USArrests$Murder, na.rm = TRUE)# Calcula la desviación estándar muestral (sobre N-1).

Los cuantiles son aquellos valores de la variable, que ordenados de menor a mayor, dividen a la distribución en partes, de tal manera que cada una de ellas contiene el mismo número de frecuencias. O sea, los cuantiles son los tres valores de la variable que dividen a un conjunto de datos ordenados en cuatro partes iguales. Q1, Q2 y Q3 determinan los valores correspondientes al 25%, al 50% y al 75% de los datos. Q2 coincide con la mediana.

quantile(USArrests$Murder, probs = seq(0, 1, by = 0.25), na.rm = TRUE, type= 7)# Calcula los cuantiles. El argumento probs determina cuantos cuantiles calcular, por ej. seq (0, 1, 0.25) indica que calculará el mínimo (0), los cuantiles 25, 50 y 75% y el máximo (1). type = 7, indica una de las nueve formas de calcular cuantiles.

El rango se define, como la diferencia existente entre los valores máximo y mínimo observados.

range(USArrests$Murder, na.rm = TRUE)# Muestra el valor mínimo y máximo.

Se puede obtener un resumen con la función summary():

summary(USArrests)#Obtienes la media, medianas, quantiles, valores mínimos y máximos de aquellas columnas que sean numéricas.
Para aquellas que son factores te indica cuantos niveles tiene el factor y el numero de replicas que tiene cada nivel.

Las matrices de covarianza y de correlación de un conjunto de datos pueden obtenerse con las funciones cov() y cor() respectivamente, definidas en el paquete {stats}.

La distribuciones de frecuencias se puede obtener con las funciones table() y prop.table() descritas en el paquete {base} de R.
tabla <- table(USArrests$Murder)# frecuencias relativas

prop.table(tabla)# frecuencias absolutas.

Fuentes

FRANCO, T. L. & HIDALGO, R. E. (2003) Análisis Estadístico de Datos de Caracterización Morfológica de Recursos Fitogenéticos. Boletín técnico No. 8, 89. R Development Core Team. 2014. R: A language and environment for statistical computing. R Foundation for Statistical Computing. R Foundation for Statistical Computing. http://www.r-project.org/. 17/12/2014