Clúster no jerárquico

Clúster no jerárquico
Información sobre la plantilla
PAM12.jpeg


Los procedimientos de aglomeración no jerarquizados tambiénse llaman métodos de aglomeración de K-medias. En los rocedimientos no jerárquicos no se construyen árboles. En su lugar, se asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado.

Funciones en software R.

En el leguaje R (R Development Core Team2016) se implementan una serie de algoritmos no jerárquicos. En el paquete stats se puede encontrar la función kmeans() del método de aglomeración de K-medias y en el paquete clúster las funciones pam(), clara() y fanny() para los métodos pam, clara y fanny respectivamente. Ejemplos para los cuatros métodos en códigos de R:

Cargar base de datos
data(iris)
head(iris)
remover la columna cinco y escalar los datos
iris.scaled<- scale(iris[, -5])

Agrupamiento K-means

R dispone de la función kmeans() con 4 métodos de agrupamiento.
set.seed(123)
km.HW<- kmeans(iris.scaled, 3, algorithm = "Hartigan-Wong", nstart = 25)
km.L<- kmeans(iris.scaled, 3, algorithm = "Lloyd", nstart = 25)
km.F<- kmeans(iris.scaled, 3, algorithm = "Forgy", nstart = 25)
km.MQ<- kmeans(iris.scaled, 3, algorithm = "MacQueen", nstart = 25)
km.HW$cluster# número de conglomerado de pertenencia de cada individuo
km.HW$centers#Centros de los grupos (media de los individuos en cada variable)
km.HW$withinss#Suma de cuadrados dentro de grupos.
km.HW$size#Número de individuos asignados a cada grupo
km.HW$totss#Suma total de los cuadrados
km.HW$tot.withinss#Suma de cuadrados de los 3 grupos
km.HW$betweenss#La resta de la suma de cuadrados total menos la suma de #cuadrados de los 3 grupos (totss - tot.withinss)
plot(iris.scaled, col =km.HW$cluster)# Visualización de los conglomerados
points(km.HW$centers, col = 1:2, pch = 8, cex = 2)

Kmedias12.jpeg









Algoritmo PAM

(PartitioningAroundMedoids), usa k-medoid para identificar agrupamientos,trabaja bien en bases de datos pequeñas, pero es lento en grandes. Un medoidese podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto máscéntrico de la agrupación considerada.

Agrupamiento PAM
pam.I<- pam(iris.scaled, 3)
summary(pam.res)
plot(pam.res)

PAM12.jpeg









Algoritmo CLARA

(ClusteringLargeApplications) crea múltiples muestras de los datos y después aplica PAM a la muestra.
Agrupamiento CLARA
clara.I<- clara(iris.scaled, 2)
clara.I
clara.I$clusinfo
plot(clara.I,ask = TRUE)

Clara12.jpeg









Algoritmo FANNY

utiliza un valor “k” que indica el número de grupos a formar 0 < k < n/2; n es el número de observaciones.Es un análisis de conglomerados donde cada individuo tiene un grado de pertenencia difuso a los grupos.
Agrupamiento FANNY
fanny.I<- fanny(iris.scaled, 3)
summary(fanny.I)
plot(fanny.I, ask = TRUE)

Fanny12.jpeg









Requerimientos

Para su ejecución se requiere de una plataforma Windows® y el lenguaje de programación, orientado a objetos, denominado R. Este es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos.

Fuentes

  • Leiva-Valdebenito, Susana A., & Torres-Avilés, Francisco J.. (2010). Una revisión de los algoritmos de partición más comunes en el análisis de conglomerados: un estudio comparativo. Revista Colombiana de Estadística, 33(2), 321-339. Disponible en: www.scielo.org.co/pdf/rce/v33n2/v33n2a09.pdf
  • Johnson DE (2000) Métodos Multivariados aplicados al análisis de datos. In: International Thomson Editores SA (ed)
  • R Development Core Team. 2016. R: A language and environment for statistical computing. R Foundation for Statistical Computing. R Foundation for Statistical Computing. (consultado: 22 septiembre 2016, http://www.r-project.org/)