Diferencia entre revisiones de «Clúster no jerárquico»

 
Línea 6: Línea 6:
 
}}
 
}}
  
'''Los procedimientos de aglomeración no jerarquizados''' tambiénse llaman métodos de aglomeración de K-medias. En los rocedimientos no jerárquicos no se construyen árboles. En su lugar, se asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado.
+
'''Los procedimientos de aglomeración no jerarquizados''' tambiénse llaman métodos de aglomeración de K-medias. En los rocedimientos no jerárquicos no se construyen [[árboles]]. En su lugar, se asignan los objetos a [[conglomerados]] una vez que el número de conglomerados a formar está especificado.
  
 
==Funciones en software R.==
 
==Funciones en software R.==
En el leguaje R (R Development Core Team2016) se implementan una serie de algoritmos no jerárquicos. En el paquete stats se puede encontrar la función kmeans() del método de aglomeración de K-medias y en el paquete cluster las funciones pam(), clara() y fanny() para los métodos pam, clara y fanny respectivamente.
+
En el leguaje R (R Development Core Team2016) se implementan una serie de algoritmos no jerárquicos. En el paquete stats se puede encontrar la función kmeans() del método de aglomeración de K-medias y en el paquete [[clúster]] las funciones pam(), clara() y fanny() para los métodos pam, clara y fanny respectivamente.
 
Ejemplos para los cuatros métodos en códigos de R:<br />
 
Ejemplos para los cuatros métodos en códigos de R:<br />
  
Línea 19: Línea 19:
  
 
==Agrupamiento K-means==
 
==Agrupamiento K-means==
R dispone de la función kmeans() con 4 métodos de agrupamiento.<br />
+
R dispone de la [[función]] kmeans() con 4 métodos de agrupamiento.<br />
 
set.seed(123)<br />
 
set.seed(123)<br />
 
km.HW<- kmeans(iris.scaled, 3, algorithm = "Hartigan-Wong", nstart = 25)<br />
 
km.HW<- kmeans(iris.scaled, 3, algorithm = "Hartigan-Wong", nstart = 25)<br />
Línea 44: Línea 44:
 
<br />
 
<br />
 
==Algoritmo PAM==
 
==Algoritmo PAM==
(PartitioningAroundMedoids), usa k-medoidpara identificar agrupamientos,trabaja bien en bases de datos pequeñas, pero es lento en grandes. Un medoidese podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto máscéntrico de la agrupación considerada.<br />
+
(PartitioningAroundMedoids), usa k-medoid para identificar agrupamientos,trabaja bien en bases de datos pequeñas, pero es lento en grandes. Un medoidese podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto máscéntrico de la agrupación considerada.<br />
  
 
Agrupamiento PAM<br />
 
Agrupamiento PAM<br />
Línea 60: Línea 60:
 
<br />
 
<br />
 
==Algoritmo CLARA==
 
==Algoritmo CLARA==
(ClusteringLargeApplications) crea múltiples muestras de losdatos y después aplica PAM a la muestra.<br />
+
(ClusteringLargeApplications) crea múltiples muestras de los datos y después aplica PAM a la muestra.<br />
 
Agrupamiento CLARA<br />
 
Agrupamiento CLARA<br />
 
clara.I<- clara(iris.scaled, 2)<br />
 
clara.I<- clara(iris.scaled, 2)<br />
Línea 91: Línea 91:
 
<br />
 
<br />
 
==Requerimientos==
 
==Requerimientos==
Para su ejecución se requiere de una plataforma Windows® y el lenguaje de programación, orientado a objetos, denominado R. Este es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos.  
+
Para su ejecución se requiere de una plataforma [[Windows®]] y el lenguaje de programación, orientado a objetos, denominado R. Este es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos.  
  
 
==Fuentes==
 
==Fuentes==

última versión al 13:24 6 abr 2017

Clúster no jerárquico
Información sobre la plantilla
PAM12.jpeg


Los procedimientos de aglomeración no jerarquizados tambiénse llaman métodos de aglomeración de K-medias. En los rocedimientos no jerárquicos no se construyen árboles. En su lugar, se asignan los objetos a conglomerados una vez que el número de conglomerados a formar está especificado.

Funciones en software R.

En el leguaje R (R Development Core Team2016) se implementan una serie de algoritmos no jerárquicos. En el paquete stats se puede encontrar la función kmeans() del método de aglomeración de K-medias y en el paquete clúster las funciones pam(), clara() y fanny() para los métodos pam, clara y fanny respectivamente. Ejemplos para los cuatros métodos en códigos de R:

Cargar base de datos
data(iris)
head(iris)
remover la columna cinco y escalar los datos
iris.scaled<- scale(iris[, -5])

Agrupamiento K-means

R dispone de la función kmeans() con 4 métodos de agrupamiento.
set.seed(123)
km.HW<- kmeans(iris.scaled, 3, algorithm = "Hartigan-Wong", nstart = 25)
km.L<- kmeans(iris.scaled, 3, algorithm = "Lloyd", nstart = 25)
km.F<- kmeans(iris.scaled, 3, algorithm = "Forgy", nstart = 25)
km.MQ<- kmeans(iris.scaled, 3, algorithm = "MacQueen", nstart = 25)
km.HW$cluster# número de conglomerado de pertenencia de cada individuo
km.HW$centers#Centros de los grupos (media de los individuos en cada variable)
km.HW$withinss#Suma de cuadrados dentro de grupos.
km.HW$size#Número de individuos asignados a cada grupo
km.HW$totss#Suma total de los cuadrados
km.HW$tot.withinss#Suma de cuadrados de los 3 grupos
km.HW$betweenss#La resta de la suma de cuadrados total menos la suma de #cuadrados de los 3 grupos (totss - tot.withinss)
plot(iris.scaled, col =km.HW$cluster)# Visualización de los conglomerados
points(km.HW$centers, col = 1:2, pch = 8, cex = 2)

Kmedias12.jpeg









Algoritmo PAM

(PartitioningAroundMedoids), usa k-medoid para identificar agrupamientos,trabaja bien en bases de datos pequeñas, pero es lento en grandes. Un medoidese podría definir como el objeto perteneciente a un cluster o conglomerado, cuyo promedio de disimilaridad a todos los objetos en el conglomerado es mínima, es decir, que se puede considerar como el punto máscéntrico de la agrupación considerada.

Agrupamiento PAM
pam.I<- pam(iris.scaled, 3)
summary(pam.res)
plot(pam.res)

PAM12.jpeg









Algoritmo CLARA

(ClusteringLargeApplications) crea múltiples muestras de los datos y después aplica PAM a la muestra.
Agrupamiento CLARA
clara.I<- clara(iris.scaled, 2)
clara.I
clara.I$clusinfo
plot(clara.I,ask = TRUE)

Clara12.jpeg









Algoritmo FANNY

utiliza un valor “k” que indica el número de grupos a formar 0 < k < n/2; n es el número de observaciones.Es un análisis de conglomerados donde cada individuo tiene un grado de pertenencia difuso a los grupos.
Agrupamiento FANNY
fanny.I<- fanny(iris.scaled, 3)
summary(fanny.I)
plot(fanny.I, ask = TRUE)

Fanny12.jpeg









Requerimientos

Para su ejecución se requiere de una plataforma Windows® y el lenguaje de programación, orientado a objetos, denominado R. Este es un lenguaje de programación y un entorno para el análisis estadístico y la realización de gráficos.

Fuentes

  • Leiva-Valdebenito, Susana A., & Torres-Avilés, Francisco J.. (2010). Una revisión de los algoritmos de partición más comunes en el análisis de conglomerados: un estudio comparativo. Revista Colombiana de Estadística, 33(2), 321-339. Disponible en: www.scielo.org.co/pdf/rce/v33n2/v33n2a09.pdf
  • Johnson DE (2000) Métodos Multivariados aplicados al análisis de datos. In: International Thomson Editores SA (ed)
  • R Development Core Team. 2016. R: A language and environment for statistical computing. R Foundation for Statistical Computing. R Foundation for Statistical Computing. (consultado: 22 septiembre 2016, http://www.r-project.org/)