Taxonomía numérica

Taxonomía numérica
Información sobre la plantilla
Taxnum.jpg
Concepto:Agrupación de unidades taxonómicas por métodos numéricos que ha permitido el uso de métodos estadísticos multivariados para la clasificación de los recursos genéticos.

Taxonomía numérica. Agrupación de unidades taxonómicas por métodos numéricos, la cual ha alcanzado un importante crecimiento que ha permitido el uso de métodos estadísticos multivariados para la clasificación de los recursos genéticos (Sokal y Sneath, 1963).

Historia

La clasificación de las especies, tal como se entiende en la actualidad, fue iniciada por Carlos Linneo en su famoso “Sistema Natura”. Linneo describió miles de especies utilizando la nomenclatura binomial, que asignaba a cada viviente el nombre latino con el género y la especie, cumpliendo la función de etiqueta científica, que permitiera situarlo y relacionarlo con las demás especies. El sistema taxonómico de Linneo es una jerarquía organizada en niveles, en la cual las clases disjuntas a cada nivel constituyen las llamadas taxas. Las taxas a un dado nivel constituyen las categorías. Se habla así de las categorías ‘especies’, ‘género’, ‘familia’, ‘orden’, etc. La categoría género, por ejemplo, tiene diversas taxas: los géneros que constituyen a una categoría dada. (Cuadras 1981)

Surgimiento

La taxonomía numérica surgió en los años 60 (Sokal y Sneath 1963; Sneath y Sokal 1973) por la necesidad de ampliar los esquemas tradicionales de la sistemática de los seres vivientes. Esta intenta cuantificar los datos y establecer grupos por la similitud global. Se anota el número de similitudes o características compartidas, y se agrupan en taxones más cercanos aquellas especies con mayor número de similitudes, y en taxones más alejados a medida que el número de similitudes decrece. En líneas generales, la taxonomía numérica intenta construir clasificaciones “naturales”, basadas en la semejanza fenotípica de los individuos (o de las clases), que se valora partiendo de una adecuada elección de un coeficiente de similaridad (Cuadras 1981).

En el análisis de agrupamiento se pueden definir un grupo de procedimientos básicos: análisis de datos, selección de variables, selección de una medida de proximidad a usar como índice de similaridad o disimilaridad entre los objetos, selección del procedimiento de agrupamiento, validación del agrupamiento obtenido y determinar el número conglomerados. Esta secuencia de análisis se puede realizar utilizando las facilidades que brinda un grupo de paquetes definidos en R, que es un lenguaje de programación principalmente orientado al análisis estadístico.

Análisis de datos

El análisis de los datos implica la separación, identificación y medida de variación en un conjunto de variables, este pre-procesamiento es muy amplio, pues abarca desde técnicas de estandarización, normalización hasta posible discretización.

En la función data.Normalization del paquete clusterSim están implementados 11 tipos de normalizaciones y estandarizaciones.

Selección de variables

En ocasiones algunas variables pueden crear ruido en los datos, pues aquellas que son redundantes o irrelevantes degradan la clasificación. La selección de variables se basa en seleccionar los atributos más revelantes para el problema, es decir, la selección de un subconjunto.

En el paquete clusterSim está la función HINoV.Mod(), permite trabajar con variables mixtas y sin clases a priori. En R, están implementados múltiples paquetes para la selección de variables, entre los cuales se encuentran: ‘FSelector’, ‘caret', ‘rpart', ‘randomForest', ‘clustvarsel’, entre otros.

Medidas de similitud

La similitud entre objetos es una medida de correspondencia, o parecido, entre objetos que van a ser agrupados. Existe un gran número de medidas de distancias y asociación que se diferencian no solo por ser de similaridad o disimilaridad, sino también por el tipo de datos, para el que han sido diseñadas, ya sean cuantitativos, cualitativos o mixtos.

El paquete stats forma parte de la librería básica de R que se instala por defecto, este contiene la función dist() que calcula diferentes medidas de distancias.

El paquete cluster contiene la función daysi() que permite seleccionar como medida de similitud la métrica de Gower para datos mixtos.

Métodos de aglomeración

Existen dos tipos básicos de agrupamientos y se distinguen por ser de naturaleza jerárquica o no jerárquica. (Johnson 2000).

El paquete stats forma parte de la librería básica de R que se instala por defecto, este contiene la función hclust() que permite obtener varios análisis conglomerados jerárquicos.

Como paquete adicional para el análisis de conglomerados se encuentra el paquete cluster que amplía la gama de análisis de conglomerados, pues incluye además métodos particionales y jerárquicos divisivos.

Validación del agrupamiento

Una vez obtenido el resultado del método de aglomeración, en el análisis taxonómico es importante determinar si el conjunto de datos muestra una tendencia a formar grupos, lo cual se determina a través del Agglomerative Coefficient (AC) con la función coef.hclust() en el paquete cluster.

Por otra parte, los métodos jerárquicos imponen cierta estructura sobre los datos, y para determinar si es aceptable o si se introducen distorsiones en las relaciones originales, se usa el test de Mantel, implementado en la función mantel() del paquete vegan.

Número óptimo de conglomerados

Cuando se emplean técnicas de aglomeración jerárquicas, no siempre se está interesado en la jerarquía completa, sino también en un subconjunto de particiones obtenidas a partir de ella, resultante de una determinada estructura de datos. Las particiones se obtienen cortando el dendrograma.

Las soluciones propuestas son múltiples. Por ello, surgen diversos índices de validación, algunos de los más utilizados son: Índice de Calinski-Harabasz, el índice de Davies-Bouldin, el Ancho de la Silueta (silhouette), todos implementados en el paquete clusterSim, y el índice de Dunn , implementado en el paquete clValid.

Fuentes

  • Cuadras, C. M. (1981). Métodos de Análisis Multivariante. Eunibar. D.L. XII: 642
  • Johnson, D. E. (2000). Métodos Multivariados aplicados al análisis de datos. S.A. International Thomson Editores.
  • Sneath, P. H. A. and R. R. Sokal (1973). Numerical taxonomy. The principles and practice of numerical classification. San Francisco, California, USA, W. H. Freeman and Co.
  • Sokal, R. R. and P. H. A. Sneath (1963). Principies of numerical taxonomy San Francisco & London, Freeman and Cía.