Reconocimiento de patrones

Identificación de muestras de agua utilizando reconocimiento de patrones
Información sobre la plantilla
Defrancesco.JPG
Concepto:Identificación de muestras de agua


Reconocimiento de Patrones, enfoque estadístico para la identificación de los componenetes químicos del agua.

Bases

Este enfoque se basa en la teoría de probabilidad y estadística, suponiendo que se tiene un conjunto de medidas numéricas con distribuciones de probabilidad conocidas y a partir de ellas se hace el reconocimiento. Existen otros tres enfoques (sintáctico, lógica combinatoria y redes neuronales).
En los cuatro enfoques del Reconocimiento de Patrones puede estar presente cualquiera de los tres tipos de problemas del mismo (Selección de Variable, Clasificación Supervisada y Clasificación no Supervisada). Los problemas más comunes son los de clasificación no supervisada, también conocidos como clasificación sin aprendizaje, en estos problemas no existe ninguna clasificación previa de objetos y en algunas ocasiones ni siquiera se han definido las clases.

Técnicas multivariantes

Como se plantea anteriormente, para trabajar con datos químicos, como es el agua, se usa el enfoque estadístico de reconocimiento de patrones, donde se aplica el análisis multivariante, la rama de la estadística que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables, esta rama agrupa un conjunto de técnicas para el análisis exploratorio de los datos. Sus métodos analizan conjuntamente p variables, medidas sobre un conjunto de n individuos u objetos. Existen tres grupos de técnicas multivariantes:

  • Métodos de dependencia
  • Métodos de interdependencia
  • Métodos estructurales

Métodos de dependencia

Explica las relaciones entre grupos de variables, donde se supone que unas pueden ser causas de otras. Un tipo interesante del análisis de dependencia consiste en buscar un criterio que permita separar o discriminar entre objetos pertenecientes a priori a grupos diferentes. Dicho criterio es una función de las variables originales. En último término, se trata de usar los resultados en el futuro para predecir a qué grupo pertenecen nuevos objetos que no formaban parte de la información original y para los cuales se han medido las p variables. El Análisis Discriminante y la Regresión Logística son métodos que persiguen este objetivo. Es decir, inicialmente se tiene una base de conocimientos, con las clases que representan a los objetos o patrones y sus características representadas por variables. Estos métodos analizan cuáles son las características que diferencian a estas clases y a partir de esto identifican a que clase pertenecen nuevos objetos. Los métodos de dependencia, se pueden clasificar en dos subgrupos: uno si la variable dependiente es cuantitativa y el otro si la variable dependiente es cualitativa. En el caso de que la variable dependiente sea cuantitativa, o sea que se pueda expresar numéricamente, se pueden aplicar las siguientes técnicas:

  • Análisis de Regresión
  • Análisis de Supervivencia
  • Análisis de Varianza
  • Correlación Canónica

Análisis de Regresión

Es la técnica adecuada si en el análisis hay una o varias variables dependientes cuantitativas cuyo valor depende de una o varias variables independientes cuantitativas.

Análisis de Supervivencia

Es similar al análisis de regresión pero con la diferencia de que la variable independiente es el tiempo de supervivencia de un individuo u objeto.

Análisis de la Varianza

Se utilizan en situaciones en las que la muestra total está dividida en varios grupos basados en una o varias variables independientes cualitativas y las variables dependientes analizadas son cuantitativas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere.

Correlación Canónica

Su objetivo es relacionar simultáneamente varias variables cuantitativas dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlación existente entre los dos conjuntos de variables.

Cuando la variable dependiente es cualitativa; o sea que nos e puede expresar numéricamente, se pueden usar las técnicas:

  • Análisis discriminante
  • Modelos de regresión logística
  • Análisis Conjoint

Análisis Discriminante

Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la información proporcionada los valores que en ella toman las variables independientes.

Modelos de regresión logística

Son modelos de regresión en los que la variable dependiente es cualitativa. Se utilizan como una alternativa al análisis discriminante cuando no hay normalidad.

Análisis Conjoint

Es una técnica que analiza el efecto de variables independientes cualitativas sobre variables cuantitativas o cualitativas. La diferencia con el Análisis de la Varianza radica en dos hechos: las variables dependientes pueden ser cualitativas y los valores de las variables independientes cualitativas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de Experimentos.

Métodos de interdependencia

Se trata de buscar la interdependencia entre grupos de variables, sin que a priori se suponga relación de causalidad entre ellas. El método más conocido es el Análisis de Correspondencia, que es una generalización del Análisis de Correspondencia Bivalente. Los métodos de interdependencia se pueden clasificar en dos grupos según que, el tipo de datos que analicen sean métricos o no métricos (otra forma de expresar que los valores de las variables sean cuantitativos o cualitativos). Si los datos son métricos se pueden utilizar las técnicas siguientes:

  • Análisis factorial y análisis de componentes principales
  • Escalas multidimensionales
  • Análisis de clúster

Análisis Factorial y Análisis de Componentes Principales: Se utiliza para analizar interrelaciones entre un número elevado de variables explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o componentes principales (si son observables).

Escalas Multidimensionales

Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas en un espacio multidimensional. Como consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos como similares están cercanos unos de otros y alejados de objetos percibidos como distintos.

Análisis de clúster

Su objetivo es clasificar un conjunto de muestras en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto de los grupos. A diferencia del Análisis Discriminante se desconoce el número y la composición de dichos grupos. Los objetos se agrupan y se halla su similitud mediante el cálculo de la distancia entre ellos. Este método tiene dos variantes: análisis de clúster jerárquico (aglomerativos, divisivos) y análisis de clúster no jerárquico, la variante más utilizada es la primera. Atendiendo a esto, dos muestras serán similares solo si la distancia entre ellas es lo suficientemente pequeña en comparación con la distancia entre el resto de los compuestos. La eficiencia al usar este tipo de algoritmo depende de si se sabe hasta dónde llegar; o sea, hasta donde agrupar, porque en principio el análisis de clúster va agrupando hasta obtener un solo clúster. Lo anterior no tiene sentido si lo que se desea es obtener a partir del conjunto de muestras de aguas existentes en la base de datos varios pequeños subgrupos. El algoritmo funciona tomando la muestra x y calculando la distancia que hay entre ella y todas las demás. Luego se seleccionan las dos muestras que hayan arrojado la distancia más pequeña y se conforma un nuevo clúster al cual se le haya el punto medio, este punto medio será una nueva muestra con la cual se repetiría todo el proceso hasta llegar al punto de parada. Para realizar el análisis de clúster se pueden emplear las siguientes fórmulas de cálculo de distancia. La más sencilla y la que más de conoce es la siguiente: d: (x1 , x2) ≥ 0 d: (x1 , x1) y d: (x2 , x2) = 0 d: (x1 , x2) = d: (x2 , x1) d: (x1 , x2) ≤ d: (x1 , xp) + d: (xp , x2) Pero esta no es la apropiada porque en el análisis de clúster se trabaja con vectores de más de dos variables. A continuación se explican otras que sí se pueden emplear:

Distancia Euclidiana

Dado 2 puntos A y B medidos según las variables X y Y la distancia euclidiana seria: Cuando A y B estén medidas con un número n de dimensiones y no solo X y Y la formula sería la siguiente:

Distancia de Minkowski

Donde m ∈ N. Si m =1, se tiene la distancia en valor absoluto y si m >1, la euclídea.

Distancia de Mahalanobis

En esta distancia a diferencia de la euclidiana se tiene en cuenta la correlación entre las variables aleatorias. Se define como:Donde W es la matriz de covarianzas entre las variables. De este modo, las variables se ponderan según el grado de relación que exista entre ellas, es decir, si están más o menos correlacionadas. Si la correlación es nula y las variables están estandarizadas, se obtiene la distancia euclídea. Se denomina matriz A de dimensión m x n a un juego de m * n números. La matriz de covarianza es una matriz que contiene la covarianza entre los elementos de un vector. Para entender mejor cómo funciona la distancia de Mahalanobis. Si los datos son no métricos se pueden utilizar además de las escalas multidimensionales y el análisis de clúster:

  • Las técnicas de análisis de correspondencia
  • Modelos log-lineales

Análisis de Correspondencias

Se aplica a tablas de contingencia multidimensionales y persigue un objetivo similar al de las escalas multidimensionales pero representando simultáneamente las filas y columnas de las tablas de contingencia.

Modelos log-lineales

Se aplican a tablas de contingencias multidimensionales y modelan relaciones de dependencia multidimensional de las variables observadas que buscan explicar las frecuencias observadas.

Métodos estructurales

Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.

Fuente

1. Ramírez Martín, Carlos E. y Rodriguez Donatien, Ariagna. Sistema para la Identificación de Aguas en Pozos Petroleros (SIAPP). Ciudad de La Habana: Universidad de las Ciencias Informáticas. Facultad 9.junio 2009

Enlace relacionado