Diferencia entre revisiones de «Reconocimiento de patrones»

(Objetivo)
Línea 1: Línea 1:
 
{{Definición
 
{{Definición
|nombre=Reconocimiento de Patrones
+
|nombre=Identificación de muestras de agua utilizando reconocimiento de patrones
|imagen=RP1.JPG
+
|imagen=
 
|tamaño=
 
|tamaño=
 
|concepto=
 
|concepto=
 
}}<br>  
 
}}<br>  
<div align="justify">'''Reconocimiento de Patrones.''' Las técnicas de Reconocimiento de Patrones son procesos computacionales de gran aplicabilidad en diversos sectores y problemas como el [[Procesamiento digital de imágenes|procesamiento digital de imágenes]], el [[Reconocimiento del habla|reconocimiento del habla]], la [[Medicina|medicina]], la [[Biología|biología]], el tratamiento automático de las [[Bases de datos|bases de datos]], [[Video-vigilancia inteligente|video-vigilancia inteligente]], entre otras, en los que se precisa de métodos de decisión y ''clasificación'' automática.<br>
+
<div align="justify">'''Identificación de muestras de agua utilizando Reconocimiento de Patrones.'''  
== Concepto<br>  ==
+
El agua es un componente químico, teniendo en cuenta esto, para su  identificación, se utiliza el [[enfoque estadístico]] del  [[reconocimiento de patrones]]. Este enfoque se basa en la [[teoría de  probabilidad y estadística]], suponiendo que se tiene un conjunto de  medidas numéricas con distribuciones de probabilidad conocidas y a  partir de ellas se hace el reconocimiento. Existen otros tres enfoques  ([[sintáctico]], [[lógica combinatoria]] y [[redes neuronales]]).
  
Por Reconocimiento de Patrones podríamos identificar "a la zona del conocimiento (de carácter interdisciplinario) que se ocupa del desarrollo de teorías, métodos, técnicas y dispositivos computacionales para la realización de procesos ingenieriles, computacionales y/o matemáticos relacionados con objetos físicos y/o abstractos, que tienen el propósito de extraer la información que le permita establecer propiedades y/o vínculos entre conjuntos de dichos objetos sobre la base de los cuales se realiza una tarea de identificación o clasificación".<br>  
+
En  los cuatro enfoques del Reconocimiento de Patrones puede estar presente  cualquiera de los tres tipos de problemas del mismo ([[Selección de Variable]], [[Clasificación Supervisada]] y [[Clasificación no  Supervisada]]). Los problemas más comunes son los de clasificación no  supervisada, también conocidos como [[clasificación sin aprendizaje]], en estos problemas no existe ninguna clasificación previa de objetos y en algunas ocasiones ni siquiera se han definido las clases.<br>  
  
Un patrón es una entidad a la que se le puede dar un nombre, y que está representada por un conjunto de propiedades medibles (mesurables) y las relaciones entre ellas (vector de características). El conjunto de todas las representaciones posibles de un objeto (patrón) se denomina espacio de representación.<br>
+
== Técnicas multivariantes ==
 +
Como se plantea anteriormente, para trabajar con datos químicos, como es el [[agua]], se usa el enfoque estadístico de reconocimiento de patrones, donde se aplica el [[análisis multivariante]], la rama de la estadística que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables, esta rama agrupa un conjunto de técnicas para el análisis exploratorio de los datos. Sus métodos analizan conjuntamente p variables, medidas sobre un conjunto de n individuos u objetos. Existen tres grupos de [[técnicas multivariantes]]:
 +
* Métodos de dependencia
 +
* Métodos de interdependencia
 +
* Métodos estructurales
 +
=== Métodos de dependencia ===
 +
Explica las relaciones entre grupos de variables, donde se supone que unas pueden ser causas de otras. Un tipo interesante del [[análisis de dependencia]] consiste en buscar un criterio que permita separar o discriminar entre objetos pertenecientes a priori a grupos diferentes. Dicho criterio es una función de las variables originales. En último término, se trata de usar los resultados en el futuro para predecir a qué grupo pertenecen nuevos objetos que no formaban parte de la información original y para los cuales se han medido las p variables. El [[Análisis Discriminante]] y la [[Regresión Logística]] son métodos que persiguen este objetivo. Es decir, inicialmente se tiene una base de conocimientos, con las clases que representan a los objetos o patrones y sus características representadas por variables. Estos métodos analizan cuáles son las características que diferencian a estas clases y a partir de esto identifican a que clase pertenecen nuevos objetos.
 +
Los [[métodos de dependencia]], se pueden clasificar en dos subgrupos: uno si la variable dependiente es cuantitativa y el otro si la variable dependiente es cualitativa. En el caso de que la variable dependiente sea cuantitativa, o sea que se pueda expresar numéricamente, se pueden aplicar las siguientes técnicas:
 +
* Análisis de Regresión
 +
* Análisis de Supervivencia
 +
* Análisis de Varianza
 +
* Correlación Canónica
 +
<big>Análisis de Regresión:</big> Es la técnica adecuada si en el análisis hay una o varias variables dependientes cuantitativas cuyo valor depende de una o varias variables independientes cuantitativas.
  
== Objetivo  ==
+
<big>Análisis de Supervivencia:</big> Es similar al análisis de regresión pero con la diferencia de que la variable independiente es el tiempo de supervivencia de un individuo u objeto.
  
El objetivo perseguido en todo problema de Reconocimiento de Patrones es la clasificación (determinación de la clase o categoría a la que debe pertenecer) de objetos teniendo en cuenta la información que se pueda extraer de un conjunto de objetos del mismo espacio de representación. De acuerdo a las condiciones existentes en el conjunto de datos disponible, la clasificación se puede dividir en tres grupos: [http://www.ecured.cu/index.php/Clasificaci%C3%B3n_supervisada clasificación supervisada], [http://www.ecured.cu/index.php/Clasificaci%C3%B3n_no_supervisada clasificación no supervisada] y [[clasificación semi-supervisada]].<br>
+
<big>Análisis de la Varianza:</big> Se utilizan en situaciones en las que la muestra total está dividida en varios grupos basados en una o varias variables independientes cualitativas y las variables dependientes analizadas son cuantitativas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere.
  
== &nbsp;Reconocimiento de Patrones <br> ==
+
<big>Correlación Canónica:</big> Su objetivo es relacionar simultáneamente varias variables cuantitativas dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlación existente entre los dos conjuntos de variables.
 +
 +
Cuando la variable dependiente es cualitativa; o sea que nos e puede expresar numéricamente, se pueden usar las técnicas:
 +
* Análisis discriminante
 +
* Modelos de regresión logística
 +
* Análisis Conjoint
 +
<big>Análisis Discriminante:</big> Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la información proporcionada los valores que en ella toman las variables independientes.
  
=== Reconocimiento Sintáctico o Estructural de Formas<br> ===
+
<big>Modelos de regresión logística:</big> Son modelos de regresión en los que la variable dependiente es cualitativa. Se utilizan como una alternativa al análisis discriminante cuando no hay normalidad.
  
El cual define explícitamente la estructura de las características asociadas a los modelos, así como las relaciones permitidas entre ellas. Trabaja con ''patrones'' físicos y utiliza herramientas de la [[Teoría de los Lenguajes Formales|Teoría de los Lenguajes Formales]]. <br>
+
<big>Análisis Conjoint:</big> Es una técnica que analiza el efecto de variables independientes cualitativas sobre variables cuantitativas o cualitativas. La diferencia con el Análisis de la Varianza radica en dos hechos: las variables dependientes pueden ser cualitativas y los valores de las variables independientes cualitativas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de Experimentos.
  
=== Reconocimiento Lógico Combinatorio<br>  ===
+
=== Métodos de interdependencia ===
 +
Se trata de buscar la interdependencia entre grupos de variables, sin que a priori se suponga relación de causalidad entre ellas. El método más conocido es el Análisis de Correspondencia, que es una generalización del Análisis de Correspondencia Bivalente.
 +
Los métodos de interdependencia se pueden clasificar en dos grupos según que, el tipo de datos que analicen sean métricos o no métricos (otra forma de expresar que los valores de las variables sean cuantitativos o cualitativos). Si los datos son métricos se pueden utilizar las técnicas siguientes:
 +
* Análisis factorial y análisis de componentes principales
 +
* Escalas multidimensionales
 +
* Análisis de clúster
 +
<big>Análisis Factorial y Análisis de Componentes Principales:</big> Se utiliza para analizar interrelaciones entre un número elevado de variables explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o componentes principales (si son observables).
  
Se basa en la idea de que la modelación del problema debe ser lo más cercana posible a la realidad del mismo, sin hacer suposiciones que carezcan de fundamento. Uno de los aspectos esenciales de este tipo de enfoque es que las características utilizadas para describir a los objetos de estudio deben ser tratadas cuidadosamente. Trabaja con patrones abstractos y no impone restricciones al espacio de representación.<br>
+
<big>Escalas Multidimensionales:</big> Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas en un espacio multidimensional. Como consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos como similares están cercanos unos de otros y alejados de objetos percibidos como distintos.
  
=== Reconocimiento Estadístico de Formas<br> ===
+
<big>Análisis de clúster:</big> Su objetivo es clasificar un conjunto de muestras en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto de los grupos. A diferencia del Análisis Discriminante se desconoce el número y la composición de dichos grupos. Los objetos se agrupan y se halla su similitud mediante el cálculo de la distancia entre ellos. Este método tiene dos variantes: análisis de clúster jerárquico (aglomerativos, divisivos) y análisis de clúster no jerárquico, la variante más utilizada es la primera.
 +
Atendiendo a esto, dos muestras serán similares solo si la distancia entre ellas es lo suficientemente pequeña en comparación con la distancia entre el resto de los compuestos. La eficiencia al usar este tipo de algoritmo depende de si se sabe hasta dónde llegar; o sea, hasta donde agrupar, porque en principio el análisis de clúster va agrupando hasta obtener un solo clúster. Lo anterior no tiene sentido si lo que se desea es obtener a partir del conjunto de muestras de aguas existentes en la base de datos varios pequeños subgrupos.
 +
El algoritmo funciona tomando la muestra x y calculando la distancia que hay entre ella y todas las demás. Luego se seleccionan las dos muestras que hayan arrojado la distancia más pequeña y se conforma un nuevo clúster al cual se le haya el punto medio, este punto medio será una nueva muestra con la cual se repetiría todo el proceso hasta llegar al punto de parada. Para realizar el análisis de clúster se pueden emplear las siguientes fórmulas de cálculo de distancia. La más sencilla y la que más de conoce es la siguiente:
 +
d: (x1 , x2) ≥ 0
 +
d: (x1 , x1) y d: (x2 , x2) = 0
 +
d: (x1 , x2) = d: (x2 , x1)
 +
d: (x1 , x2) ≤ d: (x1 , xp) + d: (xp , x2)
 +
Pero esta no es la apropiada porque en el análisis de clúster se trabaja con vectores de más de dos variables. A continuación se explican otras que sí se pueden emplear:
  
En él se asume que el espacio de representación posee una estructura de [[Espacio vectorial|espacio vectorial]], donde un ''patrón'' se representa por un [[Vector numérico n-dimensional|vector numérico n-dimensional]]. <br>  
+
==== Distancia Euclidiana ====
 +
Dado 2 puntos A y B medidos según las variables X y Y la distancia euclidiana seria:
 +
<gallery>
 +
Archivo:eucli.jpg|Fórmula para calcular la distancia Eclidiana
 +
</gallery>
 +
Cuando A y B estén medidas con un número n de dimensiones y no solo X y Y la formula sería la siguiente:
 +
<gallery>
 +
Archivo:eu.jpg|Fórmula para calcular la distancia Eclidiana
 +
</gallery>
  
== Fuentes<br> ==
+
==== Distancia de Minkowski ====
 +
<gallery>
 +
Archivo:min.jpg|Fórmula para calcular la distancia Eclidiana
 +
</gallery>
 +
Donde m ∈ N. Si m =1, se tiene la distancia en valor absoluto y si m >1, la euclídea.
  
*Facultad de Matemática y Computación de la [[Universidad de Oriente|Universidad de Oriente]].<br>
+
==== Distancia de Mahalanobis ====
 +
En esta distancia a diferencia de la euclidiana se tiene en cuenta la correlación entre las variables aleatorias. Se define como:
 +
<gallery>
 +
Archivo:eu111.jpg|Fórmula para calcular la distancia Eclidiana
 +
</gallery>
 +
Donde W es la matriz de covarianzas entre las variables. De este modo, las variables se ponderan según el grado de relación que exista entre ellas, es decir, si están más o menos correlacionadas. Si la correlación es nula y las variables están estandarizadas, se obtiene la distancia euclídea.
 +
Se denomina matriz A de dimensión m x n a un juego de m * n números.
 +
La matriz de covarianza es una matriz que contiene la covarianza entre los elementos de un vector. Para entender mejor cómo funciona la distancia de Mahalanobis.
 +
Si los datos son no métricos se pueden utilizar además de las escalas multidimensionales y el análisis de clúster:
 +
* Las técnicas de análisis de correspondencia
 +
* Modelos log-lineales
  
<br>  
+
<big>Análisis de Correspondencias:</big> Se aplica a tablas de contingencia multidimensionales y persigue un objetivo similar al de las escalas multidimensionales pero representando simultáneamente las filas y columnas de las tablas de contingencia.
<br></div>  
+
 
 +
<big>Modelos log-lineales:</big> Se aplican a tablas de contingencias multidimensionales y modelan relaciones de dependencia multidimensional de las variables observadas que buscan explicar las frecuencias observadas.
 +
 
 +
=== Métodos estructurales ===
 +
Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.
 +
 
 +
== Fuente ==
 +
1. Ramírez Martín, Carlos E. y Rodriguez Donatien, Ariagna, junio 2009. Sistema para la Identificación de Aguas en Pozos Petroleros (SIAPP). Ciudad de La Habana: Universidad de las Ciencias Informáticas. Facultad 9.
 
[[Category:Inteligencia_Artificial]]
 
[[Category:Inteligencia_Artificial]]

Revisión del 10:22 14 sep 2011

Identificación de muestras de agua utilizando reconocimiento de patrones
Información sobre la plantilla


Identificación de muestras de agua utilizando Reconocimiento de Patrones.

El agua es un componente químico, teniendo en cuenta esto, para su identificación, se utiliza el enfoque estadístico del reconocimiento de patrones. Este enfoque se basa en la teoría de probabilidad y estadística, suponiendo que se tiene un conjunto de medidas numéricas con distribuciones de probabilidad conocidas y a partir de ellas se hace el reconocimiento. Existen otros tres enfoques (sintáctico, lógica combinatoria y redes neuronales).

En los cuatro enfoques del Reconocimiento de Patrones puede estar presente cualquiera de los tres tipos de problemas del mismo (Selección de Variable, Clasificación Supervisada y Clasificación no Supervisada). Los problemas más comunes son los de clasificación no supervisada, también conocidos como clasificación sin aprendizaje, en estos problemas no existe ninguna clasificación previa de objetos y en algunas ocasiones ni siquiera se han definido las clases.

Técnicas multivariantes

Como se plantea anteriormente, para trabajar con datos químicos, como es el agua, se usa el enfoque estadístico de reconocimiento de patrones, donde se aplica el análisis multivariante, la rama de la estadística que estudia las relaciones entre conjuntos de variables dependientes y los individuos para los cuales se han medido dichas variables, esta rama agrupa un conjunto de técnicas para el análisis exploratorio de los datos. Sus métodos analizan conjuntamente p variables, medidas sobre un conjunto de n individuos u objetos. Existen tres grupos de técnicas multivariantes:

  • Métodos de dependencia
  • Métodos de interdependencia
  • Métodos estructurales

Métodos de dependencia

Explica las relaciones entre grupos de variables, donde se supone que unas pueden ser causas de otras. Un tipo interesante del análisis de dependencia consiste en buscar un criterio que permita separar o discriminar entre objetos pertenecientes a priori a grupos diferentes. Dicho criterio es una función de las variables originales. En último término, se trata de usar los resultados en el futuro para predecir a qué grupo pertenecen nuevos objetos que no formaban parte de la información original y para los cuales se han medido las p variables. El Análisis Discriminante y la Regresión Logística son métodos que persiguen este objetivo. Es decir, inicialmente se tiene una base de conocimientos, con las clases que representan a los objetos o patrones y sus características representadas por variables. Estos métodos analizan cuáles son las características que diferencian a estas clases y a partir de esto identifican a que clase pertenecen nuevos objetos. Los métodos de dependencia, se pueden clasificar en dos subgrupos: uno si la variable dependiente es cuantitativa y el otro si la variable dependiente es cualitativa. En el caso de que la variable dependiente sea cuantitativa, o sea que se pueda expresar numéricamente, se pueden aplicar las siguientes técnicas:

  • Análisis de Regresión
  • Análisis de Supervivencia
  • Análisis de Varianza
  • Correlación Canónica

Análisis de Regresión: Es la técnica adecuada si en el análisis hay una o varias variables dependientes cuantitativas cuyo valor depende de una o varias variables independientes cuantitativas.

Análisis de Supervivencia: Es similar al análisis de regresión pero con la diferencia de que la variable independiente es el tiempo de supervivencia de un individuo u objeto.

Análisis de la Varianza: Se utilizan en situaciones en las que la muestra total está dividida en varios grupos basados en una o varias variables independientes cualitativas y las variables dependientes analizadas son cuantitativas. Su objetivo es averiguar si hay diferencias significativas entre dichos grupos en cuanto a las variables dependientes se refiere.

Correlación Canónica: Su objetivo es relacionar simultáneamente varias variables cuantitativas dependientes e independientes calculando combinaciones lineales de cada conjunto de variables que maximicen la correlación existente entre los dos conjuntos de variables.

Cuando la variable dependiente es cualitativa; o sea que nos e puede expresar numéricamente, se pueden usar las técnicas:

  • Análisis discriminante
  • Modelos de regresión logística
  • Análisis Conjoint

Análisis Discriminante: Esta técnica proporciona reglas de clasificación óptimas de nuevas observaciones de las que se desconoce su grupo de procedencia basándose en la información proporcionada los valores que en ella toman las variables independientes.

Modelos de regresión logística: Son modelos de regresión en los que la variable dependiente es cualitativa. Se utilizan como una alternativa al análisis discriminante cuando no hay normalidad.

Análisis Conjoint: Es una técnica que analiza el efecto de variables independientes cualitativas sobre variables cuantitativas o cualitativas. La diferencia con el Análisis de la Varianza radica en dos hechos: las variables dependientes pueden ser cualitativas y los valores de las variables independientes cualitativas son fijadas por el analista. En otras disciplinas se conoce con el nombre de Diseño de Experimentos.

Métodos de interdependencia

Se trata de buscar la interdependencia entre grupos de variables, sin que a priori se suponga relación de causalidad entre ellas. El método más conocido es el Análisis de Correspondencia, que es una generalización del Análisis de Correspondencia Bivalente. Los métodos de interdependencia se pueden clasificar en dos grupos según que, el tipo de datos que analicen sean métricos o no métricos (otra forma de expresar que los valores de las variables sean cuantitativos o cualitativos). Si los datos son métricos se pueden utilizar las técnicas siguientes:

  • Análisis factorial y análisis de componentes principales
  • Escalas multidimensionales
  • Análisis de clúster

Análisis Factorial y Análisis de Componentes Principales: Se utiliza para analizar interrelaciones entre un número elevado de variables explicando dichas interrelaciones en términos de un número menor de variables denominadas factores (si son inobservables) o componentes principales (si son observables).

Escalas Multidimensionales: Su objetivo es transformar juicios de semejanza o preferencia en distancias representadas en un espacio multidimensional. Como consecuencia se construye un mapa en el que se dibujan las posiciones de los objetos comparados de forma que aquéllos percibidos como similares están cercanos unos de otros y alejados de objetos percibidos como distintos.

Análisis de clúster: Su objetivo es clasificar un conjunto de muestras en un número pequeño de grupos de forma que las observaciones pertenecientes a un grupo sean muy similares entre sí y muy disimilares del resto de los grupos. A diferencia del Análisis Discriminante se desconoce el número y la composición de dichos grupos. Los objetos se agrupan y se halla su similitud mediante el cálculo de la distancia entre ellos. Este método tiene dos variantes: análisis de clúster jerárquico (aglomerativos, divisivos) y análisis de clúster no jerárquico, la variante más utilizada es la primera. Atendiendo a esto, dos muestras serán similares solo si la distancia entre ellas es lo suficientemente pequeña en comparación con la distancia entre el resto de los compuestos. La eficiencia al usar este tipo de algoritmo depende de si se sabe hasta dónde llegar; o sea, hasta donde agrupar, porque en principio el análisis de clúster va agrupando hasta obtener un solo clúster. Lo anterior no tiene sentido si lo que se desea es obtener a partir del conjunto de muestras de aguas existentes en la base de datos varios pequeños subgrupos. El algoritmo funciona tomando la muestra x y calculando la distancia que hay entre ella y todas las demás. Luego se seleccionan las dos muestras que hayan arrojado la distancia más pequeña y se conforma un nuevo clúster al cual se le haya el punto medio, este punto medio será una nueva muestra con la cual se repetiría todo el proceso hasta llegar al punto de parada. Para realizar el análisis de clúster se pueden emplear las siguientes fórmulas de cálculo de distancia. La más sencilla y la que más de conoce es la siguiente: d: (x1 , x2) ≥ 0 d: (x1 , x1) y d: (x2 , x2) = 0 d: (x1 , x2) = d: (x2 , x1) d: (x1 , x2) ≤ d: (x1 , xp) + d: (xp , x2) Pero esta no es la apropiada porque en el análisis de clúster se trabaja con vectores de más de dos variables. A continuación se explican otras que sí se pueden emplear:

Distancia Euclidiana

Dado 2 puntos A y B medidos según las variables X y Y la distancia euclidiana seria:

Cuando A y B estén medidas con un número n de dimensiones y no solo X y Y la formula sería la siguiente:

Distancia de Minkowski

Donde m ∈ N. Si m =1, se tiene la distancia en valor absoluto y si m >1, la euclídea.

Distancia de Mahalanobis

En esta distancia a diferencia de la euclidiana se tiene en cuenta la correlación entre las variables aleatorias. Se define como:

Donde W es la matriz de covarianzas entre las variables. De este modo, las variables se ponderan según el grado de relación que exista entre ellas, es decir, si están más o menos correlacionadas. Si la correlación es nula y las variables están estandarizadas, se obtiene la distancia euclídea. Se denomina matriz A de dimensión m x n a un juego de m * n números. La matriz de covarianza es una matriz que contiene la covarianza entre los elementos de un vector. Para entender mejor cómo funciona la distancia de Mahalanobis. Si los datos son no métricos se pueden utilizar además de las escalas multidimensionales y el análisis de clúster:

  • Las técnicas de análisis de correspondencia
  • Modelos log-lineales

Análisis de Correspondencias: Se aplica a tablas de contingencia multidimensionales y persigue un objetivo similar al de las escalas multidimensionales pero representando simultáneamente las filas y columnas de las tablas de contingencia.

Modelos log-lineales: Se aplican a tablas de contingencias multidimensionales y modelan relaciones de dependencia multidimensional de las variables observadas que buscan explicar las frecuencias observadas.

Métodos estructurales

Suponen que las variables están divididas en dos grupos: el de las variables dependientes y el de las independientes. El objetivo de estos métodos es analizar, no sólo como las variables independientes afectan a las variables dependientes, sino también cómo están relacionadas las variables de los dos grupos entre sí.

Fuente

1. Ramírez Martín, Carlos E. y Rodriguez Donatien, Ariagna, junio 2009. Sistema para la Identificación de Aguas en Pozos Petroleros (SIAPP). Ciudad de La Habana: Universidad de las Ciencias Informáticas. Facultad 9.