Visión Artificial

De EcuRed
Visión Artificial
Información sobre la plantilla

Visión por Computadora
Visión Artificial. Conocida como "Visión por Computadora". Conjunto de todas aquellas técnicas y modelos que nos permiten la adquisición, procesamiento, análisis y explicación de cualquier tipo de información espacial del mundo real obtenida a través de imágenes digitales.

Contenido

Otras Definiciones

Ciencia que estudia, utilizando computadoras digitales, los procesos de obtención, caracterización, interpretación de la información procedentes de imágenes tomadas de un mundo tridimensional.

Proceso de tratamiento de información que permite obtener una descripción simbólica del mundo real a partir de imágenes.

Antecedentes

Dentro de los hitos más relevantes, en el modelado de la percepción visual, podemos mencionar los estudios de Kepler sobre el análisis geométrico de la formación de la imagen en el ojo, las apreciaciones de Newton sobre visión en color, Helmhotz (1910) sobre óptica fisiológica y Wertheimer (1912) sobre el movimiento aparente de agrupaciones de puntos o campos. Estos trabajos, unidos a otros, han establecido las bases de las actuales teorías de percepción visual.

Muchos concuerdan en que el primer gran paso se logró a principio del Siglo XX con la aparición de la escuela de psicología de la Gelstat basada, principalmente, en los trabajos de Wertheimer. Esta escuela tuvo, dentro de sus resultados más relevantes, el establecer criterios que planteaban que características como la similaridad, homogeneidad, cercanía, etc, eran suficientes para tratar de explicar las propiedades de los mecanismos psicofísicos de la visión humana. Pero, esta aproximación con criterios tan globales se perdió años más tarde al no poder dar respuesta a nuevos interrogantes dentro del proceso de percepción visual.

Alrededor de los años 50, la investigación se orientó en la búsqueda de explicaciones al más bajo nivel celular, lo que originó una nueva corriente de ideas y teorías que con base en las potencialidades de las neuronas como células individuales. Se intentó explicar los mecanismos y propiedades de la visión humana, Hubel y Weisel (1962, 1968) y Barlow (1972). Sin embargo, esta aproximación tampoco pudo dar respuesta a los problemas más profundos de como nuestro mecanismo visual codifica, representa y reconoce distintos tipos de informaciones espaciales.

Dada la enorme complejidad mostrada por el sistema de visión humana y como consecuencia del lento avance de las teorías y algoritmos que explicaban su funcionamiento y propiedades se intentó abordar estos problemas de formas más directas a partir de tres enfoques distintos. El primero se basó en el desarrollo de técnicas empíricas basadas en criterios de tipo matemático que aproximaban estos problemas de estimación de bordes y líneas usando distintos criterios. Dentro de este Grupo se encontraba Azriel Rosenfeld. Estas aproximaciones crearon algunas ideas interesantes como el uso simultáneo de operadores de distinto tamaño, pero tuvo el gran inconveniente de no poder proponer métodos para la evaluación de los distintos algoritmos.

El segundo enfoque se basó en profundizar en el problema reduciendo su alcance a un mundo de bloques blancos iluminados sobre fondo negro. Los bloques podían tener cualquier forma, siempre que todas sus superficies fueran planas y todos sus bordes rectos. Este modelo funcionó perfectamente en ciertos trabajos como los realizados por Waltz (1975) y Mackworth (1973); ellos resolvieron interpretaciones de dibujos lineales a partir de estudios de imágenes de prismas sólidos. De hecho, la simplificación impuesta en este modelo se había hecho con el razonamiento de que presentado un conocimiento profundo del problema en un mundo simplificado permitiría más tarde extrapolar dichos conocimientos a mundos más complejos.

En años más recientes se enfrascaron en idear un modelo más completo de la percepción visual que eliminara las limitaciones de los anteriores, esta especialización trajo consigo el tercer enfoque. Dentro de los trabajos más relevantes podemos mencionar los realizados por Horn (1975, 1977) sobre la formación de la imagen. En ellos Horn establece modelos de cálculo que expresan la formación de la imagen a través de ecuaciones diferenciales que relacionan los valores de intensidad de la imagen con la geometría de la superficie tras estudiar con gran detalle el modo en que la iluminación, la geometría, la reflectancia de la superficie y el punto de vista del observador actuaban de forma conjunta para crear los valores de intensidad medidos en la imagen.

Fue entonces cuando diversos investigadores, dentro de los cuales se destacó Julesz (1975), demostraron que los mecanismos de la visión estereoscópica son realizados en la retina en una etapa muy previa del proceso de visión, y que el mecanismo de visión humana tiene la posibilidad de interpretar imágenes en 3D usando solamente las informaciones sobre profundidad, distancia y textura.

Estos estudios lograron establecer las denominadas teorías de tipo modular, las cuales representaban el proceso de visión como la sucesión de transformaciones que a partir de la escena del mundo externo, produce una descripción útil al observador sin estar entorpecida por la información irrelevante.

La mayoría de los estudiosos del tema concuerdan en que a las técnicas asociadas al estudio de los sistemas de visión artificial debe considerarse como parte de la Inteligencia Artificial por cuanto modelan actividades del cerebro humano.

En los últimos años se han realizado un sin número de trabajos en el campo de la visión artificial. Institutos como el MIT (Massachusetts Institute of Technology), llevaron la delantera durante los años 70 y marcaron pautas en los estudios en estos temas. Uno de los investigadores más relevantes de este instituto resultó ser David Marr, el cual estableció una metodología modular tipo “Botton/Up”. Para lograr realizar el procesamiento de una imagen percibida, Marr planteó tres grandes bloques para el procesamiento de la información.

  1. Cálculo del esbozo primitivo como estructura informacional que caracteriza los distintos rasgos básicos (bordes, líneas, arcos, ceros, manchas, etc) presentes en la imagen de intensidades (nivel 2D).
  2. Construcción de las superficies presentes en la imagen desde el punto de vista del observador, a partir de la informaciones suministradas por el esbozo primitivo y las informaciones tridimensionales proporcionadas por las estereoscopía, sombreado, reflectancia, iluminación, etc.
  3. Construcción del modelo que representa a los objetos en el espacio y permite catalogarlos y compararlos con información previamente almacenada (nivel 3D).

Marr forjó las bases en el campo del estudio de los mecanismos de la visión humana y el análisis de imágenes digitales, sus principales hitos se basaron en realizar métodos para la descomposición de la información en niveles 2D, 3D y sus esquemas de representación de la información en cada uno de estos niveles.

Otros estudiosos se dedicaron a profundizar en estos estudios dentro de los que podemos mencionar a Nishihara el cual planteó en 1978 que la información acerca de la geometría y la reflectancia de las superficies visibles se codifica en la imagen de varias formas y puede ser decodificada por procesos casi independientes.

La comprensión de esta frase fue el comienzo que dio lugar a la aparición de múltiples teorías sobre los procesos de decodificación. Muchos de estos procesos de decodificación permanecen hoy en día como áreas activas de investigación. De entre los más importantes podemos citar: la estereoscopía, la derivación de la estructura a partir del movimiento aparente, la selectividad de dirección, el cálculo de la profundidad a partir del flujo óptico, el cálculo de la orientación de la superficie a partir de su textura, el cálculo de la forma a partir de la sombra, la estereoscopía fotométrica, etc.

Con la llegada de las primeras computadoras digitales en los años 50-60, se comienza a necesitar de disponer de técnicas para la transmisión y procesamiento de imágenes desde satélite, uno de los empujes dados a estas técnicas de trasmisión, realce y restauración de imágenes fueron realizados por el Jet Propulsion Laboratory (EE.UU.), encargado del procesamiento de las imágenes mandadas por los primeros satélites y por el National Institute of Health (EEUU) dedicado al estudio de imágenes de rayos X, microscopía óptica y electrónica.

No cabe la menor duda que el MIT junto con la Universidad de Stanford se perfilan como los centros más sobresalientes en los estudios de visión artificial, dentro de sus trabajos más relevantes se pueden mencionar la visión aplicada a robótica bajo el proyecto Hand-Eye y el llamado proyecto UIS (Image Understanding System), este último proyecto marca el comienzo del uso de estas técnicas en aplicaciones de tipo militar. Por otra parte países como Japón desarrollaron el llamado proyecto PIPS (Pattern-Information Processing System), el cual impulsó el desarrollo del análisis de imágenes.

Los estudios realizados por los países de Europa no se quedaron detrás cabe destacar la investigación desarrollada, durante los años setenta, por los profesores G. Matheron y J. Serra de la École National Supérieure des Mines de París (Francia) el cual ofreció aportes a la geometría integral y el cálculo de probabilidades para la caracterización y medición de formas, esta metodología se denomina Morfología Matemática y ha tenido sus principales áreas de aplicación en los campos de la geología, la biología y la medicina.

A partir de este momento se observar el comienzo de cierta especialización en las técnicas existentes. Así, comienzan a aparecer los conceptos de técnicas para el procesamiento de imágenes digitales como el conjunto de todas aquellas técnicas asociadas a la captura, codificación y representación de las imágenes que no introducen sobre las mismas ningún tipo de interpretación, y técnicas para el análisis de imágenes digitales, técnicas de visión por computadora o visión mediante robot como acepciones que se refieren a aquellas técnicas que tratan de extraer la información presente en la imagen con el fin de hacer una interpretación de las escena representada por dicha imagen.

Sistema de Visión Humano

¿Por qué no realizar un modelado perfecto del sistema de visión humano e implementarlo en una computadora?. La respuesta no es sencilla, gran cantidad de estudios demuestran claramente que nuestro sistema visual lejos de ser perfecto contiene una serie de irregularidades que no deben ser modeladas para lograr un sistema artificial que supere al humano. No existe ninguna razón para modelar los errores de nuestro sistema.

Para realizar un bosquejo de la argumentación anterior realizaremos un estudio de nuestro sistema de visión y observaremos los puntos débiles y sus fortalezas.

Todo sistema de visión está compuesto por tres partes fundamentales:

  1. Las señales que percibimos. 
  2. El medio en que se transmiten.
  3. Los mecanismos de decodificación del sistema receptor y/o cerebro.

Una imagen puede describirse como un mapa espacial que sobre una determinada información que nos ofrece algún tipo de sensor. Ejemplos de este tipo de mapas son nuestras percepciones de una determinada situación o escena a partir de nuestros sistemas sensoriales (vista, oído, tacto, gusto, y olfato). Para centrar aun más nuestro estudio nos preguntaremos sobre el significado real de lo que significa ver o adquirir información a través de un sistema sensorial de tipo visual. Si nos centramos en el modelo visual humano asociaremos el concepto de ver con el de percibir una señal luminosa con una intensidad mínima y en un rango de frecuencia espectral dado. Sin embargo hoy en día son bien conocidas las posibilidades de obtener imágenes a partir de sensores que trabajen en condiciones muy distintas de iluminación a las que es sensible el ojo humano, por ejemplo, el espectro infrarrojo, rayos X, etc. Así pues, la posibilidad de formar imágenes debemos asociarla al tipo de sensor usado y a las posibilidades de que dicho sensor sea capaz de captar y decodificar la información que le llega.

Una vez que tenemos conocimiento de la composición de la señal a analizar podemos pasar al estudio del sensor que debe captar la información. En el caso de nuestro sistema de visión, el ojo se perfila como nuestro sensor del espectro visible. El ojo es casi una esfera de unos 20mm de diámetro, formada por un conjunto de membranas denominadas cornea, esclera, coroide y retina. La cornea y la esclera, constituyen las envolturas externas anterior y posterior del ojo respectivamente. La capa coroidal además de alimentar el ojo a través de sus vasos sanguíneos, tiene la misión de absolver las luces extrañas que entran el ojo así como de amortiguar el efecto de dispersión de la luz dentro del globo ocular. El iris o diafragma esta situado en la parte anterior del coroide, y tiene como misión controlar la cantidad de luz que entra en el ojo. Para ello, la pupila o parte central del iris puede cambiar de tamaño en función de la luminosidad incidente desde 2mm a 8mm de diámetro.

 

La lente del ojo esta formada por capas concéntricas de células fibrosas y esta sujeta al coroide a través de fibras, esta compuesta principalmente por agua (60%-70%), grasa 6% y proteínas. En la lente se absorbe cerca del 8% del espectro de luz visible así como una gran proporción de luz infrarroja y ultravioleta.

La membrana más interna del ojo es la retina que cubre toda la pared interna del ojo. Cuando la luz llega al ojo la imagen que transporta se forma en la retina por la sensibilización de dos clases de receptores: los bastones y los conos. El número de conos existentes en un ojo esta entre 6-7 millones y su situación dentro del ojo se concentra alrededor de un punto llamado fóvea.

La misión de los conos dentro del ojo es doble. Por un lado son responsables de la detección del color y por otro ayudan a resolver los detalles finos de la imagen.
Cuando una persona quiere resolver detalles finos en una imagen intenta que esta se forme en su retina alrededor de la fóvea, consiguiendo por tanto, que los conos sean mayoritariamente los receptores de la luz. La visión a través de los conos se denomina visión fotocópica o de luz brillante.
Por otro lado, el número de bastones existentes en un ojo es muy superior al de conos y esta entre 75-150 millones. Los bastones se distribuyen sobre toda la retina y al igual que los conos tienen una doble misión. Por un lado son responsables de dar una impresión general del campo de visión y por otro son responsables de la sensibilidad a niveles bajos de iluminación. Los bastones no son sensibles al color.

Un objeto que a la luz del día tiene colores vivos, observado a la luz de la luna aparece sin colores, esto es debido a que tan solo los bastones están estimulados. A la visión a través de bastones se le denomina visión escotópica o de luz tenue. El ojo humano es capaz de adaptarse en un rango de valores de iluminación de aproximadamente 10 órdenes de magnitud. El punto más importante a la hora de interpretar este enorme rango es el hecho de que el ojo no opera de forma simultánea sobre todo el rango si no que en cada caso y en función de la luminosidad medía existente se hace sensible a un rango alrededor de dicho valor medio. Este efecto de adaptación se denomina adaptación al brillo. Numerosos experimentos han mostrado que el brillo subjetivo percibido es una función logarítmica de la intensidad de luz incidente en el ojo.

El sistema de visión humano como otras partes de la anatomía del cuerpo humano es fruto de la evolución. Como consecuencia de esto el sistema de visión humano responde a unos patrones mejor que otros, por otro lado puede llegar a conclusiones erradas al interpretar situaciones ambiguas por la existencia de ilusiones visuales, ambigüedades e inconsistencias.Las ambigüedades son muy frecuentes y se basan en que una figura puede tener más de una posible interpretación. Múltiples interpretaciones pueden coexistir o una puede dominar. Los investigadores han demostrado que inferimos de nuestras imágenes en la retina más de lo que de verdad está soportado por la geometría y física de la formación de imágenes.

Helmhotz en su libro Handbook of Physiological Optics publicado a mediados del siglo pasado expresó que cada imagen es una imagen de algo sólo para aquel que conoce como leerla, y que está capacitado con la ayuda de la imagen a formar una idea de la cosa. Esta afirmación nos muestra que el sistema visual humano no realiza inferencias precisas y exactas basadas en la física de la formación de imágenes en el ojo, sino que el sistema visual invoca reglas que se obtienen y están dirigidas por la experiencia previa del individuo y tal vez por la especie.

Como se pudo apreciar nuestro sistema de visión ha evolucionado y presenta sistemas de adaptación increíbles a los cambios de iluminación entre otras de sus fortalezas, sin embargo también presenta debilidades que no deben ser tomadas en cuenta a la hora de realizar un sistema que lo simule. (Véase relacionado Blefaritis)

Sistema de Visión Artificial

Componentes de un Sistema de Visión Artificial
Componentes de un Sistema de Visión Artificial

La necesidad de ver artificialmente evoluciona a medida que el ser humano es capaz de estudiar su propio cuerpo y demostrar que cerca del 60% de la corteza cerebral del hombre se dedica a procesar la información visual.
Los sistemas de visión artificial han evolucionado poco a poco a medida que la tecnología ha evolucionado y ha permitido la creación de sensores, computadoras y algoritmos de procesamiento más potentes.

De forma básica un sistema de visión artificial está conformado por varios subsistemas capaces de realizar dos funciones básicas:

  1. Captar la información de la escena real mediante la proyección en una imagen.
  2. Analizar las imágenes para extraer la información que contienen.

Los sensores, la iluminación y las tarjetas digitalizadoras son los dispositivos más importantes en la captura de la información de las escenas reales; en cambio el mayor peso del análisis de las imágenes captadas se encuentra a nivel de software aunque en ocasiones se encuentran dispositivos que realizan la extracción de la información utilizando hardware especializado, un ejemplo de esto son las tarjetas digitalizadoras que contienen incorporadas funciones de procesamiento como es el caso de filtrado para detectar contornos construidas por la compañía Matrox.

Sensores

Existe gran diversidad de sensores a partir de los cuales se pueden obtener imágenes. Su principal clasificación es a partir de la naturaleza de la señal que conforman la imagen, dentro de ellos podemos mencionar, los sensores de Rayos X, Rayos Gamma, luz ultravioleta, infrarroja, etc. Por otra parte podemos mencionar los sensores basados en el principio del eco como es el caso de los radares y los equipos de ultrasonido.

La variedad de sensores utilizados en sistemas de visión artificial se ha expandido hasta dominios insospechados en este aspecto estos sistemas superan ampliamente al sistema de visión humano el cual sólo puede tomar información visual dentro del espectro visible. Sin embargo no cabe duda que los sensores más utilizados, en aplicaciones que requieran de este tipo de sistemas, son la cámaras ya sean estas fotográficas o de video.

Las cámaras son las encargadas de captar la información luminosa de la escena a analizar y convertirla en una señal, analógica o digital, para ser utilizada por los sistemas de procesamiento. Existen varios tipos de cámaras digitales, las cuales se dividen en función de:

Iluminación

La iluminación de una escena es uno de los puntos sensibles en un sistema de visión. Las fuentes de luz se deben escoger en función de la aplicación que se desea realizar, una fuente mal escogida puede traer consigo un sin número de anormalidades difíciles de eliminar como son el caso de las sombras, las reflexiones y el bajo contraste. Es por ello que el conocimiento del tipo de iluminación a utilizar se debe tener muy en cuenta.

Iluminación tipo LED

La luz emitida por este tipo de fuente presenta como ventaja fundamental que tiene naturaleza monocromática, estos dispositivos presentan una larga vida útil, alto rendimiento y requieren de una fuente de alimentación de muy baja potencia además presentan un costo excesivamente bajo. Sus principales desventajas son que emiten poca intensidad y que en ocasiones dos LEDs similares presentan diferencias en la longitud de onda de la luz que emiten.

Flash

Normalmente se utilizan para captar imágenes en movimiento, son fuentes de luz de gran intensidad luminosa que se ve poco afectada por la luz ambiente. Su principal desventaja es la fuente de alimentación las cuales deben estar bien sincronizadas con le sistema de captura de la imagen, presentan gran disipación de calor y pierden luminosidad con el tiempo. A su favor podemos decir que son fuentes extremadamente rápidas.

Láser

Muchos hemos escuchado hablar de lo extremadamente direccional de la luz emitida por este tipo de fuente además presenta la característica de ser monocromática. Se postula como una fuente de luz casi perfecta aunque su inconveniente principal es su costo y la necesidad de colocarle dispositivos auxiliares para realizar barridos de la zona de interés.

Lámpara Incandescente

Su iluminación es bastante homogénea aunque presenta las dificultades de ser consumidoras y disipadoras de calor. No presentan tiempos de vida largo aunque si son muy baratas.

Lámparas Fluorescentes

Su iluminación es muy clara aunque presentan tiempos de vida cortos y las pérdidas de iluminación con el tiempo son acentuadas. El costo de este tipo de fuente es bajo.

Tarjetas digitalizadoras

La función de estas tarjetas es captar la señal que ofrece el sensor de imagen y convertirla a formato digital y entregarla al dispositivo inteligente, llámese PC o PLC, para su posterior análisis. Una muestra de este tipo de dispositivo se observa en la siguiente figura.

Las funciones principales que realiza este tipo de dispositivo son:

  1. Recoger la señal analógica procedente de la cámara.
  2. Convertir la señal analógica en digital.
  3. Almacenar la señal digital en memoria.

Las tarjetas comerciales incluyen: Memoria propia, funciones de procesado, conversores digital-analógico y analógico-digital e incluso presentación en pantalla de la imagen.

Análisis de Imágenes Digitales

Una vez captada la imagen por el sensor y transmitida al dispositivo donde será procesada, el paso siguiente es realizar la extracción de la información explícita que encierra dicha imagen, por ejemplo posición de los objetos, forma, textura etc. Las técnicas utilizadas para realizar la extracción de esta información se dividen en cuatro grupos fundamentales:

  1. Preprocesado.
  2. Segmentación.
  3. Descripción.
  4. Reconocimiento.

Preprocesado

Este grupo de funciones se especializa en realizarle mejoras a la imagen captada, es decir resalta un sin número de características que conllevan a elevar la calidad de la imagen a la hora de ser analizada. Dentro de las funciones más comunes se encuentra la eliminación del ruido, el cambio de contraste y brillo, las transformaciones geométricas dentro de otras.

Segmentación

La clasificación de la escena en sus partes u objetos es a lo que se le llama segmentación de la imagen. Estas técnicas se basan en encontrar dónde se encuentran grupos de pixels que conformen un ente a clasificar (objeto), para ello estas técnicas se basan en los principios de discontinuidad y similitud. La siguiente figura nos visualiza una muestra metalográfica en la cual son detectados todos los granos de la misma y son etiquetados con diferentes colores indicando su fronteras.

Descripción

Estas técnicas se basan en extraer, del ente a estudiar, las características que lo diferencian de los demás. Para realizar esta extracción de características es necesario realizar un estudio del objeto a analizar y extraer con cuidado las características invariantes que posea. Éstas deben ser, generalmente, independientes a rotaciones, escalamientos corrimientos de dicho objeto. Dentro de estas características podemos mencionar, área perímetro, circularidad, patrones de texturas, rasgos de formas, etc.

Reconocimiento

Una vez obtenidas las características que describen el objeto a estudiar, se pasa al reconocimiento del mismo, esto no es más que la clasificación, utilizando cualquier técnica conocida, llámese inteligencia artificial, búsquedas deductivas en base de datos, comparación con patrones etc. Dentro de las técnicas más utilizadas se encuentra la utilización de redes neuronales artificiales, algoritmos genéticos y métodos estadísticos avanzados.

Aplicaciones

Grupos de Investigación en Cuba

Fuentes