Visión Artificial
Visión Artificial
También conocida como Visión por Computadora.
Puede considerarse como el conjunto de todas aquellas técnicas y modelos que nos permitan la adquisición, procesamiento, análisis y explicación de cualquier tipo de información espacial del mundo real obtenida a través de imágenes digitales.
Sumario
Otras Definiciones
Visión Artificial es la ciencia que estudia, utilizando computadoras digitales, los procesos de obtención, caracterización, interpretación de la información procedentes de imágenes tomadas de un mundo tridimensional.
La Visión es un proceso de tratamiento de información que permite obtener una descripción simbólica del mundo real a partir de imágenes.
La Visión Artificial parece fácil pero…,Como hacemos para identificar la forma de una nube, que casi todo el mundo sabe identificar pero casi nadie sabe explicar?, Porque identificamos perfectamente un objeto independientemente de la perspectiva que tengamos de él, qué es común a cualquier plano de visión?.
Antecedentes
Sistema de Visión Humano
Volviendo a la pregunta de ¿porqué no realizar un modelado perfecto del sistema de visión humano e implementarlo en una computadora?
La respuesta no es sencilla, gran cantidad de estudios demuestran claramente que nuestro sistema visual lejos de ser perfecto contiene una serie de irregularidades que no deben ser modeladas para lograr un sistema artificial que supere al humano. No existe ninguna razón para modelar los errores de nuestro sistema.
Para realizar un bosquejo de la argumentación anterior realizaremos un estudio de nuestro sistema de visión y observaremos los puntos débiles y sus fortalezas.
Todo sistema de visión está compuesto por tres partes fundamentales:
- Las señales que percibimos.
- El medio en que se transmiten.
- Los mecanismos de decodificación del sistema receptor y/o cerebro.
Gran parte de las técnicas de procesamiento de señales están asociadas a problemas en la adquisición de dichas señales y más en particular al tipo de sensor usado y al medio a través del cual se han obtenido.
El ojo humano, como sensor, es un mecanismo extremadamente especializado, sin embargo el proceso de formación de la imagen que se lleva a cabo en su interior puede considerarse como genérico para cualquier otro sensor de tipo visual. Es por ello que el estudio del funcionamiento del ojo como sensor mejor adaptado al procesamiento de señales visuales es de gran interés para conocer aspectos básicos de los métodos de captación de imágenes.
Antes de continuar debemos tener en cuenta que la formación de imágenes a partir de energía electromagnética no es la única forma posible que existe en la naturaleza. Existen otros tipos de ondas como las acústicas que permiten a determinados seres vivos percibir en ambientes de completa oscuridad. Este tipo de percepciones pueden ser representadas hoy en día en términos de una imagen.
Una imagen puede describirse como un mapa espacial que sobre una determinada información que nos ofrece algún tipo de sensor. Ejemplos de este tipo de mapas son nuestras percepciones de una determinada situación o escena a partir de nuestros sistemas sensoriales (vista, oído, tacto, gusto, y olfato). Ahora nos restringiremos al caso de la percepción visual.
Para centrar aun más nuestro estudio nos preguntaremos sobre el significado real de lo que significa ver o adquirir información a través de un sistema sensorial de tipo visual. Si nos centramos en el modelo visual humano asociaremos el concepto de ver con el de percibir una señal luminosa con una intensidad mínima y en un rango de frecuencia espectral dado. Sin embargo hoy en día son bien conocidas las posibilidades de obtener imágenes a partir de sensores que trabajen en condiciones muy distintas de iluminación a las que es sensible el ojo humano, por ejemplo, el espectro infrarrojo, rayos X, etc. Así pues, la posibilidad de formar imágenes debemos asociarla al tipo de sensor usado y a las posibilidades de que dicho sensor sea capaz de captar y decodificar la información que le llega.
El espectro electromagnético puede entenderse como una función continua de la longitud de onda que en su totalidad caracteriza, de forma absoluta, una materia o sustancia. La teoría básica de las ondas describe la energía electromagnética como ondas sinuosidades que viajan a la velocidad de la luz. La distancia entre dos picos consecutivos de dichas ondas es lo que se conoce por longitud de onda, y el número de picos que pasan por un punto del espacio en cada unidad de tiempo, se denomina frecuencia de la onda. Estos conceptos son bien conocidos de la física clásica. El espectro visible se encuentra dentro de los valores de 350 a 750 nm.
Históricamente el uso de estas dos fuentes de información, el espectro y la geometría, han sido usadas de forma independiente. Todos los estudios dedicados al tratamiento y análisis de imágenes de tipo visual han hecho especial énfasis en los aspectos geométricos de las formas encontradas en las escenas, y aquellos otros estudios relacionados con la determinación de recursos naturales a través de sensores remotos han hecho un especial énfasis en las propiedades espectrales de la escena. Si bien esta dicotomía en ambos casos ha venido impuesta por los objetivos de la aplicación, parece claro que el uso combinado de ambas fuentes de información debe ser un objetivo de las técnicas de análisis de imágenes.
Una vez que tenemos conocimiento de la composición de la señal a analizar podemos pasar al estudio del sensor que debe captar la información. En el caso de nuestro sistema de visión, el ojo se perfila como nuestro sensor del espectro visible. Como puede verse en la Figura 1.1, el ojo es casi una esfera de unos 20mm de diámetro, formada por un conjunto de membranas denominadas cornea, esclera, coroide y retina. La cornea y la esclera, constituyen las envolturas externas anterior y posterior del ojo respectivamente. La capa coroidal además de alimentar el ojo a través de sus vasos sanguíneos, tiene la misión de absolver las luces extrañas que entran el ojo así como de amortiguar el efecto de dispersión de la luz dentro del globo ocular. El iris o diafragma esta situado en la parte anterior del coroide, y tiene como misión controlar la cantidad de luz que entra en el ojo. Para ello, la pupila o parte central del iris puede cambiar de tamaño en función de la luminosidad incidente desde 2mm a 8mm de diámetro.
La lente del ojo esta formada por capas concéntricas de células fibrosas y esta sujeta al coroide a través de fibras, esta compuesta principalmente por agua (60%-70%), grasa 6% y proteínas. En la lente se absorbe cerca del 8% del espectro de luz visible así como una gran proporción de luz infrarroja y ultravioleta.
La membrana más interna del ojo es la retina que cubre toda la pared interna del ojo. Cuando la luz llega al ojo la imagen que transporta se forma en la retina por la sensibilización de dos clases de receptores: los bastones y los conos.
El número de conos existentes en un ojo esta entre 6-7 millones y su situación dentro del ojo se concentra alrededor de un punto llamado fóvea. La misión de los conos dentro del ojo es doble. Por un lado son responsables de la detección del color y por otro ayudan a resolver los detalles finos de la imagen.
Cuando una persona quiere resolver detalles finos en una imagen intenta que esta se forme en su retina alrededor de la fóvea, consiguiendo por tanto, que los conos sean mayoritariamente los receptores de la luz. La visión a través de los conos se denomina visión fotocópica o de luz brillante.
Por otro lado, el número de bastones existentes en un ojo es muy superior al de conos y esta entre 75-150 millones. Los bastones se distribuyen sobre toda la retina y al igual que los conos tienen una doble misión. Por un lado son responsables de dar una impresión general del campo de visión y por otro son responsables de la sensibilidad a niveles bajos de iluminación. Los bastones no son sensibles al color. Un objeto que a la luz del día tiene colores vivos, observado a la luz de la luna aparece sin colores, esto es debido a que tan solo los bastones están estimulados. A la visión a través de bastones se le denomina visión escotópica o de luz tenue.
El ojo humano es capaz de adaptarse en un rango de valores de iluminación de aproximadamente l0 órdenes de magnitud. El punto más importante a la hora de interpretar este enorme rango es el hecho de que el ojo no opera de forma simultánea sobre todo el rango si no que en cada caso y en función de la luminosidad medía existente se hace sensible a un rango alrededor de dicho valor medio. Dicho intervalo de sensibilidad esta definido de manera que el ojo considera como negro todos aquellos valores que están por debajo del límite inferior del intervalo. El límite superior no se satura como el inferior, pero si queremos que el ojo sea sensible a un determinado rango de luminosidad, habremos de impedir que el ojo reciba valores de intensidad luminosa muy superiores, ya que en ese caso trataría de adaptarse a los valores más intensos a costa de perder sensibilidad en los menos intensos. Este efecto de adaptación se denomina adaptación al brillo. Numerosos experimentos han mostrado que el brillo subjetivo percibido es una función logarítmica de la intensidad de luz incidente en el ojo.
El sistema de visión humano como otras partes de la anatomía del cuerpo humano es fruto de la evolución. Como consecuencia de esto el sistema de visión humano responde a unos patrones mejor que otros, por otro lado puede llegar a conclusiones erradas al interpretar situaciones ambiguas por la existencia de ilusiones visuales, ambigüedades e inconsistencias. Marr detalla nuestro sistema en su trabajo [Marr, 1982].
Las ambigüedades son muy frecuentes y se basan en que una figura puede tener más de una posible interpretación. Múltiples interpretaciones pueden coexistir o una puede dominar.
Los investigadores han demostrado que inferimos de nuestras imágenes en la retina más de lo que de verdad está soportado por la geometría y física de la formación de imágenes.
Helmhotz en su libro Handbook of Physiological Optics publicado a mediados del siglo pasado expresó que cada imagen es una imagen de algo sólo para aquel que conoce como leerla, y que está capacitado con la ayuda de la imagen a formar una idea de la cosa.
Esta afirmación nos muestra que el sistema visual humano no realiza inferencias precisas y exactas basadas en la física de la formación de imágenes en el ojo, sino que el sistema visual invoca reglas que se obtienen y están dirigidas por la experiencia previa del individuo y tal vez por la especie.
Como se pudo apreciar nuestro sistema de visión ha evolucionado y presenta sistemas de adaptación increíbles a los cambios de iluminación entre otras de sus fortalezas, sin embargo también presenta debilidades que no deben ser tomadas en cuenta a la hora de realizar un sistema que lo simule.
Sistema de Visión Artificial
Fuentes

