Biometría de voz

Biometría de voz
Información sobre la plantilla
Biometría de voz.JPG
Concepto:La Biometría de voz es una modalidad biométrica que utiliza la voz de un individuo con fines de reconocimiento

La Biometría de voz permite procesar la señal de voz emitida por el ser humano y reconocer la información contenida en ésta, convirtiéndola en texto o emitiendo órdenes que actúan sobre un proceso.

Introducción

El reconocimiento por voz o parlante, es una modalidad biométrica que utiliza la voz de un individuo con fines de reconocimiento. (Difiere de la tecnología del "reconocimiento de discurso", que reconoce las palabras a medida que van siendo articuladas, este no es un dispositivo biométrico). El proceso de reconocimiento de voz depende de las características de la estructura física del tracto vocal de un individuo así como también de sus características de comportamiento. El reconocimiento por voz es una elección popular de reconocimiento biométrico remoto, dada la disponibilidad de dispositivos para tomar las muestras de voz (por ejemplo: la red telefónica y los micrófonos de las computadoras) y su facilidad de integración. El reconocimiento del orador, es una tecnología biométrica distinta de otras en las que la muestra de discurso es tomada dinámicamente o en el lapso de un periodo de tiempo determinado, como pueden ser algunos segundos. El análisis ocurre en un modelo en el que los cambios a lo largo del tiempo son monitoreados, lo que es similar a otros dispositivos biométricos que contemplan el comportamiento, como pueden ser: la firma dinámica, el reconocimiento de la forma de andar, y el reconocimiento por el ritmo de las pulsaciones en un teclado.

Antecedentes

La verificación del orador, ha evolucionado a la par que las tecnologías de reconocimiento de voz y de síntesis de discurso dado las similares características y desafíos que cada una conlleva. En 1960, Gunnar Fant, un profesor sueco publicó un modelo que describía los componentes psicológicos de la producción de habla acústica, basado en el análisis de Rayos X de individuos produciendo sonidos fónicos específicos. En 1970, el Dr. Joseph Perkell utilizo Rayos X en movimiento e incorporó la lengua y quijada para expandir el modelo de Fant. Los sistemas de reconocimiento de discurso originales utilizaban el resultado promedio de varios filtros analógicos para buscar coincidencias, muchas veces con la ayuda de humanos en el camino. En 1976, Texas Instruments construyó un sistema de prototipo que fue testeado por la Fuerza Aérea de los Estados Unidos y la Corporación MITRE. A mediados de los 80, el Instituto Nacional de Estándares y Tecnología (NIST) desarrolló el Grupo de Discurso NIST para estudiar y promover el uso de técnicas de procesamiento de discurso. Desde 1996, bajo la creación de la Agencia Nacional de Seguridad](NSA), el Grupo de Discurso de NIST ha llevado a cabo evaluaciones anuales, el Workshop de Evaluación de Reconocimiento de Voz, para fomentar el continuo avance de la comunidad de reconocimiento de voz.

Métodos de reconocimiento de voz

•Dependiente del texto (modo limitado) En un sistema que utiliza discurso dependiente del texto, el individuo presenta una frase fija (contraseña) o una frase programada dentro del sistema ("Por favor diga los números: 33-54-63") que mejora la performance especialmente con usuarios que cooperan En los sistemas dependientes del texto, durante la toma o fase de inscripción, el individuo pronuncia una palabra corta o frase (sentencia), capturada típicamente por un micrófono que puede tan simple como el de un teléfono. La muestra de voz se convierte desde un formato analógico a uno digital, las características de la voz del individuo se extraen, luego se crea un modelo. La mayoría de los sistemas de verificación de quien habla dependientes del texto utilizan el concepto de Modelos Markov Ocultos (HMMs), que son modelos azarosos que proveen de una representación estadística de los sonidos producidos por el individuo. El HMM representa las variaciones subyacentes y los cambios temporales a lo largo del tiempo en los estados del discurso utilizando las características de calidad, duración, intensidad de la dinámica y tono, mencionadas anteriormente.

•Independiente del texto (modo ilimitado). Un sistema independiente del texto no posee ningún conocimiento a priori del fraseo de quien se presenta y es mucho más flexible en situaciones en las que el individuo que está dando la muestra no está al tanto de la toma o que no desee cooperar, lo que presenta un desafío aún más difícil.

Otro método es el del Modelo de Mixtura Gaussian, un mapeo de estado relacionado a HMM, que es utilizado frecuentemente para aplicaciones ilimitadas independientes del texto. Como el HMM este método utiliza la voz para crear un número de vectores de estado que representan las variaciones de las formas del sonido, que son características de la fisiología y el comportamiento de un individuo.

Descripción del proceso

Todos estos métodos comparan las diferencias y similitudes entre las entradas de voz y los tipos y estados de voz almacenados para producir una decisión de coincidencia. Luego de la inscripción, durante la fase de reconocimiento, las mismas características de calidad, duración, volumen y tono son extraídas de la muestra tomada y comparadas con el modelo de la identidad, o hipotética identidad, y con otros modelos de otras voces. Los modelos de otras voces (o "antivoces") contienen los estados de una gran variedad de individuos, excluyendo el modelo de la identidad, o hipotética identidad, que se está buscando. La muestra de la voz o la inscripción de sus modelos son comparados para producir un "radio de similitud", indicando la similitud por la que la muestra ingresada correspondería a la identidad buscada, o supuestamente buscada. Si la voz ingresada pertenece a la identidad proclamada, el puntaje va a reflejar que la muestra presenta mayores similitudes con la identidad proclamada que con el modelo "antivoz". El componente psicológico del reconocimiento de voz está relacionado con la forma física del tracto vocal de un individuo, que consiste de una vía respiratoria y cavidades de tejido blando de donde se originan los sonidos vocales. Para producir discurso, estos componentes trabajan en combinación con los movimientos físicos de la quijada, lengua, laringe y las resonancias de los pasajes nasales. Las características acústicas del habla provienen de los atributos físicos de las vías respiratorias. El movimiento de la boca y de las pronunciaciones son los componentes de comportamiento de este dispositivo biométrico, que es el reconocimiento por voz. Las muestras de voz son ondas donde la variable del tiempo se ubica en el vector horizontal y la de volumen en el vertical. El sistema de reconocimiento de quien habla analiza el contenido de frecuencia del discurso y compara las características de calidad, duración, intensidad, dinámica y tono de la señal.

Ventajas

  • Alta aceptabilidad ya que casi ningún usuario muestra resistencia a pronunciar una palabra o frase para acceder a un recinto o servicio.
  • Dictado automático es el uso más común de las tecnologías de reconocimiento de voz. En algunos casos, como en el dictado de recetas médicas y diagnósticos o el dictado de textos legales, se usan corpus especiales para incrementar la precisión del sistema.
  • Control por comandos diseñados para dar órdenes a un computador. Estos sistemas reconocen un vocabulario muy reducido, lo que incrementa su rendimiento.
  • Alta facilidad de medida ya que el coste del “hardware” necesario es mínimo y la adquisición muy sencilla y cómoda para el usuario.
  • Los sistemas portátiles de pequeño tamaño, como los relojes o los teléfonos móviles, tienen unas restricciones muy concretas de tamaño y forma, así que el habla es una solución natural para introducir datos en estos dispositivos.
  • Sistemas diseñados para discapacitados está diseñado por el impedimento de teclear con fluidez, así como para personas con problemas auditivos, que pueden usarlos para obtener texto escrito a partir de habla. Esto permitiría, por ejemplo, que los aquejados de sordera pudieran recibir llamadas telefónicas.

Desventajas

• Baja resistencia al engaño ya que una simple grabación de alta calidad permitiría el acceso a no ser que la frase a pronunciar sea, por ejemplo, variable, o haya de ser la respuesta a una pregunta realizada por el sistema de forma aleatoria, etc.

• Baja unicidad ya que la capacidad de distinguir un usuario de otro es solo moderada, ya que un importante parecido de los parámetros vocales no es raro.

• Baja permanencia ya que los parámetros básicos de la voz pueden alterarse fácilmente debido a muchos factores en periodos de tiempo muy cortos.

•La fácil implementación del reconocimiento por voz contribuye con su mayor debilidad: la susceptibilidad al canal de transmisión y a las variaciones del micrófono y su ruido.

• Los sistemas también pueden enfrentar problemas cuando los usuarios han ingresado una muestra en una línea fija limpia e intentan la verificación contra una muestra tomada de una línea celular con ruido.

•La incapacidad de controlar los factores que afectan a las entradas puede disminuir la performance significativamente. Los sistemas de verificación de voz, exceptuando a los que utilizan frases dadas, también son susceptibles de ataques por spoofing a través de la utilización de una voz grabada. Se están tomando medidas anti-spoofing que requieren la repetición de una palabra o frase al azar, para subsanar esta desventaja. Por ejemplo, un sistema podría solicitar la repetición de una frase generada al azar, como ser: "33-54-63", para prevenir el ataque de una muestra grabación tomada previamente. El usuario no puede anticipar la selección azarosa de la frase y por lo tanto no puede intentar con éxito un "playback" de ataque por spoofing en el sistema.

Perspectivas

El reconocimiento por voz continuará evolucionando a medida que la comunicación y las tecnologías de computación también lo hagan. Su determinación ayudará al posterior desarrollo de tecnologías confiables y consistentes como medio de identificación para la utilización en el reconocimiento remoto. Las características específicas de la voz de cada persona se deben a diferencias en aspectos fisiológicos y de comportamiento del aparato fonador. La forma del tracto vocal (laringe, faringe cavidad oral, cavidad nasal, etc.) goza del papel más importante porque modifica fuertemente el contenido espectral de la onda sonora generada. Son precisamente las características del espectrograma de la voz las que configura los parámetros biométricos usados habitualmente para distinguir un locutor de otro. Este sistema donde está siendo más utilizado es en aplicaciones telefónicas: agencias de viajes, atención al cliente, información etc.

Fuentes