Síntesis de voz

Revisión del 10:58 12 mar 2019 de Yoana GT (discusión | contribuciones)
(dif) ← Revisión anterior | Revisión actual (dif) | Revisión siguiente → (dif)
Sintesis de Voz
Información sobre la plantilla
Sinteses.jpg

Sintetizador de voz o Síntesis de habla es la producción artificial del habla.El sistema computarizado que es usado con este propósito es llamado computadora de habla y puede ser implementado en productos software o hardware. Un sistema text-to-speech (TTS) convierte el lenguaje de texto normal en habla; otros sistemas recrean la representación simbólica lingüística como transcripciones fonéticas en habla.

Historia

Antes de que el procesamiento de señal electrónico fuera inventado, hubo quienes intentaron construir máquinas para imitar el habla humana. Algunas de las primeras leyendas de la existencia de los "Brazen Heads" involucraron a Silvestre II (d. 1003 AD), Alberto Magno (1198–1280) y Roger Bacon (1214–1294). En 1779 el científico Christian Kratzenstein,construyó modelos del tracto vocal humano que podían reproducir los sonidos de las cinco vocale. En la década de los treinta, los laboratorios Bell desarrollaron el vocoder, el cual automáticamente analizaba el habla a través de su nota fundamental y resonancias. De su trabajo con el vocoder, Homer Dudley desarrolló un sintetizador operado por un teclado llamado The Voder, el cual fue exhibido en la New York World's Fair de 1939. Los primeros sintetizadores de habla tenían un sonido robótico y poseían poca inteligibilidad. La calidad del habla sintetizada ha sido mejorada, pero el audio de salida de la síntesis de habla contemporánea aún es distinguible del habla humana. Debido a la proporción de costo-rendimiento, los sintetizadores de habla se han convertido cada vez más baratos y accesibles para las personas, más gente será beneficiada por el uso de programas texto-habla.

Dispositivos electrónicos

Los primeros sistemas de computadora basados en la síntesis de voz fueron creados en los cincuenta. El primer sistema general de inglés de texto-habla fue desarrollado por Noriko Umeda et al. en 1968 en Laboratorio Electrotecnico en Japón.

En 1961, el físico John Larry Kelly, Jr y su colega Louis Gerstman usaron una computadora IBM 704 para sintetizar la voz, un evento importante en la historia de los laboratorios Bell. El sintetizador de voz de Kelly (vocoder) reprodujo la canción "Daisy Bell" con el acompañamiento musical de Max Mathews.

Dispositivos móviles electrónicos incluyendo síntesis de voz comenzaron a aparecer en los setentas. Unos de los primeros fue la calculadora para ciegos Speech+ de Telesensory Systems Inc. (TSI) en 1976. El primer juego electrónico multijugador en usar la síntesis de voz fue "Milton" de Milton Bradley Company

Tecnologías del sintetizador

Las cualidades más importantes de los sistemas de síntesis de voz son la "naturalidad" y la "inteligibilidad".La naturalidad describe qué tan cerca el audio de salida esta de la voz humana, mientras que la inteligibilidad es el grado de entendimiento que tiene el audio.

  • Síntesis concatenativa

La síntesis concatenativa está basada en la concatenación (o unión) de segmentos de una voz grabada. Generalmente, la síntesis concatenativa produce el sonido más natural de una voz sintetizada. Sin embargo, las diferencias entre las variaciones naturales en el habla y la naturaleza de las técnicas automatizadas para segmentación de formas de onda algunas veces resulta en glitches audibles en el audio de salida. Existen tres sub-tipos de síntesis concatenaitva.

  • Síntesis de difonos

La síntesis de difonos usa una base de datos de voz mínima que contiene todos los difonos (transiciones entre sonidos) que ocurren en el lenguaje. El número de difonos depende de la fonotáctica del lenguaje: por ejemplo, en el idioma español existen alrededor de 800 difonos y en el alemán 2500. En la síntesis de difonos, solo un ejemplo de cada difono es almacenado en la base de datos de voces. En el tiempo de ejecución, la prosodia objetivos de una oración es superpuesta en estas unidades mínimas a través de técnicas de procesamiento digital de señal como la codificación predictiva lineal o ​ o técnicas más recientes como la codificación del tono en el dominio de la fuente empleado la transformada de coseno discreta.32​ La síntesis de difonos sufre de glitches sonidos de la síntesis concatenativa y el sonido de naturaleza robótica de la síntesis de formantes y tiene pocas ventajas sobre cualquier otro acercamiento más que su tamaño. Su uso en aplicaciones comerciales ha disminuido, aunque sigue siendo investigada debido su número de aplicaciones en software gratuito.

  • Síntesis de selección de unidades

Emplea bases de datos de voces grabadas. Durante la creación de la base de datos, cada enunciado grabado es segmentado en: fonos, difonos, medios fonos, sílabas, morfemas, palabras, frases y oraciones. Normalmente la división en segmentos es hecha con ayuda de un sistema de reconocimiento del habla modificado, usando representaciones visuales como la forma de onda y un espectrograma. La selección de unidades permite una naturalidad mayor debido a que emplea un menor procesamiento digital de señales (DSP) en el habla grabada. El procesamiento digital de señales usualmente ocasiona que el sonido de la voz no sea tan natural, aunque algunos sistemas emplean una pequeña cantidad de procesamiento de la señal en el punto de la concatenación para ajustar la forma de onda. El audio de salida de la mejor selección de unidades usualmente es indistinguible de las voces humanas reales, especialmente en contextos con sistemas TTS.

  • Síntesis de dominio específico

Concatena palabras y frases pre-grabadas para crear enunciados completos. Es usada en aplicaciones donde la variedad de los textos del sistemas esta limitada a una salida de audio en un dominio particular, como los anuncios en un calendario de tránsito o reportes del clima,La tecnológica es muy simple de implementar y ha sido empleada de manera comercial por varios años en dispositivos como calculadoras o relojes parlantes. El nivel de naturalidad de estos sistemas puede ser muy alto debido a que la variedad los tipos de oraciones esta limitada y logran estar muy cerca de la prosodia y entonación de las grabaciones originales.

  • Síntesis de formantes

No utiliza muestras de voz humana durante el tiempo de ejecución. En su lugar, el audio de salida es creado a partir de la síntesis aditiva y un modelo acústico (síntesis mediante modelado físico).Parámetros como la frecuencia fundamental, fonación y niveles de ruido son variados a través del tiempo para crear un forma de onda de una voz artificial. Este metido alguna veces es llamado síntesis basa en reglas; sin embargo, existen sistemas de concatenación que también tienen componentes basados en reglas. Algunos ejemplos de síntesis de formantes, no en tiempo real pero con gran precisión en el control de la entonación, se encuentran en trabajos de finales de los setenta por Texas Instruments con el juguete "Speak & Spell" y a finales de los ochentas en arcades de la compañía SEGA ​ y otros juegos de arcade de Atari usando chips TMS5220 LPC de Texas Instrument. Crear la entonación apropiada era difícil y los resultados tenían que ser empatados en tiempo real con la interfaces texto-voz.

Hardware dedicado

tecnologías (no disponibles)

  • Icofono
  • Votrax
  • SC-01A
  • SC-02 / SSI-263 / "Artic 263"
  • General Instrument SP0256-AL2 (CTS256A-AL2)
  • National Semiconductor DT1050 Digitalker (Mozer - Forrest Mozer)
  • Silicon Systems SSI 263
  • Chips de voz Texas Instruments LPC
  • TMS5110A
  • TMS5200
  • MSP50C6XX - Vendido a Sensory, Inc. en 2001

Actuales (en 2013)

  • Magnevation SpeakJet TTS256 Hobby and experimenter.
  • Epson S1V30120F01A100 IC DECTalk Based voice, Robotic, Inglés y español.
  • Textspeak TTS-EM

Atari

El primer sistema de síntesis de voz integrado en un sistema operativo fue para las computadoras 1400XL/1450XL diseñado por Atari usando el chip Votrax SC01 en 1983. Las computadoras 1400XL/1450XL usaban Finite State Machine para lleve a cabo la síntesis de voz en inglés.Sin embargo, las computadoras 1400XL/1450XL eran raras. Las computadoras Atari ST eran vendidas con el "stspeech.tos" en un disquete.

Apple

El primer sintetizador de voz integrado en un sistema operativo fue el MacInTalk de Apple. El software estaba licenciado por desarrolladores terceros como Joseph Katz y Mark Barton (posteriormente, SoftVoice, Inc.) y la primera versión fue presentada durante la introducción de la computadora Macintosh en 1984. El demo presentado en enero, el cual empleaba de síntesis de voz basada en el software SAM, requería de 512KB de memoria RAM. Como resultado, no podía correr en una memoria RAM de 128KB, presente en las primeras Mac.

AmigaOS

El segundo sistema operativo en incluir un capacidades avanzadas de síntesis de voz fue AmigaOS, introducido en 1985. La síntesis de voz fue licenciada por Commodore International desde SoftVoice, Inc., quien también desarrolló el sistema texto-voz MacinTalk. Incluía un sistema completo de emulación de voz americana para el idioma inglés, con voces femeninas y masculinas y marcadores de "estrés", fue posible a través del chipset de Amiga.El sistema de síntesis fue dividido en un dispositivo de narración, el cual era responsable de modular y concatenar fonemas, y una librería de traducción la cual traducción el texto en inglés a fonemas a través de un conjunto de reglas.

Microsoft Windows

Sistemas modernos de escritorio de Windows pueden implementar componentes SAPI 1-4 y SAPI 5 para apoyar la síntesis de voz y el reconocimiento del habla. SAPI 4.0 estuvo disponible como una opción adicional para Windows 95 y Windows 98. Windows 2000 agregó el Microsoft Narrator, una utilidad para texto-voz para las personas que tuvieran alguna discapacidad visual. Programas de tercera como CoolSpeech, Textaloud y Ultra Hal pueden realizar varias tareas de texto-voz como leer texto desde un sitio web específico, correo electrónico, documento de texto, texto introducido por el usuario, etc. No todos los programas pueden usar la síntesis de voz de manera directa.Algunos programas pueden emplear extensiones para leer texto.

Android

La versión 1.6 de Android agregó soporte para los sintetizadores de voz (TTS),También conocido como "síntesis de voz", TTS permite que su dispositivo Android "hable" texto de diferentes idiomas.

Internet

En la actualidad, existen un número de aplicaciones, plug-ins y gadgets que pueden leer mensajes directamente desde un cliente de correo electrónico y páginas web desde un navegador web o Google Toolbar como Text to Voice que es un complemento de Firefox. Algunos software especializados pueden narrar RSS. Por otra parte, los narradores RRS simplifican la información enviada permitiendo a los usuarios escuchar sus fuentes de noticias favoritas y convertirlas en podcasts. Existen lectores RSS en casi cualquier PC conectada a internet. Los usuarios pueden descargar archivos de audio generados a dispositivos portátiles, ej. con la ayuda de un receptor de podcast y escucharlos mientras caminas, corres, etc.

Aplicaciones

La síntesis de voz ha sido una de las herramientas vitales de tecnologías de apoyo y su aplicación en esta área es significante y de gran uso. Permite que las barreas ambientales sean removidas para personas con diferentes discapacidades. La aplicación con mayor uso han sido los lectores de pantalla para personas con discapacidades visuales, pero los sistemas de texto-voz ahora son comúnmente usados por personas con dislexia y otras dificultades para la lectura, así como para los niños. También son frecuentemente empleados para ayudar a aquellos con discapacidades comunicativas usualmente a través de una voz de ayuda.

El texto-voz ha encontrado nuevas aplicaciones fuera del mercado de la ayuda a los discapacitados. Por ejemplo, la síntesis de voz , combinada con el reconocimiento de voz, permite la interacción con dispositivos móviles a través de interfaces de procesamiento de lenguajes naturales. También ha sido usado como un segundo lenguaje de adquisición. Voki, por ejemplo, es una herramienta educativa creada por Oddcast que permite a los usuarios seleccionar su propio avatar, usando diferentes acentos. Pueden ser enviados a través de mail o ser colocados en sitios web o redes sociales.

Véase también

Datos importates

El habla sintetizada puede ser creada a través de la concatenación de fragmentos de habla grabados que son almacenados en una base de datos. Los sistemas difieren en el tamaño de las unidades de habla almacenadas; un sistema que almacena fonos y difonos permite un mayor rango de sonidos pero carece de claridad. Para usos específicos, el tamaño del almacenamiento de palabras completas u oraciones permite una mayor calidad de audio. De manera alternativa, un sintetizador puede incorporar un modelo de tracto vocal u otras características de la voz humana para recrear completamente una voz "sintética". La calidad de un sintetizador de voz se juzga por la similitud que tenga con la voz humana y su habilidad para ser entendido con claridad. Un programa de conversión de texto en habla inteligible permite que las personas con discapacidades visuales o dificultades para leer puedan escuchar textos en una computadora. Muchos sistemas operativos tienen sintetizadores de voz integrados desde principios de los noventa. Stephen Hawking fue una de las personas más famosas en emplear un sintetizador de voz para comunicarse

Fuentes