Descargar versión PDF

Transcripción

Descargar versión PDF
Síntesis Estadística Paramétrica de Voz
1. Responsables
Dr. John Goddard Close (Departamento de Ingeniería Eléctrica, UAM Iztapalapa)
M. en I. Fabiola M. Martínez Licona (Departamento de Ingeniería Eléctrica, UAM Iztapalapa)
2. Perfil deseable del alumno
El alumno deberá contar con conocimientos en Inteligencia Artificial y Reconocimiento de Patrones.
También deberá estar familiarizado con los conocimientos de programación en C y el entorno UNIX.
Finalmente, deberá saber conceptos de procesamiento de señales.
3. Presentación del contexto e identificación de la problemática
La síntesis de voz es la producción artificial del habla humana, y un sintetizador de habla es el
sistema computacional que lo realiza. Usualmente el sintetizador de habla se encuentra como la
parte final (back-end) de un sistema del texto-a-habla (TTS).
Para ir del texto al habla en un TTS, el back-end tiene que producir una forma de onda sintetizada de
la voz usando información lingüistica del texto. Hay varias arquitecturas que se han utilizado para
lograr la onda sintetizada (Taylor, 2009): síntesis articulatoria, síntesis de formantes, síntesis
concatenativa, y síntesis basada en modelos markovianos ocultos (HMM).
Mientras que los sistemas comerciales actuales usualmente usan síntesis concatenativa, en los
últimos años la síntesis basada en HMM (también conocido como síntesis basada en parámetros
estadísticos) ha ido ganando importancia por el potencial que ofrece (Black et al, 2007). Previamente
los HMM han jugado un papel importante en el reconocimiento automático del habla (RAH).
Los HMM son empleados para modelar y generar información sobre el espectro, la frecuencia
fundamental, y la duración del habla. La información parametrizada es suficiente para generar la
forma de onda correspondiente (Yoshimura et al, 1999). Ventajas que presenta el modelo son: usa
poco espacio de almacenamiento comparado con la síntesis concatenativa, automáticamente
aprende propiedades relevantes de hablantes como estilos del habla así como emociones.
Recientemente, se han desarrollado varios sistemas para diferentes lenguajes usando esta técnica
(Baloyi et al 2011, Gonzalvo 2010, Hanzlicek 2010, Martincic-Ipsic 2006, Takouda et al 2002).
Este proyecto pretende desarrollar un sistema de síntesis de voz basada en HMM y el vocoder
STRAIGHT (Kawahara y Morise 2011) para el español.
4. Objetivos del proyecto de investigación
Objetivo general
Desarrollar un sistema de síntesis de voz basada en HMM para el español.
Objetivos específicos
•
Conocer y aplicar técnicas para procesamiento de la señal de voz.
•
Conocer información básica sobre la fonética, prosodia, y la lingüistica del español.
•
Conocer los HMM y su la aplicación a la síntesis de voz.
•
Aplicar los sistemas HTS (Zen et al, 2006), HTK (Young et al, 2006) y STRAIGHT (Kawahara y
Morise 2011) a la síntesis basada en HMM.
5. Metodología propuesta
•
Estudio básico del procesamiento de la señal de voz.
•
Estudio básico de la fonética, prosodia, y la lingüistica del español.
•
Estudio de los sistemas HTS, HTK y STRAIGHT.
•
Estudio de los HMM y su aplicación en la síntesis basada en HMM (Yamagishi, 2006).
•
Obtención de parámetros acústicos de la base de datos en español, así como la información
fonética, prosódica y lingüistica necesaria para entrenar los HMM en el HTS.
•
Entrenamiento de los HMM usando HTS para producir la información parametrizada
necesaria para generar la forma de onda.
6. Resultados esperados
•
Implementación en HTS de los HMM para producir la información parametrizada necesaria
para generar la forma de onda.
•
Posible publicación de un artículo en una revista o congreso nacional o internacional.
7. Bibliografía inicial
o
o
o
o
o
o
o
P. Taylor (2009), Text-to-Speech Synthesis, University of Cambridge, ISBN: 9780521899277
A.W. Black, H. Zen, y K. Tokuda (2007), Statistical parametric speech synthesis, Proc. ICASSP,
pp. 1229–1232.
T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura (1999), Simultaneous
modeling of spectrum, pitch and duration in HMM-basedspeech synthesis,” in Proc.
Eurospeech, pp.2347–2350.
N. Baloyi, M.J.D. Manamela, N. Gasela (2011), A Text-to-Speech Synthesis System using
Hidden Markov Models for Xitsonga, SATNAC 2011, South Africa.
X. Gonzalvo Fructuoso (2010), HMM-based speech synthesis applied to Spanish and English,
its applications and a hybrid approach, Tesis Doctoral, Centre Escola Tècnica Superior
d’Enginyeria Electrónica I Informática La Salle, Universitat Ramon Llull.
Z. Hanzlicek (2010), Czech HMM-based speech synthesis, TSD'10 Proceedings of the 13th
international conference on Text, speech and dialogue, Springer-Verlag.
S. Martincic-Ipsic and I. Ipsic (2006), Croatian HMM-based Speech Synthesis, Journal of
Computing and Information Technology - CIT 14, 4, pp.307–313.
H. Kawahara y M. Morise, Technical foundations of TANDEM-STRAIGHT, a speech analysis,
modification and synthesis framework, SADHANA - Academy Proceedings in Engineering
Sciences, Vol.36, Part 5, pp.713-722, 2011.
o K. Tokuda, H. Zen, A.W. Black (2002), An HMM-based speech synthesis system applied to
English, Proc. of 2002 IEEE SSW.
o H. Zen, T. Nose, J. Yamagishi, S. Sako, T. Masuko, A. Black, y K. Tokuda (2006), The HMMbased speech synthesis system (HTS) Version 2.0, in The 6th International Workshop on
Speech Synthesis.
o S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason,
D. Povey, V. Valtchev, P. C. Woodland (2006), The HTK Book, version 3.4,
http://htk.eng.cam.ac.uk/
o J. Yamagishi (2006), An introduction to HMM-based speech synthesis,
https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/TrajectoryModelling/HTS-Introduction.pdf.
8. Calendarización de actividades
o
Se proponen las actividades y resultados esperados en cada trimestre
Trimestre
Actividades
Resultados
1
Estudio básico del procesamiento de la señal de voz, así
como la fonética, prosodia, y la lingüistica básica del
español. Estudio de los HMM y su aplicación en la síntesis
basada en HMM. Introducción a los sistemas HTK y HTS.
Protocolo de la comunicación
idónea de resultados
2
Continuación con el estudio del sistema HTS. Obtención de
parámetros acústicos de la base de datos en español.
Presentación del desarrollo en
formato de artículo
3
Obtención de la información fonética, prosódica y
lingüistica necesaria para entrenar los HMM en el HTS.
Entrenar los HMM usando HTS para poder producir la
información parametrizada para generar la forma de onda.
Primer
borrador
de
comunicación
idónea
resultados
4
Escrito de la versión final
Entrega de la versión final de la
comunicación
idónea
de
resultados y defensa oral del
trabajo de investigación ante un
jurado especializado
9. Infraestructura necesaria y disponible
• Computadora
• Software especializado
• Base de datos en español
10. Lugar de realización
Laboratorio del Habla, UAM Iztapalapa
la
de

Documentos relacionados

as Adobe PDF - Edinburgh Research Explorer

as Adobe PDF - Edinburgh Research Explorer [8] K. Tokuda, T. Masuko, N. Miyazaki, y T. Kobayashi, “Multi-space probability distribution hmm,” IEICE Trans. Inf. & Syst., vol. E85-D, no. 3, pp. 455– 464, March 2002. [9] H. Zen, K. Tokuda, T. ...

Más detalles