Descargar versión PDF
Transcripción
Descargar versión PDF
Síntesis Estadística Paramétrica de Voz 1. Responsables Dr. John Goddard Close (Departamento de Ingeniería Eléctrica, UAM Iztapalapa) M. en I. Fabiola M. Martínez Licona (Departamento de Ingeniería Eléctrica, UAM Iztapalapa) 2. Perfil deseable del alumno El alumno deberá contar con conocimientos en Inteligencia Artificial y Reconocimiento de Patrones. También deberá estar familiarizado con los conocimientos de programación en C y el entorno UNIX. Finalmente, deberá saber conceptos de procesamiento de señales. 3. Presentación del contexto e identificación de la problemática La síntesis de voz es la producción artificial del habla humana, y un sintetizador de habla es el sistema computacional que lo realiza. Usualmente el sintetizador de habla se encuentra como la parte final (back-end) de un sistema del texto-a-habla (TTS). Para ir del texto al habla en un TTS, el back-end tiene que producir una forma de onda sintetizada de la voz usando información lingüistica del texto. Hay varias arquitecturas que se han utilizado para lograr la onda sintetizada (Taylor, 2009): síntesis articulatoria, síntesis de formantes, síntesis concatenativa, y síntesis basada en modelos markovianos ocultos (HMM). Mientras que los sistemas comerciales actuales usualmente usan síntesis concatenativa, en los últimos años la síntesis basada en HMM (también conocido como síntesis basada en parámetros estadísticos) ha ido ganando importancia por el potencial que ofrece (Black et al, 2007). Previamente los HMM han jugado un papel importante en el reconocimiento automático del habla (RAH). Los HMM son empleados para modelar y generar información sobre el espectro, la frecuencia fundamental, y la duración del habla. La información parametrizada es suficiente para generar la forma de onda correspondiente (Yoshimura et al, 1999). Ventajas que presenta el modelo son: usa poco espacio de almacenamiento comparado con la síntesis concatenativa, automáticamente aprende propiedades relevantes de hablantes como estilos del habla así como emociones. Recientemente, se han desarrollado varios sistemas para diferentes lenguajes usando esta técnica (Baloyi et al 2011, Gonzalvo 2010, Hanzlicek 2010, Martincic-Ipsic 2006, Takouda et al 2002). Este proyecto pretende desarrollar un sistema de síntesis de voz basada en HMM y el vocoder STRAIGHT (Kawahara y Morise 2011) para el español. 4. Objetivos del proyecto de investigación Objetivo general Desarrollar un sistema de síntesis de voz basada en HMM para el español. Objetivos específicos • Conocer y aplicar técnicas para procesamiento de la señal de voz. • Conocer información básica sobre la fonética, prosodia, y la lingüistica del español. • Conocer los HMM y su la aplicación a la síntesis de voz. • Aplicar los sistemas HTS (Zen et al, 2006), HTK (Young et al, 2006) y STRAIGHT (Kawahara y Morise 2011) a la síntesis basada en HMM. 5. Metodología propuesta • Estudio básico del procesamiento de la señal de voz. • Estudio básico de la fonética, prosodia, y la lingüistica del español. • Estudio de los sistemas HTS, HTK y STRAIGHT. • Estudio de los HMM y su aplicación en la síntesis basada en HMM (Yamagishi, 2006). • Obtención de parámetros acústicos de la base de datos en español, así como la información fonética, prosódica y lingüistica necesaria para entrenar los HMM en el HTS. • Entrenamiento de los HMM usando HTS para producir la información parametrizada necesaria para generar la forma de onda. 6. Resultados esperados • Implementación en HTS de los HMM para producir la información parametrizada necesaria para generar la forma de onda. • Posible publicación de un artículo en una revista o congreso nacional o internacional. 7. Bibliografía inicial o o o o o o o P. Taylor (2009), Text-to-Speech Synthesis, University of Cambridge, ISBN: 9780521899277 A.W. Black, H. Zen, y K. Tokuda (2007), Statistical parametric speech synthesis, Proc. ICASSP, pp. 1229–1232. T. Yoshimura, K. Tokuda, T. Masuko, T. Kobayashi, and T. Kitamura (1999), Simultaneous modeling of spectrum, pitch and duration in HMM-basedspeech synthesis,” in Proc. Eurospeech, pp.2347–2350. N. Baloyi, M.J.D. Manamela, N. Gasela (2011), A Text-to-Speech Synthesis System using Hidden Markov Models for Xitsonga, SATNAC 2011, South Africa. X. Gonzalvo Fructuoso (2010), HMM-based speech synthesis applied to Spanish and English, its applications and a hybrid approach, Tesis Doctoral, Centre Escola Tècnica Superior d’Enginyeria Electrónica I Informática La Salle, Universitat Ramon Llull. Z. Hanzlicek (2010), Czech HMM-based speech synthesis, TSD'10 Proceedings of the 13th international conference on Text, speech and dialogue, Springer-Verlag. S. Martincic-Ipsic and I. Ipsic (2006), Croatian HMM-based Speech Synthesis, Journal of Computing and Information Technology - CIT 14, 4, pp.307–313. H. Kawahara y M. Morise, Technical foundations of TANDEM-STRAIGHT, a speech analysis, modification and synthesis framework, SADHANA - Academy Proceedings in Engineering Sciences, Vol.36, Part 5, pp.713-722, 2011. o K. Tokuda, H. Zen, A.W. Black (2002), An HMM-based speech synthesis system applied to English, Proc. of 2002 IEEE SSW. o H. Zen, T. Nose, J. Yamagishi, S. Sako, T. Masuko, A. Black, y K. Tokuda (2006), The HMMbased speech synthesis system (HTS) Version 2.0, in The 6th International Workshop on Speech Synthesis. o S. J. Young, G. Evermann, M. J. F. Gales, T. Hain, D. Kershaw, G. Moore, J. Odell, D. Ollason, D. Povey, V. Valtchev, P. C. Woodland (2006), The HTK Book, version 3.4, http://htk.eng.cam.ac.uk/ o J. Yamagishi (2006), An introduction to HMM-based speech synthesis, https://wiki.inf.ed.ac.uk/twiki/pub/CSTR/TrajectoryModelling/HTS-Introduction.pdf. 8. Calendarización de actividades o Se proponen las actividades y resultados esperados en cada trimestre Trimestre Actividades Resultados 1 Estudio básico del procesamiento de la señal de voz, así como la fonética, prosodia, y la lingüistica básica del español. Estudio de los HMM y su aplicación en la síntesis basada en HMM. Introducción a los sistemas HTK y HTS. Protocolo de la comunicación idónea de resultados 2 Continuación con el estudio del sistema HTS. Obtención de parámetros acústicos de la base de datos en español. Presentación del desarrollo en formato de artículo 3 Obtención de la información fonética, prosódica y lingüistica necesaria para entrenar los HMM en el HTS. Entrenar los HMM usando HTS para poder producir la información parametrizada para generar la forma de onda. Primer borrador de comunicación idónea resultados 4 Escrito de la versión final Entrega de la versión final de la comunicación idónea de resultados y defensa oral del trabajo de investigación ante un jurado especializado 9. Infraestructura necesaria y disponible • Computadora • Software especializado • Base de datos en español 10. Lugar de realización Laboratorio del Habla, UAM Iztapalapa la de
Documentos relacionados
as Adobe PDF - Edinburgh Research Explorer
[8] K. Tokuda, T. Masuko, N. Miyazaki, y T. Kobayashi, “Multi-space probability distribution hmm,” IEICE Trans. Inf. & Syst., vol. E85-D, no. 3, pp. 455– 464, March 2002. [9] H. Zen, K. Tokuda, T. ...
Más detalles