A FUZZY-GENETIC APPROACH FOR THE COMPUTATIONAL MODELING OF SPEECH ARTICULATORY PROCESSES

José Brito

A FUZZY-GENETIC APPROACH FOR THE COMPUTATIONAL MODELING OF SPEECH ARTICULATORY PROCESSES

Date

2009

Authors

José Brito

Abstract

ABSTRACT Articulatory speech synthesis involves three phonation models, namely the excitation source and the acoustic and articulatory models. The first two models represent the generation and filtering of excitation signals, while the articulatory model defines the parameters of the filter. This study focuses on applying fuzzy logic and genetic learning techniques for the representation and control of articulators on the midsagittal plane, following a neuromotor approach. Specifically, movement of the tongue, by effect of muscular contraction, is derived from a Sugeno Fuzzy Inference System. Continuous Genetic Algorithms then evolve populations of articulatory vectors in order to approximate acoustic features of target Spanish vowels and consonants /m/, /n/, /f/ and /s/. Classic excitation signal generators and the transmission-line model were used for the source and acoustic models, respectively. The learned midsagittal configurations along with subjective tests performed by a group of evaluators, positively verify the effectiveness of these techniques for modeling part of the articulatory speech processes. KEY WORDS : Machine learning, articulatory speech synthesis, fuzzy logic, genetic algorithms, midsagittal models. RESUMEN La sintesis de voz articulatoria involucra tres modelos de la fonacion, especificamente, la fuente de excitacion, y los modelos acustico y articulatorio. Los dos primeros modelos representan la generacion y el filtrado de las senales de excitacion, mientras que el modelo articulatorio define los parametros del referido filtro. Esta investigacion se enfoca en la aplicacion de logica difusa y tecnicas de aprendizaje genetico para la representacion y control de los articuladores en el plano medial, de acuerdo con el enfoque neuromotor. Especificamente, el movimiento de la lengua, por efecto de la contraccion muscular, se deriva de un Sistema de Inferencia Difusa estilo Sugeno. Posteriormente, Algoritmos Geneticos Continuos evolucionan poblaciones de vectores articulatorios para aproximar las caracteristicas acusticas de vocales espanolas objeto, y de las consonantes /m/, /n/, /f/ y /s/. Para la fuente y el modelo acustico, se utilizan un generador clasico de senales de excitacion y el modelo de lineas de transmision, respectivamente. Las configuraciones mediales aprendidas, junto con las pruebas subjetivas efectuadas por un grupo de evaluadores, verifican positivamente la efectividad de estas tecnicas para modelar parte de los procesos articulatorios del habla. PALABRAS CLAVE: Aprendizaje artificial, sintesis articulatoria de voz, logica difusa, algoritmos geneticos, modelos mediales.