Towards a prominence-based synthesis system

https://doi.org/10.1016/S0167-6393(96)00072-6Get rights and content

Abstract

The structure of a synthesis system is described that uses prominence as a central parameter. A definition of prominence suitable for this application is given. For the empirical foundation the reliability of prominence ratings by human listeners is assessed. These ratings were compared with acoustic data on F0 and duration. A linear relationship between ratings and parameter values was found. Two algorithms to transform prominence values to prosodic parameters are briefly described and evaluated. The application of prominence to the synthesis of focal accents is demonstrated. The results indicate the validity of the prominence based approach as an interface between linguistics and acoustics.

Résumé

La structure d'un système de synthèse vocale basée sur la proéminence comme paramètre central est présentée. Une définition de la proéminence, adaptée à cette application, est donnée. Comme validation empirique, la concordance entre les jugements de proéminence de différents auditeurs est déterminée. Ces jugements sont mis en relation avec les données acoustiques de F0 et durée. Une relation linéaire entre valeurs de proéminence et données acoustiques est constatée. Deux algorithmes, conçus à transformer les valeurs de proéminence en paramètres prosodiques sont décrits ainsi que leur évaluation. L'application du paramètre proéminence à la synthèse des accents de focus est démontrée. Ces résultats démontrent la validité de l'approche basée sur la proéminence comme interface entre linguistique et acoustique.

Zusammenfassung

Die Stuktur eines Sprachsynthesesystems wird vorgestellt, das als zentralen Parameter zwischen Linguistik und Akustik die Prominenz verwendet. Eine Definition der Prominenz für diese Anwendung wird gegeben. Zur empirischen Validierung wurden die Bewertungen von Prominenz von verschiedenen Probanden verglichen, wobei sich eine hohe Übereinstimmung zeigte. Diese perzeptiv ermittelten Werte wurden in Beziehung zu F0 und Silbendauer gesetzt. Ein linearer Zusammenhang zwischen Prominenzwerten und prosodischen Parametern wurde gefunden. Zwei Algorithmen zur Umwandlung der Prominenzwerte in akustische Parameter werden vorgestellt und evaluiert. Die Anwendung der Prominenz auf die Synthese von Fokusakzenten wird demonstriert. Die Resultate belegen die Validität des prominenzbasierten Ansatzes als Schnittstelle zwischen Akustik und Linguistik.

References (0)

Cited by (0)

Audiofiles available. See http://www.elsevier.nl/locate/specom.

View full text