[ARI logo]

AMTV - Acoustic modeling and transformation of varieties for speech synthesis






Project Background & Motivation

Our main goal in this research project was the advancement of variety modeling for speech synthesis. To reach this overall goal, we focused on three topics that are highly relevant for variety modeling and that represented new scientific challenges, namely modeling of variety transformation, average voice models for varieties, and modeling of varieties with incomplete training data. In modeling of variety transformation, we developed a method for unsupervised interpolation of language varieties that automatically creates in-between varieties by generating gradual transitions between two varieties, be it two dialects/sociolects, or a dialect and a standard. Furthermore, we developed a cross-variety speaker transformation method that can create a speaker’s voice in a certain variety even if only speech data of another variety of the speaker are available. In average voice modeling, we investigated different adaptation methods like dialect-adaptive training and dialect clustering that exploit the common phone sets of dialects and standard and applied an adaptive modelling method that uses one variety as background and one as adaptation variety to Albanian dialects. On modeling of varieties with incomplete training data we evaluated the perception of foreign-accented natural and synthetic speech in comparison to automatically accent-reduced synthetic speech. The applied method does not use an average voice model but only the phonetically incomplete accented speech data. Speech synthesis is becoming increasingly important as an output interface in cognitive user interfaces. While emotional speech and natural intonation are an area of active research, less attention has been paid to the investigation of language varieties in the context of speech synthesis. Within this project we developed methods for speech synthesis systems that can be easily adapted to social and regional language varieties.

This project is funded by the Austrian Science Fund (FWF): P23821-N23

In diesem Forschungsprojekt entwickelten wir Methoden, um die Modellierung von Varietäten in der Sprachsynthese zu verbessern. Um dieses Ziel zu erreichen, haben wir uns auf drei Themen konzentriert, die entscheidend für die Modellierung von Varietäten sind, nämlich die Transformation von Varietäten, das Training von Durschnittstimmen („average voices“) für Varietäten, und die Modellierung von Varietäten bei unvollständigen Trainingsdaten. Für die Transformation von Varietäten haben wir eine unüberwachte Interpolationsmethode entwickelt, die automatisch Zwischenvarietäten generieren kann, welche einen graduellen Übergang zwischen Varietäten darstellen, seien es zwei Dialekte/Soziolekte, oder seien es ein Dialekt/Soziolekt und eine Standardvarietät. Außerdem entwickelten wir eine Transformationsmethode, welche die Stimme eines Sprechers / einer Sprecherin in einer Varietät realisieren kann, wenn nur Daten des Sprechers / der Sprecherin in einer anderen, ähnlichen Varietät vorliegen. Für das Trainieren von Durchschnittsstimmen untersuchten wir verschiedene Adaptions¬methoden wie Dialekt-adaptives Training oder Dialekt Clustering, welche das gemeinsame Phonset von Standard und Dialekt verwenden können, und wandten eine adaptive Methode auf albanische Dialekte an, welche einen Dialekt als Hintergrund und den anderen als Adaptionsdialekt verwendet. In der Modellierung von Varietäten bei unvollständigen Trainingsdaten evaluierten wir die Wahrnehmung von Akzenten des Zweitspracherwerbs von natürlicher Sprache und synthetischer Sprache, bei welcher der Akzent automatisch reduziert wurde. Die angewandte Akzentreduktionsmethode verwendet kein Durschnittsmodell, sondern nur die phonetisch unvollständigen Akzentdaten. Computergenerierte Sprachsynthese gewinnt als Ausgabemodalität in kognitiven BenutzerInnenschnittstellen zunehmend an Bedeutung. Während emotionale Sprache und natürliche Intonation ein aktives Forschungsfeld darstellen, wurde die Erforschung von Sprachvarietäten im Bereich der Sprachsynthese eher vernachlässigt. Innerhalb dieses Projekts entwickelten wir Methoden, um Sprachsynthesesysteme erstellen zu können, die einfach an soziale und regionale Varietäten adaptiert werden können.

Dieses Projekt wird gefördert vom österreichischen Wissenschaftsfonds (FWF): P23821-N23






Project news






Selected Publications






Contact: Michael Pucher (michael dot pucher at oeaw dot ac dot at)