CNR Institutional Research Information System

È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.

Modelli prosodici emotivi per la sintesi dell'italiano

Fabio Tesser;Piero Cosi;Carlo Drioli;Graziano Tisato

2005

Abstract

È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2005
			
	Strutture organizzative
	
				Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
			
	Codice ISBN
	
				88-88974-69-5
			
	Parole chiave
	
				Prosody   Speech Synthesis
TTS
FESTIVAL
Emotions
			
	Appare nelle tipologie:
	
				02.01 Contributo in volume (Capitolo o Saggio)

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/140078

Citazioni

ND

ND

ND

social impact