È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.

Modelli prosodici emotivi per la sintesi dell'italiano

Fabio Tesser;Piero Cosi;Graziano Tisato
2005

Abstract

È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.
2005
Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
88-88974-69-5
Prosody Speech Synthesis
TTS
FESTIVAL
Emotions
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/140078
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact