È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.
Modelli prosodici emotivi per la sintesi dell'italiano
Fabio Tesser;Piero Cosi;Graziano Tisato
2005
Abstract
È noto come, nel campo della sintesi vocale Text To Speech (TTS), si utilizzano due approcci per l'implementazione di regole prosodiche efficaci: la tecnica rule-based oppure la tecnica data-driven. La prima risulta essere poco naturale e molto laboriosa, poiché le regole devono essere dedotte dalla sola informazione fornita dal testo in ingresso. La generazione data-driven della prosodia è un approccio alternativo che ha il vantaggio di essere più espressiva e di facilitare il compito soprattutto se si vogliono creare differenti set di stili prosodici. In questa comunicazione s'illustrerà la generazione data-driven della prosodia basata su alberi di decisione, utilizzando un database non emotivo. In particolare sarà illustrata un'estensione alla procedura degli alberi di classificazione nello spazio degli eventi intonativi quantizzati: VQ-PaIntE (Vector Quantization - Parametric Intonation Events). L'aspetto rilevante di questo lavoro è che si è utilizzato un approccio differenziale nella predizione della prosodia emotiva: il modulo prosodico emotivo implementato all'ISTC cerca di "imparare" le differenze tra la prosodia neutra (senza emozioni) e i dati prosodici corrispondenti alle emozioni. Un'attenzione particolare è stata posta nella scelta del dominio nel quale eseguire questa differenza. Nell'articolo sarà anche mostrato come l'applicazione della PCA (Principal Components Analysis) semplifica di molto gli alberi di decisione risultanti per modellare l'intonazione.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.