CONFRONTO TRA DIVERSE TECNI CHE DI CONVERSIONE PER LA SINTESI TTS DELLE EMOZONI Mauro Nicolao, Carlo Drioli, Piero Cosi Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova "Fonetica e Dialettologia" Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia nicolao@pd.istc.cnr.it , drioli@pd.istc.cnr.it , cosi@pd.istc.cnr.it SOMMARIO Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di Itakura-Saito) e soggettivi (test percettivi). Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM). E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari punti del sistema: o come semplice post processing del segnale vocale neutro o agendo direttamente su un database di difoni utilizzato da un sintetizzatore vocale. I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due database di segnali vocali creati ad hoc. Uno è stato registrato con lo scopo di raccogliere il materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva. Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi una forte componente emotiva (l'emozione utilizzata in questo lavoro è la collera ). Da questi insiemi, tramite un processo di copy synthesis, si sono ottenuti due corpora perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al segnale dall'emozione presente. Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi, costituito da 34 funzioni, specializzate per ogni fonema. In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali analizzati nel progetto.
Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni
Cosi P
2006
Abstract
CONFRONTO TRA DIVERSE TECNI CHE DI CONVERSIONE PER LA SINTESI TTS DELLE EMOZONI Mauro Nicolao, Carlo Drioli, Piero Cosi Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova "Fonetica e Dialettologia" Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia nicolao@pd.istc.cnr.it , drioli@pd.istc.cnr.it , cosi@pd.istc.cnr.it SOMMARIO Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di Itakura-Saito) e soggettivi (test percettivi). Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM). E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari punti del sistema: o come semplice post processing del segnale vocale neutro o agendo direttamente su un database di difoni utilizzato da un sintetizzatore vocale. I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due database di segnali vocali creati ad hoc. Uno è stato registrato con lo scopo di raccogliere il materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva. Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi una forte componente emotiva (l'emozione utilizzata in questo lavoro è la collera ). Da questi insiemi, tramite un processo di copy synthesis, si sono ottenuti due corpora perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al segnale dall'emozione presente. Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi, costituito da 34 funzioni, specializzate per ogni fonema. In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali analizzati nel progetto.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.