CNR Institutional Research Information System

CONFRONTO TRA DIVERSE TECNI CHE DI CONVERSIONE PER LA SINTESI TTS DELLE EMOZONI Mauro Nicolao, Carlo Drioli, Piero Cosi Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova "Fonetica e Dialettologia" Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia [email protected] , [email protected] , [email protected] SOMMARIO Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di Itakura-Saito) e soggettivi (test percettivi). Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM). E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari punti del sistema: o come semplice post processing del segnale vocale neutro o agendo direttamente su un database di difoni utilizzato da un sintetizzatore vocale. I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due database di segnali vocali creati ad hoc. Uno è stato registrato con lo scopo di raccogliere il materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva. Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi una forte componente emotiva (l'emozione utilizzata in questo lavoro è la collera ). Da questi insiemi, tramite un processo di copy synthesis, si sono ottenuti due corpora perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al segnale dall'emozione presente. Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi, costituito da 34 funzioni, specializzate per ogni fonema. In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali analizzati nel progetto.

Confronto tra diverse tecniche di conversione per la sintesi TTS delle emozioni

Nicolao M;Drioli C;Cosi P

2006

Abstract

CONFRONTO TRA DIVERSE TECNI CHE DI CONVERSIONE PER LA SINTESI TTS DELLE EMOZONI Mauro Nicolao, Carlo Drioli, Piero Cosi Istituto di Scienze e Tecnologie della Cognizione - Sede di Padova "Fonetica e Dialettologia" Consiglio Nazionale delle Ricerche, via Martiri della Libertà, 2 - 35127 Padova, Italia [email protected] , [email protected] , [email protected] SOMMARIO Nel presente lavoro vengono descritti gli sviluppi delle tecniche per la creazione di una funzione che converte un segnale vocale neutro in uno caratterizzato emotivamente, basate su quanto già sviluppato in precedenti lavori (Nicolao et alii, 2005; Nicolao et alii, 2006). Sono stati investigati numerosi metodi per creare questa funzione e si è cercato di stabilire l'efficienza delle diverse trasformazioni, attraverso dei criteri oggettivi (distanza di Itakura-Saito) e soggettivi (test percettivi). Tutte le funzioni sviluppate si basano su un approccio di tipo statistico. Nello specifico, per descrivere lo spazio acustico del segnale vocale neutro vengono utilizzati sia modelli a mistura di funzioni gaussiane (GMM), sia catene di Markov nascoste (HMM). E' stata valutata anche la possibilità di applicare le funzioni di conversione in vari punti del sistema: o come semplice post processing del segnale vocale neutro o agendo direttamente su un database di difoni utilizzato da un sintetizzatore vocale. I segnali di riferimento per l'allenamento dei modelli statistici sono ricavati da due database di segnali vocali creati ad hoc. Uno è stato registrato con lo scopo di raccogliere il materiale per costruire una voce per un sintetizzatore a concatenazione di difoni (MBROLA o SMS). Si ipotizza che questo insieme di file audio sia privo di caratterizzazione emotiva. Lo stesso parlatore, ha inoltre registrato un database di file audio cercando di fornire ad essi una forte componente emotiva (l'emozione utilizzata in questo lavoro è la collera ). Da questi insiemi, tramite un processo di copy synthesis, si sono ottenuti due corpora perfettamente allineati per quanto riguarda durate, intonazione e fonemi pronunciati. Lo studio si è potuto quindi focalizzare sulla modellizzazione delle sole differenze provocate al segnale dall'emozione presente. Lo spazio acustico del segnale sintetizzato è stato diviso in classi omogenee e, ad ognuna, è stata associata una diversa funzione di trasformazione. Il nostro metodo è, quindi, costituito da 34 funzioni, specializzate per ogni fonema. In Tabella 1 sono elencati le differenze progettuali che differenziano i segnali analizzati nel progetto.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2006
			
	Strutture organizzative
	
				Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
			
	Codice ISBN
	
				978-88-95112-69-5
			
	Parole chiave
	
				Emozioni
Conversione
TTS
Sintesi della voce
			
	Appare nelle tipologie:
	
				04.01 Contributo in Atti di convegno

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/58640

Citazioni

ND

ND

ND

social impact