CNR Institutional Research Information System

In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.

Due tecniche di vocoding per la sintesi di parlato emotivo mediante trasformazione del timbro vocale

Tesser Fabio;Zovato Enrico;Nicolao Mauro;Cosi Piero

2011

Abstract

In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2011
			
	Strutture organizzative
	
				Istituto di Scienze e Tecnologie della Cognizione - ISTC
			
	Lingua/e
	
				Italiano
			
	Supervisori e coordinatori esterni
	
				B. Gili Fivela, A. Stella, L. Garrapa, M. Grimaldi
			
	Da pagina
	
				404
			
	A pagina
	
				413
			
	Codice ISBN
	
				978-88-7870-619-4
			
	Nome Editore
	
				Bulzoni
			
	Città Editore
	
				Roma
			
	Nazione Editore
	
				ITALIA
			
	Referee
	
				Sì, ma tipo non specificato
			
	Parole chiave
	
				Vocoding
TTS
Parlato Emotivo
			
	Altre informazioni
	
				ID_PUMA: /cnr.istc/2011-B2-002. - Area di valutazione 15a - Scienze e tecnologie per una società dell'informazione e della comunicazione
			
	Numero autori
	
				2
			
	Tipologia
	
				02 Contributo in Volume::02.01 Contributo in volume (Capitolo o Saggio)
			
	Tipologia Login Miur
	
				268
			
	Fulltext
	
				none
			
	Tutti gli autori
	
						Tesser, Fabio ; Zovato, Enrico ; Nicolao, Mauro ; Cosi, Piero
					
	Tipologia
	
				info:eu-repo/semantics/bookPart
			
	Identificativo progetto
	
	Titolo Progetto
	
									Adaptive Strategies for Sustainable Long-Term Social Interaction
								
	Acronimo
	
									ALIZ-E
								
	Finanziamento
	
									FP7
								
	N. Contratto
	
									248116
								
	Appare nelle tipologie:
	
				02.01 Contributo in volume (Capitolo o Saggio)

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/181891

Citazioni

ND

ND

ND

social impact