In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.
Due tecniche di vocoding per la sintesi di parlato emotivo mediante trasformazione del timbro vocale
Tesser Fabio;Cosi Piero
2011
Abstract
In questo articolo vengono descritte due tecniche di modifica del timbro vocale utilizzate in un esperimento di trasformazione della voce con l'obiettivo di riprodurre alcune caratteristiche del parlato emotivo. Il segnale vocale emesso da un parlatore con stile di lettura neutro viene convertito in modo da riprodurre l'inviluppo spettrale utilizzato dallo stesso parlatore in una situazione emotiva non neutra. La funzione di conversione tra gli inviluppi spettrali è calcolata utilizzando un metodo ricavato con un addestramento su dati reali. Per questo motivo è stato preso in considerazione un database contenente la voce di un parlatore registrato durante la lettura/recitazione di un corpus di testi con diversi stili emozionali: allegro, triste e uno stile neutro di riferimento. Le due tecniche di generazione della forma d'onda (vocoding) prese in considerazione sono il Phase Vocoder e il filtro MLSA (Mel Log Spectrum Approximation). I due prototipi implementati sono stati valutati con test di tipo percettivo, mentre valutazioni oggettive hanno convalidato l'efficacia della funzione di conversione.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.