Per controllare automaticamente una faccia sintetica parlante, si sono recentemente imposti all'attenzione dei ricercatori i metodi basati sulla sintesi audiovisiva comandata direttamente da testo scritto, in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS - Text-To-Speech synthesis) e l'informazione fonetica estratta dal testo viene utilizzata per definire i corrispondenti movimenti articolatori. Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione del segnale verbale ("coarticolazione"). In questo lavoro, viene illustrata una versione modificata del modello di coarticolazione proposto da Cohen e Massaro dove le caratteristiche dinamiche del modello sono state individuate mediante una tecnica semi-sutomatica di minimizzazione basata sui dati cinematici reali di specifici movimenti articolatori al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione del segnale verbale. Il modello è stato applicato con successo a GRETA e, più recentemente, a LUCIA, due facce parlanti in italiano, di cui vengono illustrate le principali caratteristiche.

Greta e Lucia: due realistiche facce parlanti animate mediante un nuovo modello di coarticolazione

Cosi P;Tisato G;Zmarich C
2003

Abstract

Per controllare automaticamente una faccia sintetica parlante, si sono recentemente imposti all'attenzione dei ricercatori i metodi basati sulla sintesi audiovisiva comandata direttamente da testo scritto, in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS - Text-To-Speech synthesis) e l'informazione fonetica estratta dal testo viene utilizzata per definire i corrispondenti movimenti articolatori. Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione del segnale verbale ("coarticolazione"). In questo lavoro, viene illustrata una versione modificata del modello di coarticolazione proposto da Cohen e Massaro dove le caratteristiche dinamiche del modello sono state individuate mediante una tecnica semi-sutomatica di minimizzazione basata sui dati cinematici reali di specifici movimenti articolatori al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione del segnale verbale. Il modello è stato applicato con successo a GRETA e, più recentemente, a LUCIA, due facce parlanti in italiano, di cui vengono illustrate le principali caratteristiche.
2003
Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
88-467-0869-5
facce parlanti
coarticolazione
sintesi bimodale del parlato
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/129627
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact