Per controllare automaticamente una faccia sintetica parlante, si sono recentemente imposti all'attenzione dei ricercatori i metodi basati sulla sintesi audiovisiva comandata direttamente da testo scritto, in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS - Text-To-Speech synthesis) e l'informazione fonetica estratta dal testo viene utilizzata per definire i corrispondenti movimenti articolatori. Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione del segnale verbale ("coarticolazione"). In questo lavoro, viene illustrata una versione modificata del modello di coarticolazione proposto da Cohen e Massaro dove le caratteristiche dinamiche del modello sono state individuate mediante una tecnica semi-sutomatica di minimizzazione basata sui dati cinematici reali di specifici movimenti articolatori al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione del segnale verbale. Il modello è stato applicato con successo a GRETA e, più recentemente, a LUCIA, due facce parlanti in italiano, di cui vengono illustrate le principali caratteristiche.
Greta e Lucia: due realistiche facce parlanti animate mediante un nuovo modello di coarticolazione
Cosi P;Tisato G;Zmarich C
2003
Abstract
Per controllare automaticamente una faccia sintetica parlante, si sono recentemente imposti all'attenzione dei ricercatori i metodi basati sulla sintesi audiovisiva comandata direttamente da testo scritto, in cui il segnale acustico viene generato da un sistema di sintesi vocale (TTS - Text-To-Speech synthesis) e l'informazione fonetica estratta dal testo viene utilizzata per definire i corrispondenti movimenti articolatori. Per la generazione di facce parlanti naturali, espressive e realistiche è necessario riprodurre fedelmente la variabilità contestuale dovuta alla reciproca influenza dei movimenti articolatori durante la produzione del segnale verbale ("coarticolazione"). In questo lavoro, viene illustrata una versione modificata del modello di coarticolazione proposto da Cohen e Massaro dove le caratteristiche dinamiche del modello sono state individuate mediante una tecnica semi-sutomatica di minimizzazione basata sui dati cinematici reali di specifici movimenti articolatori al fine di riprodurre più fedelmente i reali movimenti labiali coinvolti nella produzione del segnale verbale. Il modello è stato applicato con successo a GRETA e, più recentemente, a LUCIA, due facce parlanti in italiano, di cui vengono illustrate le principali caratteristiche.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.