Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (www.pd.istc.cnr.it/interface) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: oEstrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. oOttenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. oCreare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: oDati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. oDati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. oDati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. oDati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.

Interface: Strumenti interattivi per l'animazione delle teste parlanti

Graziano Tisato;Piero Cosi;Fabio Tesser
2005

Abstract

Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (www.pd.istc.cnr.it/interface) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: oEstrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. oOttenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. oCreare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: oDati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. oDati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. oDati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. oDati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.
2005
Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
Italiano
Inglese
Cosi P.
AISV 2004 - Atti del 1° Convegno Nazionale dell’'Associazione Italiana di Scienze della Voce (AISV), " Misura di parametri - aspetti tecnologici ed implicazioni nei modelli linguistici"
817
846
29
88-88974-69-5
http://www.aisv.it/AISV2004/default.htm
Sì, ma tipo non specificato
Facial Animation
TTS
Motion Capture
Interactive Tools
Tisato G., Fusaro A., Cosi P., Drioli C., Tesser F. "INTERFACE: strumenti interattivi per l'animazione delle facce parlanti" in Cosi P. (editor) Abstract Book & CD-Rom Proceedings of AISV 2004, 1st Conference of Associazione Italiana di Scienze della Voce Padova, Italy December 2-4, 2004 EDK Editore s.r.l. Padova, 2005 pp. 817-846 (91) http://www2.pd.istc.cnr.it/Papers/PieroCosi/tg-AISV2004.pdf AISV 2004 - 1° Convegno Nazionale dell’'Associazione Italiana di Scienze della Voce (AISV), " Misura di parametri - aspetti tecnologici ed implicazioni nei modelli linguistici" http://www.aisv.it/it/convegni-aisv?start=8 http://www.aisv.it/AISV2004/default.htm
3
02 Contributo in Volume::02.01 Contributo in volume (Capitolo o Saggio)
268
none
Graziano Tisato; Piero Cosi; Carlo Drioli; Fabio Tesser
info:eu-repo/semantics/bookPart
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/140079
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact