CNR Institutional Research Information System

Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (www.pd.istc.cnr.it/interface) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: oEstrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. oOttenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. oCreare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: oDati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. oDati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. oDati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. oDati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.

Interface: Strumenti interattivi per l'animazione delle teste parlanti

Graziano Tisato;Piero Cosi;Carlo Drioli;Fabio Tesser

2005

Abstract

Gli sviluppi recenti della ricerca nel campo delle teorie sulla produzione e percezione della lingua parlata, così come nel campo tecnologico dell'interazione uomo-macchina (riconoscimento della voce, sintesi di agenti conversazionali, insegnamento delle lingue, riabilitazione della voce, ecc.) richiedono l'acquisizione e l'elaborazione di grandi quantità di dati articolatori ed acustici. È noto, infatti, che questi dati si differenziano da lingua a lingua per la dimensione e la struttura dell'inventario fonologico. D'altra parte, la richiesta di questo tipo di dati è aumentata negli ultimi anni con il crescente interesse manifestato dalla comunità scientifica nel campo delle emozioni. Questo articolo presenta InterFace, un ambiente interattivo realizzato all'ISTC-SPFD (www.pd.istc.cnr.it/interface) con lo scopo di facilitare tutte le fasi di analisi, elaborazione, e sintesi dei dati necessari all'animazione audio-visuale delle Teste Parlanti. InterFace permette di raggiungere tre principali finalità: oEstrarre dai dati acquisiti un insieme di misure su parametri articolatori (ad es. apertura labiale, arrotondamento, protrusione, aggrottamento, asimmetrie labiali, ecc.), espressamente definiti dall'utente, e riguardanti tanto l'ambito tradizionale della fonetica che quello più recente delle emozioni. oOttenere da quegli stessi dati una modellizzazione parametrica dell'evoluzione dei parametri fonetici, che tenga in debito conto i fenomeni di coarticolazione, e che possa essere impiegato nei motori di animazione delle Teste Parlanti. oCreare da varie fonti il flusso dei dati audio-visuali necessari all'animazione di un agente conversazionale, capace di esprimere emozioni. Il sistema può maneggiare quattro differenti tipi di dati in ingresso: oDati reali, acquisiti da sistemi di cattura degli andamenti cinematici dell'articolazione facciale. L'elaborazione di questi dati permette di realizzare una tipica Data-Driven Synthesis. oDati testuali, da cui generare il flusso di dati audio-video di controllo dell'animazione facciale. Seguendo questo via, si ottiene una Text-to-Animation Synthesis, ovverosia una Symbolic-Driven Synthesis. oDati audio, da cui ricavare la segmentazione fonetica con un sistema di riconoscimento automatico e ottenere in questo modo la sequenza dei fonemi necessari ad una animazione sincrona con l'audio. Questo procedimento può essere chiamato una Wav-to-Animation Synthesis. oDati a basso livello, per controllare manualmente il movimento di uno o più parametri di animazione e verificarne l'effetto con la sintesi video. Quest'ultimo procedimento si può definire come una Manual-Driven Synthesis.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2005
			
	Strutture organizzative
	
				Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
			
	Lingua/e
	
				Italiano
Inglese
			
	Supervisori e coordinatori esterni
	
				Cosi P.
			
	Titolo del Volume
	
				AISV 2004 - Atti del 1° Convegno Nazionale dell’'Associazione Italiana di Scienze della Voce (AISV), " Misura di parametri - aspetti tecnologici ed implicazioni nei modelli linguistici"
			
	Da pagina
	
				817
			
	A pagina
	
				846
			
	Numero di pagine
	
				29
			
	Codice ISBN
	
				88-88974-69-5
			
	URL
	
				http://www.aisv.it/AISV2004/default.htm
			
	Referee
	
				Sì, ma tipo non specificato
			
	Parole chiave
	
				Facial Animation
TTS
Motion Capture
Interactive Tools
			
	Altre informazioni
	
				Tisato G., Fusaro A., Cosi P., Drioli C., Tesser F.
"INTERFACE: strumenti interattivi per l'animazione delle facce parlanti"
in Cosi P. (editor)
Abstract Book &  CD-Rom Proceedings of AISV 2004, 1st Conference of Associazione Italiana di Scienze della Voce
Padova, Italy
December 2-4, 2004
EDK Editore s.r.l.
Padova, 2005
pp. 817-846 (91)

http://www2.pd.istc.cnr.it/Papers/PieroCosi/tg-AISV2004.pdf

AISV 2004 - 1° Convegno Nazionale dell’'Associazione Italiana di Scienze della Voce (AISV), " Misura di parametri - aspetti tecnologici ed implicazioni nei modelli linguistici"
http://www.aisv.it/it/convegni-aisv?start=8
http://www.aisv.it/AISV2004/default.htm
			
	Numero autori
	
				3
			
	Tipologia
	
				02 Contributo in Volume::02.01 Contributo in volume (Capitolo o Saggio)
			
	Tipologia Login Miur
	
				268
			
	Fulltext
	
				none
			
	Tutti gli autori
	
						Graziano Tisato; Piero Cosi; Carlo Drioli; Fabio Tesser
					
	Tipologia
	
				info:eu-repo/semantics/bookPart
			
	Appare nelle tipologie:
	
				02.01 Contributo in volume (Capitolo o Saggio)

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/140079

Citazioni

ND

ND

ND

social impact