Poiché nella comunicazione orale facciaa-faccia il segnale verbale viene trasmesso contemporaneamente ad altre informazioni su più canali, in particolare ad informazioni visive, tra le tecnologie del parlato si stanno sempre più imponendo all'attenzione dei ricercatori la sintesi e il riconoscimento bimodali uditivo-visivi. Infatti, sebbene la modalità uditiva rappresenti il canale sensoriale più importante nel processo di percezione del parlato, è stato ormai accertato, sulla base delle ricerche sullo speech-reading o lip-reading [1-3], che l'informazione estratta dai movimenti articolatori visibili (movimento delle labbra, della mandibola, della lingua e visibilità dei denti), consente di migliorarne l'intelligibilità soprattutto quando il segnale acustico risulta degradato dalla presenza di rumore [4-6] oppure quando le capacità percettive dell'ascoltatore siano state danneggiate da patologie dell'udito. Questo successo della percezione bimodale nell'identificazione delle unità fonologiche segmentali e quindi delle uscite lessicali si basa, intuitivamente, sul sinergismo tra le informazioni uditive e visive relative ad uno stesso fonema, in quanto prodotti sensoriali della realizzazione fonetica di uno stesso intento fonologico e collegati tra loro dalla relazione causale esistente tra movimenti articolatori e segnale acustico risultante. Grazie a tale sinergismo risulta raccomandabile l'applicazione sistemi di sintesi e riconoscimento bimodali in vari tipi di interazione uomo-macchina per soggetti normali e patologici. La sintesi audiovisiva può rendere infatti più naturale, robusto e amichevole l'accesso a tutti i tipi di banche-dati, dalla lettura di notiziari all'e-commerce, dalla didattica (insegnamento della lingua materna e di lingue straniere) alla pratica clinica e logopedica per la valutazione e riabilitazione dei soggetti ipoacusici e può essere utilizzata nella videotelefonia, nelle teleconferenze, nell'industria cinematografica e televisiva (cartoni animati, videogiochi, doppiaggio, "sottotitolatura" di messaggi in LIS, Lingua Italiana dei Segni, creazione di Attori Virtuali, ecc). Anche per i sistemi di riconoscimento automatico l'approccio bimodale fa prevedere notevoli vantaggi soprattutto qualora la decodificazione del parlato debba avvenire in ambiente rumoroso, come avviene in tutte le applicazioni reali del riconoscimento vocale, o in condiz

LIAV (lessico dell' italiano audiovisivo): corpus lessicale audiovisivo per l'analisi, la sintesi e il riconoscimento bimodali dell'italiano parlato

Cosi P
2002

Abstract

Poiché nella comunicazione orale facciaa-faccia il segnale verbale viene trasmesso contemporaneamente ad altre informazioni su più canali, in particolare ad informazioni visive, tra le tecnologie del parlato si stanno sempre più imponendo all'attenzione dei ricercatori la sintesi e il riconoscimento bimodali uditivo-visivi. Infatti, sebbene la modalità uditiva rappresenti il canale sensoriale più importante nel processo di percezione del parlato, è stato ormai accertato, sulla base delle ricerche sullo speech-reading o lip-reading [1-3], che l'informazione estratta dai movimenti articolatori visibili (movimento delle labbra, della mandibola, della lingua e visibilità dei denti), consente di migliorarne l'intelligibilità soprattutto quando il segnale acustico risulta degradato dalla presenza di rumore [4-6] oppure quando le capacità percettive dell'ascoltatore siano state danneggiate da patologie dell'udito. Questo successo della percezione bimodale nell'identificazione delle unità fonologiche segmentali e quindi delle uscite lessicali si basa, intuitivamente, sul sinergismo tra le informazioni uditive e visive relative ad uno stesso fonema, in quanto prodotti sensoriali della realizzazione fonetica di uno stesso intento fonologico e collegati tra loro dalla relazione causale esistente tra movimenti articolatori e segnale acustico risultante. Grazie a tale sinergismo risulta raccomandabile l'applicazione sistemi di sintesi e riconoscimento bimodali in vari tipi di interazione uomo-macchina per soggetti normali e patologici. La sintesi audiovisiva può rendere infatti più naturale, robusto e amichevole l'accesso a tutti i tipi di banche-dati, dalla lettura di notiziari all'e-commerce, dalla didattica (insegnamento della lingua materna e di lingue straniere) alla pratica clinica e logopedica per la valutazione e riabilitazione dei soggetti ipoacusici e può essere utilizzata nella videotelefonia, nelle teleconferenze, nell'industria cinematografica e televisiva (cartoni animati, videogiochi, doppiaggio, "sottotitolatura" di messaggi in LIS, Lingua Italiana dei Segni, creazione di Attori Virtuali, ecc). Anche per i sistemi di riconoscimento automatico l'approccio bimodale fa prevedere notevoli vantaggi soprattutto qualora la decodificazione del parlato debba avvenire in ambiente rumoroso, come avviene in tutte le applicazioni reali del riconoscimento vocale, o in condiz
2002
Istituto di Scienze e Tecnologie della Cognizione - ISTC
Istituto di Scienze e Tecnologie della Cognizione - ISTC
lessico
italiano audiovisivo
corpus
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/18345
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact