Lo scopo di molti Riconoscitori Automatici del Parlato è quello di creare un "modello percettivo" del sistema uditivo umano, ossia un emulatore che cerca di gestire l'enorme variabilità del parlato spontaneo e di farci intuire come gli esseri umani riescano ad operare un riconoscimento resistente al rumore ambientale di sottofondo. Altri ASR, invece, si indirizzano unicamente al parlato dettato, in un ambiente con un basso, o ben definito, livello di rumore. I problemi che un sistema del primo tipo si trova ad affrontare sono molto complessi e a tutt'oggi non si può parlare di soluzioni robuste neanche per i casi più semplici. Tra gli sforzi operati nella creazione di un modello percettivo sono da evidenziare due fondamentali approcci: in alcuni casi una parola è riconosciuta a partire dai foni costituenti, in altri a partire dalle sillabe, ma entrambe le metodologie non hanno raggiunto le prestazioni di un essere umano. In questo panorama ci sono pochi riferimenti, invece, ad una visione differente del problema che focalizzi il riconoscimento di segmenti di segnale su più livelli linguistici e non su uno solo. Un sistema del genere dovrebbe sfruttare le caratteristiche degli approcci descritti sopra, allo scopo di ottenere un ASR con prestazioni più alte. Questa idea ha radici in esperimenti percettivi su soggetti umani (Greenberg, 1996) e le poche implementazioni sembrano confermarla (Wu 1998). Sebbene i dettagli delle implementazioni pratiche differiscano tra loro, la metodologia adoperata nella costruzione di un ASR è quasi sempre la stessa: innanzitutto il segnale vocale in ingresso viene suddiviso in porzioni proporzionali all'entità linguistica in esame (ad esempio circa 250 ms nel caso delle sillabe), allo scopo di generare dei vettori numerici (features) legati ad alcune caratteristiche fondamentali e discriminanti dell'entità. Questi vengono successivamente riconosciuti come appartenenti ad una "classe" di unità grammaticali da un sistema specifico (ad esempio una Rete Neurale o un HMM); un ultimo blocco si occupa poi di ricostruire le parole a partire dalle classificazioni ottenute, servendosi di una grammatica e di un modello di pronuncia. La separazione tra prestazioni umane e artificiali ha un'enorme varietà di cause, alcune delle quali ignote, altre dipendenti da un'evidente carenza, da parte degli ASR, nel mantenere costanti le prestazioni anche in presenza di interferenze ambientali, al cambiare del parlante e della frequenza di campionamento del segnale in ingresso. E' in questo ambito che si colloca l'importanza di avere una buona codifica del segnale, in quanto è intuibile che se l'informazione ricavata da quest'ultima prescindesse dalle alterazioni elencate, anche il riconoscimento risulterebbe più "robusto". La tecnica del Modulation Spectrogram (Greenberg 1997), descritta in questa sede, si indirizza proprio alla ricerca di una forma di informazione il più possibile indipendente dal riverbero e per far questo si rivolge a segmenti di segnale di lunghezza dell'ordine di una sillaba (circa 250 ms). Esperimenti percettivi mirati (Massaro, 1970) hanno confermato l'idea che questa entità linguistica sia meglio riconoscibile di un fono in presenza di interferenza ambientale, dunque è auspicabile che possa esistere un metodo per estrarre l'informazione che la rende tanto "resistente". In questo articolo tratterò l'argomento partendo da una riflessione sull'importanza delle lente variazioni del parlato, per proseguire con la descrizione della tecnica del Modulation Spectrogam; mostrerò poi come questa possa essere adoperata nell'ambito della classificazione automatica delle sillabe ed in un ASR ad approccio sillabico.
Il Modulation Spectrogram nel Riconoscimento Automatico del Parlato
Gianpaolo Coro
2005
Abstract
Lo scopo di molti Riconoscitori Automatici del Parlato è quello di creare un "modello percettivo" del sistema uditivo umano, ossia un emulatore che cerca di gestire l'enorme variabilità del parlato spontaneo e di farci intuire come gli esseri umani riescano ad operare un riconoscimento resistente al rumore ambientale di sottofondo. Altri ASR, invece, si indirizzano unicamente al parlato dettato, in un ambiente con un basso, o ben definito, livello di rumore. I problemi che un sistema del primo tipo si trova ad affrontare sono molto complessi e a tutt'oggi non si può parlare di soluzioni robuste neanche per i casi più semplici. Tra gli sforzi operati nella creazione di un modello percettivo sono da evidenziare due fondamentali approcci: in alcuni casi una parola è riconosciuta a partire dai foni costituenti, in altri a partire dalle sillabe, ma entrambe le metodologie non hanno raggiunto le prestazioni di un essere umano. In questo panorama ci sono pochi riferimenti, invece, ad una visione differente del problema che focalizzi il riconoscimento di segmenti di segnale su più livelli linguistici e non su uno solo. Un sistema del genere dovrebbe sfruttare le caratteristiche degli approcci descritti sopra, allo scopo di ottenere un ASR con prestazioni più alte. Questa idea ha radici in esperimenti percettivi su soggetti umani (Greenberg, 1996) e le poche implementazioni sembrano confermarla (Wu 1998). Sebbene i dettagli delle implementazioni pratiche differiscano tra loro, la metodologia adoperata nella costruzione di un ASR è quasi sempre la stessa: innanzitutto il segnale vocale in ingresso viene suddiviso in porzioni proporzionali all'entità linguistica in esame (ad esempio circa 250 ms nel caso delle sillabe), allo scopo di generare dei vettori numerici (features) legati ad alcune caratteristiche fondamentali e discriminanti dell'entità. Questi vengono successivamente riconosciuti come appartenenti ad una "classe" di unità grammaticali da un sistema specifico (ad esempio una Rete Neurale o un HMM); un ultimo blocco si occupa poi di ricostruire le parole a partire dalle classificazioni ottenute, servendosi di una grammatica e di un modello di pronuncia. La separazione tra prestazioni umane e artificiali ha un'enorme varietà di cause, alcune delle quali ignote, altre dipendenti da un'evidente carenza, da parte degli ASR, nel mantenere costanti le prestazioni anche in presenza di interferenze ambientali, al cambiare del parlante e della frequenza di campionamento del segnale in ingresso. E' in questo ambito che si colloca l'importanza di avere una buona codifica del segnale, in quanto è intuibile che se l'informazione ricavata da quest'ultima prescindesse dalle alterazioni elencate, anche il riconoscimento risulterebbe più "robusto". La tecnica del Modulation Spectrogram (Greenberg 1997), descritta in questa sede, si indirizza proprio alla ricerca di una forma di informazione il più possibile indipendente dal riverbero e per far questo si rivolge a segmenti di segnale di lunghezza dell'ordine di una sillaba (circa 250 ms). Esperimenti percettivi mirati (Massaro, 1970) hanno confermato l'idea che questa entità linguistica sia meglio riconoscibile di un fono in presenza di interferenza ambientale, dunque è auspicabile che possa esistere un metodo per estrarre l'informazione che la rende tanto "resistente". In questo articolo tratterò l'argomento partendo da una riflessione sull'importanza delle lente variazioni del parlato, per proseguire con la descrizione della tecnica del Modulation Spectrogam; mostrerò poi come questa possa essere adoperata nell'ambito della classificazione automatica delle sillabe ed in un ASR ad approccio sillabico.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


