Sviluppo di un sistema di keyword spotting per l indicizzazione automatica dei documenti audio

Tisato, Graziano; Cosi, Piero; Gagliardi, Isabella

L'applicazione del Keyword Spotting (KWS) presentata in questo lavoro rientra nel campo più generale dell'Information Retrieval (IR), e in quelli più specifici dello Spoken Document Retrieval (SDR), dell'Automatic Speech Recognition (ASR) e del Large Vocabulary Continous Speech Recognition (LVCSR). Il Keyword Spotting è sostanzialmente un processo di speech-to-text del tutto simile al riconoscimento del parlato, in questo caso limitato solo all'individuazione di determinate parole chiave all'interno di un flusso audio continuo. Il campo applicativo del KWS va dall'indicizzazione dei documenti audio, alla loro categorizzazione, ai sistemi di comando vocale, al rilevamento di particolari eventi, alla consultazione vocale delle basi dati, ad esempio per i motori di ricerca del Web, ecc. L'insieme delle applicazioni del KWS è anche sommariamente definito come Speech Analytics. In generale, il KWS può rappresentare un valido aiuto nell'interazione uomo-macchina, permettendo l'uso del linguaggio naturale nella comunicazione. Lo sviluppo e il miglioramento delle tecniche di riconoscimento del parlato e del KWS, assieme con la riduzione del tempo di elaborazione, sceso ormai al di sotto del tempo reale, ha esteso il campo applicativo dell'IR, in passato limitato ai documenti testuali, anche ai documenti audio. Per dare un'idea del progresso ottenuto, mentre nel 1997, con un database di addestramento di 150 ore di parlato, si riusciva ad ottenere un errore sul riconoscimento delle parole cercate del 22%, già nel 2004 con corpora molto più grossi si scendeva al 9-10%. La sfida attuale riguarda le tipologie di parlato che tradizionalmente ottengono i risultati peggiori, e cioè: oParlato rumoroso (telefonia, conferenze, ecc.). oParlato conversazionale. oVariabilità di stili e accento dei parlatori. Per quanto riguarda il Keyword Spotting, l'estrazione di determinate parole chiave può essere il primo passo di procedure di elaborazione tipiche dell'IR, che sono tradizionalmente basate sul testo, per ottenere le informazioni volute. In certe applicazioni, in effetti, può essere di maggior utilità estrarre la presenza di parole significative dal punto di vista semantico, piuttosto che ricavare l'intera sequenza del parlato, in modo da lanciare una azione appropriata. In questi casi, l'interesse è dato dalla velocità con cui si ottiene la risposta ad una interrogazione. Si tenga comunque presente che la velocità di elaborazione del KWS non è attualmente molto diversa da quella del riconoscimento del parlato continuo. Una obiezione a questo approccio potrebbe essere quella che gli ASR non sono infallibili e sfornano un gran numero di parole errate, che possono avere una qualche parentela fonetica con l'originale. Si potrebbe pensare che lo scambio di parole nel processo di Keyword Spotting possa pregiudicare il funzionamento di un sistema di IR, che dipende forzatamente dalla correttezza delle stesse. La scoperta, per certi versi sorprendente, fatta in questi ultimi anni è che l'influenza di questi errori sulle prestazioni complessive di un sistema di IR è molto limitata per la naturale ridondanza delle parole chiave relative ad un certo argomento. In effetti, è molto improbabile che tutte le occorrenze di una certa parola o dell'insieme delle parole chiave siano contemporaneamente scambiate con parole errate o semplicemente ignorate. Ad esempio, con una percentuale di parole errate (WER) che passi dallo 0% al 40%, l'efficacia del sistema IR nell'individuare un documento secondo certi criteri diminuisce solo del 10% [Ng, 2000], [Allan, 2002]: si veda, ad esempio, gli esperimenti fatti dal 1997 (TREC-6) al 2000 (TREC-9) dalla NIST Text REtrieval Conference (TREC) oppure nel 1998 dalla Topic Detection and Tracking (TDT). Questo spiega l'interesse che può rivestire l'utilizzo del Keyword Spotting nel campo dell' Information Retrieval. La relazione si articola in questi argomenti: oIntroduzione al Keyword Spotting (Cap. 2) oPossibili applicazioni (Cap. 3) oArchitetture implementate in questo lavoro e che si basano sull'azione contemporanea di due canali di riconoscimento (Cap. 4): oIl primo è un tipico ASR basato su un Modello Acustico (AM) e su un Modello Statistico del Linguaggio (LM). oIl secondo implementa una Grammatica a Stati Finiti (GSF), che non necessita della modellazione di un LM e permette la ricerca di una parola qualsiasi. oMisure di valutazione della performance di un sistema di WKS (Cap. 5). oLe caratteristiche dell'interfaccia grafico realizzato, per permettere la configurazione in una forma interattiva e rapida dei parametri dell'ASR utilizzato (Sonic - CSLR dell'Università del Colorado), la visualizzazione e la verifica immediata dei risultati della ricerca delle parole (Cap. 6). oLa valutazione dei risultati ottenuti, che nel caso del Keyword Spotting presenta un certo grado di complessità, dal momento che dipendono dai documenti scelti per il test e dalla velocità che si vuole imporre all'ASR. Sui test disponibili, i risultati della precisione delle parole riconosciute correttamente (60%) va giudicato con una certa indulgenza, considerando che si è utilizzato in questa prima fase del lavoro un Modello Acustico, speaker independent, ricavato da un corpus (APASCI) non conversazionale, e dunque non adatto ai documenti analizzati (Cap. 7-8). oLe prospettive future che prevedono fra l'altro l'addestramento di un Modello Acustico su parlato conversazionale, l'utilizzo di parser semantici, l'uso di tecniche di adattamento (Vocal Tract Length Normalization, Structured Maximum a Posterior Linear Regression, ecc.), dovrebbero contribuire a migliorare sensibilmente le prestazioni dell'ASR (Cap. 9).