fondamentali a seconda se si stia considerando il caso di applicazioni per accedere a servizi, oppure se si stia considerando il caso di decidere, in tempi e modalità non vincolate, se due campioni di voce appartengano o no allo stesso parlante. Questo ultimo caso è quello tipico del forense ed è quello di nostro interesse. Tecniche statistiche specifiche sono state sviluppate per l'adempimento di tale compito, e queste sono basate sull' analisi dei valori formatici delle vocali. Una serie di esperimenti, in pratica dei casi reali, sono stati eseguiti da decenni in diversi Istituti, ma sempre attraverso la mediazione di un operato esperto che localizzava le vocali da "utilizzare" nel test statistico. Il presente lavoro vuole proporre una metodologia automatica che sostituisca questa fase manuale del lavoro, e a tal fine si propone un metodo basato su procedure simili a quelle operate manualmente e guidate, nella fase di addestramento del sistema, da una base dati realizzata da operatori esperti. L'esperimento è eseguito su materiale telefonico, o su materiale convertito a qualità telefonica, che costituisce un riferimento realistico dello scenario operativo. Tuttavia, poiché non è pensabile che un sistema automatico sia in grado di individuare le stesse vocali che localizza un esperto, anche perché ricordiamo che l'operatore non ha l'obiettivo di trovare tutte le vocali utilizzabili ma solo un insieme "sufficiente", dovranno essere utilizzate delle opportune metriche di misura delle prestazioni. Il sistema proposto è composto da una serie di moduli che operano in modo sequenziale sul segnale vocale. Più in dettaglio, un primo blocco opera una sillabazione del segnale vocale alla ricerca di zone fortemente energetiche che contengano almeno una vocale, un secondo processo individua una o più zone vocaliche prominenti in ciascuna sillaba, mediante un'analisi dell'andamento del pitch e dell'energia. Una fase successiva si occupa del riconoscimento delle zone individuate, sulla base di un filtraggio secondo un banco di filtri legati ad un modello percettivo del suono, e ad un'estrazione successiva di coefficienti cepstrali (MFCC). Per ogni segmento vocalico riconosciuto viene operata una stima automatica dei valori delle formanti, che, insieme alle etichette, vengono utilizzati in una successiva fase di identificazione del parlante. Questa ultima tipicamente conduce l'elaborazione mettendo a confronto i risultati ottenuti dall'analisi di un segnale contenente una voce non identificata e di un insieme di registrazioni di voci note, e fornisce in uscita una stima della verosimiglianza tra i segnali noti e quello anonimo.

Un sistema automatico per la localizzazione delle zone formantiche nella Identificazione del Parlante

Gianpaolo Coro;
2006

Abstract

fondamentali a seconda se si stia considerando il caso di applicazioni per accedere a servizi, oppure se si stia considerando il caso di decidere, in tempi e modalità non vincolate, se due campioni di voce appartengano o no allo stesso parlante. Questo ultimo caso è quello tipico del forense ed è quello di nostro interesse. Tecniche statistiche specifiche sono state sviluppate per l'adempimento di tale compito, e queste sono basate sull' analisi dei valori formatici delle vocali. Una serie di esperimenti, in pratica dei casi reali, sono stati eseguiti da decenni in diversi Istituti, ma sempre attraverso la mediazione di un operato esperto che localizzava le vocali da "utilizzare" nel test statistico. Il presente lavoro vuole proporre una metodologia automatica che sostituisca questa fase manuale del lavoro, e a tal fine si propone un metodo basato su procedure simili a quelle operate manualmente e guidate, nella fase di addestramento del sistema, da una base dati realizzata da operatori esperti. L'esperimento è eseguito su materiale telefonico, o su materiale convertito a qualità telefonica, che costituisce un riferimento realistico dello scenario operativo. Tuttavia, poiché non è pensabile che un sistema automatico sia in grado di individuare le stesse vocali che localizza un esperto, anche perché ricordiamo che l'operatore non ha l'obiettivo di trovare tutte le vocali utilizzabili ma solo un insieme "sufficiente", dovranno essere utilizzate delle opportune metriche di misura delle prestazioni. Il sistema proposto è composto da una serie di moduli che operano in modo sequenziale sul segnale vocale. Più in dettaglio, un primo blocco opera una sillabazione del segnale vocale alla ricerca di zone fortemente energetiche che contengano almeno una vocale, un secondo processo individua una o più zone vocaliche prominenti in ciascuna sillaba, mediante un'analisi dell'andamento del pitch e dell'energia. Una fase successiva si occupa del riconoscimento delle zone individuate, sulla base di un filtraggio secondo un banco di filtri legati ad un modello percettivo del suono, e ad un'estrazione successiva di coefficienti cepstrali (MFCC). Per ogni segmento vocalico riconosciuto viene operata una stima automatica dei valori delle formanti, che, insieme alle etichette, vengono utilizzati in una successiva fase di identificazione del parlante. Questa ultima tipicamente conduce l'elaborazione mettendo a confronto i risultati ottenuti dall'analisi di un segnale contenente una voce non identificata e di un insieme di registrazioni di voci note, e fornisce in uscita una stima della verosimiglianza tra i segnali noti e quello anonimo.
2006
88-95112-21-0
Speech Recognition
Automatic Speech Recognition
Speech
Parlato
Riconoscimento Automatico del Parlato
Identificazione del Parlatore
Speaker Identification
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/254112
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact