Presentiamo qui una procedura automatica (RateEstimator) per il calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici a partire dal profilo energetico del segnale. La ricerca di nuclei sillabici a partire dall'individuazione dei picchi nel profilo dell'intensità del segnale da cui ricavare la misura dello speech rate rappresenta una tecnica già utilizzata in precedenti studi (De Jong & Wempe, 2009). Tuttavia, sebbene tale approccio risulti sufficientemente performante nella sua applicazione, la procedura richiede una certa prudenza nell'accettare i picchi di intensità come espressione dei nuclei sillabici. La ragione è prevalentemente connessa alla normale e diffusa presenza di picchi anomali nel segnale che spingono l'algoritmo di ricerca di nuclei sillabici a partire dall'intensità a rilevare soltanto i picchi di intensità più prominenti a discapito delle sillabe non accentate. Le prestazioni di algoritmi come quelli a cui si fa riferimento possono essere migliorate con l'introduzione di un modulo di Voice Activity Detection (VAD) che consente di attenuare alcune restrizioni senza incorrere nel rischio di introdurre artefatti come nuclei sillabici. Sebbene vi sia accordo sul fatto che l'individuazione dei picchi di prominenza sia di per sé sufficiente al calcolo dello speech rate, crediamo che lo sviluppo di un approccio in grado di rilevare sillabe secondarie senza che questo risulti affetto da rumore ed artefatti in genere presenti nel parlato possa darci l'opportunità di investigare a fondo strategie comunicative più complesse. L'approccio che di seguito presenteremo, utilizza un VAD tradizionale basato sul pitch associato all'Harmonic-Noise Ratio (HNR) per identificare i nuclei sillabici con l'aggiunta di un controllo sui salti di ottava (octave jumps) per tenere sotto controllo eventuali errori di inserimento. Abbiamo infine modellato una serie di artefatti causa principale sia di errori di introduzione che di elisione per essere in grado di rigettare o accettare correttamente candidati a nuclei sillabici. L'algoritmo presentato sarà testato su due corpora di riferimento, SPEECON (Siemund et alii, 2000) ed EURmotion (Galatà & Romito, 2010). I risultati conseguiti, comparati con quelli ottenuti dall'applicazione dell'algoritmo di De Jong & Wempe (2009) sugli stessi materiali, rivelano un sostanziale miglioramento e una maggiore affidabilità frutto delle procedure da noi adottate per il rilevamento dei nuclei sillabici con ricadute positive sul calcolo dello speech rate su grandi moli di parlato.

Calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici in base al profilo energetico del segnale

Galatà Vincenzo
2010

Abstract

Presentiamo qui una procedura automatica (RateEstimator) per il calcolo dello speech rate mediante un algoritmo di ricerca di nuclei sillabici a partire dal profilo energetico del segnale. La ricerca di nuclei sillabici a partire dall'individuazione dei picchi nel profilo dell'intensità del segnale da cui ricavare la misura dello speech rate rappresenta una tecnica già utilizzata in precedenti studi (De Jong & Wempe, 2009). Tuttavia, sebbene tale approccio risulti sufficientemente performante nella sua applicazione, la procedura richiede una certa prudenza nell'accettare i picchi di intensità come espressione dei nuclei sillabici. La ragione è prevalentemente connessa alla normale e diffusa presenza di picchi anomali nel segnale che spingono l'algoritmo di ricerca di nuclei sillabici a partire dall'intensità a rilevare soltanto i picchi di intensità più prominenti a discapito delle sillabe non accentate. Le prestazioni di algoritmi come quelli a cui si fa riferimento possono essere migliorate con l'introduzione di un modulo di Voice Activity Detection (VAD) che consente di attenuare alcune restrizioni senza incorrere nel rischio di introdurre artefatti come nuclei sillabici. Sebbene vi sia accordo sul fatto che l'individuazione dei picchi di prominenza sia di per sé sufficiente al calcolo dello speech rate, crediamo che lo sviluppo di un approccio in grado di rilevare sillabe secondarie senza che questo risulti affetto da rumore ed artefatti in genere presenti nel parlato possa darci l'opportunità di investigare a fondo strategie comunicative più complesse. L'approccio che di seguito presenteremo, utilizza un VAD tradizionale basato sul pitch associato all'Harmonic-Noise Ratio (HNR) per identificare i nuclei sillabici con l'aggiunta di un controllo sui salti di ottava (octave jumps) per tenere sotto controllo eventuali errori di inserimento. Abbiamo infine modellato una serie di artefatti causa principale sia di errori di introduzione che di elisione per essere in grado di rigettare o accettare correttamente candidati a nuclei sillabici. L'algoritmo presentato sarà testato su due corpora di riferimento, SPEECON (Siemund et alii, 2000) ed EURmotion (Galatà & Romito, 2010). I risultati conseguiti, comparati con quelli ottenuti dall'applicazione dell'algoritmo di De Jong & Wempe (2009) sugli stessi materiali, rivelano un sostanziale miglioramento e una maggiore affidabilità frutto delle procedure da noi adottate per il rilevamento dei nuclei sillabici con ricadute positive sul calcolo dello speech rate su grandi moli di parlato.
2010
978-88-6368-142-0
speech rate
calcolo automatico
profilo energetico segnale
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/415438
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact