CNR Institutional Research Information System

In questo lavoro, viene descritto l'adattamento all'italiano del nuovo sistema di ricono-scimento automatico (ASR - Automatic Speech Recognition) di recente sviluppo denomi-nato Kaldi, assieme ai risultati ottenuti su alcuni esperimenti di riconoscimento effettuati su due corpus rispettivamente di voci adulte e infantili. Kaldi, è un toolkit open source gratuito per la ricerca sul riconoscimento automatico del segnale verbale distribuito con licenza "Apache License v2.0". Kaldi fornisce un sistema di riconoscimento vocale basato sui trasduttori a stati finiti (FSTs - Finite State Transducers) (utilizzando il software OpenFST liberamente disponibile), assieme ad una documentazio-ne dettagliata e a vari script per la costruzione di sistemi di riconoscimento completi. Kaldi è scritto è C++, e la biblioteca centrale supporta la modellazione di contesti fonetici di dimensione arbitraria, la modellazione acustica con modelli subspaziali a miscela di gaussiane (SGMMs), nonché modelli a mistura di gaussiane standard, assieme a tutte le trasformazioni affini e lineari di uso comune. Kaldi è rilasciato sotto la licenza Apache v2.0, che è sicuramente fra le più non restrittive, che lo rende adatto per una vasta comunità di utenti.

In this paper, the KALDI ASR engine adapted to Italian is described and the results obtained so far on some children speech ASR experiments are reported. We give a brief overview of KALDI, we describe in detail its DNN implementation, we introduce the acoustic model (AM) training procedure and we end describing some ASR experiments on Italian children speech together with the final test procedures.

Kaldi: Yet Another Asr Toolkit? Experiments on Italian Children Speech

Piero Cosi;Giulio Paci;Giacomo Sommavilla;Fabio Tesser

2016

Abstract

In this paper, the KALDI ASR engine adapted to Italian is described and the results obtained so far on some children speech ASR experiments are reported. We give a brief overview of KALDI, we describe in detail its DNN implementation, we introduce the acoustic model (AM) training procedure and we end describing some ASR experiments on Italian children speech together with the final test procedures.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2016
			
	Strutture organizzative
	
				Istituto di Scienze e Tecnologie della Cognizione - ISTC
			
	Codice ISBN
	
				978-88-97657-11-8
			
	Breve descrizione dei contenuti (Abstract)
	
				In questo lavoro, viene descritto l'adattamento all'italiano del nuovo sistema di ricono-scimento automatico (ASR - Automatic Speech Recognition) di recente sviluppo denomi-nato Kaldi, assieme ai risultati ottenuti su alcuni esperimenti di riconoscimento effettuati su due corpus rispettivamente di voci adulte e infantili.
Kaldi, è un toolkit open source gratuito per la ricerca sul riconoscimento automatico del segnale verbale distribuito con licenza "Apache License v2.0". Kaldi fornisce un sistema di riconoscimento vocale basato sui trasduttori a stati finiti (FSTs - Finite State Transducers) (utilizzando il software OpenFST liberamente disponibile), assieme ad una documentazio-ne dettagliata e a vari script per la costruzione di sistemi di riconoscimento completi. Kaldi è scritto è C++, e la biblioteca centrale supporta la modellazione di contesti fonetici di dimensione arbitraria, la modellazione acustica con modelli subspaziali a miscela di gaussiane (SGMMs), nonché modelli a mistura di gaussiane standard, assieme a tutte le trasformazioni affini e lineari di uso comune.  Kaldi è rilasciato sotto la licenza Apache v2.0, che è sicuramente fra le più non restrittive, che lo rende adatto per una vasta comunità di utenti.
			
	Parole chiave
	
				KALDI
ASR
TOOLKIT
			
	Appare nelle tipologie:
	
				02.01 Contributo in volume (Capitolo o Saggio)

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/329432

Citazioni

ND

ND

ND

social impact