FESTIVAL in italiano è un sintetizzatore automatico della voce da testo scritto che parla italiano. FESTIVAL è basato sulla tecnica della concatenazione di unità vocali (difoni). L'architettura generale del sistema comprende un blocco di Moduli Linguistici responsabili dellanalisi testuale e linguistica del testo in ingresso e da un blocco di Moduli Fonetico-Acustici responsabili dell'analisi prosodica, intesa come determinazione dell'intonazione e della durata, e della generazione del segnale che consente, quale ultimo passo, di generare una forma d'onda a partire dalle informazioni linguistiche sopra specificate. Mediante i Moduli Linguistici la stringa in ingresso viene trascritta nella sua forma fonemica, o passando attraverso un lessico di riferimento o applicando le regole esplicite di accentazione, trascrizione e sillabificazione. Mediante i Moduli Fonetico-Acustici, a partire dalla stringa fonetica sin qui ottenuta sono selezionate le corrispondenti unità acustiche, i difoni, e per ognuna di esse è aggiunta l'informazione riguardante la durata e la frequenza fondamentale. Questi dati sono poi inviati al modulo di generazione vera e propria della forma donda che utilizza la sintesi LPC, eccitata dai residui ('Residual Excited Linear Prediction') o la sintesi MBROLA, che si basa sul corpus di difoni MBROLA per l'italiano.
FESTIVAL e MBROLA in italiano
P Cosi;F Tesser;
2005
Abstract
FESTIVAL in italiano è un sintetizzatore automatico della voce da testo scritto che parla italiano. FESTIVAL è basato sulla tecnica della concatenazione di unità vocali (difoni). L'architettura generale del sistema comprende un blocco di Moduli Linguistici responsabili dellanalisi testuale e linguistica del testo in ingresso e da un blocco di Moduli Fonetico-Acustici responsabili dell'analisi prosodica, intesa come determinazione dell'intonazione e della durata, e della generazione del segnale che consente, quale ultimo passo, di generare una forma d'onda a partire dalle informazioni linguistiche sopra specificate. Mediante i Moduli Linguistici la stringa in ingresso viene trascritta nella sua forma fonemica, o passando attraverso un lessico di riferimento o applicando le regole esplicite di accentazione, trascrizione e sillabificazione. Mediante i Moduli Fonetico-Acustici, a partire dalla stringa fonetica sin qui ottenuta sono selezionate le corrispondenti unità acustiche, i difoni, e per ognuna di esse è aggiunta l'informazione riguardante la durata e la frequenza fondamentale. Questi dati sono poi inviati al modulo di generazione vera e propria della forma donda che utilizza la sintesi LPC, eccitata dai residui ('Residual Excited Linear Prediction') o la sintesi MBROLA, che si basa sul corpus di difoni MBROLA per l'italiano.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.