FESTIVAL in italiano è un sintetizzatore automatico della voce da testo scritto che parla italiano. FESTIVAL è basato sulla tecnica della concatenazione di unità vocali (difoni). L'architettura generale del sistema comprende un blocco di Moduli Linguistici responsabili dell’analisi testuale e linguistica del testo in ingresso e da un blocco di Moduli Fonetico-Acustici responsabili dell'analisi prosodica, intesa come determinazione dell'intonazione e della durata, e della generazione del segnale che consente, quale ultimo passo, di generare una forma d'onda a partire dalle informazioni linguistiche sopra specificate. Mediante i Moduli Linguistici la stringa in ingresso viene trascritta nella sua forma fonemica, o passando attraverso un lessico di riferimento o applicando le regole esplicite di accentazione, trascrizione e sillabificazione. Mediante i Moduli Fonetico-Acustici, a partire dalla stringa fonetica sin qui ottenuta sono selezionate le corrispondenti unità acustiche, i difoni, e per ognuna di esse è aggiunta l'informazione riguardante la durata e la frequenza fondamentale. Questi dati sono poi inviati al modulo di generazione vera e propria della forma d’onda che utilizza la sintesi LPC, eccitata dai residui ('Residual Excited Linear Prediction') o la sintesi MBROLA, che si basa sul corpus di difoni MBROLA per l'italiano.

FESTIVAL e MBROLA in italiano

P Cosi;F Tesser;
2005

Abstract

FESTIVAL in italiano è un sintetizzatore automatico della voce da testo scritto che parla italiano. FESTIVAL è basato sulla tecnica della concatenazione di unità vocali (difoni). L'architettura generale del sistema comprende un blocco di Moduli Linguistici responsabili dell’analisi testuale e linguistica del testo in ingresso e da un blocco di Moduli Fonetico-Acustici responsabili dell'analisi prosodica, intesa come determinazione dell'intonazione e della durata, e della generazione del segnale che consente, quale ultimo passo, di generare una forma d'onda a partire dalle informazioni linguistiche sopra specificate. Mediante i Moduli Linguistici la stringa in ingresso viene trascritta nella sua forma fonemica, o passando attraverso un lessico di riferimento o applicando le regole esplicite di accentazione, trascrizione e sillabificazione. Mediante i Moduli Fonetico-Acustici, a partire dalla stringa fonetica sin qui ottenuta sono selezionate le corrispondenti unità acustiche, i difoni, e per ognuna di esse è aggiunta l'informazione riguardante la durata e la frequenza fondamentale. Questi dati sono poi inviati al modulo di generazione vera e propria della forma d’onda che utilizza la sintesi LPC, eccitata dai residui ('Residual Excited Linear Prediction') o la sintesi MBROLA, che si basa sul corpus di difoni MBROLA per l'italiano.
2005
Istituto di Scienze e Tecnologie della Cognizione - ISTC
TTS
Sintesi Automatica da Testo Scritto
Difoni
Concatenazione
Mbrola
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/196552
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact