Descrivere una lingua naturale significa raccogliere un numero sterminato di informazioni. In effetti, per la loro ricchezza e complessità, le lingue naturali richiedono una descrizione linguistica a vari livelli. Per la lingua scritta, ad esempio, le informazioni morfologiche, sintattiche e semantiche sono essenziali. Ad ogni livello di conoscenza linguistica, esiste inoltre un'infinità di informazioni idiosincratiche che, sommate alle proprietà condivise da intere classi di parole, rendono la mole complessiva dei dati ingestibile senza un'adeguata strutturazione. Perché un utente umano possa utilizzare, anche in minima parte, questi dati, la descrizione linguistica deve essere coerente, ordinata e formulata in un metalinguaggio descrittivo esplicito. L'essere umano, tuttavia, possiede la capacità di fare inferenze e di interpretare contenuti non immediatamente afferrabili; se invece la gestione e l'uso di una descrizione linguistica sono demandati ad un elaboratore, i suddetti requisiti diventano imprescindibili. Nell'ambito delle Tecnologie del Linguaggio, lo sviluppo di applicazioni richiede un'infrastruttura di cui le risorse lessicali costituiscono l'elemento fondamentale. I sistemi di reperimento ed estrazione di informazioni da corpora, di question answering, di traduzione automatica, ecc. presuppongono, infatti, l'accesso a vasti depositi di conoscenza lessicale espressa in un linguaggio formale sufficientemente ricco in capacità espressive, sotto forma di una rappresentazione rigorosamente strutturata, univoca e computazionalmente trattabile. La formalizzazione non può tuttavia essere estesa a tutti gli aspetti della lingua; d'altra parte, non tutte le proprietà formalizzabili sono pertinenti ad ogni tipo di applicazione. La formalizzazione deve quindi avvenire in funzione di un obiettivo preciso. Trattamento del linguaggio generico o di specializzazione? Traduzione automatica o indicizzazione di testi? I fenomeni da analizzare e le informazioni rilevanti sono diversi a seconda del tipo di linguaggio e di applicazione. Il livello di granularità dell'informazione dipende anch'esso dall'obiettivo, oltre che da fattori di costo, ma è soprattutto determinato dalla capacità di calcolo del sistema: non ha senso introdurre nella descrizione linguistica distinzioni molto sottili ma non computabili. L'assoluta necessità di adottare un formalismo conforme a degli standard internazionali per la costruzione di risorse lessicali è ormai ampiamente riconosciuta nella comunità scientifica. L'uso di un modello formale e standardizzato di rappresentazione permette infatti una formulazione rigorosa e organicamente strutturata della conoscenza lessicale, consentendo quindi la riusabilità del lessico nonché la sua interoperabilità ed integrazione con altre risorse lessicali. Il lessico elettronico PAROLE-SIMPLE-CLIPS è la più vasta risorsa lessicale multilivello dell'italiano; è stato costruito in base agli standard internazionali definiti nel modello lessicale PAROLE-SIMPLE che ha permesso lo sviluppo di dodici lessici per altrettante lingue europee. Il lessico è articolato in quattro moduli indipendenti che corrispondono rispettivamente ai livelli fonologico, morfologico, sintattico e semantico di rappresentazione linguistica. La completa descrizione di un'unità lessicale consta pertanto di un minimo di quattro entrate interrelate, ognuna contenente un ricco insieme strutturato di informazioni inerenti al livello di descrizione che la ospita. I moduli sintattici e semantici, particolarmente ricchi ed innovativi, consentono una descrizione approfondita del comportamento delle unità lessicali che mette in risalto la stretta correlazione tra i due livelli. A livello sintattico, un'entrata descrive un comportamento sintattico di un'unità lessicale, in termini di proprietà inerenti e contestuali. Queste ultime sono espresse in un quadro di sottocategorizzazione nel quale sono formalizzate le proprietà sintattiche di ogni complemento. A livello semantico, il quadro teorico è quello del Lessico Generativo (Pustejovsky, 1995). Il lessico semantico è strutturato in base ad un'ontologia i cui tipi sono organizzati secondo principi ortogonali - mediante i quattro ruoli della Struttura Qualia (formale, costitutivo, telico ed agentivo) - al fine di catturare la multidimensionalità del significato. Ogni singolo senso è descritto in un'entrata semantica caratterizzata da un'ampia tipologia di informazioni di cui fanno parte il dominio d'uso, la classe azionale dei verbi, la formalizzazione della polisemia regolare e una fitta rete di relazioni semantiche basate sui ruoli qualia. La struttura argomentale dei termini predicativi è definita in termini di ruolo semantico e preferenze di selezioni sugli argomenti. Il collegamento fra i livelli semantico e sintattico avviene attraverso la proiezione della struttura argomentale sul quadro di sottocategorizzazione, mediante un raffinato sistema di coindicizzazione tra argomenti e complementi.
Formalizzazione, strutturazione e standardizzazione in lessicografia computazionale: un esempio italiano
Ruimy N
2010
Abstract
Descrivere una lingua naturale significa raccogliere un numero sterminato di informazioni. In effetti, per la loro ricchezza e complessità, le lingue naturali richiedono una descrizione linguistica a vari livelli. Per la lingua scritta, ad esempio, le informazioni morfologiche, sintattiche e semantiche sono essenziali. Ad ogni livello di conoscenza linguistica, esiste inoltre un'infinità di informazioni idiosincratiche che, sommate alle proprietà condivise da intere classi di parole, rendono la mole complessiva dei dati ingestibile senza un'adeguata strutturazione. Perché un utente umano possa utilizzare, anche in minima parte, questi dati, la descrizione linguistica deve essere coerente, ordinata e formulata in un metalinguaggio descrittivo esplicito. L'essere umano, tuttavia, possiede la capacità di fare inferenze e di interpretare contenuti non immediatamente afferrabili; se invece la gestione e l'uso di una descrizione linguistica sono demandati ad un elaboratore, i suddetti requisiti diventano imprescindibili. Nell'ambito delle Tecnologie del Linguaggio, lo sviluppo di applicazioni richiede un'infrastruttura di cui le risorse lessicali costituiscono l'elemento fondamentale. I sistemi di reperimento ed estrazione di informazioni da corpora, di question answering, di traduzione automatica, ecc. presuppongono, infatti, l'accesso a vasti depositi di conoscenza lessicale espressa in un linguaggio formale sufficientemente ricco in capacità espressive, sotto forma di una rappresentazione rigorosamente strutturata, univoca e computazionalmente trattabile. La formalizzazione non può tuttavia essere estesa a tutti gli aspetti della lingua; d'altra parte, non tutte le proprietà formalizzabili sono pertinenti ad ogni tipo di applicazione. La formalizzazione deve quindi avvenire in funzione di un obiettivo preciso. Trattamento del linguaggio generico o di specializzazione? Traduzione automatica o indicizzazione di testi? I fenomeni da analizzare e le informazioni rilevanti sono diversi a seconda del tipo di linguaggio e di applicazione. Il livello di granularità dell'informazione dipende anch'esso dall'obiettivo, oltre che da fattori di costo, ma è soprattutto determinato dalla capacità di calcolo del sistema: non ha senso introdurre nella descrizione linguistica distinzioni molto sottili ma non computabili. L'assoluta necessità di adottare un formalismo conforme a degli standard internazionali per la costruzione di risorse lessicali è ormai ampiamente riconosciuta nella comunità scientifica. L'uso di un modello formale e standardizzato di rappresentazione permette infatti una formulazione rigorosa e organicamente strutturata della conoscenza lessicale, consentendo quindi la riusabilità del lessico nonché la sua interoperabilità ed integrazione con altre risorse lessicali. Il lessico elettronico PAROLE-SIMPLE-CLIPS è la più vasta risorsa lessicale multilivello dell'italiano; è stato costruito in base agli standard internazionali definiti nel modello lessicale PAROLE-SIMPLE che ha permesso lo sviluppo di dodici lessici per altrettante lingue europee. Il lessico è articolato in quattro moduli indipendenti che corrispondono rispettivamente ai livelli fonologico, morfologico, sintattico e semantico di rappresentazione linguistica. La completa descrizione di un'unità lessicale consta pertanto di un minimo di quattro entrate interrelate, ognuna contenente un ricco insieme strutturato di informazioni inerenti al livello di descrizione che la ospita. I moduli sintattici e semantici, particolarmente ricchi ed innovativi, consentono una descrizione approfondita del comportamento delle unità lessicali che mette in risalto la stretta correlazione tra i due livelli. A livello sintattico, un'entrata descrive un comportamento sintattico di un'unità lessicale, in termini di proprietà inerenti e contestuali. Queste ultime sono espresse in un quadro di sottocategorizzazione nel quale sono formalizzate le proprietà sintattiche di ogni complemento. A livello semantico, il quadro teorico è quello del Lessico Generativo (Pustejovsky, 1995). Il lessico semantico è strutturato in base ad un'ontologia i cui tipi sono organizzati secondo principi ortogonali - mediante i quattro ruoli della Struttura Qualia (formale, costitutivo, telico ed agentivo) - al fine di catturare la multidimensionalità del significato. Ogni singolo senso è descritto in un'entrata semantica caratterizzata da un'ampia tipologia di informazioni di cui fanno parte il dominio d'uso, la classe azionale dei verbi, la formalizzazione della polisemia regolare e una fitta rete di relazioni semantiche basate sui ruoli qualia. La struttura argomentale dei termini predicativi è definita in termini di ruolo semantico e preferenze di selezioni sugli argomenti. Il collegamento fra i livelli semantico e sintattico avviene attraverso la proiezione della struttura argomentale sul quadro di sottocategorizzazione, mediante un raffinato sistema di coindicizzazione tra argomenti e complementi.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.