Il lavoro che intendiamo presentare si iscrive all'interno di un Progetto di Ricerca Nazionale finanziato dal governo italiano, intitolato "Per una edizione digitale dei manoscritti di Ferdinand de Saussure", e volto a creare un prototipo di edizione digitale degli scritti autografi del grande linguista ginevrino. A tal fine, ogni manoscritto è stato digitalizzato, classificato e dotato di un link ipertestuale che rimanda alla sua trascrizione. Un sistema di gestione dei testi permette di consultare e annotare il singolo manoscritto e di effettuare studi filologici e critici sul corpus digitalizzato. Le concordanze per forma e per lemma prodotte per l'insieme dei testi forniscono un insieme di termini caratteristici dei quali viene descritta la semantica. Accanto alla realizzazione di tale piattaforma filologica digitale, uno degli aspetti innovativi del progetto consiste nella creazione del primo thesaurus-lessico elettronico della terminologia linguistica saussuriana. Quest'ultima riceve per la prima volta una rappresentazione strutturata, con una definizione del contenuto semantico di ciascuno dei termini chiave del pensiero del maestro ginevrino ed un quadro esplicito della natura e dell'importanza dei legami che li uniscono. Tale fascio di informazioni dovrebbe contribuire in modo significativo a meglio conoscere ed interpretare il pensiero del padre della linguistica moderna. L'architettura del lessico è ispirata al modello lessicale SIMPLE. Tra i modelli lessicali di maggior rilievo (WordNet, EuroWordNet, ItalWordNet, FrameNet, Pattern Dictionary, SIMPLE e Brandeis Semantic Ontology) esso è apparso essere il più adeguato, in quanto si distingue per alcuni importanti ed innovati aspetti. Il modello SIMPLE, infatti, ha permesso la realizzazione di lessici elettronici multilivello armonizzati per dodici lingue europee, imponendosi così come standard de facto nell'ambito della Lessicografia Computazionale. Successivamente ha fortemente ispirato lo standard ISO per i lessici del TAL Lexical Markup Framework. La strutturazione del lessico ha necessitato anzitutto della creazione di una ontologia lessicale di dominio. A tal fine è stato adottato un approccio centrifugo: in un primo momento sono stati identificati i concetti centrali del dominio di interesse, i quali sono stati poi generalizzati o specificati. L'ontologia così modellizzata è attualmente costituita da 43 tipi semantici ed ha una profondità di 4 livelli. Alcune classi semantiche sono state poi ulteriormente "specificate" in termini di tratti e/o relazioni semantiche obbligatorie (definitorie). Un insieme di cinquantotto relazioni semantiche permette di collegare le istanze delle differenti classi ontologiche, mentre trentadue tratti semantici codificano informazioni tipiche di una classe semantica nella sua interezza o di una specifica istanza. La semantica lessicale di ciascuna delle istanze di una classe ontologica è rappresentata in una entrata lessicale, nella quale una ed una sola accezione di un termine, semplice o complesso, viene riccamente definita attraverso un vasto insieme di informazioni formalizzate ed altamente strutturate, che coprono un ampio ventaglio di aspetti semantici. Il senso analizzato è anzitutto associato alla definizione data da Saussure stesso, e laddove non disponibile, a quelle di R. Godel e R. Engler. Per ogni lemma vengono specificati anche il periodo di attestazione, le fonti nelle quali occorre, la sua frequenza di occorrenza e le collocazioni nelle quali appare. La classificazione ontologica del termine rappresenta un dato essenziale al quale si aggiungono l'informazione concernente il dominio d'uso, il tipo di evento denotato (qualora si tratti di un evento), dei tratti semantici distintivi e una vasta rete di relazioni semantico-lessicali. Il modello lessicale adottato, infatti, conferisce una attenzione particolare ai legami che esistono tra i differenti termini. La multidimensionalità intrinseca al senso di ogni lemma è colta e formalizzata attraverso un insieme di relazioni semantiche specifiche del modello SIMPLE e ispirate alla Struttura Qualia della teoria del Lessico Generativo. Esse offrono un quadro preciso della natura dei legami (intra ed extra categoriali) che sussistono tra le unità lessicali contenute nella base di dati sia sull'asse paradigmatico (iperonimia, iponimia, meronimia ed olonimia) sia sull'asse sintagmatico (fornendo in particolare informazioni sull'origine e la funzione dell'entità denotata). Inoltre, accanto alle classiche relazioni di sinonimia, antonimia e di derivazione morfologica, sono state create delle relazioni specifiche, al fine di formalizzare nel modo più preciso possibile i legami particolari esistenti tra i termini del dominio della conoscenza e più generalmente la sua organizzazione concettuale. Dei termini predicativi contenuti nel lessico viene descritta anche la struttura argomentale con indicazioni sul ruolo semantico e sulle restrizioni semantiche degli argomenti introdotti. Allo stato attuale, la popolazione del lessico è costituita da 500 entrate lessicali (379 nomi, 113 aggettivi e 8 verbi): si tratta principalmente dei termini proposti da Godel e Engler e di alcune parole-chiave estratte dagli Écrits de linguistique générale. In una fase successiva verrà integrata la nuova terminologia dei manoscritti attualmente studiati. In una prima fase i dati lessicali sono stai gestiti in una piattaforma MS ACCESS. Più recentemente, per esigenze di standardizzazione ed interoperabilità, è stata effettuata una migrazione sulla piattaforma Protégé-OWL. Owl è, infatti, il linguaggio standard del W3C per la rappresentazione e la condivisone di ontologie sul Web. Il sistema di gestione Access, tuttavia, non è stato abbandonato: il lessico, attualmente, è ospitato in entrambe le piattaforme grazie ad un software che consente la perfetta sincronizzazione dei dati. Questa provvisoria "doppia ubicazione" permette, intanto, di sfruttare in modo ottimale le potenzialità dei due sistemi di gestione. Una tale strutturazione informatizzata dei dati lessicali offre numerosi vantaggi. In fase di creazione del lessico, essa permette uno sviluppo collaborativo rigoroso, anche a distanza, e lo stoccaggio di una grande quantità di dati; favorisce una rappresentazione sistematica dei fenomeni linguistici ed assicura la coerenza e la completezza dell'informazione codificata. Inoltre, consente di operare costanti controlli di coerenza formale dell'informazione e di effettuare delle modifiche o delle correzioni sull'insieme dei dati. La strutturazione multidimensionale dei concetti del dominio di conoscenza e la rappresentazione semantica altamente strutturata, ricca, diversificata ed espressiva ne fanno uno strumento di ricerca lessicale particolarmente performante. Varie tipologie di ricerca possono essere effettuate molto semplicemente e rapidamente su qualsiasi dato memorizzato, sia esso una relazione, un tratto o una unità semantica e questi dati possono essere interrogati sia singolarmente sia in combinazione. Si ha quindi la possibilità di estrarre gruppi di unità lessicali che condividono una data proprietà o una combinazione di proprietà, secondo dei criteri stabiliti dallo studioso in relazione alle esigenze della sua ricerca. A titolo di esempio, verranno presentate alcune delle numerose ricerche che possono essere effettuate sui dati lessicali all'interno della base di dati. A nostro parere, il thesaurus-lessico semantico della terminologia saussuriana costituisce, per i motivi esposti, uno strumento di grande utilità per gli esperti del settore. Inoltre, l'organizzazione strutturata della conoscenza lessicale, favorendo la ricerca semantica, dovrebbe contribuire in modo significativo ad una più approfondita conoscenza del vocabolario del maestro e pertanto degli aspetti più complessi ed originali del suo pensiero.

Il primo lessico elettronico della terminologia saussuriana

Silvia Piccini;Nilda Ruimy;Emiliano Giovannetti
2014

Abstract

Il lavoro che intendiamo presentare si iscrive all'interno di un Progetto di Ricerca Nazionale finanziato dal governo italiano, intitolato "Per una edizione digitale dei manoscritti di Ferdinand de Saussure", e volto a creare un prototipo di edizione digitale degli scritti autografi del grande linguista ginevrino. A tal fine, ogni manoscritto è stato digitalizzato, classificato e dotato di un link ipertestuale che rimanda alla sua trascrizione. Un sistema di gestione dei testi permette di consultare e annotare il singolo manoscritto e di effettuare studi filologici e critici sul corpus digitalizzato. Le concordanze per forma e per lemma prodotte per l'insieme dei testi forniscono un insieme di termini caratteristici dei quali viene descritta la semantica. Accanto alla realizzazione di tale piattaforma filologica digitale, uno degli aspetti innovativi del progetto consiste nella creazione del primo thesaurus-lessico elettronico della terminologia linguistica saussuriana. Quest'ultima riceve per la prima volta una rappresentazione strutturata, con una definizione del contenuto semantico di ciascuno dei termini chiave del pensiero del maestro ginevrino ed un quadro esplicito della natura e dell'importanza dei legami che li uniscono. Tale fascio di informazioni dovrebbe contribuire in modo significativo a meglio conoscere ed interpretare il pensiero del padre della linguistica moderna. L'architettura del lessico è ispirata al modello lessicale SIMPLE. Tra i modelli lessicali di maggior rilievo (WordNet, EuroWordNet, ItalWordNet, FrameNet, Pattern Dictionary, SIMPLE e Brandeis Semantic Ontology) esso è apparso essere il più adeguato, in quanto si distingue per alcuni importanti ed innovati aspetti. Il modello SIMPLE, infatti, ha permesso la realizzazione di lessici elettronici multilivello armonizzati per dodici lingue europee, imponendosi così come standard de facto nell'ambito della Lessicografia Computazionale. Successivamente ha fortemente ispirato lo standard ISO per i lessici del TAL Lexical Markup Framework. La strutturazione del lessico ha necessitato anzitutto della creazione di una ontologia lessicale di dominio. A tal fine è stato adottato un approccio centrifugo: in un primo momento sono stati identificati i concetti centrali del dominio di interesse, i quali sono stati poi generalizzati o specificati. L'ontologia così modellizzata è attualmente costituita da 43 tipi semantici ed ha una profondità di 4 livelli. Alcune classi semantiche sono state poi ulteriormente "specificate" in termini di tratti e/o relazioni semantiche obbligatorie (definitorie). Un insieme di cinquantotto relazioni semantiche permette di collegare le istanze delle differenti classi ontologiche, mentre trentadue tratti semantici codificano informazioni tipiche di una classe semantica nella sua interezza o di una specifica istanza. La semantica lessicale di ciascuna delle istanze di una classe ontologica è rappresentata in una entrata lessicale, nella quale una ed una sola accezione di un termine, semplice o complesso, viene riccamente definita attraverso un vasto insieme di informazioni formalizzate ed altamente strutturate, che coprono un ampio ventaglio di aspetti semantici. Il senso analizzato è anzitutto associato alla definizione data da Saussure stesso, e laddove non disponibile, a quelle di R. Godel e R. Engler. Per ogni lemma vengono specificati anche il periodo di attestazione, le fonti nelle quali occorre, la sua frequenza di occorrenza e le collocazioni nelle quali appare. La classificazione ontologica del termine rappresenta un dato essenziale al quale si aggiungono l'informazione concernente il dominio d'uso, il tipo di evento denotato (qualora si tratti di un evento), dei tratti semantici distintivi e una vasta rete di relazioni semantico-lessicali. Il modello lessicale adottato, infatti, conferisce una attenzione particolare ai legami che esistono tra i differenti termini. La multidimensionalità intrinseca al senso di ogni lemma è colta e formalizzata attraverso un insieme di relazioni semantiche specifiche del modello SIMPLE e ispirate alla Struttura Qualia della teoria del Lessico Generativo. Esse offrono un quadro preciso della natura dei legami (intra ed extra categoriali) che sussistono tra le unità lessicali contenute nella base di dati sia sull'asse paradigmatico (iperonimia, iponimia, meronimia ed olonimia) sia sull'asse sintagmatico (fornendo in particolare informazioni sull'origine e la funzione dell'entità denotata). Inoltre, accanto alle classiche relazioni di sinonimia, antonimia e di derivazione morfologica, sono state create delle relazioni specifiche, al fine di formalizzare nel modo più preciso possibile i legami particolari esistenti tra i termini del dominio della conoscenza e più generalmente la sua organizzazione concettuale. Dei termini predicativi contenuti nel lessico viene descritta anche la struttura argomentale con indicazioni sul ruolo semantico e sulle restrizioni semantiche degli argomenti introdotti. Allo stato attuale, la popolazione del lessico è costituita da 500 entrate lessicali (379 nomi, 113 aggettivi e 8 verbi): si tratta principalmente dei termini proposti da Godel e Engler e di alcune parole-chiave estratte dagli Écrits de linguistique générale. In una fase successiva verrà integrata la nuova terminologia dei manoscritti attualmente studiati. In una prima fase i dati lessicali sono stai gestiti in una piattaforma MS ACCESS. Più recentemente, per esigenze di standardizzazione ed interoperabilità, è stata effettuata una migrazione sulla piattaforma Protégé-OWL. Owl è, infatti, il linguaggio standard del W3C per la rappresentazione e la condivisone di ontologie sul Web. Il sistema di gestione Access, tuttavia, non è stato abbandonato: il lessico, attualmente, è ospitato in entrambe le piattaforme grazie ad un software che consente la perfetta sincronizzazione dei dati. Questa provvisoria "doppia ubicazione" permette, intanto, di sfruttare in modo ottimale le potenzialità dei due sistemi di gestione. Una tale strutturazione informatizzata dei dati lessicali offre numerosi vantaggi. In fase di creazione del lessico, essa permette uno sviluppo collaborativo rigoroso, anche a distanza, e lo stoccaggio di una grande quantità di dati; favorisce una rappresentazione sistematica dei fenomeni linguistici ed assicura la coerenza e la completezza dell'informazione codificata. Inoltre, consente di operare costanti controlli di coerenza formale dell'informazione e di effettuare delle modifiche o delle correzioni sull'insieme dei dati. La strutturazione multidimensionale dei concetti del dominio di conoscenza e la rappresentazione semantica altamente strutturata, ricca, diversificata ed espressiva ne fanno uno strumento di ricerca lessicale particolarmente performante. Varie tipologie di ricerca possono essere effettuate molto semplicemente e rapidamente su qualsiasi dato memorizzato, sia esso una relazione, un tratto o una unità semantica e questi dati possono essere interrogati sia singolarmente sia in combinazione. Si ha quindi la possibilità di estrarre gruppi di unità lessicali che condividono una data proprietà o una combinazione di proprietà, secondo dei criteri stabiliti dallo studioso in relazione alle esigenze della sua ricerca. A titolo di esempio, verranno presentate alcune delle numerose ricerche che possono essere effettuate sui dati lessicali all'interno della base di dati. A nostro parere, il thesaurus-lessico semantico della terminologia saussuriana costituisce, per i motivi esposti, uno strumento di grande utilità per gli esperti del settore. Inoltre, l'organizzazione strutturata della conoscenza lessicale, favorendo la ricerca semantica, dovrebbe contribuire in modo significativo ad una più approfondita conoscenza del vocabolario del maestro e pertanto degli aspetti più complessi ed originali del suo pensiero.
2014
Istituto di linguistica computazionale "Antonio Zampolli" - ILC
Saussure
SIMPLE
lessici computazionali
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/264633
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact