Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze. La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi. Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.
Un corpus lemmatizzato
Artale Elena
2016
Abstract
Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze. La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi. Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.