Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze. La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi. Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.

Un corpus lemmatizzato

Artale Elena
2016

Abstract

Il corpus di testi su cui si basa la redazione del TLIO (Corpus TLIO) è un corpus lemmatizzato, con una lemmatizzazione tendenzialmente esaustiva sulle forme, non sulle occorrenze. La lemmatizzazione del Corpus TLIO presenta criticità e problematiche legate alla natura stessa del corpus: plurilinguismo, eterogeneità filologica, stratificazione negli anni di un lavoro che ha via via cambiato modalità e strategie operative, assenza di marcatura nella preparazione dei testi. Il contributo espone le maggiori problematiche della lemmatizzazione ed esplicita i criteri da seguire per la razionalizzazione del pregresso e per un futuro completamento. Viene posto inoltre il problema del valore del corpus come oggetto di indagini linguistiche, in relazione alla recente disciplina della linguistica dei corpora e mettendo in risalto gli aspetti per cui il Corpus TLIO lemmatizzato possa considerarsi fonte di lingua oltre che raccolta di testi cui attingere per la redazione di un vocabolario.
2016
Istituto Opera del Vocabolario Italiano - OVI
978-88-6274-746-2
Lessicografia
Banche dati
Lemmatizzazione
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/354830
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact