L'Archivio di Stato di Prato ha affidato nel 2003 all'Opera del Vocabolario Italiano l'allestimento di un corpus informatizzato contenente le lettere e i documenti editi dell'archivio Datini, con due specifiche richieste: la segnalazione di antroponimi e toponimi e una lemmatizzazione selettiva e tematica, che offrisse più chiavi di interrogazione ad un utente interessato non tanto a fenomeni linguistici quanto piuttosto a ritrovare nomi e fatti. L'intervento illustra il prodotto finale dei due anni di lavoro dedicati a tale corpus, i criteri seguiti per la lemmatizzazione, le caratteristiche e le modalità di interrogazione del programma di gestione testi Gatto, nella sua versione per Internet (GattoWeb). In particolare, dopo una breve nota informativa sui dati statistici del corpus, vengono presentati alcuni esempi volti a chiarificare le scelte seguite in lemmatizzazione in presenza di un corpus plurilinguistico e con tipiche modalità espressive; si insiste soprattutto sulla lemmatizzazione di antroponimi e toponimi, sull'uso di uno specifico campo di lemmatizzazione e di interrogazione del programma, il DISAMBIGUATORE, in relazione alle esigenze di una lemmatizzazione referenziale, e sulla rilevanza dei lemmi di secondo livello, i cosiddetti iperlemmi, che consentono di raggruppare i lemmi su base tematica, creando delle famiglie omogenee.

Mercanti medievali in Internet: le lettere dell'archivio Datini in GattoWeb

ARTALE Elena
2008

Abstract

L'Archivio di Stato di Prato ha affidato nel 2003 all'Opera del Vocabolario Italiano l'allestimento di un corpus informatizzato contenente le lettere e i documenti editi dell'archivio Datini, con due specifiche richieste: la segnalazione di antroponimi e toponimi e una lemmatizzazione selettiva e tematica, che offrisse più chiavi di interrogazione ad un utente interessato non tanto a fenomeni linguistici quanto piuttosto a ritrovare nomi e fatti. L'intervento illustra il prodotto finale dei due anni di lavoro dedicati a tale corpus, i criteri seguiti per la lemmatizzazione, le caratteristiche e le modalità di interrogazione del programma di gestione testi Gatto, nella sua versione per Internet (GattoWeb). In particolare, dopo una breve nota informativa sui dati statistici del corpus, vengono presentati alcuni esempi volti a chiarificare le scelte seguite in lemmatizzazione in presenza di un corpus plurilinguistico e con tipiche modalità espressive; si insiste soprattutto sulla lemmatizzazione di antroponimi e toponimi, sull'uso di uno specifico campo di lemmatizzazione e di interrogazione del programma, il DISAMBIGUATORE, in relazione alle esigenze di una lemmatizzazione referenziale, e sulla rilevanza dei lemmi di secondo livello, i cosiddetti iperlemmi, che consentono di raggruppare i lemmi su base tematica, creando delle famiglie omogenee.
2008
Istituto Opera del Vocabolario Italiano - OVI
978-88-8453-723-2
Italiano antico
Lessicografia italiana
Informatica umanistica
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/115027
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact