The article describes ongoing work on the digitization of an authoritative and historically important Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI) of S. Battaglia, with a focus on the stages of the conversion of this text into structured digital data. We report on the preliminary results of a collaboration between the Accademia della Crusca and Istituto di Linguistica Computazionale "A. Zampolli", which aims to extract the contents of the GDLI to convert them into structured digital data for human use, and/or to be integrated with other language resources, both dictionaries and corpora. The extraction process is articulated on the one hand in the definition of data extraction procedures, on the other hand in the adoption of strategies aimed at supporting the correction of errors.
L'articolo descrive un approccio sperimentale all'estrazione, da formato digitale non standard, della completa struttura delle entrate lessicali del Grande Dizionario storico della Lingua Italiana (GDLI) di S. Battaglia. Sono riportati i risultati preliminari di una collaborazione tra l'Accademia della Crusca e Istituto di Linguistica Computazionale "A. Zampolli" del CNR, che mira a convertire i contenuti testuali in dati digitali strutturati per offrirli alla consultazione e allo studio degli utenti e/o per la successiva integrazione con altre risorse linguistiche, sia dizionari che corpora. Il processo di estrazione si articola da un lato nella definizione di procedure di estrazione dei dati, dall'altro nell'adozione di strategie finalizzate al supporto alla correzione degli errori.
Strategie e metodi per il recupero di dizionari storici
Sassolini Eva;
2020
Abstract
The article describes ongoing work on the digitization of an authoritative and historically important Italian dictionary, namely Il Grande Dizionario della Lingua Italiana (GDLI) of S. Battaglia, with a focus on the stages of the conversion of this text into structured digital data. We report on the preliminary results of a collaboration between the Accademia della Crusca and Istituto di Linguistica Computazionale "A. Zampolli", which aims to extract the contents of the GDLI to convert them into structured digital data for human use, and/or to be integrated with other language resources, both dictionaries and corpora. The extraction process is articulated on the one hand in the definition of data extraction procedures, on the other hand in the adoption of strategies aimed at supporting the correction of errors.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.