In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.

La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo?

Sassolini Eva;De Blasi Francesca;Guadagnini Elisa;Montemagni Simonetta
2021

Abstract

In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.people Sassolini Eva it
dc.authority.people Biffi Marco it
dc.authority.people De Blasi Francesca it
dc.authority.people Guadagnini Elisa it
dc.authority.people Montemagni Simonetta it
dc.collection.id.s 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d *
dc.collection.name 04.01 Contributo in Atti di convegno *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.date.accessioned 2024/02/21 08:37:29 -
dc.date.available 2024/02/21 08:37:29 -
dc.date.issued 2021 -
dc.description.abstractita In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile. -
dc.description.affiliations ILC-CNR, Accademia della Crusca; Università di Firenze -
dc.description.allpeople Sassolini, Eva; Biffi, Marco; DE BLASI, Francesca; Guadagnini, Elisa; Montemagni, Simonetta -
dc.description.allpeopleoriginal Sassolini Eva, Biffi Marco, De Blasi Francesca, Guadagnini Elisa, Montemagni Simonetta -
dc.description.fulltext none en
dc.description.numberofauthors 5 -
dc.identifier.doi 10.6092/unibo/amsacta/6712 -
dc.identifier.isbn 9788894253559 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/401787 -
dc.identifier.url https://aiucd2021.labcd.unipi.it/wp-content/uploads/2021/05/AIUCD2021_BOA-versione3A.pdf -
dc.language.iso ita -
dc.relation.conferencedate 19-22/01/2021 -
dc.relation.conferencename AIUCD 2021 - DH per la società:e-guaglianza, partecipazione, diritti e valori nell'era digitale. -
dc.relation.conferenceplace Pisa -
dc.relation.firstpage 159 -
dc.relation.lastpage 166 -
dc.relation.numberofpages 8 -
dc.subject.keywords dizionari digitali -
dc.subject.keywords risorse linguistiche -
dc.subject.keywords estrazione dell'informazione -
dc.subject.keywords correzione del testo post OCR -
dc.subject.singlekeyword dizionari digitali *
dc.subject.singlekeyword risorse linguistiche *
dc.subject.singlekeyword estrazione dell'informazione *
dc.subject.singlekeyword correzione del testo post OCR *
dc.title La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo? en
dc.type.driver info:eu-repo/semantics/conferenceObject -
dc.type.full 04 Contributo in convegno::04.01 Contributo in Atti di convegno it
dc.type.miur 273 -
dc.ugov.descaux1 455303 -
dc.ugov.descaux2 Creative Commons: Attribuzione 4.0(CC BY 4.0) -
iris.orcid.lastModifiedDate 2024/04/04 12:19:06 *
iris.orcid.lastModifiedMillisecond 1712225946481 *
iris.sitodocente.maxattempts 1 -
iris.unpaywall.metadataCallLastModified 28/12/2025 04:18:48 -
iris.unpaywall.metadataCallLastModifiedMillisecond 1766891928995 -
iris.unpaywall.metadataErrorDescription 0 -
iris.unpaywall.metadataErrorType ERROR_NO_MATCH -
iris.unpaywall.metadataStatus ERROR -
Appare nelle tipologie: 04.01 Contributo in Atti di convegno
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/401787
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact