In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.
La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo?
Sassolini Eva;De Blasi Francesca;Guadagnini Elisa;Montemagni Simonetta
2021
Abstract
In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.| Campo DC | Valore | Lingua |
|---|---|---|
| dc.authority.orgunit | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | - |
| dc.authority.people | Sassolini Eva | it |
| dc.authority.people | Biffi Marco | it |
| dc.authority.people | De Blasi Francesca | it |
| dc.authority.people | Guadagnini Elisa | it |
| dc.authority.people | Montemagni Simonetta | it |
| dc.collection.id.s | 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d | * |
| dc.collection.name | 04.01 Contributo in Atti di convegno | * |
| dc.contributor.appartenenza | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | * |
| dc.contributor.appartenenza.mi | 918 | * |
| dc.date.accessioned | 2024/02/21 08:37:29 | - |
| dc.date.available | 2024/02/21 08:37:29 | - |
| dc.date.issued | 2021 | - |
| dc.description.abstractita | In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile. | - |
| dc.description.affiliations | ILC-CNR, Accademia della Crusca; Università di Firenze | - |
| dc.description.allpeople | Sassolini, Eva; Biffi, Marco; DE BLASI, Francesca; Guadagnini, Elisa; Montemagni, Simonetta | - |
| dc.description.allpeopleoriginal | Sassolini Eva, Biffi Marco, De Blasi Francesca, Guadagnini Elisa, Montemagni Simonetta | - |
| dc.description.fulltext | none | en |
| dc.description.numberofauthors | 5 | - |
| dc.identifier.doi | 10.6092/unibo/amsacta/6712 | - |
| dc.identifier.isbn | 9788894253559 | - |
| dc.identifier.uri | https://hdl.handle.net/20.500.14243/401787 | - |
| dc.identifier.url | https://aiucd2021.labcd.unipi.it/wp-content/uploads/2021/05/AIUCD2021_BOA-versione3A.pdf | - |
| dc.language.iso | ita | - |
| dc.relation.conferencedate | 19-22/01/2021 | - |
| dc.relation.conferencename | AIUCD 2021 - DH per la società:e-guaglianza, partecipazione, diritti e valori nell'era digitale. | - |
| dc.relation.conferenceplace | Pisa | - |
| dc.relation.firstpage | 159 | - |
| dc.relation.lastpage | 166 | - |
| dc.relation.numberofpages | 8 | - |
| dc.subject.keywords | dizionari digitali | - |
| dc.subject.keywords | risorse linguistiche | - |
| dc.subject.keywords | estrazione dell'informazione | - |
| dc.subject.keywords | correzione del testo post OCR | - |
| dc.subject.singlekeyword | dizionari digitali | * |
| dc.subject.singlekeyword | risorse linguistiche | * |
| dc.subject.singlekeyword | estrazione dell'informazione | * |
| dc.subject.singlekeyword | correzione del testo post OCR | * |
| dc.title | La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo? | en |
| dc.type.driver | info:eu-repo/semantics/conferenceObject | - |
| dc.type.full | 04 Contributo in convegno::04.01 Contributo in Atti di convegno | it |
| dc.type.miur | 273 | - |
| dc.ugov.descaux1 | 455303 | - |
| dc.ugov.descaux2 | Creative Commons: Attribuzione 4.0(CC BY 4.0) | - |
| iris.orcid.lastModifiedDate | 2024/04/04 12:19:06 | * |
| iris.orcid.lastModifiedMillisecond | 1712225946481 | * |
| iris.sitodocente.maxattempts | 1 | - |
| iris.unpaywall.metadataCallLastModified | 28/12/2025 04:18:48 | - |
| iris.unpaywall.metadataCallLastModifiedMillisecond | 1766891928995 | - |
| iris.unpaywall.metadataErrorDescription | 0 | - |
| iris.unpaywall.metadataErrorType | ERROR_NO_MATCH | - |
| iris.unpaywall.metadataStatus | ERROR | - |
| Appare nelle tipologie: | 04.01 Contributo in Atti di convegno | |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


