CNR Institutional Research Information System

In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.

La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo?

Sassolini Eva;Biffi Marco;De Blasi Francesca;Guadagnini Elisa;Montemagni Simonetta

2021

Abstract

In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	-
dc.authority.people	Sassolini Eva	it
dc.authority.people	Biffi Marco	it
dc.authority.people	De Blasi Francesca	it
dc.authority.people	Guadagnini Elisa	it
dc.authority.people	Montemagni Simonetta	it
dc.collection.id.s	71c7200a-7c5f-4e83-8d57-d3d2ba88f40d	*
dc.collection.name	04.01 Contributo in Atti di convegno	*
dc.contributor.appartenenza	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	*
dc.contributor.appartenenza.mi	918	*
dc.date.accessioned	2024/02/21 08:37:29	-
dc.date.available	2024/02/21 08:37:29	-
dc.date.issued	2021	-
dc.description.abstractita	In questo articolo sono discussi metodi e strategie in via di elaborazione per la correzione (propedeutica alla successiva strutturazione) dei contenuti del Grande dizionario della lingua italiana (GDLI) fondato da Salvatore Battaglia, estratti da un formato digitale non standard. La presenza, in questo formato, di errori distribuiti di vario tipo ha condizionato la scelta dell'approccio all'estrazione e messo in luce tutte le difficoltà dell'operazione. Le sperimentazioni fatte sino a oggi portano a privilegiare una strategia di correzione multilivello, che procede scomponendo in sezioni distinte l'individuazione e la correzione degli errori, in modo da rendere gestibili interventi complessi di correzione semi-automatica, altrimenti improponibili, e consentire un loro raffinamento progressivo. Parallelamente alla definizione di regole di riconoscimento di struttura e formato, stiamo analizzando metodi e procedure in grado di migliorare la qualità dell'input e specializzare i moduli di estrazione per i singoli campi della voce a partire dal "lemma". Le finalità del lavoro sono duplici: l'estrazione e strutturazione dei contenuti e la produzione di un formato standard di rappresentazione dei dati. Si tratta di un percorso difficile perché il formato dei dati rende l'uso di strumenti reperibili in letteratura non applicabile. Solamente al termine del lavoro potremo capire se esistono le condizioni per trasformare l'approccio adottato in un protocollo di intervento replicabile.	-
dc.description.affiliations	ILC-CNR, Accademia della Crusca; Università di Firenze	-
dc.description.allpeople	Sassolini, Eva; Biffi, Marco; DE BLASI, Francesca; Guadagnini, Elisa; Montemagni, Simonetta	-
dc.description.allpeopleoriginal	Sassolini Eva, Biffi Marco, De Blasi Francesca, Guadagnini Elisa, Montemagni Simonetta	-
dc.description.fulltext	none	en
dc.description.numberofauthors	5	-
dc.identifier.doi	10.6092/unibo/amsacta/6712	-
dc.identifier.isbn	9788894253559	-
dc.identifier.uri	https://hdl.handle.net/20.500.14243/401787	-
dc.identifier.url	https://aiucd2021.labcd.unipi.it/wp-content/uploads/2021/05/AIUCD2021_BOA-versione3A.pdf	-
dc.language.iso	ita	-
dc.relation.conferencedate	19-22/01/2021	-
dc.relation.conferencename	AIUCD 2021 - DH per la società:e-guaglianza, partecipazione, diritti e valori nell'era digitale.	-
dc.relation.conferenceplace	Pisa	-
dc.relation.firstpage	159	-
dc.relation.lastpage	166	-
dc.relation.numberofpages	8	-
dc.subject.keywords	dizionari digitali	-
dc.subject.keywords	risorse linguistiche	-
dc.subject.keywords	estrazione dell'informazione	-
dc.subject.keywords	correzione del testo post OCR	-
dc.subject.singlekeyword	dizionari digitali	*
dc.subject.singlekeyword	risorse linguistiche	*
dc.subject.singlekeyword	estrazione dell'informazione	*
dc.subject.singlekeyword	correzione del testo post OCR	*
dc.title	La digitalizzazione del GDLI: un approccio linguistico per la corretta acquisizione del testo?	en
dc.type.driver	info:eu-repo/semantics/conferenceObject	-
dc.type.full	04 Contributo in convegno::04.01 Contributo in Atti di convegno	it
dc.type.miur	273	-
dc.ugov.descaux1	455303	-
dc.ugov.descaux2	Creative Commons: Attribuzione 4.0(CC BY 4.0)	-
iris.orcid.lastModifiedDate	2024/04/04 12:19:06	*
iris.orcid.lastModifiedMillisecond	1712225946481	*
iris.sitodocente.maxattempts	1	-
iris.unpaywall.metadataCallLastModified	28/12/2025 04:18:48	-
iris.unpaywall.metadataCallLastModifiedMillisecond	1766891928995	-
iris.unpaywall.metadataErrorDescription	0	-
iris.unpaywall.metadataErrorType	ERROR_NO_MATCH	-
iris.unpaywall.metadataStatus	ERROR	-
Appare nelle tipologie:	04.01 Contributo in Atti di convegno

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/401787

Citazioni

ND

ND

ND

social impact