CNR Institutional Research Information System

The use of OCR software to convert printed characters to digital text is a fundamental tool within diachronic approaches to Corpus-assisted discourse Studies. However, OCR software is not totally accurate, and the resulting error rate may compromise the qualitative analysis of the studies. This paper proposes a mixed qualitative-quantitative approach to OCR error detection and correction in order to develop a methodology for enhancing the quality of historical corpora. We applied the developed methodology to two case studies on newspapers of the beginning of the 20th century for the linguistic analysis of the metaphors representing migration and pandemics. The outcome of this project consists in a set of rules which are, eventually, valid for different contexts and applicable to different corpora and which can be reproduced and reused. The proposed procedure, in terms of computational readability, is aimed at making more readable and searchable the vast array of historical text corpora which are, at the moment, only partially usable given the high error rate introduced by an OCR software.

L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale è uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all'analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilità può compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualità dei corpora all'interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforiche delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilità computazionale, ha lo scopo di rendere più leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR.

OCR Correction for Corpus-assisted Discourse Studies: A Case Study of Old Newspapers

Del Fante Dario;Giorgio Maria Di Nunzio

2022

Abstract

The use of OCR software to convert printed characters to digital text is a fundamental tool within diachronic approaches to Corpus-assisted discourse Studies. However, OCR software is not totally accurate, and the resulting error rate may compromise the qualitative analysis of the studies. This paper proposes a mixed qualitative-quantitative approach to OCR error detection and correction in order to develop a methodology for enhancing the quality of historical corpora. We applied the developed methodology to two case studies on newspapers of the beginning of the 20th century for the linguistic analysis of the metaphors representing migration and pandemics. The outcome of this project consists in a set of rules which are, eventually, valid for different contexts and applicable to different corpora and which can be reproduced and reused. The proposed procedure, in terms of computational readability, is aimed at making more readable and searchable the vast array of historical text corpora which are, at the moment, only partially usable given the high error rate introduced by an OCR software.

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.ancejournal	UMANISTICA DIGITALE	-
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	-
dc.authority.people	Del Fante Dario	it
dc.authority.people	Giorgio Maria Di Nunzio	it
dc.collection.id.s	b3f88f24-048a-4e43-8ab1-6697b90e068e	*
dc.collection.name	01.01 Articolo in rivista	*
dc.date.accessioned	2024/02/21 01:17:29	-
dc.date.available	2024/02/21 01:17:29	-
dc.date.issued	2022	-
dc.description.abstracteng	The use of OCR software to convert printed characters to digital text is a fundamental tool within diachronic approaches to Corpus-assisted discourse Studies. However, OCR software is not totally accurate, and the resulting error rate may compromise the qualitative analysis of the studies. This paper proposes a mixed qualitative-quantitative approach to OCR error detection and correction in order to develop a methodology for enhancing the quality of historical corpora. We applied the developed methodology to two case studies on newspapers of the beginning of the 20th century for the linguistic analysis of the metaphors representing migration and pandemics. The outcome of this project consists in a set of rules which are, eventually, valid for different contexts and applicable to different corpora and which can be reproduced and reused. The proposed procedure, in terms of computational readability, is aimed at making more readable and searchable the vast array of historical text corpora which are, at the moment, only partially usable given the high error rate introduced by an OCR software.	-
dc.description.abstractita	L'uso di software di riconoscimento OCR per convertire i caratteri stampati in testo digitale è uno strumento fondamentale per quanto riguarda l'ambito di studio degli approcci diacronici all'analisi del discorso politico attraverso i corpora (CADS studies). Tuttavia, i software OCR non sono totalmente affidabili, e il loro tasso di fallibilità può compromettere l'analisi. Questo articolo propone un approccio qualitativo-quantitativo al rilevamento e alla correzione degli errori post scansione OCR al fine di sviluppare una metodologia per migliorare la qualità dei corpora all'interno degli studi storici. Abbiamo applicato la metodologia sviluppata a due casi di studio su giornali dell'inizio del XX secolo per l'analisi linguistica delle rappresentazioni metaforiche delle migrazioni e delle pandemie. Il risultato di questo progetto consiste in un insieme di regole che sono valide per diversi contesti e applicabili a diversi corpora e che possono essere riutilizzate. La procedura proposta, in termini di leggibilità computazionale, ha lo scopo di rendere più leggibile e ricercabile la vasta gamma di corpora di testi storici che sono, al momento, solo parzialmente utilizzabili dato l'alto tasso di errore derivante da un software di riconoscimento OCR.	-
dc.description.affiliations	Istituto di Linguistica Computazionale "A.Zampolli"; Università degli Studi di Padova	-
dc.description.allpeople	DEL FANTE, Dario; Giorgio Maria Di, Nunzio	-
dc.description.allpeopleoriginal	Del Fante Dario; Giorgio Maria Di Nunzio	-
dc.description.fulltext	none	en
dc.description.numberofauthors	2	-
dc.identifier.doi	10.6092/issn.2532-8816/13689	-
dc.identifier.uri	https://hdl.handle.net/20.500.14243/444870	-
dc.identifier.url	https://umanisticadigitale.unibo.it/article/view/13689	-
dc.language.iso	eng	-
dc.relation.firstpage	99	-
dc.relation.lastpage	124	-
dc.relation.volume	11	-
dc.subject.keywords	Corpus-assisted Discourse Studies	-
dc.subject.keywords	OCR detection	-
dc.subject.keywords	OCR correction	-
dc.subject.keywords	OCR post-processing	-
dc.subject.keywords	Text Mining	-
dc.subject.singlekeyword	Corpus-assisted Discourse Studies	*
dc.subject.singlekeyword	OCR detection	*
dc.subject.singlekeyword	OCR correction	*
dc.subject.singlekeyword	OCR post-processing	*
dc.subject.singlekeyword	Text Mining	*
dc.title	OCR Correction for Corpus-assisted Discourse Studies: A Case Study of Old Newspapers	en
dc.type.driver	info:eu-repo/semantics/article	-
dc.type.full	01 Contributo su Rivista::01.01 Articolo in rivista	it
dc.type.miur	262	-
dc.ugov.descaux1	463185	-
iris.orcid.lastModifiedDate	2024/04/04 11:28:26	*
iris.orcid.lastModifiedMillisecond	1712222906270	*
iris.sitodocente.maxattempts	1	-
iris.unpaywall.metadataCallLastModified	28/12/2025 04:36:38	-
iris.unpaywall.metadataCallLastModifiedMillisecond	1766892998614	-
iris.unpaywall.metadataErrorDescription	0	-
iris.unpaywall.metadataErrorType	ERROR_NO_MATCH	-
iris.unpaywall.metadataStatus	ERROR	-
Appare nelle tipologie:	01.01 Articolo in rivista

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/444870

Citazioni

ND

ND

ND

social impact