The detection of regions of interest (ROI) in facsimile documents is essential for a proper digitization process and for the study of both manuscript and printed texts. This contribution presents a feature extension of the ZoneRW software (created in the context of the Bellini Digital Correspondence digital scholarly edition), to integrate the Kraken tool, dedicated to automatic zone detection and automatic text recognition, and the eScriptorium digital environment for advanced management of the digitization process from image repositories of textual documents. The proposed workflow uses the XML-PAGE format to ensure interoperability and scalability, while simultaneously allowing regions of interest to be defined, edited, and exported to eScriptorium. In addition, the new ZoneRW capabilities allow image description documents to be linked via IIIF protocol (manifest IIIF). The paper highlights and discusses the differences between XML-PAGE and XML-ALTO formats as well as prospects for future developments of the ZoneRW tool in the Digital Humanities context.

L’identificazione delle regioni di interesse (region of interest, ROI) nei documenti facsimilari è essenziale per un corretto processo di digitalizzazione e per lo studio sia di testi manoscritti sia di testi a stampa. Questo contributo presenta un’estensione di funzionalità del software ZoneRW (nato nel contesto dell’edizione scientifica digitale Bellini Digital Correspondence), per integrare il tool Kraken, dedicato al rilevamento automatico delle zone e al riconoscimento automatico del testo, e l’ambiente digitale eScriptorium per la gestione avanzata del processo di digitalizzazione a partire da repertori di immagini di documenti testuali. Il workflow proposto utilizza il formato XML-PAGE per garantire interoperabilità e scalabilità, permettendo contestualmente di definire, modificare ed esportare le regioni di interesse verso eScriptorium. Inoltre, le nuove funzionalità di ZoneRW consentono di collegare i documenti di descrizione di immagini mediante protocollo IIIF (manifest IIIF). Il contributo evidenzia e discute le differenze tra i formati XML-PAGE e XML-ALTO nonché le prospettive per futuri sviluppi dello strumento ZoneRW nel contesto delle Digital Humanities.

ZoneRW: verso un’integrazione con Kraken ed eScriptorium per il riconoscimento e la gestione avanzata delle regioni di interesse

Pietro Sichera
Primo
Writing – Review & Editing
;
Angelo Mario Del Grosso
Writing – Review & Editing
;
Laura Mazzagufo
Writing – Review & Editing
;
Daria Spampinato
Writing – Review & Editing
2025

Abstract

The detection of regions of interest (ROI) in facsimile documents is essential for a proper digitization process and for the study of both manuscript and printed texts. This contribution presents a feature extension of the ZoneRW software (created in the context of the Bellini Digital Correspondence digital scholarly edition), to integrate the Kraken tool, dedicated to automatic zone detection and automatic text recognition, and the eScriptorium digital environment for advanced management of the digitization process from image repositories of textual documents. The proposed workflow uses the XML-PAGE format to ensure interoperability and scalability, while simultaneously allowing regions of interest to be defined, edited, and exported to eScriptorium. In addition, the new ZoneRW capabilities allow image description documents to be linked via IIIF protocol (manifest IIIF). The paper highlights and discusses the differences between XML-PAGE and XML-ALTO formats as well as prospects for future developments of the ZoneRW tool in the Digital Humanities context.
Campo DC Valore Lingua
dc.authority.orgunit Istituto per il Lessico Intellettuale Europeo e Storia delle Idee - ILIESI en
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC en
dc.authority.orgunit Istituto di Scienze e Tecnologie della Cognizione - ISTC - Sede Secondaria Catania en
dc.authority.people Pietro Sichera en
dc.authority.people Angelo Mario Del Grosso en
dc.authority.people Laura Mazzagufo en
dc.authority.people Daria Spampinato en
dc.authority.project IR0000029 en
dc.authority.project PRR.PN.005.009 en
dc.collection.id.s 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d *
dc.collection.name 04.01 Contributo in Atti di convegno *
dc.contributor.appartenenza Istituto di Scienze e Tecnologie della Cognizione - ISTC - Sede Secondaria Catania *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza Istituto per il Lessico Intellettuale Europeo e Storia delle Idee - ILIESI *
dc.contributor.appartenenza.mi 917 *
dc.contributor.appartenenza.mi 918 *
dc.contributor.appartenenza.mi 989 *
dc.contributor.area Non assegn *
dc.contributor.area Non assegn *
dc.contributor.area Non assegn *
dc.date.accessioned 2025/12/09 15:11:31 -
dc.date.available 2025/12/09 15:11:31 -
dc.date.firstsubmission 2025/11/05 15:23:54 *
dc.date.issued 2025 -
dc.date.submission 2025/11/06 11:07:48 *
dc.description.abstracteng The detection of regions of interest (ROI) in facsimile documents is essential for a proper digitization process and for the study of both manuscript and printed texts. This contribution presents a feature extension of the ZoneRW software (created in the context of the Bellini Digital Correspondence digital scholarly edition), to integrate the Kraken tool, dedicated to automatic zone detection and automatic text recognition, and the eScriptorium digital environment for advanced management of the digitization process from image repositories of textual documents. The proposed workflow uses the XML-PAGE format to ensure interoperability and scalability, while simultaneously allowing regions of interest to be defined, edited, and exported to eScriptorium. In addition, the new ZoneRW capabilities allow image description documents to be linked via IIIF protocol (manifest IIIF). The paper highlights and discusses the differences between XML-PAGE and XML-ALTO formats as well as prospects for future developments of the ZoneRW tool in the Digital Humanities context. -
dc.description.abstractita L’identificazione delle regioni di interesse (region of interest, ROI) nei documenti facsimilari è essenziale per un corretto processo di digitalizzazione e per lo studio sia di testi manoscritti sia di testi a stampa. Questo contributo presenta un’estensione di funzionalità del software ZoneRW (nato nel contesto dell’edizione scientifica digitale Bellini Digital Correspondence), per integrare il tool Kraken, dedicato al rilevamento automatico delle zone e al riconoscimento automatico del testo, e l’ambiente digitale eScriptorium per la gestione avanzata del processo di digitalizzazione a partire da repertori di immagini di documenti testuali. Il workflow proposto utilizza il formato XML-PAGE per garantire interoperabilità e scalabilità, permettendo contestualmente di definire, modificare ed esportare le regioni di interesse verso eScriptorium. Inoltre, le nuove funzionalità di ZoneRW consentono di collegare i documenti di descrizione di immagini mediante protocollo IIIF (manifest IIIF). Il contributo evidenzia e discute le differenze tra i formati XML-PAGE e XML-ALTO nonché le prospettive per futuri sviluppi dello strumento ZoneRW nel contesto delle Digital Humanities. -
dc.description.allpeople Sichera, Pietro; Del Grosso, Angelo Mario; Mazzagufo, Laura; Spampinato, Daria -
dc.description.allpeopleoriginal Pietro Sichera, Angelo Mario Del Grosso, Laura Mazzagufo, Daria Spampinato en
dc.description.fulltext open en
dc.description.numberofauthors 4 -
dc.identifier.doi 10.6092/unibo/amsacta/8380 en
dc.identifier.isbn 978-88-942535-9-7 en
dc.identifier.source manual *
dc.identifier.uri https://hdl.handle.net/20.500.14243/556607 -
dc.identifier.url https://amsacta.unibo.it/id/eprint/8380 en
dc.language.iso eng en
dc.language.iso ita en
dc.relation.allauthors Rebora, Simone ; Rospocher, Marco ; Bazzaco, Stefano en
dc.relation.conferencedate 11-13 Giugno 2025 en
dc.relation.conferencename XIV Convegno Annuale AIUCD 2025, Diversità, Equità e Inclusione: Sfide e Opportunità per l’Informatica Umanistica nell’Era dell’Intelligenza Artificiale en
dc.relation.conferenceplace Verona en
dc.relation.firstpage 297 en
dc.relation.ispartofbook Diversità, Equità e Inclusione: Sfide e Opportunità per l’Informatica Umanistica nell’Era dell’Intelligenza Artificiale, Proceedings del XIV Convegno Annuale AIUCD2025 en
dc.relation.lastpage 302 en
dc.relation.numberofpages 6 en
dc.relation.projectAcronym H2IOSC en
dc.relation.projectAcronym COVerLeSS en
dc.relation.projectAwardNumber - en
dc.relation.projectAwardNumber - en
dc.relation.projectAwardTitle H2IOSC Humanities and cultural Heritage Italian Open Science Cloud en
dc.relation.projectAwardTitle COVerLeSS Corpus On line del Verismo tra Letteratura, Storia e Società en
dc.relation.projectFunderName European Union en
dc.relation.projectFunderName MIUR - Ministero dell'Istruzione, dell'Università e della Ricerca en
dc.relation.projectFundingStream NextGenerationEU – NRRP M4C2 en
dc.relation.projectFundingStream MUR PRIN2022 PNRR en
dc.subject.keywords ZoneRW -
dc.subject.keywords Kraken -
dc.subject.keywords eScriptorium -
dc.subject.keywordseng regions of interest -
dc.subject.keywordseng digitization -
dc.subject.keywordsita regioni di interesse -
dc.subject.keywordsita digitalizzazione -
dc.subject.singlekeyword ZoneRW *
dc.subject.singlekeyword Kraken *
dc.subject.singlekeyword eScriptorium *
dc.subject.singlekeyword regions of interest *
dc.subject.singlekeyword digitization *
dc.subject.singlekeyword regioni di interesse *
dc.subject.singlekeyword digitalizzazione *
dc.title ZoneRW: verso un’integrazione con Kraken ed eScriptorium per il riconoscimento e la gestione avanzata delle regioni di interesse en
dc.type.circulation Internazionale en
dc.type.driver info:eu-repo/semantics/conferenceObject -
dc.type.full 04 Contributo in convegno::04.01 Contributo in Atti di convegno it
dc.type.miur 273 -
iris.mediafilter.data 2025/12/10 03:53:58 *
iris.orcid.lastModifiedDate 2025/12/09 15:11:31 *
iris.orcid.lastModifiedMillisecond 1765289491859 *
iris.sitodocente.maxattempts 1 -
iris.unpaywall.metadataCallLastModified 14/12/2025 04:21:56 -
iris.unpaywall.metadataCallLastModifiedMillisecond 1765682516299 -
iris.unpaywall.metadataErrorDescription 0 -
iris.unpaywall.metadataErrorType ERROR_NO_MATCH -
iris.unpaywall.metadataStatus ERROR -
Appare nelle tipologie: 04.01 Contributo in Atti di convegno
File in questo prodotto:
File Dimensione Formato  
ZoneRW_AIUCD2025_Proceedings.pdf

accesso aperto

Descrizione: ZoneRW_eScriptorium.pdf
Tipologia: Versione Editoriale (PDF)
Licenza: Creative commons
Dimensione 4.25 MB
Formato Adobe PDF
4.25 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/556607
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact