The detection of regions of interest (ROI) in facsimile documents is essential for a proper digitization process and for the study of both manuscript and printed texts. This contribution presents a feature extension of the ZoneRW software (created in the context of the Bellini Digital Correspondence digital scholarly edition), to integrate the Kraken tool, dedicated to automatic zone detection and automatic text recognition, and the eScriptorium digital environment for advanced management of the digitization process from image repositories of textual documents. The proposed workflow uses the XML-PAGE format to ensure interoperability and scalability, while simultaneously allowing regions of interest to be defined, edited, and exported to eScriptorium. In addition, the new ZoneRW capabilities allow image description documents to be linked via IIIF protocol (manifest IIIF). The paper highlights and discusses the differences between XML-PAGE and XML-ALTO formats as well as prospects for future developments of the ZoneRW tool in the Digital Humanities context.

L’identificazione delle regioni di interesse (region of interest, ROI) nei documenti facsimilari è essenziale per un corretto processo di digitalizzazione e per lo studio sia di testi manoscritti sia di testi a stampa. Questo contributo presenta un’estensione di funzionalità del software ZoneRW (nato nel contesto dell’edizione scientifica digitale Bellini Digital Correspondence), per integrare il tool Kraken, dedicato al rilevamento automatico delle zone e al riconoscimento automatico del testo, e l’ambiente digitale eScriptorium per la gestione avanzata del processo di digitalizzazione a partire da repertori di immagini di documenti testuali. Il workflow proposto utilizza il formato XML-PAGE per garantire interoperabilità e scalabilità, permettendo contestualmente di definire, modificare ed esportare le regioni di interesse verso eScriptorium. Inoltre, le nuove funzionalità di ZoneRW consentono di collegare i documenti di descrizione di immagini mediante protocollo IIIF (manifest IIIF). Il contributo evidenzia e discute le differenze tra i formati XML-PAGE e XML-ALTO nonché le prospettive per futuri sviluppi dello strumento ZoneRW nel contesto delle Digital Humanities.

ZoneRW: verso un’integrazione con Kraken ed eScriptorium per il riconoscimento e la gestione avanzata delle regioni di interesse

Pietro Sichera
Primo
Writing – Review & Editing
;
Angelo Mario Del Grosso
Writing – Review & Editing
;
Laura Mazzagufo
Writing – Review & Editing
;
Daria Spampinato
Writing – Review & Editing
2025

Abstract

The detection of regions of interest (ROI) in facsimile documents is essential for a proper digitization process and for the study of both manuscript and printed texts. This contribution presents a feature extension of the ZoneRW software (created in the context of the Bellini Digital Correspondence digital scholarly edition), to integrate the Kraken tool, dedicated to automatic zone detection and automatic text recognition, and the eScriptorium digital environment for advanced management of the digitization process from image repositories of textual documents. The proposed workflow uses the XML-PAGE format to ensure interoperability and scalability, while simultaneously allowing regions of interest to be defined, edited, and exported to eScriptorium. In addition, the new ZoneRW capabilities allow image description documents to be linked via IIIF protocol (manifest IIIF). The paper highlights and discusses the differences between XML-PAGE and XML-ALTO formats as well as prospects for future developments of the ZoneRW tool in the Digital Humanities context.
2025
Istituto per il Lessico Intellettuale Europeo e Storia delle Idee - ILIESI
Istituto di linguistica computazionale "Antonio Zampolli" - ILC
Istituto di Scienze e Tecnologie della Cognizione - ISTC - Sede Secondaria Catania
978-88-942535-9-7
L’identificazione delle regioni di interesse (region of interest, ROI) nei documenti facsimilari è essenziale per un corretto processo di digitalizzazione e per lo studio sia di testi manoscritti sia di testi a stampa. Questo contributo presenta un’estensione di funzionalità del software ZoneRW (nato nel contesto dell’edizione scientifica digitale Bellini Digital Correspondence), per integrare il tool Kraken, dedicato al rilevamento automatico delle zone e al riconoscimento automatico del testo, e l’ambiente digitale eScriptorium per la gestione avanzata del processo di digitalizzazione a partire da repertori di immagini di documenti testuali. Il workflow proposto utilizza il formato XML-PAGE per garantire interoperabilità e scalabilità, permettendo contestualmente di definire, modificare ed esportare le regioni di interesse verso eScriptorium. Inoltre, le nuove funzionalità di ZoneRW consentono di collegare i documenti di descrizione di immagini mediante protocollo IIIF (manifest IIIF). Il contributo evidenzia e discute le differenze tra i formati XML-PAGE e XML-ALTO nonché le prospettive per futuri sviluppi dello strumento ZoneRW nel contesto delle Digital Humanities.
ZoneRW
Kraken
eScriptorium
regions of interest
digitization
regioni di interesse
digitalizzazione
File in questo prodotto:
File Dimensione Formato  
ZoneRW_AIUCD2025_Proceedings.pdf

accesso aperto

Descrizione: ZoneRW_eScriptorium.pdf
Tipologia: Versione Editoriale (PDF)
Licenza: Creative commons
Dimensione 4.25 MB
Formato Adobe PDF
4.25 MB Adobe PDF Visualizza/Apri

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/556607
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact