A partire da marzo 2023, il CNR-ILIESI e il nodo italiano dell'infrastruttura di ricerca OPERAS hanno progettato il framework di orchestrazione dei servizi per il Marketplace di H2IOSC, che consente l’esecuzione automatizzata di servizi di ricerca distribuiti tra diverse infrastrutture. La trascrizione e la pubblicazione di manoscritti storici è un processo in più fasi che in genere richiede ai ricercatori di interagire manualmente con diversi strumenti digitali indipendenti: archivi di immagini, motori di riconoscimento del testo scritto a mano (HTR) e piattaforme di pubblicazione digitale. Questo documento presenta una pipeline completamente automatizzata che orchestra tre servizi standard aperti – IIIF per l’accesso alle immagini, eScriptorium per HTR e TEI Publisher per l’edizione digitale accademica – in un unico flusso di lavoro eseguibile utilizzando WSO2 Micro Integrator. La pipeline, sviluppata all’interno del quadro di orchestrazione OPERAS-IT del progetto H2IOSC, implementa un modello di polling asincrono in quattro fasi (importazione, segmentazione, trascrizione, esportazione), applica una trasformazione XSLT che converte ALTO XML in TEI P5 con codifica facsimile e pubblica il risultato su TEI Publisher tramite l’API REST eXist-db. Descriviamo l’implementazione completa, la dimostriamo su un’immagine manoscritta dall’archivio del progetto Coverless elaborata tramite un’istanza eScriptorium ospitata dall’ISTC-CNR di Catania e discutiamo le decisioni di progettazione che rendono la pipeline completamente parametrizzata in fase di esecuzione, riutilizzabile in diversi corpora e riproducibile senza modifiche ai servizi sottostanti. Il concetto di orchestrazione e l’architettura descritti in questo articolo sono stati concepiti dal gruppo OPERAS-IT nell’ambito del progetto H2IOSC.

Un workflow automatizzato per la trascrizione e la pubblicazione di manoscritti storici: orchestrazione di IIIF, eScriptorium e TEI Publisher tramite WSO2 Micro Integrator

Pietro Sichera
Primo
;
Cristina Marras
Co-ultimo
;
Enrico Pasini
Co-ultimo
2026

Abstract

A partire da marzo 2023, il CNR-ILIESI e il nodo italiano dell'infrastruttura di ricerca OPERAS hanno progettato il framework di orchestrazione dei servizi per il Marketplace di H2IOSC, che consente l’esecuzione automatizzata di servizi di ricerca distribuiti tra diverse infrastrutture. La trascrizione e la pubblicazione di manoscritti storici è un processo in più fasi che in genere richiede ai ricercatori di interagire manualmente con diversi strumenti digitali indipendenti: archivi di immagini, motori di riconoscimento del testo scritto a mano (HTR) e piattaforme di pubblicazione digitale. Questo documento presenta una pipeline completamente automatizzata che orchestra tre servizi standard aperti – IIIF per l’accesso alle immagini, eScriptorium per HTR e TEI Publisher per l’edizione digitale accademica – in un unico flusso di lavoro eseguibile utilizzando WSO2 Micro Integrator. La pipeline, sviluppata all’interno del quadro di orchestrazione OPERAS-IT del progetto H2IOSC, implementa un modello di polling asincrono in quattro fasi (importazione, segmentazione, trascrizione, esportazione), applica una trasformazione XSLT che converte ALTO XML in TEI P5 con codifica facsimile e pubblica il risultato su TEI Publisher tramite l’API REST eXist-db. Descriviamo l’implementazione completa, la dimostriamo su un’immagine manoscritta dall’archivio del progetto Coverless elaborata tramite un’istanza eScriptorium ospitata dall’ISTC-CNR di Catania e discutiamo le decisioni di progettazione che rendono la pipeline completamente parametrizzata in fase di esecuzione, riutilizzabile in diversi corpora e riproducibile senza modifiche ai servizi sottostanti. Il concetto di orchestrazione e l’architettura descritti in questo articolo sono stati concepiti dal gruppo OPERAS-IT nell’ambito del progetto H2IOSC.
2026
Istituto per il Lessico Intellettuale Europeo e Storia delle Idee - ILIESI
HTR
riconoscimento del testo scritto a mano
IIIF
eScriptorium
TEI Publisher
orchestrazione dei servizi
WSO2 Micro Integrator
ALTO XML
TEI P5
edizione scientifica digitale
H2IOSC
OPERAS
OPERAS-IT
discipline umanistiche digitali
trascrizione del manoscritto
infrastruttura di ricerca
DARIAH
automazione della pipeline
CLARIN
E-RIHS
federazione di infrastrutture
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/579482
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact