A partire da marzo 2023, il CNR-ILIESI e il nodo italiano dell'infrastruttura di ricerca OPERAS hanno progettato il framework di orchestrazione dei servizi per il Marketplace di H2IOSC, che consente l’esecuzione automatizzata di servizi di ricerca distribuiti tra diverse infrastrutture. La trascrizione e la pubblicazione di manoscritti storici è un processo in più fasi che in genere richiede ai ricercatori di interagire manualmente con diversi strumenti digitali indipendenti: archivi di immagini, motori di riconoscimento del testo scritto a mano (HTR) e piattaforme di pubblicazione digitale. Questo documento presenta una pipeline completamente automatizzata che orchestra tre servizi standard aperti – IIIF per l’accesso alle immagini, eScriptorium per HTR e TEI Publisher per l’edizione digitale accademica – in un unico flusso di lavoro eseguibile utilizzando WSO2 Micro Integrator. La pipeline, sviluppata all’interno del quadro di orchestrazione OPERAS-IT del progetto H2IOSC, implementa un modello di polling asincrono in quattro fasi (importazione, segmentazione, trascrizione, esportazione), applica una trasformazione XSLT che converte ALTO XML in TEI P5 con codifica facsimile e pubblica il risultato su TEI Publisher tramite l’API REST eXist-db. Descriviamo l’implementazione completa, la dimostriamo su un’immagine manoscritta dall’archivio del progetto Coverless elaborata tramite un’istanza eScriptorium ospitata dall’ISTC-CNR di Catania e discutiamo le decisioni di progettazione che rendono la pipeline completamente parametrizzata in fase di esecuzione, riutilizzabile in diversi corpora e riproducibile senza modifiche ai servizi sottostanti. Il concetto di orchestrazione e l’architettura descritti in questo articolo sono stati concepiti dal gruppo OPERAS-IT nell’ambito del progetto H2IOSC.
Un workflow automatizzato per la trascrizione e la pubblicazione di manoscritti storici: orchestrazione di IIIF, eScriptorium e TEI Publisher tramite WSO2 Micro Integrator
Pietro Sichera
Primo
;Cristina Marras
Co-ultimo
;Enrico Pasini
Co-ultimo
2026
Abstract
A partire da marzo 2023, il CNR-ILIESI e il nodo italiano dell'infrastruttura di ricerca OPERAS hanno progettato il framework di orchestrazione dei servizi per il Marketplace di H2IOSC, che consente l’esecuzione automatizzata di servizi di ricerca distribuiti tra diverse infrastrutture. La trascrizione e la pubblicazione di manoscritti storici è un processo in più fasi che in genere richiede ai ricercatori di interagire manualmente con diversi strumenti digitali indipendenti: archivi di immagini, motori di riconoscimento del testo scritto a mano (HTR) e piattaforme di pubblicazione digitale. Questo documento presenta una pipeline completamente automatizzata che orchestra tre servizi standard aperti – IIIF per l’accesso alle immagini, eScriptorium per HTR e TEI Publisher per l’edizione digitale accademica – in un unico flusso di lavoro eseguibile utilizzando WSO2 Micro Integrator. La pipeline, sviluppata all’interno del quadro di orchestrazione OPERAS-IT del progetto H2IOSC, implementa un modello di polling asincrono in quattro fasi (importazione, segmentazione, trascrizione, esportazione), applica una trasformazione XSLT che converte ALTO XML in TEI P5 con codifica facsimile e pubblica il risultato su TEI Publisher tramite l’API REST eXist-db. Descriviamo l’implementazione completa, la dimostriamo su un’immagine manoscritta dall’archivio del progetto Coverless elaborata tramite un’istanza eScriptorium ospitata dall’ISTC-CNR di Catania e discutiamo le decisioni di progettazione che rendono la pipeline completamente parametrizzata in fase di esecuzione, riutilizzabile in diversi corpora e riproducibile senza modifiche ai servizi sottostanti. Il concetto di orchestrazione e l’architettura descritti in questo articolo sono stati concepiti dal gruppo OPERAS-IT nell’ambito del progetto H2IOSC.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


