This paper aims to describe and analyze the activities related to the preservation and valorization of textual corpora of cultural-historical value, produced over a long period of time. We intend to share with the scientific community the problems related to the advancement of technologies used for data creation/processing, as well as the issues related to the transition from proprietary to standard formats to enable data sharing and interoperability. Finally, we will outline the complex transition to open data paradigms and the necessary steps for migrating data into international research infrastructures. Specifically, we will describe the translation process of Justinian’s Digest, emphasizing how this has evolved alongside technological progress. Our contribution will offer the DH community a point of view on the evolution of the digitization/computerization of large textual resources, based on a real use-case. To illustrate this, we will examine how specialized translation from Latin to Italian can be enhanced using textual analysis tools. Furthermore, we will describe the transformation of both the original and translated texts into a parallel bilingual corpus; its conversion into XML TEI format; the steps taken for depositing the data in the CLARIN research infrastructure.
Valorizzare e custodire il patrimonio culturale: alla scoperta del progetto Digesto. Il contributo vuole discutere delle attivita connesse alla salvaguardia e alla valorizzazione di corpora testuali di valore storicoculturale prodotti in un lungo arco temporale. Analizzeremo le problematiche legate al progresso delle tecnologie utilizzate per la creazione/elaborazione dei dati che sono mutate nel tempo, nonche l'arduo passaggio dai formati proprietari a quelli standard per una migliore condivisione e interoperabilita dei dati. Infine, descriveremo la non facile transizione verso paradigmi di dati aperti e i passaggi necessari per migrare i dati verso infrastrutture di ricerca internazionali. In particolare, descriveremo le fasi del progetto di traduzione del Digesto di Giustiniano che hanno richiesto il supporto tecnologico del nostro gruppo di ricerca, e come questo contributo e cambiato di pari passo con il progresso tecnologico. Vogliamo offrire alla comunita DH un punto di vista reale sull'evoluzione della digitalizzazione/informatizzazione di grandi risorse testuali. Nel caso specifico, discuteremo del supporto alla traduzione specializzata dal latino all'italiano con strumenti di analisi testuale, e della trasformazione dei testi originali e tradotti in un corpus bilingue parallelo; di come questo e stato convertito in formato XML TEI; infine, delle operazioni necessarie al deposito dei dati all'interno dell'infrastruttura di ricerca CLARIN.
Preserving Preserving and enhancing cultural heritage: the Digest project
Alessandra Cinini
;Paola Marongiu;Eva Sassolini
;Monica Monachini
2025
Abstract
This paper aims to describe and analyze the activities related to the preservation and valorization of textual corpora of cultural-historical value, produced over a long period of time. We intend to share with the scientific community the problems related to the advancement of technologies used for data creation/processing, as well as the issues related to the transition from proprietary to standard formats to enable data sharing and interoperability. Finally, we will outline the complex transition to open data paradigms and the necessary steps for migrating data into international research infrastructures. Specifically, we will describe the translation process of Justinian’s Digest, emphasizing how this has evolved alongside technological progress. Our contribution will offer the DH community a point of view on the evolution of the digitization/computerization of large textual resources, based on a real use-case. To illustrate this, we will examine how specialized translation from Latin to Italian can be enhanced using textual analysis tools. Furthermore, we will describe the transformation of both the original and translated texts into a parallel bilingual corpus; its conversion into XML TEI format; the steps taken for depositing the data in the CLARIN research infrastructure.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


