Preserving Preserving and enhancing cultural heritage: the Digest project

Cinini, Alessandra; Marongiu, Paola; Sassolini, Eva; Monachini, Monica

doi:10.6092/unibo/amsacta/8380

This paper aims to describe and analyze the activities related to the preservation and valorization of textual corpora of cultural-historical value, produced over a long period of time. We intend to share with the scientific community the problems related to the advancement of technologies used for data creation/processing, as well as the issues related to the transition from proprietary to standard formats to enable data sharing and interoperability. Finally, we will outline the complex transition to open data paradigms and the necessary steps for migrating data into international research infrastructures. Specifically, we will describe the translation process of Justinian’s Digest, emphasizing how this has evolved alongside technological progress. Our contribution will offer the DH community a point of view on the evolution of the digitization/computerization of large textual resources, based on a real use-case. To illustrate this, we will examine how specialized translation from Latin to Italian can be enhanced using textual analysis tools. Furthermore, we will describe the transformation of both the original and translated texts into a parallel bilingual corpus; its conversion into XML TEI format; the steps taken for depositing the data in the CLARIN research infrastructure.

Valorizzare e custodire il patrimonio culturale: alla scoperta del progetto Digesto. Il contributo vuole discutere delle attivita connesse alla salvaguardia e alla valorizzazione di corpora testuali di valore storicoculturale prodotti in un lungo arco temporale. Analizzeremo le problematiche legate al progresso delle tecnologie utilizzate per la creazione/elaborazione dei dati che sono mutate nel tempo, nonche l'arduo passaggio dai formati proprietari a quelli standard per una migliore condivisione e interoperabilita dei dati. Infine, descriveremo la non facile transizione verso paradigmi di dati aperti e i passaggi necessari per migrare i dati verso infrastrutture di ricerca internazionali. In particolare, descriveremo le fasi del progetto di traduzione del Digesto di Giustiniano che hanno richiesto il supporto tecnologico del nostro gruppo di ricerca, e come questo contributo e cambiato di pari passo con il progresso tecnologico. Vogliamo offrire alla comunita DH un punto di vista reale sull'evoluzione della digitalizzazione/informatizzazione di grandi risorse testuali. Nel caso specifico, discuteremo del supporto alla traduzione specializzata dal latino all'italiano con strumenti di analisi testuale, e della trasformazione dei testi originali e tradotti in un corpus bilingue parallelo; di come questo e stato convertito in formato XML TEI; infine, delle operazioni necessarie al deposito dei dati all'interno dell'infrastruttura di ricerca CLARIN.

Preserving Preserving and enhancing cultural heritage: the Digest project

Alessandra Cinini;Paola Marongiu;Eva Sassolini;Monica Monachini

2025

Abstract

This paper aims to describe and analyze the activities related to the preservation and valorization of textual corpora of cultural-historical value, produced over a long period of time. We intend to share with the scientific community the problems related to the advancement of technologies used for data creation/processing, as well as the issues related to the transition from proprietary to standard formats to enable data sharing and interoperability. Finally, we will outline the complex transition to open data paradigms and the necessary steps for migrating data into international research infrastructures. Specifically, we will describe the translation process of Justinian’s Digest, emphasizing how this has evolved alongside technological progress. Our contribution will offer the DH community a point of view on the evolution of the digitization/computerization of large textual resources, based on a real use-case. To illustrate this, we will examine how specialized translation from Latin to Italian can be enhanced using textual analysis tools. Furthermore, we will describe the transformation of both the original and translated texts into a parallel bilingual corpus; its conversion into XML TEI format; the steps taken for depositing the data in the CLARIN research infrastructure.

Scheda breve

Scheda completa

Scheda completa (DC)

	Anno
	
				2025
			
	Strutture organizzative
	
				Istituto di linguistica computazionale "Antonio Zampolli" - ILC
			
	Codice ISBN
	
				978-88-942535-9-7
			
	Breve descrizione dei contenuti (Abstract)
	
				Valorizzare e custodire il patrimonio culturale: alla scoperta del progetto Digesto. Il contributo vuole discutere delle attivita connesse alla salvaguardia e alla valorizzazione di corpora testuali di valore storicoculturale prodotti in un lungo arco temporale. Analizzeremo le problematiche legate al progresso delle tecnologie utilizzate per la creazione/elaborazione dei dati che sono mutate nel tempo, nonche l'arduo passaggio dai formati proprietari a quelli standard per una migliore condivisione e interoperabilita dei dati. Infine, descriveremo la non facile transizione verso paradigmi di dati aperti e i passaggi necessari per migrare i dati verso infrastrutture di ricerca internazionali. In particolare, descriveremo le fasi del progetto di traduzione del Digesto di Giustiniano che hanno richiesto il supporto tecnologico del nostro gruppo di ricerca, e come questo contributo e cambiato di pari passo con il progresso tecnologico. Vogliamo offrire alla comunita DH un punto di vista reale sull'evoluzione della digitalizzazione/informatizzazione di grandi risorse testuali. Nel caso specifico, discuteremo del supporto alla traduzione specializzata dal latino all'italiano con strumenti di analisi testuale, e della trasformazione dei testi originali e tradotti in un corpus bilingue parallelo; di come questo e stato convertito in formato XML TEI; infine, delle operazioni necessarie al deposito dei dati all'interno dell'infrastruttura di ricerca CLARIN.
			
	Parole chiave
	
				texts corpora, standard TEI format, digital preservation
			
	Parole chiave
	
				corpora testuali, standard TEI, preservazione digitale

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/579507

Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ente

Citazioni

ND

ND

ND

CNR Institutional Research Information System