Verso l’implementazione di un sistema di riconoscimento di allusioni al lessico dantesco nelle testimonianze del Lager: il caso d’uso in Voci dall’Inferno

Congiu, Carla; Del Grosso, Angelo Mario; Riccucci, Marina

doi:10.6092/unibo/amsacta/8380

Toward the implementation of a system for recognizing allusions to Dante's lexicon in Lager testimonies: the Voci dall’Inferno use case. Voci dall’Inferno is a research project by the University of Pisa, developed with the support of the Istituto di Linguistica Computazionale “A. Zampolli”. The initiative has two main scientific objectives: a) to digitize the first corpus of non-literary testimonies from concentration camp, and b) to identify the presence of citations and/or allusions to Dante's lexicon within them (Del Grosso et al., 2024). To achieve this second objective, a prototype web application called Voci dall’Inferno Verse Similarity Search was developed. The system is designed to detect citations and allusions to Dante’s vocabulary through computational approaches by searching for expression within the testimonies and comparing them with verses from Dante’s Commedia. The application, built in Python, leverages advanced technologies such as Weaviate, an open-source vector search platform, and Streamlit, a framework for web application development. Adopting sentence similarity metrics, the application uses machine learning models to transform texts into embedding representations and subsequently measure their similarity. Currently, the application is not yet publicly available. However, the CLARIN-IT research infrastructure (within H2IOSC PNRR project) has been contacted to host the application, ensuring accessibility and sustainability. A demo will be prepared for the conference if the contribution will be accepted.

Voci dall’Inferno è un progetto di ricerca dell’Università di Pisa, sviluppato con il supporto dell’Istituto di Linguistica Computazionale “A. Zampolli”. L’iniziativa ha due principali obiettivi scientifici: a) digitalizzare il primo corpus di testimonianze non letterarie di deportati sopravvissuti ai campi di concentramento e b) identificare al suo interno la presenza di citazioni e/o allusioni al lessico di Dante (Del Grosso et al.,2024). Al fine di raggiungere questo secondo obiettivo è stato sviluppato un prototipo di applicazione web denominata Voci dall’Inferno Verse Similarity Search. Il sistema è progettato per individuare citazioni e allusioni al lessico dantesco mediante approcci computazionali alla ricerca di frasi presenti nelle testimonianze e il confronto di essi con i versi presenti nella Divina Commedia di Dante Alighieri. L’applicazione, realizzata in Python, utilizza tecnologie avanzate come Weaviate, una piattaforma opensource per la ricerca vettoriale, e Streamlit, un framework per lo sviluppo di applicazioni web. Basandosi su metriche di Sentence Similarity, l’applicazione sfrutta modelli di machine learning per trasformare i testi in rappresentazioni di embeddings e in seguito misurarne la similarità. Attualmente l’applicazione non è ancora disponibile per l’uso da parte del pubblico, ciononostante l’infrastruttura di ricerca CLARIN-IT (H2IOSC) è stata contattata per ospitare l’applicazione garantendone accesso e sostenibilità. Una demo sarà predisposta per la conferenza qualora il contributo venisse accettato.