Retrieval-Augmented Generation per documenti giuridici strutturati: uno studio sulla legislazione italiana in materia di immigrazione

Bacci, Lorenzo

La rapida diffusione dei Large Language Models ha favorito la nascita di sistemi di Question Answering basati sul paradigma Retrieval-Augmented Generation (RAG), nei quali la conoscenza di dominio viene disaccoppiata dal modello generativo e recuperata dinamicamente da un corpus documentale esterno. Tuttavia, quando applicati al dominio legislativo italiano, i sistemi RAG general-purpose mostrano limiti significativi dovuti alle peculiarità dei testi normativi: struttura gerarchica rigida, densità di citazioni normative, frammentazione della disciplina tra molteplici atti e l’esigenza imprescindibile della tracciabilità delle fonti. La presente tesi propone e valuta un’architettura RAG structure-aware in grado di sfruttare le annotazioni XML della struttura dell’articolato e delle citazioni normative, introdotte automaticamente nei documenti legislativi italiani dagli strumenti IGSG Marker e Linkoln. L’architettura si fonda su due intuizioni principali: il disaccoppiamento tra il testo indicizzato e il testo fornito al modello generativo, che abilita la riduzione dei contenuti superflui in fase di indicizzazione senza perdita di informazione in fase di generazione; e l’iniezione di contesto gerarchico globale nei chunks indicizzati, ottenuto dal titolo dell’atto e dalle rubriche estratte deterministicamente dalle annotazioni XML. A queste si aggiunge un meccanismo di espansione del contesto basato su un grafo delle citazioni interne, che consente di risolvere i rinvii normativi opachi portando nel contesto le disposizioni richiamate. La sperimentazione è stata condotta su un corpus di circa 3.600 documenti di normativa vigente in materia di immigrazione, tratti dalla banca dati del portale PAeSI. Tre architetture RAG (Baseline con testi piatti, XML con annotazioni strutturali e XML+Refs con annotazioni strutturali e grafo delle citazioni) sono state confrontate a parità di strategia di retrieval ibrido e di modello generativo, su un test set di 43 domande selezionate da un esperto di dominio. La valutazione, condotta sia con il paradigma LLM-as-judge sia da un valutatore umano qualificato, mostra una progressione netta: l’architettura XML supera la Baseline del 17,72% in termini di punteggio complessivo, e l’architettura XML+Refs aggiunge un ulteriore 3,41%. Il miglioramento più marcato riguarda la precisione dei riferimenti normativi, che passa dal 57,67% al 95,35%, mentre l’espansione delle citazioni interne si rivela determinante per la completezza delle risposte a domande che coinvolgono disposizioni collegate da rinvii strutturali. La piena concordanza tra valutazione automatica e valutazione umana sul ranking delle tre architetture rafforza la validità dei risultati ottenuti.

Retrieval-Augmented Generation per documenti giuridici strutturati: uno studio sulla legislazione italiana in materia di immigrazione / Bacci, L.. - (2026).