Concordanze e NLP: idee, metodi e regole per l’applicazione alla lingua italiana

Sichera, Pietro; D’Agata, Christian; Palazzolo, Giuseppe

doi:10.6092/unibo/amsacta/8380

Automatic text lemmatization represents a fundamental tool in natural language processing (NLP), as it allows textual occurrences to be associated with their lemmas, i.e., the vocabulary items from which they are derived. However, this process, which is essential for linguistic and semantic analysis, presents significant challenges when applied to the Italian language. In particular, the morphological peculiarities of the language, such as the presence of enclitics and homographs, make it necessary to adopt approaches that combine advanced technologies and customized disambiguation interventions. This paper analyzes the combined use of spaCy and UDPipe, for automatic lemmatization of Italian texts, highlighting their strengths and limitations. These tools are integrated with LiotroConcord_v2 software, developed on a 4D platform, implementing custom rules for handling complex cases. This study aims to discuss the importance of a hybrid approach to lemmatization, integrating automatic methods and manual corrections, in order to improve the quality of linguistic analysis in the context of digital editions and philological research. In particular, the methodological and technological contributions of the developed system are discussed in depth, with a look at potential future applications and the possibility of extending such solutions to further areas of research. In the second part, a specific case study related to the encoding and lemmatization of I Viceré is presented.

La lemmatizzazione automatica dei testi rappresenta uno strumento fondamentale nell'elaborazione del linguaggio naturale (NLP), in quanto consente di associare le occorrenze testuali ai loro lemmi, ovvero alle voci di vocabolario da cui derivano. Questo processo, essenziale per l'analisi linguistica e semantica, presenta tuttavia sfide significative quando applicato alla lingua italiana. In particolare, le peculiarità morfologiche della lingua, come la presenza di enclitiche e omografi, rendono necessaria l'adozione di approcci che coniughino tecnologie avanzate e interventi di disambiguazione personalizzati. In questo lavoro si analizza l'uso combinato di spaCy e UDPipe, per la lemmatizzazione automatica di testi italiani, evidenziandone i punti di forza e le limitazioni. Tali strumenti sono integrati con il software LiotroConcord_v2, sviluppato su piattaforma 4D, implementando regole personalizzate per la gestione di casi complessi. Questo studio si propone di discutere l'importanza di un approccio ibrido alla lemmatizzazione, che integri metodi automatici e correttivi manuali, al fine di migliorare la qualità dell'analisi linguistica nel contesto delle edizioni digitali e della ricerca filologica. In particolare, vengono approfonditi i contributi metodologici e tecnologici del sistema sviluppato, con uno sguardo alle potenziali applicazioni future e alla possibilità di estendere tali soluzioni a ulteriori ambiti di ricerca. Nella seconda parte viene presentato un caso di studio specifico relativo alla codifica e alla lemmatizzazione de I Viceré.