CNR Institutional Research Information System

Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.

Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione

Manuel Favaro;Marco Biffi;Simonetta Montemagni

2022

Abstract

Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	en
dc.authority.people	Manuel Favaro	en
dc.authority.people	Marco Biffi	en
dc.authority.people	Simonetta Montemagni	en
dc.authority.project	DUS.AD017.115 / CNR4C - Regione Toscana	en
dc.collection.id.s	71c7200a-7c5f-4e83-8d57-d3d2ba88f40d	*
dc.collection.name	04.01 Contributo in Atti di convegno	*
dc.contributor.appartenenza	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	*
dc.contributor.appartenenza.mi	918	*
dc.contributor.area	Non assegn	*
dc.contributor.area	Non assegn	*
dc.date.accessioned	2025/02/25 17:51:56	-
dc.date.available	2025/02/25 17:51:56	-
dc.date.firstsubmission	2025/02/05 23:09:45	*
dc.date.issued	2022	-
dc.date.submission	2025/02/05 23:09:45	*
dc.description.abstractita	Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.	-
dc.description.allpeople	Favaro, Manuel; Biffi, Marco; Montemagni, Simonetta	-
dc.description.allpeopleoriginal	Manuel Favaro, Marco Biffi, Simonetta Montemagni	en
dc.description.fulltext	restricted	en
dc.description.international	no	en
dc.description.numberofauthors	3	-
dc.identifier.isbn	979-12-80153-30-2	en
dc.identifier.source	manual	*
dc.identifier.uri	https://hdl.handle.net/20.500.14243/533921	-
dc.language.iso	ita	en
dc.publisher.country	ITA	en
dc.publisher.name	VADISTAT PressEditor - Edizioni Erranti	en
dc.publisher.place	Cosenza	en
dc.relation.alleditors	Michelangelo Misuraca, Germana Scepi, Maria Spano	en
dc.relation.conferencedate	6-8/06/2022	en
dc.relation.conferencename	16th International Conference on Statistical Analysis of Textual Data (JADT22)	en
dc.relation.conferenceplace	Napoli	en
dc.relation.firstpage	393	en
dc.relation.ispartofbook	Proceedings of the 16th International Conference on Statistical Analysis of Textual Data (JADT22)	en
dc.relation.lastpage	399	en
dc.relation.numberofpages	7	en
dc.relation.projectAcronym	-	en
dc.relation.projectAwardNumber	-	en
dc.relation.projectAwardTitle	DUS.AD017.115 / CNR4C - Regione Toscana	en
dc.relation.projectFunderName	-	en
dc.relation.projectFundingStream	-	en
dc.subject.keywordsita	TAL, corpora, lessici morfologici, varietà storiche della lingua	-
dc.subject.singlekeyword	TAL	*
dc.subject.singlekeyword	corpora	*
dc.subject.singlekeyword	lessici morfologici	*
dc.subject.singlekeyword	varietà storiche della lingua	*
dc.title	Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione	en
dc.type.circulation	Nazionale	en
dc.type.driver	info:eu-repo/semantics/conferenceObject	-
dc.type.full	04 Contributo in convegno::04.01 Contributo in Atti di convegno	it
dc.type.impactfactor	no	en
dc.type.invited	contributo	en
dc.type.miur	273	-
dc.type.referee	Esperti anonimi	en
iris.mediafilter.data	2025/04/02 00:34:04	*
iris.orcid.lastModifiedDate	2025/02/25 17:51:56	*
iris.orcid.lastModifiedMillisecond	1740502316516	*
iris.sitodocente.maxattempts	1	-
Appare nelle tipologie:	04.01 Contributo in Atti di convegno

File in questo prodotto:

File	Dimensione	Formato
estratto JADT 2022.pdf solo utenti autorizzati Tipologia: Versione Editoriale (PDF) Licenza: NON PUBBLICO - Accesso privato/ristretto Dimensione 804.69 kB Formato Adobe PDF Visualizza/Apri Richiedi una copia	804.69 kB	Adobe PDF	Visualizza/Apri Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/533921

Citazioni

ND

ND

ND

social impact