Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.

Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione

Manuel Favaro
;
Simonetta Montemagni
2022

Abstract

Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC en
dc.authority.people Manuel Favaro en
dc.authority.people Marco Biffi en
dc.authority.people Simonetta Montemagni en
dc.authority.project DUS.AD017.115 / CNR4C - Regione Toscana en
dc.collection.id.s 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d *
dc.collection.name 04.01 Contributo in Atti di convegno *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.contributor.area Non assegn *
dc.contributor.area Non assegn *
dc.date.accessioned 2025/02/25 17:51:56 -
dc.date.available 2025/02/25 17:51:56 -
dc.date.firstsubmission 2025/02/05 23:09:45 *
dc.date.issued 2022 -
dc.date.submission 2025/02/05 23:09:45 *
dc.description.abstractita Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci. -
dc.description.allpeople Favaro, Manuel; Biffi, Marco; Montemagni, Simonetta -
dc.description.allpeopleoriginal Manuel Favaro, Marco Biffi, Simonetta Montemagni en
dc.description.fulltext restricted en
dc.description.international no en
dc.description.numberofauthors 3 -
dc.identifier.isbn 979-12-80153-30-2 en
dc.identifier.source manual *
dc.identifier.uri https://hdl.handle.net/20.500.14243/533921 -
dc.language.iso ita en
dc.publisher.country ITA en
dc.publisher.name VADISTAT PressEditor - Edizioni Erranti en
dc.publisher.place Cosenza en
dc.relation.alleditors Michelangelo Misuraca, Germana Scepi, Maria Spano en
dc.relation.conferencedate 6-8/06/2022 en
dc.relation.conferencename 16th International Conference on Statistical Analysis of Textual Data (JADT22) en
dc.relation.conferenceplace Napoli en
dc.relation.firstpage 393 en
dc.relation.ispartofbook Proceedings of the 16th International Conference on Statistical Analysis of Textual Data (JADT22) en
dc.relation.lastpage 399 en
dc.relation.numberofpages 7 en
dc.relation.projectAcronym - en
dc.relation.projectAwardNumber - en
dc.relation.projectAwardTitle DUS.AD017.115 / CNR4C - Regione Toscana en
dc.relation.projectFunderName - en
dc.relation.projectFundingStream - en
dc.subject.keywordsita TAL, corpora, lessici morfologici, varietà storiche della lingua -
dc.subject.singlekeyword TAL *
dc.subject.singlekeyword corpora *
dc.subject.singlekeyword lessici morfologici *
dc.subject.singlekeyword varietà storiche della lingua *
dc.title Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione en
dc.type.circulation Nazionale en
dc.type.driver info:eu-repo/semantics/conferenceObject -
dc.type.full 04 Contributo in convegno::04.01 Contributo in Atti di convegno it
dc.type.impactfactor no en
dc.type.invited contributo en
dc.type.miur 273 -
dc.type.referee Esperti anonimi en
iris.mediafilter.data 2025/04/02 00:34:04 *
iris.orcid.lastModifiedDate 2025/02/25 17:51:56 *
iris.orcid.lastModifiedMillisecond 1740502316516 *
iris.sitodocente.maxattempts 1 -
Appare nelle tipologie: 04.01 Contributo in Atti di convegno
File in questo prodotto:
File Dimensione Formato  
estratto JADT 2022.pdf

solo utenti autorizzati

Tipologia: Versione Editoriale (PDF)
Licenza: NON PUBBLICO - Accesso privato/ristretto
Dimensione 804.69 kB
Formato Adobe PDF
804.69 kB Adobe PDF   Visualizza/Apri   Richiedi una copia

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/533921
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact