Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.
Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione
Manuel Favaro
;Simonetta Montemagni
2022
Abstract
Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.| Campo DC | Valore | Lingua |
|---|---|---|
| dc.authority.orgunit | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | en |
| dc.authority.people | Manuel Favaro | en |
| dc.authority.people | Marco Biffi | en |
| dc.authority.people | Simonetta Montemagni | en |
| dc.authority.project | DUS.AD017.115 / CNR4C - Regione Toscana | en |
| dc.collection.id.s | 71c7200a-7c5f-4e83-8d57-d3d2ba88f40d | * |
| dc.collection.name | 04.01 Contributo in Atti di convegno | * |
| dc.contributor.appartenenza | Istituto di linguistica computazionale "Antonio Zampolli" - ILC | * |
| dc.contributor.appartenenza.mi | 918 | * |
| dc.contributor.area | Non assegn | * |
| dc.contributor.area | Non assegn | * |
| dc.date.accessioned | 2025/02/25 17:51:56 | - |
| dc.date.available | 2025/02/25 17:51:56 | - |
| dc.date.firstsubmission | 2025/02/05 23:09:45 | * |
| dc.date.issued | 2022 | - |
| dc.date.submission | 2025/02/05 23:09:45 | * |
| dc.description.abstractita | Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci. | - |
| dc.description.allpeople | Favaro, Manuel; Biffi, Marco; Montemagni, Simonetta | - |
| dc.description.allpeopleoriginal | Manuel Favaro, Marco Biffi, Simonetta Montemagni | en |
| dc.description.fulltext | restricted | en |
| dc.description.international | no | en |
| dc.description.numberofauthors | 3 | - |
| dc.identifier.isbn | 979-12-80153-30-2 | en |
| dc.identifier.source | manual | * |
| dc.identifier.uri | https://hdl.handle.net/20.500.14243/533921 | - |
| dc.language.iso | ita | en |
| dc.publisher.country | ITA | en |
| dc.publisher.name | VADISTAT PressEditor - Edizioni Erranti | en |
| dc.publisher.place | Cosenza | en |
| dc.relation.alleditors | Michelangelo Misuraca, Germana Scepi, Maria Spano | en |
| dc.relation.conferencedate | 6-8/06/2022 | en |
| dc.relation.conferencename | 16th International Conference on Statistical Analysis of Textual Data (JADT22) | en |
| dc.relation.conferenceplace | Napoli | en |
| dc.relation.firstpage | 393 | en |
| dc.relation.ispartofbook | Proceedings of the 16th International Conference on Statistical Analysis of Textual Data (JADT22) | en |
| dc.relation.lastpage | 399 | en |
| dc.relation.numberofpages | 7 | en |
| dc.relation.projectAcronym | - | en |
| dc.relation.projectAwardNumber | - | en |
| dc.relation.projectAwardTitle | DUS.AD017.115 / CNR4C - Regione Toscana | en |
| dc.relation.projectFunderName | - | en |
| dc.relation.projectFundingStream | - | en |
| dc.subject.keywordsita | TAL, corpora, lessici morfologici, varietà storiche della lingua | - |
| dc.subject.singlekeyword | TAL | * |
| dc.subject.singlekeyword | corpora | * |
| dc.subject.singlekeyword | lessici morfologici | * |
| dc.subject.singlekeyword | varietà storiche della lingua | * |
| dc.title | Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione | en |
| dc.type.circulation | Nazionale | en |
| dc.type.driver | info:eu-repo/semantics/conferenceObject | - |
| dc.type.full | 04 Contributo in convegno::04.01 Contributo in Atti di convegno | it |
| dc.type.impactfactor | no | en |
| dc.type.invited | contributo | en |
| dc.type.miur | 273 | - |
| dc.type.referee | Esperti anonimi | en |
| iris.mediafilter.data | 2025/04/02 00:34:04 | * |
| iris.orcid.lastModifiedDate | 2025/02/25 17:51:56 | * |
| iris.orcid.lastModifiedMillisecond | 1740502316516 | * |
| iris.sitodocente.maxattempts | 1 | - |
| Appare nelle tipologie: | 04.01 Contributo in Atti di convegno | |
| File | Dimensione | Formato | |
|---|---|---|---|
|
estratto JADT 2022.pdf
solo utenti autorizzati
Tipologia:
Versione Editoriale (PDF)
Licenza:
NON PUBBLICO - Accesso privato/ristretto
Dimensione
804.69 kB
Formato
Adobe PDF
|
804.69 kB | Adobe PDF | Visualizza/Apri Richiedi una copia |
I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


