La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).

Reconnaissance d'entités nommées: adaptation au domaine de la littérature française du XIXe siècle

Francesca Frontini;
2015

Abstract

La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.people Carmen Brando it
dc.authority.people Francesca Frontini it
dc.authority.people Alaa Abi Haidar it
dc.authority.people JeanGabriel Ganascia it
dc.collection.id.s 33fc2b58-b895-438b-9d2a-2c5bc86a83a6 *
dc.collection.name 04.04 Presentazione/Comunicazione non pubblicata in atti di convegno *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.date.accessioned 2024/02/19 20:58:34 -
dc.date.available 2024/02/19 20:58:34 -
dc.date.issued 2015 -
dc.description.abstract La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française). -
dc.description.affiliations Labex OBVIL, Paris Sorbonne Istituto di Linguistica Computazionale "A. Zampolli" LIP6 UPMC LIP6 UPMC -
dc.description.allpeople Brando, Carmen; Frontini, Francesca; Abi Haidar, Alaa; Ganascia, Jeangabriel -
dc.description.allpeopleoriginal Carmen Brando, Francesca Frontini, Alaa Abi Haidar and Jean-Gabriel Ganascia. -
dc.description.fulltext none en
dc.description.numberofauthors 4 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/300554 -
dc.language.iso fre -
dc.relation.conferencedate 2-4/09/20152015 -
dc.relation.conferencename 8esJournées Internationales de Linguistique de Corpus (JLC2015) -
dc.relation.conferenceplace Orléans -
dc.subject.keywords entités nommeés -
dc.subject.keywords littérature française -
dc.subject.singlekeyword entités nommeés *
dc.subject.singlekeyword littérature française *
dc.title Reconnaissance d'entités nommées: adaptation au domaine de la littérature française du XIXe siècle en
dc.type.driver info:eu-repo/semantics/conferenceObject -
dc.type.full 04 Contributo in convegno::04.04 Presentazione/Comunicazione non pubblicata in atti di convegno it
dc.type.miur -2.0 -
dc.ugov.descaux1 336381 -
iris.orcid.lastModifiedDate 2024/04/05 07:46:17 *
iris.orcid.lastModifiedMillisecond 1712295977359 *
iris.sitodocente.maxattempts 3 -
Appare nelle tipologie: 04.04 Presentazione/Comunicazione non pubblicata (convegno, evento, webinar...)
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/300554
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact