CNR Institutional Research Information System

La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).

Reconnaissance d'entités nommées: adaptation au domaine de la littérature française du XIXe siècle

Carmen Brando;Francesca Frontini;Alaa Abi Haidar;JeanGabriel Ganascia

2015

Abstract

La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).

Scheda breve

Scheda completa

Scheda completa (DC)

Campo DC	Valore	Lingua
dc.authority.orgunit	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	-
dc.authority.people	Carmen Brando	it
dc.authority.people	Francesca Frontini	it
dc.authority.people	Alaa Abi Haidar	it
dc.authority.people	JeanGabriel Ganascia	it
dc.collection.id.s	33fc2b58-b895-438b-9d2a-2c5bc86a83a6	*
dc.collection.name	04.04 Presentazione/Comunicazione non pubblicata in atti di convegno	*
dc.contributor.appartenenza	Istituto di linguistica computazionale "Antonio Zampolli" - ILC	*
dc.contributor.appartenenza.mi	918	*
dc.date.accessioned	2024/02/19 20:58:34	-
dc.date.available	2024/02/19 20:58:34	-
dc.date.issued	2015	-
dc.description.abstract	La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).	-
dc.description.affiliations	Labex OBVIL, Paris Sorbonne Istituto di Linguistica Computazionale "A. Zampolli" LIP6 UPMC LIP6 UPMC	-
dc.description.allpeople	Brando, Carmen; Frontini, Francesca; Abi Haidar, Alaa; Ganascia, Jeangabriel	-
dc.description.allpeopleoriginal	Carmen Brando, Francesca Frontini, Alaa Abi Haidar and Jean-Gabriel Ganascia.	-
dc.description.fulltext	none	en
dc.description.numberofauthors	4	-
dc.identifier.uri	https://hdl.handle.net/20.500.14243/300554	-
dc.language.iso	fre	-
dc.relation.conferencedate	2-4/09/20152015	-
dc.relation.conferencename	8esJournées Internationales de Linguistique de Corpus (JLC2015)	-
dc.relation.conferenceplace	Orléans	-
dc.subject.keywords	entités nommeés	-
dc.subject.keywords	littérature française	-
dc.subject.singlekeyword	entités nommeés	*
dc.subject.singlekeyword	littérature française	*
dc.title	Reconnaissance d'entités nommées: adaptation au domaine de la littérature française du XIXe siècle	en
dc.type.driver	info:eu-repo/semantics/conferenceObject	-
dc.type.full	04 Contributo in convegno::04.04 Presentazione/Comunicazione non pubblicata in atti di convegno	it
dc.type.miur	-2.0	-
dc.ugov.descaux1	336381	-
iris.orcid.lastModifiedDate	2024/04/05 07:46:17	*
iris.orcid.lastModifiedMillisecond	1712295977359	*
iris.sitodocente.maxattempts	3	-
Appare nelle tipologie:	04.04 Presentazione/Comunicazione non pubblicata (convegno, evento, webinar...)

File in questo prodotto:

Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/300554

Citazioni

ND

ND

ND

social impact