La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).
Reconnaissance d'entités nommées: adaptation au domaine de la littérature française du XIXe siècle
Francesca Frontini;
2015
Abstract
La reconnaissance d'entités nommées (REN) est un enjeu fondamental pour la recherche en humanités numériques (HN). En littérature française, il est particulièrement important de repérer des entités telles que les auteurs, les personnages fictifs, les lieux géographiques et imaginaires, les titres d'ouvrages, les marqueurs temporels, entre autres. Actuellement, il existe peu de corpus de littérature française du passé annotés et disponibles en ligne. Le coût élevé de l'annotation manuelle motive donc l'utilisation de méthodes automatiques. Les approches REN de l'état de l'art fonctionnent efficacement sur des corpus journalistique et de littérature scientifique en biologie [1]. Néanmoins, l'adaptation à un nouveau domaine semble affecter négativement la performance de ces approches [5]. La diversité des textes en littérature (fiction, critique, théâtre...) et la spécificité des époques prises en compte représentent un travail considérable d'adaptation des ressources linguistiques et des algorithmes à un domaine particulier. En général, les thèmes traités sont hétérogènes et les textes possèdent un style fréquemment caractérisé par un bas degré de standardisation et de prédictibilité. Il est par exemple difficile d'identifier des mentions candidates car les conventions typographiques et le registre linguistique varient selon le domaine (textes journalistiques vs. littérature française).I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


