En 2010-2011, le premier lexique électronique dédié à la terminologie linguistique saussurienne a été créé [1] dans le cadre d'un projet de recherche intitulé « Pour une édition numérique des manuscrits de Ferdinand de Saussure », projet coordonné par le Professeur Gambarara. La première étape de construction de la ressource lexicale a consisté en l'identification manuelle dans les textes des termes clés du vocabulaire saussurien et de leurs propriétés sémantiques. L'informatique n'est intervenue que dans la phase de formalisation des données extraites. C'est pourquoi nous nous proposons d'illustrer ici la possibilité de recourir à des techniques automatiques et, en particulier, à des algorithmes de sémantique distributionnelle [2] pour identifier les relations que les termes entretiennent entre eux dans le texte. La méthodologie sous-jacente est basée sur l'hypothèse distributionnelle selon laquelle plus deux mots sont sémantiquement proches, plus ils ont tendance à se produire dans des contextes similaires. Le lexique d'un texte est considéré comme un espace métrique où chaque mot peut être représenté comme un vecteur à n dimensions, chacune d'elles enregistrant le nombre de fois que ce mot apparaît dans un contexte donné. La proximité spatiale entre deux vecteurs indique la similarité sémantique entre deux mots. Elle est calculée par le cosinus de l'angle compris entre les deux vecteurs : plus la valeur du cosinus est grande, plus les termes sont, en principe, sémantiquement similaires. Les techniques computationnelles ont été appliquées aux mêmes textes à partir desquels le lexique électronique a été construit : le Cours de linguistique générale [3], les Écrits de linguistique générale [4] et le Recueil des publications scientifiques [5]. Bien qu'au stade préliminaire, l'expérience a permis d'obtenir des résultats intéressants. À titre d'exemple, nous présentons ci-dessous (Tableau) les valeurs de similitude obtenues par l'algorithme entre le terme signe et d'autres mots dans les textes. Si l'on compare les résultats avec l'entrée du lexique signe, on peut remarquer que l'algorithme est en mesure de détecter un grand nombre de liens explicités dans la ressource et de suggérer, en outre, des relations possibles avec d'autres termes comme valeur, rapport, idée. L'application de ces techniques computationnelles au corpus saussurien peut donc constituer une aide précieuse non seulement pour les lexicographes mais également pour les experts du domaine en faisant émerger des connections qui n'apparaissent pas immédiatement de manière explicite et en suggérant ainsi des parcours alternatifs d'analyse de la pensée de l'auteur.

Étudier le structuralisme par le structuralisme : expériences de sémantique distributionnelle dans la construction d'un lexique électronique de la terminologie saussurienne

Silvia Piccini;Simone Marchi;Emiliano Giovannetti
2017

Abstract

En 2010-2011, le premier lexique électronique dédié à la terminologie linguistique saussurienne a été créé [1] dans le cadre d'un projet de recherche intitulé « Pour une édition numérique des manuscrits de Ferdinand de Saussure », projet coordonné par le Professeur Gambarara. La première étape de construction de la ressource lexicale a consisté en l'identification manuelle dans les textes des termes clés du vocabulaire saussurien et de leurs propriétés sémantiques. L'informatique n'est intervenue que dans la phase de formalisation des données extraites. C'est pourquoi nous nous proposons d'illustrer ici la possibilité de recourir à des techniques automatiques et, en particulier, à des algorithmes de sémantique distributionnelle [2] pour identifier les relations que les termes entretiennent entre eux dans le texte. La méthodologie sous-jacente est basée sur l'hypothèse distributionnelle selon laquelle plus deux mots sont sémantiquement proches, plus ils ont tendance à se produire dans des contextes similaires. Le lexique d'un texte est considéré comme un espace métrique où chaque mot peut être représenté comme un vecteur à n dimensions, chacune d'elles enregistrant le nombre de fois que ce mot apparaît dans un contexte donné. La proximité spatiale entre deux vecteurs indique la similarité sémantique entre deux mots. Elle est calculée par le cosinus de l'angle compris entre les deux vecteurs : plus la valeur du cosinus est grande, plus les termes sont, en principe, sémantiquement similaires. Les techniques computationnelles ont été appliquées aux mêmes textes à partir desquels le lexique électronique a été construit : le Cours de linguistique générale [3], les Écrits de linguistique générale [4] et le Recueil des publications scientifiques [5]. Bien qu'au stade préliminaire, l'expérience a permis d'obtenir des résultats intéressants. À titre d'exemple, nous présentons ci-dessous (Tableau) les valeurs de similitude obtenues par l'algorithme entre le terme signe et d'autres mots dans les textes. Si l'on compare les résultats avec l'entrée du lexique signe, on peut remarquer que l'algorithme est en mesure de détecter un grand nombre de liens explicités dans la ressource et de suggérer, en outre, des relations possibles avec d'autres termes comme valeur, rapport, idée. L'application de ces techniques computationnelles au corpus saussurien peut donc constituer une aide précieuse non seulement pour les lexicographes mais également pour les experts du domaine en faisant émerger des connections qui n'apparaissent pas immédiatement de manière explicite et en suggérant ainsi des parcours alternatifs d'analyse de la pensée de l'auteur.
Campo DC Valore Lingua
dc.authority.orgunit Istituto di linguistica computazionale "Antonio Zampolli" - ILC -
dc.authority.people Silvia Piccini it
dc.authority.people Simone Marchi it
dc.authority.people Emiliano Giovannetti it
dc.collection.id.s 33fc2b58-b895-438b-9d2a-2c5bc86a83a6 *
dc.collection.name 04.04 Presentazione/Comunicazione non pubblicata in atti di convegno *
dc.contributor.appartenenza Istituto di linguistica computazionale "Antonio Zampolli" - ILC *
dc.contributor.appartenenza.mi 918 *
dc.date.accessioned 2024/02/20 20:42:02 -
dc.date.available 2024/02/20 20:42:02 -
dc.date.issued 2017 -
dc.description.abstract En 2010-2011, le premier lexique électronique dédié à la terminologie linguistique saussurienne a été créé [1] dans le cadre d'un projet de recherche intitulé « Pour une édition numérique des manuscrits de Ferdinand de Saussure », projet coordonné par le Professeur Gambarara. La première étape de construction de la ressource lexicale a consisté en l'identification manuelle dans les textes des termes clés du vocabulaire saussurien et de leurs propriétés sémantiques. L'informatique n'est intervenue que dans la phase de formalisation des données extraites. C'est pourquoi nous nous proposons d'illustrer ici la possibilité de recourir à des techniques automatiques et, en particulier, à des algorithmes de sémantique distributionnelle [2] pour identifier les relations que les termes entretiennent entre eux dans le texte. La méthodologie sous-jacente est basée sur l'hypothèse distributionnelle selon laquelle plus deux mots sont sémantiquement proches, plus ils ont tendance à se produire dans des contextes similaires. Le lexique d'un texte est considéré comme un espace métrique où chaque mot peut être représenté comme un vecteur à n dimensions, chacune d'elles enregistrant le nombre de fois que ce mot apparaît dans un contexte donné. La proximité spatiale entre deux vecteurs indique la similarité sémantique entre deux mots. Elle est calculée par le cosinus de l'angle compris entre les deux vecteurs : plus la valeur du cosinus est grande, plus les termes sont, en principe, sémantiquement similaires. Les techniques computationnelles ont été appliquées aux mêmes textes à partir desquels le lexique électronique a été construit : le Cours de linguistique générale [3], les Écrits de linguistique générale [4] et le Recueil des publications scientifiques [5]. Bien qu'au stade préliminaire, l'expérience a permis d'obtenir des résultats intéressants. À titre d'exemple, nous présentons ci-dessous (Tableau) les valeurs de similitude obtenues par l'algorithme entre le terme signe et d'autres mots dans les textes. Si l'on compare les résultats avec l'entrée du lexique signe, on peut remarquer que l'algorithme est en mesure de détecter un grand nombre de liens explicités dans la ressource et de suggérer, en outre, des relations possibles avec d'autres termes comme valeur, rapport, idée. L'application de ces techniques computationnelles au corpus saussurien peut donc constituer une aide précieuse non seulement pour les lexicographes mais également pour les experts du domaine en faisant émerger des connections qui n'apparaissent pas immédiatement de manière explicite et en suggérant ainsi des parcours alternatifs d'analyse de la pensée de l'auteur. -
dc.description.affiliations Istituto di Linguistica Computazionale "A. Zampolli" -
dc.description.allpeople Silvia Piccini; Simone Marchi; Emiliano Giovannetti -
dc.description.allpeopleoriginal Silvia Piccini, Simone Marchi, Emiliano Giovannetti -
dc.description.fulltext none en
dc.description.numberofauthors 3 -
dc.identifier.uri https://hdl.handle.net/20.500.14243/330935 -
dc.language.iso fre -
dc.relation.conferencedate 09-14/01/2017 -
dc.relation.conferencename Atelier "Les manuscrits de Saussure, parmi d'autres. Problèmes, stratégies et solutions d'édition pour les archives numériques" -
dc.relation.conferenceplace Geneve -
dc.subject.keywords structuralisme -
dc.subject.keywords sémantique distributionnelle -
dc.subject.keywords terminologie saussurienne -
dc.subject.keywords lexique électronique -
dc.subject.singlekeyword structuralisme *
dc.subject.singlekeyword sémantique distributionnelle *
dc.subject.singlekeyword terminologie saussurienne *
dc.subject.singlekeyword lexique électronique *
dc.title Étudier le structuralisme par le structuralisme : expériences de sémantique distributionnelle dans la construction d'un lexique électronique de la terminologie saussurienne en
dc.type.driver info:eu-repo/semantics/conferenceObject -
dc.type.full 04 Contributo in convegno::04.04 Presentazione/Comunicazione non pubblicata in atti di convegno it
dc.type.miur -2.0 -
dc.type.referee Sì, ma tipo non specificato -
dc.ugov.descaux1 378393 -
iris.orcid.lastModifiedDate 2024/03/19 14:03:52 *
iris.orcid.lastModifiedMillisecond 1710853432551 *
iris.sitodocente.maxattempts 1 -
Appare nelle tipologie: 04.04 Presentazione/Comunicazione non pubblicata (convegno, evento, webinar...)
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14243/330935
Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact