Le projet vise à décrire les méthodologies permettant de développer un réseau de connaissance pour la culture arabo-islamique sur la base d'un processus d'extractions automatiques de données à partir du lexique arabe al=qamus al=muHiT (qamus). Le choix de qamus est justifié par le fait qu'il a un statut d'autorité dans le monde arabe, au point que la parole qamus [océan] a supplanté la parole mungid 'dictionnaire'. Le projet prévoit divers étapes de travail et, avant tout, l'acquisition d'une version numérique de qamus. La mise au point d'algorithmes pour la codification partielle et automatique de la macrostructure lexicale et la conversion du lexique en format XML. D'autres algorithmes permettent l'identification de la microstructure lexicale et, l'annotation de chaque partie constituante de l'entrée lexicale, entre autres, le lemme, sa nature morphologique, ses définitions, etc. En utilisant deux dictionnaires bilingues arabe-anglais, un système de recherche permet de trouver, de manière automatique et quand c'est possible, la traduction de chaque lemme, ce qui permet de le lier au synset correspondant dans PWN et au concept de SUMO à qui il pourrait faire référence. Une autre étape serait l'analyse de divers échantillons de lemmes pour détecter la validité des résultats.
Vers une ontologie de la culture arabo-musulmane / Nahli Ouafae. - (13/02/2018).
Vers une ontologie de la culture arabo-musulmane
Nahli Ouafae
13/02/2018
Abstract
Le projet vise à décrire les méthodologies permettant de développer un réseau de connaissance pour la culture arabo-islamique sur la base d'un processus d'extractions automatiques de données à partir du lexique arabe al=qamus al=muHiT (qamus). Le choix de qamus est justifié par le fait qu'il a un statut d'autorité dans le monde arabe, au point que la parole qamus [océan] a supplanté la parole mungid 'dictionnaire'. Le projet prévoit divers étapes de travail et, avant tout, l'acquisition d'une version numérique de qamus. La mise au point d'algorithmes pour la codification partielle et automatique de la macrostructure lexicale et la conversion du lexique en format XML. D'autres algorithmes permettent l'identification de la microstructure lexicale et, l'annotation de chaque partie constituante de l'entrée lexicale, entre autres, le lemme, sa nature morphologique, ses définitions, etc. En utilisant deux dictionnaires bilingues arabe-anglais, un système de recherche permet de trouver, de manière automatique et quand c'est possible, la traduction de chaque lemme, ce qui permet de le lier au synset correspondant dans PWN et au concept de SUMO à qui il pourrait faire référence. Une autre étape serait l'analyse de divers échantillons de lemmes pour détecter la validité des résultats.I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.


