Revue de l'Information Scientifique et Technique


Description

The review aims at publishing research papers on any topic related to information processing at the digital age which includes but is not limited to: digital Libraries, Digital Humanities and Heritage, Artificial Intelligence, Natural Language Processing, Semantic Web Technologies, Linked Data, Databases, big data, Machine Learning, deep learning, computer vision, ... and other issues related to information access, ethics and privacy. The review welcomes papers in English, French and and Arabic from native Arabic speakers.


23

Volumes

37

Numéros

311

Articles


Induction de sens des mots Arabe dans un espace vectoriel des mots

جعيدري أسماء, 

Résumé: Nous décrivons dans cet article, une nouvelle approche d’induction de sens des mots pour la langue Arabe dans un espace vectoriel des mots. Les modèles de représentation vectoriels suscitent un grand intérêt de la part de la communauté de recherche TALN. Ces modèles sont fondés sur l’hypothèse distributionnelle qui prend en compte le « contexte » d’un mot cible. Ces modèles mappent tous les mots du vocabulaire à un espace vectoriel et fournissent ensuite une description sémantique des mots d'un corpus en tant que vecteurs numériques. Néanmoins, un problème bien connu de ces modèles est qu'ils ne peuvent pas gérer la polysémie. Nous présentons un nouveau modèle simple qui utilise les word embeddings que nous expérimentons pour la tâche non supervisée de l'induction de sens des mots arabes. Les modèles sont développés à l'aide des outils GenSim pour SKIP-Gram et CBOW. Le modèle permet ensuite de créer un indexeur basé sur la similarité cosinus en utilisant l’indexeur Annoy, qui est plus rapide que la fonction de similarité de GenSim. Un ego-network est utilisé pour étudier la structure des relations d’un individu et permet de construire un graphe de mots associés provenant des voisins locaux. Les différents sens des mots sont générés en utilisant du clustering de graphes. Nous avons travaillé avec deux corpus d'information : OSAC et AraCorpus ainsi qu’un modèle de Word Embeddings existant AraVec. Ensuite, nous avons expérimenté les différents modèles pour l'induction du sens des mots et nous avons obtenu des résultats prometteurs.

Mots clés: Représentation vectorielle de mots, Word2Vec, Induction de sens, langue Arabe, TALN


Impact of Stemming Techniques on Topic Segmentation of Arabic Texts

بهلول بلحسن,  عليان حسينة,  بن محمد محمد, 

Résumé: In this paper, we propose a topic segmentation approach for Arabic texts, through which we have studied the effect of the application of two different stemming techniques, root-based and light stemming. The approach we propose is global, distributional, non-linear. It is global since it considers a comparison of all text segments and not only neighboring segments. It is non-linear in the sense that it can rank segments situated in different positions in text in same groups (subtopics). The approach is based on the calculation of lexical cohesion between segments basing on a combination of repetitive lexical semantic criteria. For terms weighting, we have used OKAPI (BM25) measure after an operation of stemming using both root-based stemming and light stemming. The semantic repetitions of terms are calculated using Arabic WordNet lexical database. A similarity matrix is created where rows and columns are the text segments and the elements of the matrix are COSINE scores between pairs of segments. Subtopics are finally formed using a strict clustering technique in order to eliminate redundancy in the segment groups. For experimentation, we tested our system on a collection of economic and web news articles using Recall, Precision, F-measure and WindowDiff. The obtained results are very promising.

Mots clés: Arabic language processing ; Subtopic segmentation ; Stemming ; Lexical cohesion ; Terms weighting


Une cinquième dimension pour les documents multimédia : La dimension annotation

معرج عزالدين,  سعداله مجيد,  حموش لامية, 

Résumé: Un document multimédia intègre des entités de base de nature statique (texte, images, graphiques et tableaux) et de nature dynamique (vidéo, sons et animations), qui suivent une certaine organisation temporelle et spatiale. De nos jours, ces documents sont utilisés dans divers domaines d’applications comme l’apprentissage à distance, la télémédecine, les visites virtuelles, la publicité, etc. Ces documents sont généralement modélisés par quatre dimensions : la dimension logique, la dimension temporelle, la dimension spatiale et la dimension hypermédia. Avec le temps, de nouveaux besoins sont apparus dans l’utilisation des documents multimédia, nous citons, l’adaptation des documents multimédias (où le document multimédia est présenté selon un profil utilisateur), la composition de document multimédia (qui permet de concevoir un document suite à une requête utilisateur), la recomposition de document multimédia (qui permet à un auteur de reconcevoir son document suite à l’analyse des traces de lecture), la génération de résumé automatique, etc. Les informations contenues dans ces quatre dimensions se révèlent insuffisantes pour répondre à ces besoins. D’autres informations sont donc nécessaires. Dans ce travail, nous proposons d'étendre ce modèle à cinq dimensions, en définissant une nouvelle dimension : la dimension annotation. Cette dernière comportera des informations sur le document, ses entités, son auteur et ses lecteurs, qui contribueront à la prise en charge des applications précitées.

Mots clés: Annotation ; Document multimédia ; Modèle de document multimédia