اللّغة العربية
Volume 22, Numéro 1, Pages 197-220
2020-04-01

الاسترجاع الآلي للصّيغ الصّرفيّة من المعجم الوسيط الإلكترونيّ

الكاتب : حجبار رادية .

الملخص

الملخص: إنّ رقمنة مدوّنات اللّغة العربية هي بداية لمشروع الذخيرة اللغوية العربية، وكذا لمشروع المعجم التاريخي للغة العربية؛ وذلك لأجل التعامل معها آليا، واسترجاع المعلومات والتنقيب في البيانات، إلاّ أنّه حين أردنا التعامل مع إحدى هذه المدوّنات، والمتمثلة في المعجم الوسيط الذي ألفه مجمع القاهرة، في طبعته الرابعة، وذلك باسترجاع أو بالقراءة الآلية للصيغ الصرفية المشتقة من الفعل الثلاثي المجرد الواردة كمداخل معجمية، وكذا التعريف المعجمي الذي يأتي بعده، واجهتنا عدّة إشكالات، بعضها متعلقة بطريقة رقمنة مدوّنة المعجم الوسيط، وبعضها متعلقة بخصائص اللغة العربية وبعضها بواضعي المعجم؛ ما جعلنا مجبرين على تصفية النتائج المحصّل عليها بعد كلّ قراءة آلية لصيغة صرفية معيّنة من مدوّنة المعجم الوسيط الرقمي أو الإلكتروني، والدعوة إلى إعادة النظر في رقمنة المدوّنات العربية؛ لأجل التعامل معها بلغات البرمجة دون إشكالات. The digitization of the corpora of the Arabic language is the beginning of the "thesaurus" project, as well as the Arabic "historical lexicon" project. This digitization makes it possible to apply certain automatic processing procedures to real linguistic samples such as: automatic search, information retrieval, etc. ... As far as we are concerned, we have adopted as a digital corpus the lexicon "Al muajem Al Wassit " conceived by a team from the Arabic Academy of Cairo, in its fourth edition, and we tried to apply an automatic search mechanism in all the lexical entries of the different schemes (morphological forms) derived from the trilitary mujarrad verbs, as well as the lexical definition that follows. We have encountered several difficulties, some of which relate to the digitization of our adopted lexicon (Al Muajem Al Wassit), others relate to the features of the Arabic language, and finally, others relate to the obsolete lexicographical techniques of this lexicon. For these reasons, we had to filter the results obtained after each automatic extraction of a scheme from the electronic version of our lexicon. Our conclusion is an appeal to all actors in the lexicological and lexicographical field of the Arabic language, to question their techniques and methodology of corpora digitization of the Arabic language.

الكلمات المفتاحية

الصيغة الصرفية؛ الاسترجاع الآليّ؛ المدوّنة الرقمية؛ البرنامج؛ الخوارزمية. ; scheme (morphological form); automatic extraction; digital corpus; program; algorithm.