مجلة الحقيقة
Volume 21, Numéro 4, Pages 594-617
2022-12-30

Challenges In Building Corpora For Algerian Arabic From Cmc Content

Authors : Omari Mohammed . Bouhania Bachir .

Abstract

Algerian Arabic is an under-resourced Arabic dialect. Few corpora and natural language processing tools were developed for it. This is due to a variety of factors such as its lack of written content and of a standard orthography as well as the frequent code-switching and script switching exhibited by its speakers. These factors render developing homogenous corpora for the dialect more challenging compared to other Arabic dialects where such factors are less pronounced. The objective of this work is to examine the challenges and issues encountered in developing a corpus of Algerian Arabic extracted from computer-mediated communication content, primarily content on the social media platform Facebook and the story-publishing website Wattpad. الملخص: تعاني اللهجة الجزائرية كغيرها من اللهجات العربية من نقص الموارد، حيث تم تطوير عدد محدود من المدونات اللغوية ومن أدوات المعالجة الآلية لهذه اللهجة. ويعزى هذا النقص إلى مجموعة متنوعة من العوامل كافتقارها إلى المحتوى المكتوب وإلى قواعد تهجئة متعارف عليها. ضف إلى ذلك بعض الممارسات اللغوية لمستخدمي هذه اللهجة كالتناوب اللغوي والكتابة بأبجديات متعددة. تجعل هذه العوامل تطوير مدونات متجانسة لللهجة الجزائرية أكثر صعوبة مقارنة باللهجات العربية الأخرى التي لا تتوافر فيها هذه الخصائص والممارسات اللغوية. تهدف هذه الدراسة إلى عرض وتحليل التحديات والعوائق التي اعترضتنا خلال تطويرنا لمدونة للهجة الجزائرية مستخرجة من المحتوى الجزائري المتوفر على الإنترنت، والذي تم استخلاصه تحديدا من منصة التواصل الاجتماعي فيسبوك ومن موقع نشر القصص واتباد (Facebook). كلمات مفتاحية: اللهجة الجزائرية؛ المحتوى الالكتروني؛ مدونات لغوية؛ فيسبوك؛ واتباد.

Keywords

algerian arabic ; computer-mediated communication ; corpus linguistics ; facebook ; wattpad