نموذج ذكاء اصطناعي مغربي يُثبت كفاءة معالجة الدارجة بموارد محدودة - بلس 48

0 تعليق ارسل طباعة تبليغ حذف

أطلق فريق بحث مغربي دراسة علمية تحمل عنوان GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Dataتروم تطوير نماذج لغوية قادرة على فهم الدارجة المغربية وإنتاجها، بالاعتماد على موارد بيانات محدودة ومنهجية دقيقة.

وتسعى هذه المبادرة إلى إدماج اللغة العامية المغربية في تقنيات الذكاء الاصطناعي، في أفق توسيع نطاق استخدامها في التعليم الرقمي والخدمات العمومية وتعزيز حضورها في منظومات التواصل الذكي، بما يستجيب لخصوصيات السياق اللغوي المحلي.

وتُبرز الدراسة، التي جاءت كثمرة تعاون بين باحثين مغاربة ينتمون إلى مجالات الذكاء الاصطناعي وعلوم اللغة، أن النماذج اللغوية الكبرى (LLMs) يمكنها تطوير كفاءة معتبرة في فهم وإنتاج الدارجة المغربية، حتى في حال توفر بيانات تدريب محدودة.

ويراهن الباحثون من خلال هذا المشروع على تجاوز الهيمنة المطلقة للغات العالمية في تطبيقات الذكاء الاصطناعي، عبر منح اللهجات المحلية موقعا وظيفيا داخل هذه التقنيات، بما يعزز العدالة اللغوية ويقرّب الخدمات الرقمية من عموم المواطنين.

وقد أظهرت الدراسة التي اطّلعت عليها هسبريس أن الاعتماد على نصوص مترجمة بعناية إلى الدارجة المغربية ساعد بشكل واضح في تحسين أداء نماذج الذكاء الاصطناعي في فهم هذه اللغة؛ فعند تدريب نموذج صغير الحجم على عدد محدود من الأمثلة، ارتفعت نسبة الإجابات الصحيحة من حوالي 33 في المائة إلى أكثر من 47 في المائة، دون أن يتأثر أداؤه في اللغة الإنجليزية.

كما بيّنت الدراسة أن النموذج الأكبر GemMaroc-27B حقق نتائج متميزة، متفوّقا على نماذج عالمية أخرى في اختبارات الفهم العام للدارجة، مع احتفاظه بكفاءته في مجالات أخرى كالاستدلال والحساب.

واللافت هو أن هذه النتائج تم الوصول إليها في وقت وجيز، لا يتعدى يومين من التدريب؛ ما يُبرز إمكانية تطوير ذكاء اصطناعي فعّال باللغة الدارجة بتكلفة منخفضة وموارد محدودة.

وأشارت الدراسة ذاتها إلى أن نجاح النماذج في فهم الدارجة المغربية لم يكن مرتبطا فقط بحجم البيانات، بل بكيفية انتقائها وتنوعها.

وقد اعتمد الباحثون على مقاطع حوارية وسيناريوهات واقعية تعكس استعمال الدارجة في الحياة اليومية، بما في ذلك التعليمات الشفوية، والمواقف الاجتماعية، وأسئلة الثقافة العامة؛ مما سمح للنموذج باكتساب قدرة أفضل على التفاعل مع السياق المغربي المحلي.

ولفت التقرير إلى أن إدراج “دارجة مهيكلة” ساعد في تقليص ما يُعرف بـ”الضجيج اللغوي” الناتج عن اختلاف اللهجات أو العبارات غير المعيارية؛ وهو ما ساعد الذكاء الاصطناعي على إعطاء إجابات أكثر دقة واتساقا في المواضيع التربوية والمجتمعية. وتُعتبر هذه الخطوة تمهيدا لإمكانيات أوسع لتطوير أدوات تعليمية وإدارية تعتمد على الدارجة، دون التضحية بجودة التواصل أو فعالية الأداء.

كما كشفت الدراسة أن أحد أبرز التحديات في تدريب النماذج اللغوية على الدارجة المغربية هو غياب معيار موحد للكتابة، نظرا لطبيعتها الشفوية وعدم تقنينها في نصوص رسمية. ولتجاوز هذا الإشكال، قام الباحثون باعتماد استراتيجية هجينة تمزج بين الدارجة المكتوبة بالحرفين العربي واللاتيني؛ ما ساعد النموذج على التكيّف مع مختلف أشكال تمثيل اللغة في الفضاء الرقمي المغربي، خصوصا على منصات التواصل الاجتماعي.

وأبرزت الدراسة أيضا أن هذا التمرين التقني يفتح المجال أمام إمكانيات استخدام الذكاء الاصطناعي في تحليل المحتوى الرقمي المحلي، والتفاعل مع المواطنين بلغة أقرب إليهم، مع إمكانية تطوير تطبيقات في خدمات الشكاوى، والمساعدة التربوية، وحتى في مراقبة الرأي العام؛ وهو ما يمثل نقلة نوعية في تكنولوجيا اللغات منخفضة الموارد.

وأوضحت الدراسة أن إعداد النموذج المغربي تمّ من خلال تصفية المحتوى التدريبي، حيث تم استبعاد الأمثلة التي تتجاوز 2048 كلمة مفتاحية (token)، لضمان انسجام البيانات مع قدرات المعالجة النموذجية. كما تم الاحتفاظ بنسبة 20 في المائة من النصوص الأصلية باللغة الإنجليزية ضمن المادة التعليمية، بهدف الحفاظ على التوازن في أداء النموذج بين الدارجة واللغة العالمية.

وإلى جانب تفوقه في فهم الدارجة المغربية، حافظ النموذج GemMaroc على مستويات أداء محترمة في مهارات أخرى؛ كالرياضيات والاستدلال باللغة الإنجليزية، رغم تسجيل تراجع طفيف في مؤشرات مثل GSM8K.

وفي خطوة تعكس توجها مفتوحا، قام فريق البحث بنشر كافة الأكواد والبيانات والنقاط المرجعية (Checkpoints) المرتبطة بالنموذج، بهدف دعم الباحثين والمطورين الراغبين في ابتكار خدمات رقمية وتعليمية قائمة على الدارجة المغربية.

ولفت معدّو الدراسة إلى أن مشروع GemMaroc لا يستهدف فقط تحسين الأداء اللغوي للنماذج؛ بل يسعى أيضا إلى تحفيز الإنتاج المحلي في مجال الذكاء الاصطناعي. وقد جرى تطوير النماذج انطلاقا من بيئة مغربية محضة، دون الاعتماد على موارد ضخمة أو فرق بحثية دولية؛ ما يشير إلى إمكانية خلق منظومة بحثية وطنية فعّالة بأدوات محدودة.

كما شدّد الباحثون على أن هذا التوجّه يُسائل السياسات العمومية بشأن الاستثمار في البيانات المحلية، خصوصا أن الدارجة المغربية تظل لغة حيّة ومتداولة في قطاعات مثل التعليم غير النظامي وخدمة الزبائن والتواصل اليومي، دون أن تحظى باعتراف تقني كافٍ داخل نظم الذكاء الاصطناعي.

إخترنا لك

أخبار ذات صلة

0 تعليق