عبقرية "الصرف العربي" قد تعيد تعريف كفاءة النماذج اللغوية الذكية

بينما يتجه العالم نحو ضخ استثمارات مليارية في مراكز البيانات والقدرات الحوسبية الهائلة، يبرز تساؤل جوهري في مختبرات البحث: هل تكمن المشكلة في حجم النماذج؟ أم في الطريقة التي تقرأ بها النماذج كلماتنا؟

🔊 وضع الاستماع 0:00 / 0:00 جاهز للقراءة

فخلف بريق الذكاء الاصطناعي، تقبع عملية تقنية تسمى "الترميز" (Tokenization)، وهي البوابة التي تتحول عبرها لغة البشر إلى أرقام تفهمها الآلة. واليوم، يقدم مشروع بحثي طموح يحمل اسم "الترميز الدلالي السياقي" (سي إس تي/CST) مقاربة ثورية تنطلق من بنية اللغة العربية لتصحيح مسار كفاءة النماذج اللغوية عالميا.

لا يقرأ الذكاء الاصطناعي النصوص كما نفعل؛ بل يجزئها أولا إلى وحدات صغيرة تسمى "رموزا". وفي الأنظمة الشائعة اليوم، يتم هذا غالبا بأساليب إحصائية صرفة، تبني المفردات على أساس الأنماط الحرفية الأكثر تكرارا، وهذه المقاربة، رغم فعاليتها في الضغط الإحصائي فإنها لا تضمن توافق الوحدات الناتجة مع حدود المعنى أو الصرف.

وبالنسبة للغة العربية، تصبح المسألة أكثر حساسية؛ فالكلمة العربية تحمل في بنيتها معلومات مكثفة عن الجذر، والوزن، والزمن، والضمائر. وعندما تتعامل أدوات الترميز الإحصائية مع هذه البنية بوصفها مجرد تتابع حروف، فإنها تنتج تسلسلات أطول وتمثيلات أقل وضوحا من الناحية اللغوية، مما يضطر النموذج لبذل جهد أكبر "لفهم" ما يقرأه.

انطلقت فكرة مشروع "سي إس تي" من ملاحظة في الصرف العربي، حيث يسمح نظام الجذر والوزن بتمثيل العلاقة بين البنية والمعنى بشكل مباشر. فالجذر "ك-ت-ب"، مثلا، يشير إلى حقل الكتابة، ومنه تتولد كلمات "كاتب، وكتاب، ومكتبة، ومكتوب". وينطلق المشروع من هذه الملاحظة ليعممها إطار عمل عالميا يهدف إلى تحويل الكلمات في لغات مختلفة إلى وحدات دلالية أكثر انتظاما.

وفي هذا المشروع لا تظل الكلمة مجرد شظية حرفية، بل يتم تمثيلها بوصفها مفهوما دلاليا مرتبطا بدور صرفي أو نحوي. فالفكرة هنا ليست استبدال اللغة بقاموس مصطنع، بل تقديم مدخلات أكثر انتظاما للنموذج، بحيث يصبح جزء من العمل اللغوي منظما قبل بدء التدريب، بدلا من تركه كله للاستنتاج الإحصائي اللاحق.

نيوز فيد

الجزيرة

عبقرية "الصرف العربي" قد تعيد تعريف كفاءة النماذج اللغوية الذكية

شارك هذه المقالة

💬 التعليقات (0)

الجزيرة

عبقرية "الصرف العربي" قد تعيد تعريف كفاءة النماذج اللغوية الذكية

شارك هذه المقالة

💬 التعليقات (0)

📰 مقالات ذات صلة

أسعار النفط تشتعل وتتجاوز 100 دولار بعد استهداف سفن في مضيق هرمز

نحو 232 ألف دولار قيمة التداولات في بورصة فلسطين الأربعاء

مستوطنون يهاجمون مخماس قرب القدس ويتجمعون على جبل العاصور شرق رام الله

مستوطنون يهاجمون مخماس وجبل العاصور

مستوطنون يهاجمون مخماس ورام الله

دليل المبتدئين للاستثمار في العملات المشفرة 2026