ملتقى الدوحة الأول.. تعدد لهجات اللغة العربية عائق أمام الذكاء الاصطناعي

سلط الملتقى السنوي الأول لمعهد قطر لبحوث الحوسبة، التابع لجامعة حمد بن خليفة، الضوء على التطور الحاصل في مجال تعامل الذكاء الاصطناعي مع اللغة العربية في مجال الصوتيات، وذلك بهدف تعزيز الآفاق ومواجهة التحديات عبر تدريب النظام على الآليات العارضة في اللغة العربية.

المجموعة البحثية التي شاركت في الملتقى، وضمت شركات وجامعات عالمية، ركزت على ثلاثة محاور أولها التعرف إلى الصوت وتحويل النص المنطوق إلى مكتوب، والثاني تحويل النص المكتوب إلى منطوق، والثالث يتعلق بالتعرف إلى لهجات اللغة العربية المختلفة.

وأجمع المشاركون على أن تعامل الذكاء الاصطناعي مع اللغة العربية يواجه تحديات كبيرة، مقارنة مع اللغة الإنجليزية، حيث إن اللغة العربية صعبة في ظل عدم توافر معلومات كافية، فضلا عن تعدد لهجات اللغة العربية من بلد لآخر ومن مدينة لأخرى في البلد نفسه.

وأكد المختص في قسم تقنيات اللغة العربية بمعهد قطر لبحوث الحوسبة أحمد علي، أن الذكاء الاصطناعي يعتمد معلومات مسبقة يتم تعليم النظام بها وتدريبه عليها، وذلك من أجل الاستفادة من التطور الهائل في الذكاء الاصطناعي وتعلم الآلة، واكتساب الخبرة في هذا المجال.

 
أحمد علي: الذكاء الاصطناعي يعتمد معلومات مسبقة يتم تعليم النظام بها وتدريبه عليها (الجزيرة)

وأوضح أن تدريب النظام على ألف ساعة من الصوت في اللغة العربية وألف ساعة من الكتابة، يجعلنا نصل إلى نسبة دقة 10%، وهي التقنية التي يستخدمها موقع الجزيرة نت خلال السنوات الخمس الماضية، والتي تقوم بتحويل النص المكتوب إلى مقروء في كل التقارير الإخبارية.

وأضاف علي، في تصريح للجزيرة نت، إن المعهد يعمل الآن على تقنيات تعامل الذكاء الاصطناعي مع لهجات اللغة العربية المختلفة، مثل المصرية، والمغربية، والخليجية والشامية، لافتا إلى أن اللغة العربية صعبة، ففي اللغة الإنجليزية إذا كان لديك في النظام 5%، من الكلمات غير موجودة أو لم يسمعها من قبل، فإن البحث يكون في حوالي ثلاثين إلى ستين ألف كلمة، في حين أن العدد في اللغة العربية قد يصل للمليون كلمة.

وتابع أن التحدي يكون أكبر في حالة لهجات اللغة العربية المختلفة، في ظل عدم وجود قواميس لها أو اتفاق على معلومات أو آلية حول طريقة كتابتها، كما أن معظم لهجات اللغة العربية منطوقة وغير مكتوبة، فلا نجد كتابة خاصة باللهجة المصرية أو الخليجية وغيرها، وإن كان الوضع بدأ يتغير في وجود آليات جديدة مثل تويتر وفيسبوك وغيرهما.

واشتمل الملتقى على محاضرات متعددة تمحورت حول تقنيات تعامل الذكاء الاصطناعي، منها محاضرة “التعرف على العاطفة وتحليل المشاعر على أساس الكلام”، التي تهم الشركات الخدمية في معرفة رضا العملاء، وكذلك التطبيق الخاص بالحالات الصحية التي تتعرف من خلال الصوت إلى الحالة النفسية للمريض، جنسه وعمره، ومدى سعادته وحزنه.

بدوره، اعتبر الباحث في جامعة كولومبيا الأميركية رامي إسكندر، أن تقنيات الذكاء الاصطناعي في معالجة اللغة العربية صعبة للغاية، في ظل وجود معلومات محدودة وغير كافية بدأ العمل عليها منذ 15 عاما تقريبا، بعكس المعلومات في اللغة الإنجليزية أو الفرنسية المنتشرة والمتاحة للجميع منذ ستين عاما.

 
إسكندر: تقنيات الذكاء الاصطناعي في معالجة اللغة العربية صعبة للغاية (الجزيرة)

وأوضح إسكندر، للجزيرة نت، أن التحدي الأكبر يتمثل في اللغة العربية العامية، لأنها ليست لها طريقة موحدة في الكتابة، حيث تجد كلمة واحدة تكتب بأكثر من طريقة، مما يؤدي إلى حدوث تداخل ومشاكل في الكتابة لا يستوعبها النظام.

وتابع أن تعدد لهجات اللغة العربية واختلافها على مستوى البلدان والمدن يزيد التحديات، الأمر الذي يحتاج إلى نظام ذي كفاءة عالية حتى يتعامل مع كل لهجة مختلفة، وذلك عكس اللغة الإنحليزية التي ليست لديها لهجات كثيرة، سوى اللهجة الإنجليزية، والأميركية، والأسترالية، والهندية، ولكن ليس بالشكل الموجود في اللغة العربية، غير أن طريقة كتابة الإنجليزية موحدة تقريبا بعكس العربية.

ومن المحاضرات التي لقيت تجاوبا كبيرا، محاضرة عبدالرحمن محمد من شركة فيسبوك، التي استعرض فيها التكنولوجيا التي توصل إليها معمل الأبحاث في فيسبوك والخاصة بمجال التعرف إلى الصوت.

 
عدم وجود لهجات كثيرة للغة الإنجليزية ساعد في تطورها بمجال الذكاء الاصطناعي (الجزيرة)

وقال محمد -في تصريح للجزيرة نت- إن هذه التكنولوجيا تم تطبيقها بنجاح في مجال الترجمة الفورية على اللغة الإنجليزية، لافتا إلى أن هذه التكنولوجيا يمكن تطبيقها على أي لغة أخرى بدرجة النجاح نفسها.

وكشف عن أن الفكرة الأساسية في هذه التكنولوجيا هي القدرة على الوصول إلى العلاقات بين الكلمات والأصوات البعيدة عن بعض، فضلا عن القدرة على معرفة الصوت، معتبرا أن هذه التكنولوجيا مبنية على ما يسمى الشبكة العصبية، وهي نظم مصممة لتقليد الدماغ البشري في عمله الداخلي باعتباره جزءا مما يسمى التعلم العميق.

وشدد محمد على أن هذه التكنولوجيا تعرض أسلوبا جديدا أفضل من ناحية السرعة والكفاءة، فضلا عن أنها تتعرف إلى الصوت دون ربطه بلغة معينة، بالإضافة إلى أنها قللت من الأخطاء في التعرف إلى اللغة الإنجليزية من 15 إلى 12%.

قد يعجبك ايضا