الرئيسية / الاخبار / الذكاء الصنعي يغدو ثنائي اللغة، لكن دون قواميس!

الذكاء الصنعي يغدو ثنائي اللغة، لكن دون قواميس!


يقول (ميكل آرتيجيه)، عالم الحاسوب في جامعة إقليم الباسك في (سان سباستيان) في إسبانيا وكاتب إحدى الورقتين البحثيتين: "تخيل أنك أعطيت شخصًا كتبًا كثيرة باللغة الصينية وأخرى باللغة العربية ولا تداخُل بين هذه الكتب، وطلبت منه تعلم الترجمة من الصينية إلى العربية، يبدو ذلك مستحيلًا أليس كذلك؟ لكننا نبين أن الحاسوب يمكنه فعل ذلك."

يخضع تعلم الآلة لنهجين متمايزين:
التعلم تحت الإشراف Supervised Learning وفيه تُلقَّن الخوارزمية أنماط دخل مع تحديد الخرج المناسب لها؛ مثلاً تُدخل صور لمجموعة من الفواكه مع تحديد مسمياتها (الخرج)، والغرض هو بناء أنموذجِ تعلُّم تستطيع الآلة وفقه تمييز أنماط الدخل المستقبلية المختلفة دون تلقينها بالخرج المناسب ونقول عندها إن الآلة قد تعلمت.

التعلم دون إشراف Unsupervised Learning وهنا تُدخل أنماط دخل مختلفة إلى الخوارزمية دون تلقينها الخرج المناسب لكل نمط دخل، وعليه ينبغي للخوارزمية أن تكتشف بنفسها الخرج الصحيح. يعتمد هذا النوع على التغذية الراجعة feedback لتصحيح الخرج الناتج إلى أن تصل الخوارزمية إلى الأنموذج الذي يُنتِج خرجًا صحيحًا، فنقول إن الآلة قد تعلمت؛ مثلاً تُدخل صور لمجموعة من الفواكه دون تحديد مسمياتها، وعلى الآلة أن تكتشف هذه الفواكه وتصنفها وفق مقاييس التشابه والاختلاف إلى مجموعات متمايزة.

عادة ما يحتاج تعليم الآلة -ومن ضمنها الشبكات العصبونية وخوارزميات الحاسوب الأخرى التي تتعلم من التجربة- إلى إشراف؛ إذ يخمن الحاسوب الإجابة ويتلقى الإجابة الصحيحة ثم يضبط العملية وفقًا لذلك، وتعمل هذه الطريقة بكفاءة عند تعليم الحاسوب الترجمة بين الإنكليزية والفرنسية مثلًا، لأنه يتوفر وثائق كثيرة باللغتين، في حين لا تعمل هذه الطريقة بالكفاءة نفسها مع اللغات النادرة أو اللغات الشائعة لكن دون نصوص مترجمة كثيرة.

تركز الورقتان البحثيتان، اللتان قُدمتا لتُعرضا في المؤتمر الدولي عن أشكال التعلم ولكنهما لم تخضعا لتقييم النظراء (peer review)، على منهج "تعليم الآلة دون إشراف"، وللبدء بذلك تَبني كل ورقة بحثية قواميس ثنائية اللغة دون مساعدة بشرية لتحديد ما إذا كان التخمين صحيحًا أم لا، وتكمن إمكانية بناء قواميس كهذه في كون اللغات تتشابه إلى حد كبير في طريقة تلازم الكلمات؛ فمثلًا كلمتا "طاولة" و"كرسي" تُستخدمان معًا على نحو متكرر في كل اللغات، فإذا تمكن الحاسوب من تحديد الروابط في هذه الحالات المشتركة وصياغتها على شكل أطلس عملاق للطرقات يحوي كلمات تمثل المدن، فإن خرائط مختلف اللغات ستكون متشابهة ولكن فقط بأسماء مختلفة، ويتمكن الحاسوب بعدها من اكتشاف أفضل طريقة لتركيب أطالس اللغات على بعضها بعضًا ومن ثم صناعة قواميس ثنائية اللغة.

وتَستعمل الورقتان البحثيتان الجديدتان -اللتان تستخدمان أسلوبين متشابهين- إستراتيجيتين تدريبيتين تسمَّيان "الترجمة العكسية" back translation و"تقليل الضجيج" denoising، وذلك للترجمة على مستوى الجمل.
تعني الترجمة العكسية أن الجملة تُترجَم ترجمةً تقريبيًّة إلى اللغة الأخرى ثم تُعاد ترجمتها إلى اللغة الأصلية، وفي حال كانت الترجمة العكسية غير مطابقة للأصل تُضبط الشبكات العصبونية لتترجِم ترجمةً أقرب في المرات القادمة، وأما إستراتيجية تقليل الضجيج فهي تشبه الترجمة العكسية ولكن بدلًا من الترجمة إلى لغة أخرى ثم الترجمة إلى اللغة الأم فإنها تعمد إلى إجراء تعديلات على الجملة (وذلك بإعادة ترتيب بعض الكلمات أو حذفها) ومن ثم محاولة إعادة ترجمة الجملة إلى اللغة الأم، ويُعلِّم هذان الأسلوبان الشبكاتِ على بنيةِ اللغة العميقةِ (أي البنية اللغوية الأساسية التي تتشاركها اللغات).

ولكن يوجد اختلاف طفيف بين التقنيتين، فنظام "الترجمة الآلية بالشبكات العصبونية دون إشراف" يترجِم عكسيًّا أكثر في خلال التدريب، في حين يضيف النظام الآخر "الترجمة الآلية دون إشراف باستخدام مجموعات نصوص أحادية اللغة" -الذي اخترعه (غيوم لابله) ويُستخدم في (فيسبوك)- خطوةً إضافية في خلال الترجمة، ويحوِّل النظامان كلاهما الجملةَ من لغة ما إلى شكل أكثر تجريدية قبل تحويلها إلى لغة أخرى، لكن النظام الخاص بـ(فيسبوك) يتحقق من كون اللغة الوسيطة مجردةً تمامًا، ويقول كل من (لامبله) و(آرتيجيه) إنه يمكنهما تحسين نتائجهما بتطبيق تقنيات الورقة البحثية الأخرى.

عند النظر إلى النتائج الوحيدة القابلة للمقارنة مباشرة بين الورقتين (الترجمة بين نصوص إنكليزية وفرنسية مأخوذة من مجموعة واحدة تتألف من نحو 30 مليون جملة) حققت الترجمتان تقييمًا ثنائي اللغة يقدر بنحو 15 نقطة في اتجاهي الترجمة كليهما وذلك على مقياس دقة الترجمة، هذه النتائج ليست عالية بالمقارنة مع نتائج ترجمة (غوغل) الخاضعة للإشراف التي حققت 40 أو الترجمة البشرية التي يمكن أن تحقق أكثر من 50 نقطة، لكنها أفضل من الترجمة الحرفية كلمة بكلمة. يقول مؤلفو الورقتين إن هذه الأنظمة يمكن تطويرها بسهولة عن طريق جعلها شبه خاضعة للإشراف بإضافة بضعة آلاف من الجمل المترجمة المتقابلة إلى المحتوى المستخدم لتدريب الأنظمة.

ويقول كل من (آرتيجيه) و(لامبله) إنه بالإضافة إلى الترجمة بين اللغات دون الحاجة إلى العديد من النصوص المترجمة المستخدمة للتدريب يمكن لهذه الأنظمة أن تساعد على تحقيق الاقتران الشائع بين لغات مثل الإنكليزية والفرنسية، وذلك في حال كانت النصوص المترجمة المتقابلة من النوع نفسه، مثل التقارير الصحفية، لكن قد يكون هناك حاجة إلى الترجمة في مجال جديد كاللغة العامية أو المصطلحات الطبية، ويقول الباحث المشارك (إينكو أجيري) إن التقنية ما زالت في مراحلها الأولى، فقد فتح الباحثون طريقًا بحثيًّا جديدًا لا يُعرف إلى أين يودي، ويقول (دي هي)، عالم الحاسوب في شركة (مايكروسوفت) في بكين، وكان عمله مؤثرًا في البحث، إنه لأمر صادم أن الحاسوب استطاع الترجمة حتى دون إشرافٍ بشري، وعبَّر (آرتيجيه) عن دهشته إزاء التشابه الكبير بين الورقتين البحثيتين -اللتين صدرتا في وقتين متقاربين- قائلًا إنه لأمر رائع، فهو يعني أن النهج يسير في الاتجاه الصحيح.

المصادر:
هنا
هنا

* إعداد: : Hiba Alabdallah
* تدقيق علمي: : Samah Mohammad
* تدقيق لغوي: : Majd Alkatreeb
* مراجعة: : Mujeeba Haj Najeeb
* تصميم الصورة: : Mahmood Dibs
* نشر: : Ammar Hammadeh

عن admin

شاهد أيضاً

الرياض تنفق مليارات على سفن حربية تريد واشنطن التخلص منها

كشفت مجلة "ذا ناشنل إنترست" الأمريكية عن إنفاق السعودية مليارات الدولارات لشراء سفن حربية تعاني من عيوب عديدة، وتريد بحرية الولايات المتحدة التخلص منها.   وأوضح تقرير نشرته المجلة، السبت، أن البحرية اتخذت قرارا بخفض طلبها على السفن من طراز LCS من 55 إلى 32، جراء انخفاض موثوقيتها، وتكلفتها العالية، وضعف قوتها النيرانية، وافتقارها إلى عناصر النظم القتالية وخاصة الرادارات.   وترى السعودية في إصرار البيت الأبيض على بيعها الأسلحة، رغم اعتراض الكونغرس، فرصة كبيرة، إلا أن ذلك ربما أتى على حساب اهتمامها بنوعية وكفاءة مشترياتها، وسط حديث الرئيس دونالد ترامب المتكرر عن ضرورة أن "تدفع الرياض المزيد"...

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *