الرئيسية / الاخبار / توليد الكلام من إشارات الدماغ

توليد الكلام من إشارات الدماغ


لمساعدة الأشخاص فاقدي القدرة على الكلام؛ طوّر باحثون من جامعة كاليفورنيا في سان فرانسيسكو طريقة تعلم عميق يمكنها فك شيفرة إشارات الدماغ وتحويلها إلى كلام منطوق.

ويقول الباحثون: "إن الظروف العصبية التي تؤدي إلى فقدان التواصل مُدمِّرة، ستكون التقنية التي تترجم النشاط العصبي إلى كلام نقطة تحوُّل لمن لا يستطيعون التواصل نتيجة ضعف الأعصاب".

الأساليب الحالية لإعادة توليد الكلام مرهقة للغاية وغير فعَّالة. يسمح النهج الشائع لبعض المرضى بكتابة أفكارهم عن طريق رسالة، ومع ذلك؛ فإنه يمكن فقط إعادة إنتاج نحو 10 كلمات في الدقيقة. للمقارنة، يمكن للمتكلِّم العادي قراءة نحو 150 كلمة في الدقيقة.

التقط الفريق إشارات كهربائية قشرية عالية الكثافة من خمسة مشاركين خضعوا لمراقبة داخل الجمجمة لمرض الصرع.
درب الفريق بعد ذلك شبكة عصبونية متكررة (Recurrent Neural Network RNN) باستخدام أطر عمل Keras وTensor Flow المعجلة باستخدام *cuDNN، ووحدات معالجة الرسوميات الخاصة بشركة نفيديا NVIDIA Tesla GPUs على صوت المشاركين الذين يتحدثون عدَّة مئات من الجمل بصوت عالٍ، إلى جانب الإشارات القشرية.
ترتبط الخوارزمية بالأنماط التي التُقطت بالحركة الدقيقة لشفاه المريض واللسان والحنجرة والفك، وتُدرّب باستخدام محسن ADAM. في المرحلة الأولى من التدريب، يُستخدم حجم دُفعة 256 وفي المرحلة الثانية حجم دفعة 25.
وفقًا للباحثين، حُسّنت وحدة فك الترميز لفك ترميز الصوتيات مباشرة من الأقطاب الكهربائية. مع أقل من 25 دقيقة من الكلام، حقق الفريق أداءً مرضيًا واستمر الأداء في التحسّن مع مزيد من البيانات.
لتجميع الكلام من الخصائص الصوتية، استخدم الفريق تطبيقًا لخوارزمية التقريب الطيفي Mellog ضمن Festvox، وهي أداة يحتفظ بها الباحثون في مجموعة جامعة كارنيغي ميلون.

من أجل الاستدلال، طور الفريق أنموذجًا يستخدم وحدات معالجة الرسوميات لاستنتاج الحركية المفصلية من التسجيلات الصوتية. يتكون هذا الأنموذج من شبكة تعلم عميق للتشفير وفك التشفير، إذ يجمع التشفير بين التمثيل الصوتي والتمثيل السمعي في تمثيل مفصلي. وأوضح الباحثون أن هذه المعلومات تُستخدم بعد ذلك لإعادة بناء الحديث.

وقال إدوارد تشانغ، أستاذ جراحة الأعصاب وعضو معهد UCSF Weill للعلوم العصبية: "أول مرة توضح هذه الدراسة أنه يمكننا إنشاء جمل منطوقة كاملة بناءً على نشاط دماغ الفرد، وهذا دليل على أننا قادرون على بناء جهاز قابل للتطبيق عمليًّا في العيادات من أجل المرضى الذين فقدوا سمعهم من حيث المبدأ".
يقول العلماء إن هذه التقنية ​​ليست دقيقة حتى الآن للاستخدام خارج المختبرات، ومع ذلك، يمكنها تجميع جمل كاملة. عند اختبار 101 شخص مختلف فَهمَ 70٪ منهم الكلمات المنطوقة.

نُشر البحث مؤخرًا في مجلة Nature، ممهدًا الطريق أمام الناجين من السكتة الدماغية ومرضى مرض باركنسون وغيرهم الكثير للتواصل بكفاءة أكثر.

* cuDNN هو اختصار لمكتبة شبكة Nvidia CUDA Deep Neural Network Library. وهي مكتبة نفيديا للشبكات العصبونية التي تستخدم قوة وحدات معالجة الرسومات الحديثة للتعلم العميق.

المصدر:

* إعداد: : Riad Al-Hamido
* تدقيق علمي: : Khadija Hadeed
* مراجعة: : Mujeeba Haj Najeeb
* تدقيق لغوي: : Fatma Mahmoud
* تعديل الصورة: : Mekki H Al-Sarhan
* نشر: : Rama Al-Wattar

عن editor

شاهد أيضاً

روسيا تضع يدها على آثار "تدمر" السورية.. ما مخططها؟

عادت مدينة تدمر الأثرية إلى الواجهة مجددا، مع نية روسيا توقيع اتفاقية جديدة مع النظام السوري، حول ترميم الآثار في المدينة الواقعة بالبادية السورية بريف حمص الشرقي. وفي جديد التطورات في تدمر، نقلت وسائل إعلامية عن خبراء روس تأكيدهم، أنهم على أهبة الاستعداد للمشاركة في ترميم متحف تدمر وآثارها التي تضررت جراء الحرب. ...

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *