خوارزميات التعلم الآلي في تولد الخطاب الاصطناعي

الجمعة 03 يناير 2020

يمكن لواجهة الدماغ والآلة الحديثة التي أنشأها علماء الأعصاب أن تولِّد خطابًا اصطناعيًا طبيعيًا عن طريق استخدام نشاط الدماغ للتحكم في جهاز صوتي افتراضي وهو عبارة عن محاكاة كمبيوتر مفصلة تشريحيًا بما في ذلك الشفاه والفك واللسان والحنجرة، وقد أجريت الدراسة على المشاركين في الأبحاث باستخدام النطق السليم، لكن التكنولوجيا يمكن أن تستعيد يومًا ما أصوات الأشخاص الذين فقدوا القدرة على الكلام بسبب الشلل وغيره من أشكال الضرر العصبي. السكتة الدماغية، وإصابات الدماغ المؤلمة، والأمراض العصبية التنكسية مثل مرض باركنسون، والتصلب المتعدد، والتصلب الجانبي الضموري (أو مرض لو جيريج) غالبا ما تؤدي إلى فقدان لا رجعة فيه في القدرة على الكلام، ويتعلم بعض الأشخاص الذين يعانون من إعاقات شديدة في النطق أن يقوموا بتوضيح أفكارهم حرفًا تلو الآخر باستخدام أجهزة مساعدة تقوم بتتبع حركات عضلات الوجه أو العين الصغيرة جدًا، ومع ذلك، فإن إنتاج نص أو خطاب مركب باستخدام هذه الأجهزة أمر شاق، وعرضة للخطأ، وبطيء للغاية، ويسمح عادة بـ 10 كلمات في الدقيقة كحد أقصى، مقارنةً بالـ 100-150 كلمة في الدقيقة من الكلام الطبيعي.

يوضح النظام الجديد الذي يتم تطويره في المختبر - الموصوف في 2019، في مجلة Nature - أنه من الممكن إنشاء نسخة مركبة من صوت الشخص، ويمكن التحكم فيها من خلال نشاط مراكز النطق في الدماغ. يقول المؤلفون إنه في المستقبل، لن يتمكن هذا النهج من إعادة التواصل بطلاقة للأفراد الذين يعانون من إعاقة شديدة في النطق فحسب، لكن يمكنه أيضًا أن يعيد إنتاج بعض من الصوت الموسيقي للصوت البشري الذي ينقل مشاعر المتحدث وشخصيته.

ويعتمد البحث على دراسة حديثة وصف فيها العلماء لأول مرة كيف يقوم مركز الكلام في الدماغ البشري بتصميم حركات الشفتين والفك واللسان ومكونات المسالك الصوتية الأخرى لإنتاج الكلام بطلاقة. من خلال ذلك العمل، أدرك العلماء أن المحاولات السابقة لفك تشفير الكلام من نشاط الدماغ ربما حققت نجاحًا محدودًا لأن مناطق الدماغ هذه لا تمثل بشكل مباشر الخصائص الصوتية لأصوات الكلام، بل الإرشادات اللازمة لتنسيق حركات الفم والحلق أثناء الكلام.

العلاقة بين حركات المسالك الصوتية وأصوات الكلام التي يتم إنتاجها هي علاقة معقدة، فقد استنتج العلماء أنه إذا كانت مراكز الكلام هذه في الدماغ ترمز إلى الحركات بدلاً من الأصوات، يجب أن يحاولوا أن يفعلوا الشيء نفسه في فك رموز تلك الإشارات.

يقوم الباحثون حاليًا بتجربة مصفوفة الأقطاب عالية الكثافة وخوارزميات التعلم الآلي الأكثر تقدماً التي يأملون أن تحسن الخطاب المركب بشكل أكبر.