لقد أصبحت البيانات عنصرًا أساسيًا وضروريًا في تدريب أنظمة الذكاء الاصطناعي. كونها ضرورية لتدريب الخوارزميات، مما يمكّنها من تمييز الأنماط، وإجراء التوقعات، وتنفيذ المهام بدقة وسرعة فائقتين.
تستهلك هذه الأنظمة كميات كبيرة من البيانات، حيث تم تدريب النسخة الأولى من ChatGPT، التي تُعتبر الجيل الأول من النماذج اللغوية الكبيرة، على مجموعة ضخمة من البيانات النصية تقدر بحوالي 570 جيجابايت. ويبرز هذا الحجم الهائل الاعتماد الكبير لأنظمة الذكاء الاصطناعي على البيانات. ومع ذلك، وبالنظر إلى معدل استهلاك البيانات الحالي، تلوح في الأفق أزمة محتملة، وهي أن البيانات عالية الجودة التي تعتمد عليها هذه الأنظمة في بناء نماذجها قد تنفد بحلول عام 2026.
يعد السعي للحصول على بيانات عالية الجودة محفوف بالتحديات، حيث تعتمد أنظمة الذكاء الاصطناعي على جودة البيانات التي تستهلكها. المبدأ المعروف “مدخلات رديئة تؤدي لمخرجات رديئة” هو تذكير واضح بأن المدخلات ذات الجودة المنخفضة تؤدي حتمًا إلى مخرجات دون المستوى المطلوب، مما يدعو للأسف أن الإنترنت، الذي يعد مصدرًا واسعًا للبيانات، أصبح مشبعا بمعلومات منخفضة الجودة. وإذا تم استخدام محتوى وسائل التواصل الاجتماعي في التدريب، الذي يعج بالتحيزات والأخطاء فإنه يمكن أن ينتج أنظمة ذكاء اصطناعي ذات وجهات نظر منحرفة، مما يعزز التحيزات التي نسعى إلى القضاء عليها.
وللتخفيف من حدة هذه المشكلة، تدرس بعض شركات الذكاء الاصطناعي فكرة الاستحواذ على دور نشر تمتلك كميات هائلة من المعلومات عالية الجودة غير المتصلة بالإنترنت. ومن المحتمل أن تضمن هذه الاستراتيجية تدفقًا ثابتًا للبيانات عالية الجودة والمُدارة جيدًا، ولكنها إجراء وقائي في إطار الخطة العامة لمتطلبات البيانات النهمة للذكاء الاصطناعي.
قد يكون هناك حل آخر يكمن في جمع البيانات عالية الجودة من خلال حشد المصادر، وذلك بتشجيع قاعدة واسعة من المستخدمين على المساهمة ببيانات عالية الجودة في مجموعة بيانات متنوعة والحصول على أجر مقابل ذلك. ويمكن أن يؤدي نهج جمع البيانات الذي يحركه المجتمع، إلى جمع مجموعات بيانات غنية لتدريب الذكاء الاصطناعي من مجموعة واسعة من الأشخاص والمؤسسات.
هناك دعوات من بعض الجهات لاستخدام الذكاء الاصطناعي لتوليد البيانات لتدريب الذكاء الاصطناعي لاحقًا- على غرار الانقراض الرقمي. ويمكن أن تؤدي هذه الحلقة التكرارية إلى “انهيار النموذج” – وهي ظاهرة يتدهور فيها تنوع وجودة مخرجات الذكاء الاصطناعي مع كل جيل. كما سيؤدي تدريب الأنظمة باستخدام هذا النوع من البيانات إلى أنظمة يتوقف فيها الابتكار وتتلاشى الأصالة، مما يؤدي في النهاية إلى نتائج غير منطقية.
أعتقد أننا بحاجة إلى حل طويل الأمد لمشكلة البيانات، والذي أعتقد أنه لا يمكن تحقيقه إلا من خلال إنتاج خوارزميات ذكاء اصطناعي أكثر كفاءة تستخدم المعلومات بذكاء أكبر. من خلال محاكاة التطور التعليمي البشري من المفاهيم البسيطة إلى المعقدة، يمكن لأنظمة الذكاء الاصطناعي تحسين مسار تعلمها، وتكوين روابط أعمق بين المفاهيم مع استخدام أقل للبيانات. يُسمى هذا “تعلم المناهج “ وهو مفهوم مهم للكفاءة في هذا السياق.
تتطلب ندرة البيانات الوشيكة نقلة نوعية نحو مناهج أكثر ابتكارًا لاستخدام البيانات. نحن بحاجة إلى ضمان استمرار تطور الذكاء الاصطناعي وأهميته في مشهد رقمي دائم التغير مع مراعاة استدامة البيانات، وإلا فقد نجده يصل إلى طريق مسدود بسرعة كبيرة في المستقبل القريب.