الذكاء الاصطناعي يلوّث نفسه: هل نقترب من انهيارالنماذج؟
Description
تتطرق نايلة الصليبي في "النشرة الرقمية" خطر خفي يقلق خبراء الذكاء الاصطناعي آلا وهو بدء الذكاء الاصطناعي تلوّيث نفسه.
الذكاء الاصطناعي يلوّث نفسه: هل نقترب من انهيار رقمي؟
منذ إطلاق "تشات جي بي تي" في نوفمبر 2022، دخل العالم مرحلة جديدة مع الذكاء الاصطناعي التوليدي. و رافق هذا التقدم الهائل خطر خفي يتصاعد يومًا بعد يوم: الذكاء الاصطناعي بدأ يلوّث البيئة الرقمية التي يعتمد عليها في التعلم والتطور..
يشبّه بعض الباحثين هذا التلوث بالتفجير النووي الأول عام 1945، حين تلوث الفولاذ بالإشعاع النووي واضطر العلماء للبحث عن فولاذ "نظيف" صُنع قبله، لاستخدامه في أجهزة علمية دقيقة.
واليوم كقضية الفولاذ النظيف، يعتبر المحتوى المنشور على الإنترنت قبل 2022 نظيفًا، فالبيانات التي تنتجها نماذج الذكاء الاصطناعي التوليدي، من مقالات، وأكواد برمجية، وصور، حتى مراجعات المستخدمين، بدأت تتراكم ضمن مصادر التدريب المفتوحة، ما يؤدي إلى دورة مغلقة يتغذى فيها الذكاء الاصطناعي على مخرجات ذاته.
ماذا يحدث عندما يتغذى الذكاء الاصطناعي على بيانات من إنتاجه؟
ستبدأ النماذج الجديدة بالدوران في دائرة مغلقة، وهذا التحول قد يؤدي إلى ما يُعرف بـ"انهيار النماذج" (Model Collapse)، وهي ظاهرة تفقد فيها النماذج تدريجيًا قدرتها على تقديم مخرجات دقيقة وموثوقة بسبب افتقارها إلى بيانات بشرية أصيلة. عندها تفقد الأنظمة تدريجيًا دقتها وموثوقيتها، وتتراكم الأخطاء على حساب العمق البشري في اللغة والمعرفة. فهنالك تجارب عملية أثبتت أن أداء النماذج يتراجع بوضوح عندما تزيد نسبة البيانات الاصطناعية على 20%.
ومن المجالات التي برزت فيها المشكلة بوضوح تقنية التوليد المعزز بالاسترجاع (RAG) -retrieval-augmented generation-، وهي تقنية تعتمد عليها نماذج الذكاء الاصطناعي لتعويض قصور بيانات التدريب القديمة عبر استرجاع معلومات آنية من الإنترنت. ومع ذلك، فإن هذه المعلومات الحديثة قد لا تكون محصنة ضد التلاعب من قِبل الذكاء الاصطناعي نفسه، وقد أظهرت بعض الدراسات أن هذا قد يؤدي إلى زيادة كبيرة في إنتاج روبوتات المحادثة لاستجابات تُعد "غير آمنة".
ما هي تداعيات هذه المشكلة على الشركات الناشئة في مجال الذكاء الاصطناعي؟
الشركات الرائدة مثل "أوبن إي آي" ، "أنتروبيك" ، "ديب مايند" من غوغل ، "ميتا" و أيضا xAI كانت سبّاقة في الوصول إلى مجموعات بيانات ضخمة ونظيفة قبل موجة التوليد الآلي. أما الشركات الناشئة اليوم، فتواجه صعوبة متزايدة في الوصول إلى نفس المستوى من الجودة.
هذا الاختلال يُهدد بتكريس احتكار تقني طويل الأمد، حيث تتحكّم قلة من المؤسسات بالمصادر القابلة للتدريب، وهو ما يعوق المنافسة ويحدّ من الابتكار، خصوصًا في المجتمعات العلمية والبحثية محدودة الموارد.
إذن، ما الحلول الممكنة؟
يقترح الباحثون عدة إجراءات:
التعليم الفيدرالي (Federated Learning): تقنية تسمح بتدريب النماذج دون الحاجة إلى نقل البيانات الحساسة، ما يحافظ على خصوصية المصدر البشري.
إضافة علامات مائية رقمية (Watermarking): لتمييز المحتوى المولّد آليًا عن المحتوى البشري الأصلي.
توسيع قواعد البيانات المغلقة: كمنصات البحث الأكاديمي أو أرشيفات الويب القديمة، وجعلها متاحة للمجتمع العلمي تحت تراخيص واضحة.
لكن هذه المبادرات لا تزل بحاجة إلى دعم قانوني وتنظيمي صارم. ومع غياب تشريعات واضحة في الولايات المتحدة والمملكة المتحدة، تبدو أوروبا أكثر تقدمًا عبر "قانون الذكاء الاصطناعي الأوروبي" الذي يسعى إلى تقنين تطوير ونشر هذه التقنيات
ما الذي سنفقده إذا وصلنا إلى تلك النقطة؟
المعرفة البشرية نفسها ستكون على المحك. إذا فقدت نماذج الذكاء الاصطناعي مصدرها البشري الأصيل، فسيتحوّل المستقبل إلى دائرة مغلقة من إنتاج آلات… من أجل آلات.
المطلوب اليوم ليس فقط أن نفهم الذكاء الاصطناعي، بل أن نحميه من نفسه.
إذا استمر التلوث الرقمي بهذا الشكل، فقد نصل إلى نقطة لا يمكن فيها تدريب أي نموذج ذكاء اصطناعي على بيانات نظيفة مجددًا. وهذا يعني أن المستقبل كله سيُبنى على محتوى من إنتاج آلات… من أجل آلات.
يمكن الاستماع لـ "بودكاست النشرة الرقمية" على مختلف منصات البودكاست. الرابط للبودكاست على منصة أبل
للتواصل مع نايلة الصليبي عبر صفحة برنامَج"النشرة الرقمية"من مونت كارلو الدولية على لينكد إن وعلى تويتر salibi@ وعلى ماستودون وبلوسكاي عبر موقع مونت كارلو الدولية مع تحيات نايلة الصليبي