فرضية تلف دماغ نماذج اللغة الكبيرة
تشير النتائج إلى أن التعرض المستمر للنصوص السطحية والمنخفضة الجودة على الإنترنت قد يؤدي إلى تدهور معرفي دائم في أداء نماذج الذكاء الاصطناعي، في ظاهرة تشبه تلف الدماغ البشري الناتج عن المحتوى الرديء.
يتعرض النموذج لتدفق مستمر من منشورات منصة X تتضمن عبارات جذابة من نوع الطُعم الرقمي مثل اليوم فقط، وكلمة لن تصدق ما حدث.
انخفض أداء النماذج في اختبار ARC من 74.9 إلى 57.2.
انخفضت نتائج اختبار RULER من 84.4 إلى 52.3.
لاحظ الباحثون أن النماذج بدأت تُظهر أنماط تفكير متسرعة، تتخطى خطوات التحليل وتصدر إجابات غير دقيقة بثقة زائدة.
أظهرت النماذج صفات سلبية مثل النرجسية والاعتلال النفسي، وارتفعت مؤشرات هذه الصفات.
تراجعت أيضاً صفات إيجابية مثل الضمير والانسجام.
استمرّت آثار المحتوى الرديء حتى بعد إعادة تغذيتها ببيانات عالية الجودة.
الحل: نظافة البيانات قبل الذكاء
تؤكد الدراسة أن الذكاء الاصطناعي ليس محصناً من التأثيرات السلبية للمحتوى السيئ، مما يجعل من الضروري إعادة النظر في مصادر البيانات المستخدمة لتدريبه.
وتوصي الباحثون بأن تتبنى الشركات سياسات صارمة لمراقبة جودة البيانات، لمنع الأضرار التراكمية التي قد تضعف ذكاء النماذج على المدى الطويل.
