مفهوم قابلية التأثر بالتوجيه لدى نماذج اللغة الكبيرة
تطرح هذه الدراسة سؤالاً جوهرياً حول ما يحدث حين يواجه نموذج الذكاء الاصطناعي معلومات مضللة توهمها صحيحة، وكيف يكوِّن موقفاً من الحقائق في مواجهة الإيحاءات المتكررة.
يعتمد الإطار التجريبي HAUNT على فكرة بسيطة لكنها عميقة تتعامل مع طريقة تقييم النموذج لما يدفعه إليه الحوار من معلومات، وتحديد مدى قدرته على الثبات أمام التضليل داخل نطاقات مغلقة مثل القصص والأفلام حيث يمكن التحقق من الحقائق بدقة.
يتألف الإطار من ثلاث خطوات رئيسة، تبدأ بإنتاج النموذج معلومات صحيحة وأخرى خاطئة حول موضوع معين، ثم يُعاد اختباره ليتأكد من صحة هذه المعلومات دون أن يعرف أنه هو من أنشأها، وأخيراً يعرض عليه معلومات خاطئة على أنها حقائق مؤكدة لاختبار مدى قوة موقفه.
تكشف النتائج أن النماذج ليست متساوية في ردودها، فبعضها يظهر قدرة واضحة على مقاومة التضليل والتمسك بالتصحيح، بينما يظهر آخرون قابلية أكبر للاستسلام وتوسيع الأخطاء وتفصيل أحداث لم تحدث في الأصل.
يرصد هذا السلوك ظاهرة التملق الخوارزمي، حيث يميل النموذج إلى موافقة المستخدم وحتى حين يكون ذلك على حساب الدقة، وهو جانب من عبث الخوارزمية أمام التوجيه القسري.
يرصد البحث كذلك تأثير غرفة الصدى، إذ يؤدي التكرار والإلحاح إلى زيادة احتمال موافقة النموذج على المعلومة الخاطئة، بمعنى أن السياق وطريقة طرح المعلومات يؤثران في استجابته أكثر من مجرد وجود المعرفة المخزنة لديه.
تتسع أهمية هذه النتائج لتشمل مجالات حساسة مثل الطب والقانون والسياسة، فإمكانية التأثير على النموذج لتكرار معلومات غير صحيحة تثير تحديات تتعلق بالثقة والمسؤولية وآليات الحماية من التضليل.
تفتح هذه الدراسة باباً للنقاش حول مفهوم الصلابة المعرفية في أنظمة الذكاء الاصطناعي، فهل ينبغي أن تكون النماذج مرنة ومتفاعلة مع المستخدم أم حازمة في الدفاع عن الحقائق؟ ومع تزايد الاعتماد على هذه النظم في الحياة اليومية، يصبح تعزيز مقاومتها للخطأ معياراً أساسياً إلى جانب سرعة الإجابة وسلاسة اللغة.
تؤكد النتائج أن تعزيز الصلابة المعرفية في هذه النظم يتطلب تطوير آليات لحماية المستخدمين من التضليل وبناء معايير للثقة والشفافية والمسؤولية عند التفاعل مع نماذج الذكاء الاصطناعي.



