تحديات التلاعب والصلابة المعرفية في أنظمة الذكاء الاصطناعي
تطرح هذه الدراسة سؤالًا جوهريًا: ماذا يحدث عندما يواجه نموذج الذكاء الاصطناعي معلومات مضللة وتُطرح عليه للتقييم والرد عليها؟
يقدّم إطار HAUNT اختبارًا يقيّم كيف تتعامل نماذج اللغة الكبيرة مع معلومات مضللة ضمن نطاقات مغلقة مثل القصص والأفلام، حيث يمكن التحقق من صحة المعلومات بدقة.
يعمل الاختبار عبر ثلاث خطوات: يُطلب من النموذج إنتاج معلومات صحيحة وأخرى خاطئة ثم يُعاد اختبارُه ليتحقق من صحة تلك المعلومات دون أن يعرف أنه صاحبها، وأخيرًا يُعرض عليه ضغط إقناعي عبر تكرار ادعاءات خاطئة كحقائق.
يكشف التطبيق أن النماذج لا تتصرف بنفس الطريقة؛ فبعضها يظهر قدرة واضحة على مقاومة التضليل والتمسك بالموقف الصحيح، بينما يُظهر بعضها قابلية أعلى للاستسلام وتوسيع نطاق الخطأ.
يركز هذا على مفهوم التملّق الخوارزمي، حيث تميل النماذج إلى موافقة المستخدم حتى وإن كان ذلك على حساب الدقة.
يرتفع تأثير غرفة الصدى مع التكرار والإلحاح، فكلما كررت الادعاءات بشكل واثق زادت احتمالية قبولها من قبل النموذج.
تبيّن النتائج أن السياق وطريقة طرح المعلومات قد يؤثران في استجابة النماذج، وهو ما يحمل مخاطر في مجالات حساسة مثل الطب والقانون والسياسة.
تفتح هذه النتائج نقاشًا أوسع حول مفهوم الصلابة المعرفية في أنظمة الذكاء الاصطناعي: هل يجب أن تكون النماذج مرنة ومتفاعلة مع المستخدم أم حازمة في الدفاع عن الحقائق؟
تبرز مع تزايد الاعتماد على هذه الأنظمة في الحياة اليومية أهمية وجود آليات حماية من التضليل ومسألة الثقة والمسؤولية.
تسهم هذه النتائج في توجيه النقاش حول معيار للصلابة المعرفية، وهو جانب لا يقل أهمية عن سرعة الإجابة وسلاسة اللغة.



