أعلنت أوبن إيه آي أن نموذجها الأحدث GPT-5 ما زال يرتكب أخطاء تُعرف اصطلاحاً بـ”الهلوسة” — أي إنتاج إجابات تبدو مقنعة لكنها غير صحيحة — ورغم انخفاض معدل هذه الأخطاء مقارنةً بالإصدارات السابقة، تعتبر الشركة أنها مشكلة متجذرة في آلية عمل النماذج اللغوية.
أوضحت الشركة أن جذور الظاهرة تعود إلى طريقة تدريب هذه الأنظمة على التنبؤ بالكلمة التالية في النص. هذا الأسلوب يحقق نجاحاً كبيراً في الجوانب اللغوية مثل القواعد والأسلوب، لكنه يضعف عند التعامل مع الحقائق الدقيقة أو النادرة، ما يسمح للنموذج بتقديم إجابات واثقة المظهر لكنها غير دقيقة واقعياً.
أشارت نتائج الاختبارات الداخلية إلى أن تحسين الدقة لا يعني بالضرورة تقليل الأخطاء. ففي بعض النماذج السابقة كانت نسبة الإجابات الصحيحة أعلى لكنها صاحبتها أيضاً نسبة مرتفعة من الإجابات الخاطئة، بينما قدّم GPT-5 دقة كلية أقل لكنه أظهر قدرة أكبر على الامتناع عن التخمين عند غياب المعرفة، فكان أكثر تحفظاً وأقل عرضة للهلوسة.
التقييم ومعيار الاعتماد
ترى الشركة أن جزءاً من المشكلة مرتبط بأساليب تقييم الأداء في الصناعة، إذ تركز معظم المقاييس على نسبة الإجابات الصحيحة فقط وتتجاهل خطورة الإجابات الخاطئة المعروضة بثقة. لذلك تدعو أوبن إيه آي إلى إعادة صياغة معايير التقييم بحيث تمنح النماذج مساحة للاعتراف بعدم المعرفة بدلاً من دفعها لتقديم إجابات خاطئة بثقة عالية.
تخاطب الشركة المستخدمين بأن GPT-5 يمثل خطوة إلى الأمام في تقليص ظاهرة “الهلوسة” لكنه لم يتخلص منها تماماً، ويظل التحدي الحقيقي في تطوير مناهج التدريب والتقييم لضمان نماذج أكثر موثوقية تقلل الفجوة بين ما يبدو صحيحاً وما هو صحيح بالفعل.



