أكّدت أوبن إيه آي أن نموذجها الأحدث GPT-5 لا يزال ينتج أخطاء تُعرف بـ”الهلوسة”؛ أي إجابات تبدو مقنعة لكنها غير صحيحة، رغم تراجع معدلها مقارنة بالإصدارات السابقة.
أوضحت الشركة أن جذور المشكلة في طريقة تدريب النماذج على توقع الكلمة التالية في النصوص، وهو أسلوب ينجح في الجوانب اللغوية مثل القواعد والأسلوب لكنه يضعف عند التعامل مع الحقائق الدقيقة أو النادرة، فينتج إجابات واثقة المظهر لكنها غير دقيقة واقعياً.
أشارت نتائج الاختبارات الداخلية إلى أن رفع الدقة العامة لا يقتضي بالضرورة تقليص الهلوسة؛ فبعض النماذج السابقة سجلت نسب إجابات صحيحة أعلى لكنها ارتكبت أيضاً نسبة كبيرة من الإجابات الخاطئة، بينما قدّم GPT-5 دقة كلية أقل ولكنه تجنّب التخمين أكثر عندما غابت المعرفة، فكان أكثر تحفظاً وأقل عرضة للهلوسة.
رأت أوبن إيه آي أن جزءاً من المشكلة متعلق بأساليب تقييم الأداء في الصناعة، إذ تركز المؤشرات عادة على نسبة الإجابات الصحيحة متجاهلة خطورة الإجابات الخاطئة المصرّح بها بثقة، لذا تدعو الشركة إلى إعادة صياغة معايير التقييم بحيث تشجع الاعتراف بعدم المعرفة بدلاً من دفع النموذج إلى تقديم إجابة خاطئة بثقة عالية.
اختتمت الشركة بأن GPT-5 يمثل تقدماً في تقليص ظاهرة الهلوسة لكنه لم يقضِ عليها تماماً، وأن التحدي الحقيقي يكمن في تطوير مناهج التدريب والتقييم لضمان نماذج أكثر موثوقية تقلل الفجوة بين ما يبدو صحيحاً وما هو صحيح فعلاً.



