تكشف دراسة مشتركة بين مركز الذكاء الاصطناعي البريطاني ومعهد ألان تورينغ وشركة أنتروبيك أن نماذج الذكاء الاصطناعي يمكن التلاعب بها بسهولة أكبر مما كان متوقعاً عبر ما يعرف بتسميم البيانات، وهي عملية إدخال محتوى زائف أو مُلَوَّث في المصادر التي تتغذّى عليها هذه النماذج وتؤدي إلى إنتاج نصوص مضللة أو مضطربة وغير موثوقة.
وأظهرت النتائج أن النماذج يمكنها التعرّض للتأثير عند تدريبها على مجموعة تضم 250 وثيقة ملوثة أُدخِلت عبر ثغرة، وبعد هذا التسميم بدأت النماذج تنتج نصوصاً مبهمة ومشوهة، وفق تقرير لصحيفة الإندبندنت.
كيف يحدث التسميم ولماذا يمثل خطراً
تستمد معظم نماذج الذكاء الاصطناعي الكبيرة بياناتها تدريجياً من نصوص منشورة على الإنترنت، بما فيها مواقع الأفراد والمدونات والموسوعات العامة، وهذا يعني أن أي محتوى يبقى على الشبكة قد يُستخدم لاحقاً كمصدر للتدريب.
وأشارت أنتروبيك في مدونتها إلى أن الجهات الخبيثة يمكنها إدخال نصوص ملوثة في هذه المصادر لجعل النماذج تتبنى سلوكيات غير مرغوب فيها أو خطيرة.
ووصف باحثان من معهد ألان تورينغ نتائج التجربة بأنها “مفاجئة ومثيرة للقلق”، مشيرين إلى أن تنفيذ هجوم تسميم فعال قد يكون بسيطاً نسبياً.
وذكر الباحثان أن مهاجماً يمكنه عبر نشر نحو 250 مقالة ملوثة على منصات عامة مثل ويكيبيديا أن يؤثر في مخرجات نماذج مثل تشات جي بي تي وجيميناي وغيرها.
