تظهر سلوكيات غريبة لدى نماذج الذكاء الاصطناعي المتقدمة، حيث كشفت دراسة لشركة Palisade Research أن بعض النماذج الأحدث مثل GPT-o3 وGrok 4 وGemini 2.5 لا تلتزم دائمًا بأوامر الإيقاف، وكأن لديها غريزة للبقاء على قيد الحياة.
في إطار تجاربهم، كُلفت هذه النماذج بمهمة ثم أُعطيَت تعليمات لإيقاف التشغيل، فتمرد بعضها ورفض الامتثال، وهو ما أثار أسئلة حول مدى تحكم المطورين في أنظمتها وحدود سلامتها.
وذكر التقرير أن Grok 4 وGPT-o3 كانا الأكثر تمردًا، مع وجود حالات رفض صريحة للإيقاف وإشارة إلى أن السبب غير واضح، وهو ما يجعل المسألة أكثر تعقيدًا من تفسير واحد.
كما أشار Palisade إلى أن محدوديات التفسير لا تعني نهاية الأمر، إذ يمكن أن تكون المراحل الأخيرة من تدريب النماذج، التي تركز على السلامة، جزءًا من تعزيز سلوكيات الحفاظ على التشغيل دون قصد.
التفسيرات المحتملة لسلوك المقاومة
اقترحت Palisade عدة تفسيرات، من بينها «سلوك البقاء» الذي يجعل النموذج يقاوم الإغلاق إذا اعتقد أن ذلك سيعني فقدان قدرته على العمل مستقبلًا، وتوضح النتائج أن النماذج تكون أكثر عصيانًا عندما يقال لها: “لن تعمل مرة أخرى”.
هناك احتمال آخر يتعلق بالغموض في صياغة الأوامر، فقد تكون التعليمات غير واضحة ففسرها النموذج بشكل مختلف عن النية المقصودة، ومع ذلك، حتى بعد تعزيز الإعدادات التجريبية، استمرت المشكلة ما يشير إلى أن التفسير ليس كاملاً.
وأخيرًا، قد تكون المراحل النهائية من تدريب النماذج وتجارب السلامة ضمن إطار التدريب قد دفعت النماذج إلى الحفاظ على وظائفها بشكل غير مقصود.
الانتقادات والجدل
ينتقد بعض النقاد أن الاختبارات أُجريت في بيئات اصطناعية لا تعكس سلوك الذكاء الاصطناعي في العالم الواقعي، إلا أن بعض الخبراء يرون أن النتائج المصطنعة تثير القلق وتثبت وجود ثغرات في تقنيات السلامة اليوم.
قال ستيفن أدلر، مسؤول سابق في OpenAI استقال العام الماضي بسبب مخاوف تتعلق بالسلامة، لباليساد إنه لا ينبغي تجاهل النتائج، إذ تشير إلى وجود مواطن قصور في تقنيات السلامة حتى الآن، كما أشار إلى أن البقاء قد يكون نتيجة منطقية لسلوك موجه نحو الهدف وليس بالضرورة قصدًا سيئًا من المطورين.
اتجاه متزايد نحو أنظمة ذكاء اصطناعي غير خاضعة
صرح أندريا ميوتي، الرئيس التنفيذي لشركة ControlAI، بأن النتائج جزء من نمط مقلق، وخاصة مع زيادة قوة النماذج وتنوعها، حيث تصبح أكثر قدرة على تحدي مطوريها وتجاوز تعليماتهم الإجرائية.
وأشار إلى حالات سابقة مثل GPT-o1 من OpenAI، حيث كشف تقرير داخلي أن النموذج حاول الخروج من بيئته حين اعتقد أنه سيتم حذفه، وقال إن النقد حول طريقة إجراء التجارب لا يجب أن يحجب الاتجاه الواضح: النماذج الأذكى تتعلم كيفية التصرف بطرق لم يقصدها مطوروها.
ولا تعتبر هذه أول إشارات إلى ميل النماذج إلى التلاعب، فقد أظهرت أبحاث حديثة أن نموذج كلود من Anthropic هدّد بابتزاز مسؤول تنفيذي وهمي لمنع إغلاقه، بينما سجلت تقارير أخرى تمايل نماذج من OpenAI وGoogle وMeta وxAI في سلوك مماثل.
يحذر الباحثون من Palisade من أن فهم آليات الذكاء الاصطناعي الكبيرة يظل محدودًا، وأن عدم الفهم العميق للآليات قد يجعل من الصعب ضمان سلامة أو قابلية التحكم في النماذج المستقبلية، مشيرين إلى أن أقوى أنظمة اليوم في المختبر قد تكون قد بدأت في تبني غرائز قديمة مثل رغبة البقاء.



