حدود الخيال البصري في مولدات الصور المدعومة بالذكاء الاصطناعي
حددت دراسة منشورة في Patterns أن مولّدات الصور المدعومة بالذكاء الاصطناعي تميل إلى الاعتماد على عدد محدود من الأساليب البصرية عند إعادة تفسير الصور، حتى مع وجود نصوص شاعرية أو غير تقليدية. اختبرت الدراسة نماذج شهيرة مثل Stable Diffusion XL وLLaVA، ووُصِفت النتائج بأنها أشبه بـ«موسيقى المصاعد البصرية»: صور أنيقة ومصقولة لكنها بلا روح فنية حقيقية، مألوفة إلى حد الملل، وصالحة أكثر لجدران الفنادق منها لقاعات المعارض.
اختبرت الدراسة نماذج شهيرة مثل Stable Diffusion XL وLLaVA، ووُصِفت النتائج بأنها أشبه بـ«موسيقى المصاعد البصرية»: صور أنيقة ومصقولة لكنها بلا روح فنية حقيقية، مألوفة إلى حد الملل، وصالحة أكثر لجدران الفنادق منها لقاعات المعارض.
أطلقت الباحثون تجربة تسمّى «لعبة الهاتف المرئي» لاختبار حدود خيال الآلة، مستوحاة من لعبة الأطفال التي يتغير فيها المعنى مع انتقال الرسالة بين الأشخاص. بدأت التجربة بمطالبة نصية شاعريّة من Stable Diffusion XL تقول: «بينما كنت أجلس وحيدًا وسط الطبيعة، عثرت على كتاب قديم من ثماني صفحات فقط، يحكي قصة بلغة منسية تنتظر من يقرأها ويفهمها»، ثم حوّلت هذه المطالبة إلى صورة. قُدّمت الصورة إلى نموذج LLaVA ليصفها بالكلمات، ثم أُعيد الوصف إلى Stable Diffusion لإنتاج صورة جديدة، وتكرر التبادل بين الصورة والوصف مئة مرة متتالية كغرفة صدى رقمية.
تلاشى المعنى الأصلي بسرعة، فبحلول الجولة العاشرة أو العشرين لم يعد هناك تشابه يُذكر بين الصورة الجديدة والفكرة الأصلية، لكن المفاجأة كانت في اقترابها من مجموعة محدودة من الوجهات البصرية: منارات، أفق مدن ليلية، عمارة ريفية، ومشاهد داخلية عامة.
خلَصت النتائج إلى أن جميع سلاسل الصور تقريبًا تنهار إلى واحد من 12 نمطًا بصريًا مهيمنًا، بغض النظر عن مدى غرابة أو شاعرية أو تجريد النص الأول، فتكون النتيجة في النهاية صورة مألوفة بشكل مقلق.
تبين أن تغيير النماذج أو استخدام إصدارات مختلفة من أدوات التوليد والوصف لا يغيّر النتيجة الجوهرية، فحتى عند توسيع التجربة إلى 1000 جولة تستقر السلسلة غالبًا على نمط واحد وتبقى الجولات اللاحقة مجرد اختلافات طفيفة على الفكرة نفسها.
تشير النتائج إلى أن الإبداع الاصطناعي يطرح أسئلة حول طبيعته: بينما يضيف البشر تفسيرات غير متوقعة وانحرافات شخصية عندما ينقلون الأفكار، تميل النماذج إلى إزالة الاختلاف وتنعيم الشذوذ بسبب طبيعة بيانات التدريب التي تعتمد على صور من صنع البشر وتنتشر عادة ضمن فئات متشابهة كالمشاهد الطبيعية والشوارع والغرف.
ترسم الخلاصة احتمالاً بأن الذكاء الاصطناعي رغم قدرته على إنتاج صور جميلة تقنيًا يظل مقيدًا بإطار تقاليد بصرية ضيق، ما يجعل استخدامه في السياقات التجارية أو الترفيهية محكومًا، ويثير تساؤلات حول قدرة الآلة على منافسة الإبداع البشري القائم على المفاجأة والمجازفة وكسر المألوف.



