تشهد تقنيات الذكاء الاصطناعي التوليدي قفزة كبيرة في العقد الأخير، حيث تحولت القدرة على توليد النصوص والإجابة على الأسئلة إلى إنشاء عوالم بصرية كاملة.
تعتمد التقنية الأساسية وراء توليد الفيديو على ما يعرف بنماذج الانتشار، التي تبدأ من مقطع فيديو مكوَّن من تشويش عشوائي ثم تقوم بإزالة الضوضاء خطوة بخطوة وفق الوصف النصي للمستخدم.
ولتفسير الفيديو بشكل أفضل، تُقسَّم المقاطع إلى وحدات أصغر تسمى الرقع، مشابهة للكلمات في النماذج اللغوية، ما يمكّن الذكاء الاصطناعي من معالجة كميات هائلة من البيانات المرئية والتنبؤ بحركة العناصر وتفاعلها مع بيئتها عبر الزمن.
شرح كيف تدرك الآلة العالم
يكمن التحدي في محاكاة حركة الأشياء باستمرار عبر الزمن. تتعلم النماذج المتقدمة “فيزياء العالم” من مشاهدة ملايين الساعات من مقاطع الفيديو، فتدرك أن الكرة ترتد عندما تسقط وتختلف الظلال مع تغير مصدر الضوء. يُعرف هذا الفهم العميق باسم المحاكاة الفيزيائية المدمجة، حيث يستخلص الذكاء الاصطناعي القوانين من الأنماط البصرية لا يتم تعليمها بشكل رياضي مباشر.
خطوات عملية للاستفادة
ابدأ بوصف تفصيلي يحدد المشهد والإضاءة وزاوية الكاميرا والحركة المطلوبة لضمان فهم الآلة للطلب، ثم حدد النمط الفني المطلوب بوضوح إن كان سينمائياً واقعياً أو ثلاثي الأبعاد أو أسلوباً فنياً معيناً، ثم جرّب التوليد وعدّل الكلمات تدريجيًا حتى تصل إلى النتيجة المرجوة.



