أول نموذج تضمين متعدد الوسائط من Google
أعلنت Google عن Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل مساحة تضمين موحدة لفهم البيانات.
يربط النموذج أنواع المحتوى داخل مساحة تضمين واحدة، ما يسمح بفهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.
وتؤكد الشركة أن هذه التقنية ستسهل على نماذج اللغة الكبيرة فهم المعلومات بطريقة أكثر تكاملاً، وتساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.
ويمكن الوصول إليه حالياً في مرحلة المعاينة العامة عبر واجهة Gemini API ومنصة Vertex AI.
كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات
عادةً ما تستخدم نماذج الذكاء الاصط ai أنظمة منفصلة للتعامل مع أنواع البيانات المختلفة، فالنصوص تُخزَّن وتُعالج في نظام خاص، وتُحفظ الصور في نظام آخر، وكذلك مقاطع الفيديو والملفات الصوتية.
وعندما يطلب المستخدم معلومات معينة، يبدأ النموذج البحث داخل النظام المرتبط بنوع الملف المطلوب فقط، فعلى سبيل المثال غالباً ما تتعامل نماذج اللغة الكبيرة مع كلمة “قطة” داخل مستند نصي بشكل مختلف عن ظهور قطة داخل مقطع فيديو أو صورة، وتزداد التعقيدات عندما تختلف طرق استخراج المعلومات بين أنواع المحتوى.
نظام موحد لمعالجة جميع أنواع المحتوى
يهدف Gemini Embedding 2 إلى حل هذه المشكلة من خلال بنية جديدة تعتمد على مساحة تضمين موحدة يمكنها التعامل مع جميع أنواع البيانات، فبدلاً من وجود أنظمة منفصلة، يستطيع النموذج التعامل مع النصوص والصور والفيديو والصوت داخل نظام واحد فقط.
يعني ذلك أن النموذج يمكنه تحليل مستند يحتوي على نصوص وصور في الوقت نفسه، بطريقة تشبه فهم البشر للمعلومات من مصادر متعددة في آن واحد، وتقول Google إن هذه البنية الجديدة تسهل الأنظمة التقنية المعقدة وتحسن أداء التطبيقات المعتمدة على الذكاء الاصط AI.
تطبيقات واسعة للنموذج الجديد
بحسب Google، يمكن استخدام Gemini Embedding 2 في تطبيقات واسعة مثل تقنيات Retrieval-Augmented Generation المعروفة باسم RAG، والتي تساعد نماذج الذكاء الاصط ai على توليد إجابات أكثر دقة من خلال الاستفادة من مصادر خارجية.
كما يمكن استخدام النموذج في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، إضافة إلى تنظيم البيانات وتجميعها ضمن مجموعات متشابهة.
قدرات تقنية متقدمة للنموذج
يتضمن Gemini Embedding 2 عدة قدرات تسمح له بالتعامل مع أنواع مختلفة من البيانات، فبالنسبة للنصوص يملك نافذة سياق تصل إلى 8192 رمز إدخال، مما يسمح بمعالجة كميات كبيرة من المحتوى في الطلب الواحد.
كما يمكنه تحليل حتى ست صور في الطلب الواحد بامتداد PNG وJPEG، وفيما يخص الفيديو فبإمكانه معالجة مقاطع تصل مدتها إلى 120 ثانية بامتداد MP4 وMOV، ويتميز أيضاً بأنه يستطيع معالجة البيانات الصوتية مباشرة دون تحويلها إلى نص قبل التحليل، إضافة إلى إمكانية تضمين ملفات PDF حتى طول ست صفحات.



