أعلنت Google عن Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل مساحة تضمين موحدة لفهم البيانات.
يربط النموذج أنواع المحتوى المختلفة داخل مساحة تضمين واحدة، ما يسمح بفهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.
وتؤكد Google أن هذه التقنية ستجعل نماذج اللغة الكبيرة تفهم المعلومات بصورة أكثر تكاملاً وتتيح لها أداء مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.
أول نموذج تضمين متعدد الوسائط من جوجل
توضح المدونة الرسمية أن Gemini Embedding 2 هو الجيل التالي من نماذج التضمين، وهو خليفة النموذج السابق الذي كان يركز على النصوص فقط، وهو الآن قادر على فهم المعنى والسياق عبر أكثر من 100 لغة.
يتاح حالياً في مرحلة المعاينة العامة عبر واجهة Gemini API وعلى منصة Vertex AI، مما يجعل الوصول إلى النموذج متاحاً للمطورين والشركات.
نظام موحد لمعالجة جميع أنواع المحتوى
يهدف Gemini Embedding 2 إلى حل مشكلة التعامل المنفصل مع أنواع البيانات من خلال بنية جديدة تعتمد على مساحة تضمين موحدة يمكنها التعامل مع النص والصور والفيديو والصوت داخل نظام واحد.
يعني ذلك أن النموذج يستطيع تحليل مستند يحتوي على نصوص وصور في آن واحد بطريقة تشبه فهم البشر للمعلومات من مصادر متعددة.
وتؤكد Google أن هذه البنية المبسطة ستسهم في تحسين أداء التطبيقات المعتمدة على الذكاء الاصطناعي.
تطبيقات واسعة للنموذج الجديد
يمكن استخدام Gemini Embedding 2 في تطبيقات متقدمة عديدة، منها تقنيات Retrieval-Augmented Generation (RAG)، للمساعدة في توليد إجابات أكثر دقة عبر الاستفادة من مصادر خارجية.
كما يساهم في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، وتنظيم البيانات ضمن مجموعات متشابهة.
قدرات تقنية متقدمة للنموذج
يملك Gemini Embedding 2 نافذة سياق تصل إلى 8192 رمز إدخال، ما يتيح معالجة كميات كبيرة من المحتوى النصي في طلب واحد.
كما يستطيع تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، ومعالجة مقاطع فيديو تصل إلى 120 ثانية بصيغ MP4 وMOV، كما يمكنه تضمين البيانات الصوتية مباشرة دون الحاجة لتحويلها إلى نص.
وتبلغ قدرته على تضمين ملفات PDF حتى ست صفحات.



