أول نموذج تضمين متعدد الوسائط من جوجل
أعلنت Google عن Gemini Embedding 2، أول نموذج تضمين متعدد الوسائط يمكنه تحليل النصوص والصور والصوت والفيديو ضمن مساحة تضمين موحدة لفهم البيانات بشكل متكامل. يدعم النموذج أكثر من 100 لغة ويُتاح حالياً في مرحلة المعاينة العامة عبر Gemini API ومنصة Vertex AI.
يُربط المحتوى المختلف داخل مساحة تضمين واحدة، مما يمكّن الذكاء الاصطناعي من فهم المعاني والسياقات عبر الكلمات المكتوبة والصوت والصورة والفيديو معاً، وهو ما يساعد في تنفيذ مهام أكثر تعقيداً مقارنةً بالإصدارات السابقة.
نظام موحّد لمعالجة جميع أنواع المحتوى
تكافح نماذج الذكاء الاصطناعي عادةً الاعتماد على أنظمة مستقلة للنصوص والصور والفيديو والصوت، وعند طلب معلومات، يبدأ النموذج بالبحث داخل النظام المرتبط بنوع الملف فقط، وهو ما يجعل استخراج البيانات أمراً مختلفاً باختلاف المحتوى.
تهدف Gemini Embedding 2 إلى تجاوز ذلك عبر بنية قائمة على مساحة تضمين موحدة تتعامل مع النصوص والصور والفيديو والصوت ضمن نظام واحد، وبالتالي يمكن تحليل مستند يحتوي على عناصر متعددة في آن واحد كما يفعل البشر.
تطبيقات وقدرات تقنية واسعة
يمكن استخدام Gemini Embedding 2 في تقنيات Retrieval-Augmented Generation (RAG) للمساعدة في إنتاج إجابات أكثر دقة بالاستفادة من مصادر خارجية، كما يمكن تحسين البحث الدلالي داخل قواعد البيانات وتحليل المشاعر وتنظيم البيانات وتجميعها في مجموعات متشابهة.
قدرات تقنية متقدمة
في النصوص، تمتلك النماذج نافذة سياق تصل إلى 8192 رمزاً، كما يمكنه تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، وفي مجال الفيديو يدعم مقاطع حتى 120 ثانية بصيغ MP4 وMOV، كما يستطيع معالجة البيانات الصوتية مباشرةً دون تحويلها إلى نص، إضافة إلى إمكانية تضمين ملفات PDF حتى ست صفحات.



