جوجل تطلق Gemini Embedding 2 لتمكين فهم النصوص والصور والفيديو معاً

أعلنت Google عن إطلاق Gemini Embedding 2، نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل نظام موحّد لفهم البيانات.

يربط Gemini Embedding 2 أنواع المحتوى داخل مساحة تضمين واحدة، ما يمكّن النماذج من فهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.

وتؤكد Google أن هذه التقنية ستسهّل على نماذج اللغة الكبيرة فهم المعلومات بشكل أكثر تكاملاً وتساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

أول نموذج تضمين متعدد الوسائط من Google

في تدوينة رسمية كشفت Google تفاصيل النموذج الجديد، وهو الجيل التالي من نماذج التضمين التي طورتها الشركة، ويُعد Gemini Embedding 2 خليفة للنموذج السابق الذي كان يركز على النصوص وتم إطلاقه العام الماضي، وهو الآن قادر على فهم المعاني والسياق عبر أكثر من 100 لغة.

وأصبح النموذج متاحاً حالياً في مرحلة المعاينة العامة من خلال Gemini API وعلى منصة Vertex AI.

كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات

عادةً ما تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة لمعالجة أنواع المحتوى المختلفة؛ فالنصوص تُدار في نظام معين، وتُخزن الصور في نظام آخر، وكذلك الفيديو والصوت.

وعندما يطلب المستخدم معلومات، يبدأ النموذج البحث داخل النظام المرتبط بنوع الملف المعني، فالمحتوى المختلف يتطلب أساليب استخراج مختلفة.

نظام موحد لمعالجة جميع أنواع المحتوى

يهدف Gemini Embedding 2 إلى حل هذه المشكلة عبر بنية تعتمد مساحة تضمين موحدة يمكنها التعامل مع النصوص والصور والفيديو والصوت داخل نظام واحد فقط.

يعني ذلك أن النموذج يستطيع تحليل مستند يحتوي على نصوص وصور في وقت واحد، كما يساعد على تبسيط الأنظمة التقنية وتقوية أداء التطبيقات المعتمدة على الذكاء الاصطناعي.

تطبيقات واسعة للنموذج الجديد

يمكن استخدام Gemini Embedding 2 في تطبيقات مثل Retrieval-Augmented Generation (RAG) التي تساعد النماذج على توليد إجابات أكثر دقة بالاعتماد على مصادر خارجية.

كما يمكن استخدامه في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر داخل النصوص، وتنظيم البيانات داخل مجموعات متشابهة.

قدرات تقنية متقدمة للنموذج

للنصوص، يمتلك النموذج نافذة سياق تصل إلى 8192 رمز إدخال، ما يسمح بمعالجة كميات كبيرة من المحتوى النصي في الطلب الواحد.

كما يستطيع تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، وفي الفيديو يمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV.

ويتميز النموذج أيضاً بقدرته على معالجة البيانات الصوتية بشكل مباشر دون الحاجة إلى تحويلها إلى نص، إضافة إلى أنه يستطيع تضمين ملفات PDF يصل طولها إلى ست صفحات.

ذات صلة

للمرضى المصابين بحساسية الصدر: نصائح لحماية نفسك خلال العواصف الترابية

احرص على صحة عينيك خلال العواصف الترابية من خلال هذه النصائح.

إذا كانت لديك الجيوب الأنفية، فهذه خمس نصائح للتعامل مع التقلبات الجوية.

اخبار متفرقة

للمرضى المصابين بحساسية الصدر: نصائح لحماية نفسك خلال العواصف الترابية

احرص على صحة عينيك خلال العواصف الترابية من خلال هذه النصائح.

إذا كانت لديك الجيوب الأنفية، فهذه خمس نصائح للتعامل مع التقلبات الجوية.

ميتـا تدرس تسريح نحو 20% من موظفيها لتعزيز استثماراتها في الذكاء الاصطناعى

إنستجرام يوقف ميزة التشفير التام في الرسائل الخاصة قريبًا

جوجل تطلق Gemini Embedding 2 لتمكين فهم النصوص والصور والفيديو معاً

أول نموذج تضمين متعدد الوسائط من Google

كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات

نظام موحد لمعالجة جميع أنواع المحتوى

تطبيقات واسعة للنموذج الجديد

قدرات تقنية متقدمة للنموذج

تابعونا على

أنا السعودية

الأكثر شهرة

الدوري السعودي: ميسي إلى الهلال وبنزيما إلى الاتحاد

ريال مدريد يفوّض بنزيما بالتفاوض على المكافآت

الهلال السعودي ينعي يوسف السالم

بسبب عرض النصر.. ساديو ماني يرفع مطالبه المالية

النصر.. طائرة خاصة و6 ملايين يورو

أحدث المقالات

للمرضى المصابين بحساسية الصدر: نصائح لحماية نفسك خلال العواصف الترابية

احرص على صحة عينيك خلال العواصف الترابية من خلال هذه النصائح.

إذا كانت لديك الجيوب الأنفية، فهذه خمس نصائح للتعامل مع التقلبات الجوية.

ميتـا تدرس تسريح نحو 20% من موظفيها لتعزيز استثماراتها في الذكاء الاصطناعى

إنستجرام يوقف ميزة التشفير التام في الرسائل الخاصة قريبًا