ذات صلة

اخبار متفرقة

بشرى تخطف الأنظار في أحدث ظهور لها بإطلالة محتشمة

تألقت بشرى في الصور الجديدة التي شاركتها عبر حسابها...

طرق طبيعية لتغيير لون شعرك قبل العيد

استخدم القهوة لتغميق لون الشعر ومنحه لمعاناً طبيعياً. يتم...

للسفرة الرمضانية: طريقة تحضير فتة الباذنجان بالرمان

المقادير ابدأ بمكعبات باذنجان مشوي مع ملح وفلفل وسماق ورشة...

هل يعود تشوّش الرؤية لديك إلى نقص الفيتامينات؟

تشير أخصائيو العيون إلى أن الضبابية أو تذبُّب الرؤية...

المحفز الخفي للسمنة: تناول كميات كبيرة من الملح يزيد من تخزين الدهون

يتسبب الإفراط في تناول الملح في زيادة الوزن بشكل...

جوجل تعلن عن Gemini Embedding 2 لتمكين فهم النصوص والصور والفيديو معاً

أعلنت Google عن Gemini Embedding 2، وهو نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل مساحة تضمين موحدة لفهم البيانات.

يربط النموذج أنواع المحتوى المختلفة داخل مساحة تضمين واحدة، ما يسمح بفهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.

وتؤكد Google أن هذه التقنية ستجعل نماذج اللغة الكبيرة تفهم المعلومات بصورة أكثر تكاملاً وتتيح لها أداء مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

أول نموذج تضمين متعدد الوسائط من جوجل

توضح المدونة الرسمية أن Gemini Embedding 2 هو الجيل التالي من نماذج التضمين، وهو خليفة النموذج السابق الذي كان يركز على النصوص فقط، وهو الآن قادر على فهم المعنى والسياق عبر أكثر من 100 لغة.

يتاح حالياً في مرحلة المعاينة العامة عبر واجهة Gemini API وعلى منصة Vertex AI، مما يجعل الوصول إلى النموذج متاحاً للمطورين والشركات.

نظام موحد لمعالجة جميع أنواع المحتوى

يهدف Gemini Embedding 2 إلى حل مشكلة التعامل المنفصل مع أنواع البيانات من خلال بنية جديدة تعتمد على مساحة تضمين موحدة يمكنها التعامل مع النص والصور والفيديو والصوت داخل نظام واحد.

يعني ذلك أن النموذج يستطيع تحليل مستند يحتوي على نصوص وصور في آن واحد بطريقة تشبه فهم البشر للمعلومات من مصادر متعددة.

وتؤكد Google أن هذه البنية المبسطة ستسهم في تحسين أداء التطبيقات المعتمدة على الذكاء الاصطناعي.

تطبيقات واسعة للنموذج الجديد

يمكن استخدام Gemini Embedding 2 في تطبيقات متقدمة عديدة، منها تقنيات Retrieval-Augmented Generation (RAG)، للمساعدة في توليد إجابات أكثر دقة عبر الاستفادة من مصادر خارجية.

كما يساهم في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر في النصوص، وتنظيم البيانات ضمن مجموعات متشابهة.

قدرات تقنية متقدمة للنموذج

يملك Gemini Embedding 2 نافذة سياق تصل إلى 8192 رمز إدخال، ما يتيح معالجة كميات كبيرة من المحتوى النصي في طلب واحد.

كما يستطيع تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، ومعالجة مقاطع فيديو تصل إلى 120 ثانية بصيغ MP4 وMOV، كما يمكنه تضمين البيانات الصوتية مباشرة دون الحاجة لتحويلها إلى نص.

وتبلغ قدرته على تضمين ملفات PDF حتى ست صفحات.

spot_img
spot_imgspot_img

تابعونا على