ذات صلة

اخبار متفرقة

للمرضى المصابين بحساسية الصدر: نصائح لحماية نفسك خلال العواصف الترابية

التحديثات المناخية الراهنة تشير آخر الصور الفضائية إلى استمرار نشاط...

احرص على صحة عينيك خلال العواصف الترابية من خلال هذه النصائح.

تشهد البلاد موجة من الاضطرابات الجوية العنيفة وتبدأ ملامحها...

إذا كانت لديك الجيوب الأنفية، فهذه خمس نصائح للتعامل مع التقلبات الجوية.

التقلبات الجوية والطقس المتوقّع يتوقع المعهد العام للأرصاد استمرار حالة...

ميتـا تدرس تسريح نحو 20% من موظفيها لتعزيز استثماراتها في الذكاء الاصطناعى

توجهات ميتا وإجراءاتها المحتملة في ظل صعود الذكاء الاصطناعي تخطط...

إنستجرام يوقف ميزة التشفير التام في الرسائل الخاصة قريبًا

تعلن شركة ميتا أنها ستتوقف عن دعم ميزة التشفير...

جوجل تطلق Gemini Embedding 2 لتمكين فهم النصوص والصور والفيديو معاً

أعلنت Google عن إطلاق Gemini Embedding 2، نموذج ذكاء اصطناعي جديد قادر على تحليل النصوص والصور والصوت والفيديو داخل نظام موحّد لفهم البيانات.

يربط Gemini Embedding 2 أنواع المحتوى داخل مساحة تضمين واحدة، ما يمكّن النماذج من فهم المفاهيم سواء ظهرت في كلمات مكتوبة أو صوت مسموع أو صورة أو مقطع فيديو.

وتؤكد Google أن هذه التقنية ستسهّل على نماذج اللغة الكبيرة فهم المعلومات بشكل أكثر تكاملاً وتساعدها على تنفيذ مهام أكثر تعقيداً مقارنة بالأنظمة السابقة.

أول نموذج تضمين متعدد الوسائط من Google

في تدوينة رسمية كشفت Google تفاصيل النموذج الجديد، وهو الجيل التالي من نماذج التضمين التي طورتها الشركة، ويُعد Gemini Embedding 2 خليفة للنموذج السابق الذي كان يركز على النصوص وتم إطلاقه العام الماضي، وهو الآن قادر على فهم المعاني والسياق عبر أكثر من 100 لغة.

وأصبح النموذج متاحاً حالياً في مرحلة المعاينة العامة من خلال Gemini API وعلى منصة Vertex AI.

كيف تتعامل نماذج الذكاء الاصطناعي مع البيانات

عادةً ما تستخدم نماذج الذكاء الاصطناعي أنظمة منفصلة لمعالجة أنواع المحتوى المختلفة؛ فالنصوص تُدار في نظام معين، وتُخزن الصور في نظام آخر، وكذلك الفيديو والصوت.

وعندما يطلب المستخدم معلومات، يبدأ النموذج البحث داخل النظام المرتبط بنوع الملف المعني، فالمحتوى المختلف يتطلب أساليب استخراج مختلفة.

نظام موحد لمعالجة جميع أنواع المحتوى

يهدف Gemini Embedding 2 إلى حل هذه المشكلة عبر بنية تعتمد مساحة تضمين موحدة يمكنها التعامل مع النصوص والصور والفيديو والصوت داخل نظام واحد فقط.

يعني ذلك أن النموذج يستطيع تحليل مستند يحتوي على نصوص وصور في وقت واحد، كما يساعد على تبسيط الأنظمة التقنية وتقوية أداء التطبيقات المعتمدة على الذكاء الاصطناعي.

تطبيقات واسعة للنموذج الجديد

يمكن استخدام Gemini Embedding 2 في تطبيقات مثل Retrieval-Augmented Generation (RAG) التي تساعد النماذج على توليد إجابات أكثر دقة بالاعتماد على مصادر خارجية.

كما يمكن استخدامه في تحسين البحث الدلالي داخل قواعد البيانات، وتحليل المشاعر داخل النصوص، وتنظيم البيانات داخل مجموعات متشابهة.

قدرات تقنية متقدمة للنموذج

للنصوص، يمتلك النموذج نافذة سياق تصل إلى 8192 رمز إدخال، ما يسمح بمعالجة كميات كبيرة من المحتوى النصي في الطلب الواحد.

كما يستطيع تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، وفي الفيديو يمكنه معالجة مقاطع تصل مدتها إلى 120 ثانية بصيغ MP4 وMOV.

ويتميز النموذج أيضاً بقدرته على معالجة البيانات الصوتية بشكل مباشر دون الحاجة إلى تحويلها إلى نص، إضافة إلى أنه يستطيع تضمين ملفات PDF يصل طولها إلى ست صفحات.

spot_img
spot_imgspot_img

تابعونا على