ذات صلة

اخبار متفرقة

استشارى نفسى يحلل شخصية بطلة مسلسل حكاية نرجس.. كيف تحولت إلى خاطفة أطفال؟

يُعرض مسلسل حكاية نرجس بطولة ريهام عبد الغفور ونخبة...

علبة كعك بسعر 39 ألف جنيه تثير جدلاً واسعاً على السوشيال ميديا.. ما سرها؟

مخبوزات العيد وأسعارها وتنوعها تتصدّر مخبوزات العيد قائمة اهتمامات الأسر...

Epic ترفع سعر عملة V-Bucks ضمن لعبة Fortnite

تغيّرات أسعار V-Bucks وتبعاتها تدخل تغييرات أسعار عملة V-Bucks حيز...

أزمة عالمية فى الرقائق.. لماذا قد تظل أسعار الرام والتخزين مرتفعة حتى 2027؟

أزمة الذاكرة العالمية تقودها الذكاء الاصطناعي تشير تقارير Counterpoint Research...

نجح في استقطاب 20 ألف متابع خلال ساعات.. حساب المرشد الإيراني على X يثير الجدل

تفاصيل الحساب الجديد أصدرت منظمة Tech Transparency Project تقريرًا يفيد...

جوجل تعلن عن Gemini Embedding 2 لفهم النصوص والصور والفيديو معاً

أول نموذج تضمين متعدد الوسائط من جوجل

أعلنت Google عن Gemini Embedding 2، أول نموذج تضمين متعدد الوسائط يمكنه تحليل النصوص والصور والصوت والفيديو ضمن مساحة تضمين موحدة لفهم البيانات بشكل متكامل. يدعم النموذج أكثر من 100 لغة ويُتاح حالياً في مرحلة المعاينة العامة عبر Gemini API ومنصة Vertex AI.

يُربط المحتوى المختلف داخل مساحة تضمين واحدة، مما يمكّن الذكاء الاصطناعي من فهم المعاني والسياقات عبر الكلمات المكتوبة والصوت والصورة والفيديو معاً، وهو ما يساعد في تنفيذ مهام أكثر تعقيداً مقارنةً بالإصدارات السابقة.

نظام موحّد لمعالجة جميع أنواع المحتوى

تكافح نماذج الذكاء الاصطناعي عادةً الاعتماد على أنظمة مستقلة للنصوص والصور والفيديو والصوت، وعند طلب معلومات، يبدأ النموذج بالبحث داخل النظام المرتبط بنوع الملف فقط، وهو ما يجعل استخراج البيانات أمراً مختلفاً باختلاف المحتوى.

تهدف Gemini Embedding 2 إلى تجاوز ذلك عبر بنية قائمة على مساحة تضمين موحدة تتعامل مع النصوص والصور والفيديو والصوت ضمن نظام واحد، وبالتالي يمكن تحليل مستند يحتوي على عناصر متعددة في آن واحد كما يفعل البشر.

تطبيقات وقدرات تقنية واسعة

يمكن استخدام Gemini Embedding 2 في تقنيات Retrieval-Augmented Generation (RAG) للمساعدة في إنتاج إجابات أكثر دقة بالاستفادة من مصادر خارجية، كما يمكن تحسين البحث الدلالي داخل قواعد البيانات وتحليل المشاعر وتنظيم البيانات وتجميعها في مجموعات متشابهة.

قدرات تقنية متقدمة

في النصوص، تمتلك النماذج نافذة سياق تصل إلى 8192 رمزاً، كما يمكنه تحليل حتى ست صور في الطلب الواحد بصيغ PNG وJPEG، وفي مجال الفيديو يدعم مقاطع حتى 120 ثانية بصيغ MP4 وMOV، كما يستطيع معالجة البيانات الصوتية مباشرةً دون تحويلها إلى نص، إضافة إلى إمكانية تضمين ملفات PDF حتى ست صفحات.

spot_img
spot_imgspot_img

تابعونا على