أدوات SARVAM AI التي أشعلت الجدل
أعلنت Sarvam AI عن أداة Sarvam Vision وأداة Bulbul V3، مع تركيز واضح على مهام دقيقة في معالجة النصوص والوسائط الهندية، وهو ما منح الشركة حضوراً قوياً في اختبارات عالمية متخصصة.
أظهر Sarvam Vision نتائج غير مسبوقة في اختبارات OCR، حيث حقق 84.3% في olmOCR-Bench متفوقاً على نماذج عالمية مثل ChatGPT وGemini 3 Pro وDeepSeek OCR v2، كما سجل نحو 93.28% في OmniDocBench v1.5، خصوصاً في التعامل مع التخطيطات والجداول والمعادلات.
يرتكز التفوق إلى تركيز عميق على اللغة الهندية ونصوصها، إذ دُرب النموذج على أنماط كتابة محلية وخطوط هندية مع لغات إقليمية متعددة، ما يمنحه قدرة أعلى على قراءة المستندات ممسوحة ضوئياً والتعامل مع الخط اليدوي والمحتوى متعدد اللغات.
Bulbul V3 تفوق في تحويل النص إلى صوت، خصوصاً في اللهجات الهندية، إذ تدرب على النطق المحلي والإيقاع الطبيعي للكلام، ما أدى إلى أصوات أكثر واقعية للمستخدمين في الهند مقارنةً بمنافسيه العالميين مثل ElevenLabs في السياق الهندي.
لا تعتبر Sarvam AI بديلاً عاماً لـChatGPT أو Gemini، إذ صُممت لأداء مهام محددة بدقة عالية وليست مهيأة لإدارة محادثات طويلة أو إنتاج محتوى إبداعي متنوع.
يختلف الحجم بين Sarvam Vision ونماذج عمالقة مثل Gemini 3، فـ Sarvam Vision عنده نحو 3 مليارات باراميتر فقط، بينما يقال أن Gemini 3 يقترب من تريليونين من الباراميتر، وهو فارق يؤثر على متطلبات التدريب والبنية التحتية ولكنه يعكس هدفاً مختلفاً في التصميم والقدرات.
تشكل هذه الإنجازات دليلاً على إمكانات الهند في تطوير أدوات عالمية المستوى، وتؤكد أن التحدي الأكبر أمام الهند في الذكاء الاصطناعي ليس الكفاءة البشرية فحسب، بل توفير البنية التحتية والقدرات الحاسوبية اللازمة، وتبرز Vision وBulbul كإثبات مفهوم يوضح أن التفوق في مهام محددة ممكن عندما تكون التركيبة مركزة وبناءة.



