ما هي تقنية DeepSeek-OCR؟
تعتمد DeepSeek-OCR على تمثيل النصوص بصرياً كوسيط لضغطها، ما يتيح لنماذج الذكاء الاصطناعي التعامل مع مستندات كبيرة ومعقدة بكفاءة أكبر.
وتقول الشركة إن الطريقة يمكن أن تقلل عدد الرموز النصية (Tokens) بنحو 7 إلى 20 مرة، وهو ادعاء يهدف لتسريع المعالجة وتحسين استغلال موارد النظام.
نتائج دراسة مستقلة وآثارها
أظهرت نتائج دراسة مستقلة أجراها باحثون من جامعة توهوكو اليابانية والأكاديمية الصينية للعلوم أن الأداء ليس ثابتاً، واعتماده القوي على الأسبقيات اللغوية التي تعلمها النموذج من كميات هائلة من النصوص قبل أن يتم التطرق إلى الفهم البصري للنص.
تشير النتائج إلى أن التصريحات المذكورة من DeepSeek قد تكون مضللة إلى حد ما، إذ انخفضت دقة الإجابة عن الأسئلة البصرية إلى نحو 20% عند إضافة نص يمكن أن يؤثر في الاستدلال، مقارنة بأكثر من 90% لدى نماذج ذكاء اصطناعي تقليدية.
أزمة السياق الطويل وتداعياتها
تؤكد الدراسات أن نماذج الذكاء الاصطناعي لا تزال تعاني من قيود في معالجة المستندات الطويلة أو الحوارات الممتدة، وهو ما يجعل مسألة تجاوز عنق زجاجة السياق ما زالت غير محسومة وتطرح أسئلة حول جدوى تقنيات الضغط البصري كحل وحيد.
آراء متباينة في الوسط العلمي
اعتبر خبراء أن التقنية ليست فاشلة بل سلاح ذو حدين، فاعتمادها على المعرفة المكتسبة قد ينفع في قراءة مخطوطات غير واضحة لكنه قد يضعف الأداء مع نص مطبوع واضح.
مستقبل تقنيات قراءة النصوص الطويلة
تشير النتائج إلى أن السباق لتحسين فهم النصوص الطويلة لا يزال مفتوحاً، ولا توجد حلول سحرية تناسب كل الحالات، ما يستدعي تبني استراتيجيات بديلة وأكثر موثوقية.



