ما هي تقنية DEEPSEEK-OCR؟
أطلقت شركة DeepSeek تقنية DeepSeek-OCR، التي تعتمد على الإدراك البصري للنصوص كوسيط لضغطها بهدف تقليل عدد الرموز النصية. وتزعم الشركة أن هذه الطريقة يمكن أن تقلل الرموز بمعدل يتراوح بين سبعة إلى عشرين مرة.
نتائج مقلقة من اختبارات مستقلة
أثارت دراسة جديدة بعنوان قيمة بصرية أم عكاز لغوي؟ نظرة متعمقة على DeepSeek-OCR جدلاً، إذ خلُصت إلى أن أداء التقنية كان غيرَ مستقر وأنها تعتمد بشكل كبير على الأسبقيات اللغوية، أي الأنماط التي تعلّمتها النماذج من كميات ضخمة من النصوص بدلاً من الفهم البصري الحقيقي للنص.
وأشارت النتائج إلى أن دقة الإجابة عن الأسئلة البصرية انخفضت إلى نحو 20% عندما أُضيف نص إضافي يمكن أن يؤثر في الاستدلال، مقارنةً بأكثر من 90% لدى نماذج ذكاء اصطناعي تقليدية.
أزمة السياق الطويل ما زالت قائمة
وأوضح الباحثون أن نماذج الذكاء الاصطناعي لا تزال تعاني من قيود جوهرية في معالجة المستندات الطويلة أو الحوارات الممتدة، وهي مشكلة يسعى العلماء والشركات إلى حلها، لكن نتائج الدراسة تطرح تساؤلات حول ما إذا كانت تقنيات الضغط البصري الحالية تمثل مسارًا عمليًا لتجاوز هذه القيود.
آراء متباينة في الوسط العلمي
لم ترد DeepSeek فوراً على طلب تعليق، لكن بعض خبراء علوم الحاسوب رأوا أن التقنية ليست فشلًا بقدر ما هي سلاح ذو حدين. وقال أحدهم إنه يمكن أن تكون الاعتماد على المعرفة المكتسبة مفيداً عند التعامل مع مخطوطات غير واضحة، لكنها قد تتحول إلى نقطة ضعف حين قراءة نصوص مطبوعة بوضوح.
مستقبل تقنيات قراءة النصوص الطويلة
تُظهر الدراسة أن السباق لتحسين قدرات الذكاء الاصطناعي في فهم النصوص الطويلة لا يزال مفتوحاً، وأنه لا توجد حتى الآن حلول سحرية مناسبة لجميع الحالات، ما يدفع الباحثين إلى متابعة بحث استراتيجيات بديلة وأكثر موثوقية.



