كشفت DeepSeek عن تقنية DeepSeek-OCR في أكتوبر الماضي، ووصفتها بأنها تمهّد لإحداث نقلة نوعية في معالجة المستندات الكبيرة والمعقدة عبر استخدام الإدراك البصري كوسيط لضغط النصوص، وهو ما يؤدي إلى تقليل عدد الرموز النصية بمعدل يتراوح بين 7 و20 مرة.
نتائج مستقلة تثير القلق
تشير دراسة بعنوان “قيمة بصرية أم عكاز لغوي؟ نظرة عميقة على DeepSeek-OCR” إلى أن أداء التقنية كان غير متسق، وتؤكد اعتمادها بشكل كبير على الأسبقيات اللغوية التي تعلمتها النماذج من كميات كبيرة من النصوص بدلاً من الفهم البصري الحقيقي الذي تدعيه التقنية.
وأشار الباحثون إلى أن مؤشرات الأداء التي أعلنتها DeepSeek تضمنت أنها “مضللة”، حيث انخفضت دقة الإجابة عن أسئلة بصرية إلى نحو 20% عند إضافة نص إضافي يمكن أن يؤثر في الاستدلال، مقارنة بأكثر من 90% لدى نماذج ذكاء اصطناعي تقليدية.
أزمة السياق الطويل ما تزال قائمة
أوضح الباحثون أن نماذج الذكاء الاصطناعي لا تزال تواجه قيودًا جوهرية في معالجة المستندات الطويلة أو الحوارات الممتدة، وهي مشكلة تحاول المؤسسات حلها، لكن نتائج الدراسة تثير تساؤلات حول ما إذا كانت تقنيات الضغط البصري الحالية تمثل مسارًا عمليًا لتجاوز هذه القيود.
آراء متباينة في الوسط العلمي
لم ترد الشركة فورًا على طلب التعليق، لكن بعض خبراء علوم الحاسوب يرون أن التقنية ليست فشلًا بل سلاحًا ذا حدين. يقول أحدهم إن الاعتماد على المعارف المكتسبة قد يكون مفيدًا عند التعامل مع مخطوطات غير واضحة، ولكنه قد يتحول إلى نقطة ضعف عند قراءة نص مطبوع بوضوح. يضيف أن لهذه الطريقة مزايا وعيوب في الوقت نفسه.
مستقبل تقنيات قراءة النصوص الطويلة
تُظهر الدراسة أن السباق لتحسين قدرات الذكاء الاصطناعي في فهم النصوص الطويلة لا يزال مفتوحًا، ولا توجد حتى الآن حلول سحرية تناسب جميع الحالات، ما يدفع الباحثين إلى البحث عن استراتيجيات بديلة وأكثر موثوقية.



