أظهرت نتائج كشف تقرير بحثي حديث عن نتائج “صادمة” لاختبار Apex-Agents، وهو معيار عالمي يقيّم قدرة وكلاء الذكاء الاصطناعي على أداء مهام وظائف الياقات البيضاء في قطاعي البنوك والاستشارات والقانون.
ووجدت النتائج أن أفضل النماذج الحالية، بما في ذلك Gemini 3 Flash من جوجل، لم تتجاوز نسبة نجاح تصل إلى 24% في تنفيذ المهام المطلوبة، ما يفتح أمام الشركات باباً للتشكيك في فاعلية الأتمتة الشاملة في بيئات العمل الحقيقية.
أبرز النتائج الأساسية
أبرزت النتائج أن الأداء على نطاق المهام التي تتطلب تنسيق أدوار متعددة وتحليل سياقي دقيق يظل ضعيفاً، حتى في الموديلات المتقدمة، مما يجعل الاعتماد عليها في أعمال مثل مراجعة العقود والتحليلات البنكية أمراً غير موثوق به حاضراً.
أسباب ضعف الوكلاء
تشير مصادر من AI Agent Store وتقارير تقنية إلى أن المشكلة الأساسية تكمن في عدم قدرة الوكلاء الأذكياء على إدارة المعلومات المبعثرة عبر منصات مثل Slack وGoogle Drive بالشكل الذي يحاكي الدماغ البشري، ما يؤدي إلى فقدان السياق وارتكاب أخطاء حادة عند الانتقال بين الأدوات والعمليات.
ويؤكد الباحثون أن الوكلاء يعانون من “فقدان السياق” عند التنقل بين منصات مختلفة، وهو ما يجعل اتخاذ القرارات أو تنفيذ الأوامر الإدارية عرضة للخطأ، وأن العمل الآلي لا يزال بعيداً عن الكفاءة المنشودة.
تشير هذه النتائج إلى أن التحول إلى “القوة العاملة السيليكونية” قد يستغرق وقتاً أطول مما تتوقعه شركات التكنولوجيا الكبرى.
تحديات الموثوقية في بيئات العمل المعقدة
أظهرت اختبارات واسعة أن الذكاء الاصطناعي يواجه صعوبات كبيرة في تنسيق مهام متعددة تتطلب فهماً دلالياً متغيراً، مما يجعل الاعتماد عليه في مهام حساسة مثل مراجعة العقود القانونية أو التحليلات البنكية مغامرة تقنية غير محسوبة النتائج في الوقت الراهن.
أولوية الحوكمة على القدرات الخام
ينبغي وفقاً لخبراء الأمن أن تكون الموثوقية والحوكمة أولويتين لا تقلان أهمية عن القدرات الحسابية، فبناء وكلاء ناجحين يتطلب إعادة تصميم عملية التشغيل في المؤسسات وليس مجرد أتمتة الإجراءات القائمة لضمان أعلى مستويات الدقة والأمن الرقمي.



