ذات صلة

اخبار متفرقة

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

نفذت تجربة عشوائية قارنت برنامج تمارين عالي الشدة متقطعة...

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

تعمل الكليتان كعضوين أساسيين في الجسم على تصفية الفضلات...

زوجة كريم فهمي تتألق بإطلالة أنيقة.. شاهِد

التقطت دانية، زوجة كريم فهمي، صورًا جديدة من أحدث...

ما السبب وراء استمرار السعال في الشتاء لفترة طويلة

يظل السعال الشتوي مستمرًا لفترة طويلة ليس لكونك ما...

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد

إطلالة مي سليم خطفت مي سليم الأنظار في أحدث جلسة...

اختبارٌ جديد صُمِّم ليعجزه الذكاء الاصطناعي، الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

أظهر اتحاد عالمي يضم نحو ألف باحث أن الاختبارات القياسية التي كانت معياراً لقدرات الذكاء الاصطناعي لم تعد تشكل تحدياً كافياً لاختبار الأنظمة المتقدمة في فهم اللغة والتحليل المعرفي المعقد.

ولسد هذه الفجوة، تم تأسيس مشروع اختبار جديد يحمل اسم “الاختبار الأخير للبشرية” (HLE)، وهو اختبار واسع النطاق وشديد التحدي ومغروس بعمق في المعرفة البشرية المتخصصة إلى درجة أن الإجابة الصحيحة لا يمكن حلّها فوراً عبر الإنترنت.

يضم الاختبار 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية متخصصة، ويجري كتابة الأسئلة ومراجعتها من قبل خبراء من أنحاء العالم لضمان وجود إجابة واحدة واضحة وقابلة للتحقق وتجنب الحلول السريعة عبر البحث.

تأتي أسئلة المشروع من مسائل أكاديمية متخصصة، بدءاً من ترجمة النقوش التدمرية القديمة وصولاً إلى تحديد التراكيب التشريحية الدقيقة في الطيور وتحليل خصائص نطق اللغة العبرية التوراتية، ما يجعل الاختبار فائق التخصص ومتجذر في المعرفة البشرية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح يتم حذف السؤال من الاختبار، وبذلك يصبح القياس محصوراً في مدى قدرة الذكاء الاصطناعي على تجاوز المعرفة البشرية وليس حفظ الإجابات.

أظهرت النتائج الأولية أن حتى أقوى النماذج تواجه صعوبات، مع تفاوت في الأداء بين النماذج، حيث بلغت دقة بعض النماذج المتقدمة مثل Gemini 3.1 Pro وClaude Opus 4.6 نحو 40–50%، بينما سجلت نماذج أخرى نتائج أدنى بكثير.

يهدف الاختبار، الذي أُطلق عليه اسم “الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معياراً شفافاً طويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وهو معيار يتيح جزءاً من أسئلته للجمهور مع إبقاء معظمها مخفياً حتى لا تتمكن النماذج من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على