اختبار جديد صُمم ليمنع اجتيازه من قبل الذكاء الاصطناعى، والباحثون يكشفون حدود التقنية

كشف الباحثون وجود فجوة في قدرات أنظمة الذكاء الاصطناعي مع تطور هذه الأنظمة، فحتى الاختبارات الشائعة التي كانت تعتبر صعبة في السابق لم تعد تشكل تحديًا كافيًا لتقييم القدرات الحقيقية للنماذج المتقدمة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

أطلق اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، اختبارًا مختلفًا تمامًا يهدف إلى سد هذه الفجوة من خلال اختبار واسع وشديد التحدي ومتجذر في المعرفة البشرية المتخصصة إلى درجة أن أنظمة الذكاء الاصطناعي الحالية تقف أمامه صعوبات مستمرة.

يقدّم الاختبار 2500 سؤال يغطي مجالات الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية دقيقة جدًا.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من جميع أنحاء العالم، وحرصوا على أن يكون لكل سؤال إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستمد الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية. خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يتم حذف السؤال من الاختبار، ليكون الاختبار مخصصًا لتجاوز قدرات الذكاء الاصطناعي الحالية.

أظهرت النتائج الأولية أن حتى أكثر النماذج تطورًا تواجه صعوبات، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم يحقق نموذج o1 من OpenAI سوى 8%، أما النماذج الأكثر تقدمًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فبلغت دقتها نحو 40% إلى 50%.

يهدف الاختبار الذي أطلق عليه اسم “الاختبار الأخير للبشرية” (HLE) إلى أن يكون معيارًا شفافًا وطويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن النماذج من حفظ الإجابات.

ذات صلة

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

اخبار متفرقة

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

اختبار جديد صُمم ليمنع اجتيازه من قبل الذكاء الاصطناعى، والباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

تابعونا على

أنا السعودية

الأكثر شهرة

الدوري السعودي: ميسي إلى الهلال وبنزيما إلى الاتحاد

ريال مدريد يفوّض بنزيما بالتفاوض على المكافآت

الهلال السعودي ينعي يوسف السالم

النصر.. طائرة خاصة و6 ملايين يورو

بسبب عرض النصر.. ساديو ماني يرفع مطالبه المالية

أحدث المقالات

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع