اختبار جديد صُمِّم ليكون غير قابل للاجتياز من قبل الذكاء الاصطناعي؛ الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

أشار تحالف عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، إلى إنشاءه اختبارًا مختلفًا كليًا عن الاختبارات التقليدية.

صُمم الاختبار ليكون واسع النطاق وعالي التحدي ومتجذرًا في المعرفة البشرية المتخصصة، إلى الحد الذي تفشل فيه أنظمة الذكاء الاصطناعي المعاصرة باستمرار في الإجابة عليه.

يتألف الاختبار من 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية شديدة التخصص.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء من أنحاء العالم، حرصوا على أن تكون لكل سؤال إجابة واحدة دقيقة وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولاً إلى تحليل خصائص نطق العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وعند تمكن أي نظام من الإجابة الصحيحة، حُذف السؤال.

أظهرت النتائج الأولية صعوبة الاختبار حتى أمام النماذج الأكثر تطورًا، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم تبلغ نسبة نموذج o1 الرائد من OpenAI سوى 8%.

أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد بلغت دقتها ما بين 40% و50%.

يهدف الاختبار، الذي سُمي بـ”الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معيارًا شفافًا وطويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة.

كجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.

ذات صلة

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

زوجة كريم فهمي تتألق بإطلالة أنيقة.. شاهِد

اخبار متفرقة

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

زوجة كريم فهمي تتألق بإطلالة أنيقة.. شاهِد

ما السبب وراء استمرار السعال في الشتاء لفترة طويلة

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد

اختبار جديد صُمِّم ليكون غير قابل للاجتياز من قبل الذكاء الاصطناعي؛ الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

تابعونا على

أنا السعودية

الأكثر شهرة

الدوري السعودي: ميسي إلى الهلال وبنزيما إلى الاتحاد

ريال مدريد يفوّض بنزيما بالتفاوض على المكافآت

الهلال السعودي ينعي يوسف السالم

النصر.. طائرة خاصة و6 ملايين يورو

بسبب عرض النصر.. ساديو ماني يرفع مطالبه المالية

أحدث المقالات

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

زوجة كريم فهمي تتألق بإطلالة أنيقة.. شاهِد

ما السبب وراء استمرار السعال في الشتاء لفترة طويلة

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد