اختبار جديد مُصمّم ليعجز الذكاء الاصطناعى عن اجتيازه.. الباحثون يكشفون حدود التقنية

أظهر الباحثون وجود فجوة كبيرة بين قدرات اختبارات الذكاء الاصطناعي الشائعة وما تستطيع النماذج المتقدمة فعلاً التعامل معه من معرفة عميقة ومتخصصة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

ولسد هذه الفجوة، أنشأ اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ في جامعة تكساس إيه آند إم، اختباراً مختلفاً كلياً وعالي التحدي ومتجذراً في المعرفة البشرية المتخصصة، لدرجة أن أنظمة الذكاء الاصطناعي الراهنة تقف عاجزة أمامه في العديد من الأسئلة.

يقدم الاختبار تقييماً من 2500 سؤال يغطي الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، ومجالات فرعية شديدة التخصص.

كتبت أسئلة مشروع HLE وراجعتها خبراء من مختلف أنحاء العالم، وتأكدوا من أن لكل سؤال إجابة وحيدة واضحة وقابلة للتحقق، ولا يمكن العثور عليها فوراً عبر الإنترنت.

تستمد الأسئلة من مسائل أكاديمية متخصصة، بداية من ترجمة النقوش التدمرية القديمة، وانتهاء بتحديد تراكيب تشريحية دقيقة في الطيور، وصولاً إلى تحليل خصائص نطق اللغة العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، لضمان اختبار قدرة النماذج على الإجابة في بيئة تتميز بالاعتماد على المعرفة البشرية العميقة.

وفي حال تمكن أي نموذج من الإجابة الصحيحة عن سؤال، يُحذف السؤال من الاختبار، ليبقى الاختبار مصمماً لتجاوز قدرات الذكاء الاصطناعي الحالية.

أظهرت النتائج الأولية أن حتى أكثر النماذج تطوراً تواجه صعوبات كبيرة، حيث بلغت نسب الأداء نحو 2.7% لدى GPT-40، و4.1% لدى Claude 3.5 Sonnet، و8% لدى نموذج o1 من OpenAI، فيما وصلت النماذج الأكثر تقدماً مثل Gemini 3.1 Pro وClaude Opus 4.6 إلى نحو 40–50%.

يهدف الاختبار الذي يحمل تسمية «الاختبار الأخير للبشرية» (HLE) إلى أن يكون معياراً شفافاً ومعمماً لقياس حدود أنظمة الذكاء الاصطناعي المتقدمة على المدى الطويل، وفي إطار هذه المهمة أتيح للفريق جزء من أسئلة الاختبار للجمهور مع إبقاء معظمها مخفياً حتى لا تتمكن النماذج من حفظ الإجابات.

ذات صلة

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

اخبار متفرقة

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

اختبار جديد مُصمّم ليعجز الذكاء الاصطناعى عن اجتيازه.. الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

تابعونا على

أنا السعودية

الأكثر شهرة

الدوري السعودي: ميسي إلى الهلال وبنزيما إلى الاتحاد

ريال مدريد يفوّض بنزيما بالتفاوض على المكافآت

الهلال السعودي ينعي يوسف السالم

النصر.. طائرة خاصة و6 ملايين يورو

بسبب عرض النصر.. ساديو ماني يرفع مطالبه المالية

أحدث المقالات

شركة Block التي أسسها جاك دورسى تسرح نصف موظفيها، فما علاقة الذكاء الاصطناعى؟

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع