ذات صلة

اخبار متفرقة

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

واجهة مستخدم جديدة وشبكة أصول موحدة أطلقت جوجل فلو تحديثًا...

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

الإطار العام لإعادة الهيكلة وخطط الإطلاق أعلنت ناسا إعادة هيكلة...

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

حجر الأوبسيديان اعتمدي قطعة أوبسيديان صغيرة تحفظينها في حقيبتك أو...

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

نفّذ فريق في كلية الطب بجامعة ساو باولو دراسة...

اختبار جديد مُصمّم ليعجز الذكاء الاصطناعى عن اجتيازه.. الباحثون يكشفون حدود التقنية

أظهر الباحثون وجود فجوة كبيرة بين قدرات اختبارات الذكاء الاصطناعي الشائعة وما تستطيع النماذج المتقدمة فعلاً التعامل معه من معرفة عميقة ومتخصصة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

ولسد هذه الفجوة، أنشأ اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ في جامعة تكساس إيه آند إم، اختباراً مختلفاً كلياً وعالي التحدي ومتجذراً في المعرفة البشرية المتخصصة، لدرجة أن أنظمة الذكاء الاصطناعي الراهنة تقف عاجزة أمامه في العديد من الأسئلة.

يقدم الاختبار تقييماً من 2500 سؤال يغطي الرياضيات، والعلوم الإنسانية، والعلوم الطبيعية، واللغات القديمة، ومجالات فرعية شديدة التخصص.

كتبت أسئلة مشروع HLE وراجعتها خبراء من مختلف أنحاء العالم، وتأكدوا من أن لكل سؤال إجابة وحيدة واضحة وقابلة للتحقق، ولا يمكن العثور عليها فوراً عبر الإنترنت.

تستمد الأسئلة من مسائل أكاديمية متخصصة، بداية من ترجمة النقوش التدمرية القديمة، وانتهاء بتحديد تراكيب تشريحية دقيقة في الطيور، وصولاً إلى تحليل خصائص نطق اللغة العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، لضمان اختبار قدرة النماذج على الإجابة في بيئة تتميز بالاعتماد على المعرفة البشرية العميقة.

وفي حال تمكن أي نموذج من الإجابة الصحيحة عن سؤال، يُحذف السؤال من الاختبار، ليبقى الاختبار مصمماً لتجاوز قدرات الذكاء الاصطناعي الحالية.

أظهرت النتائج الأولية أن حتى أكثر النماذج تطوراً تواجه صعوبات كبيرة، حيث بلغت نسب الأداء نحو 2.7% لدى GPT-40، و4.1% لدى Claude 3.5 Sonnet، و8% لدى نموذج o1 من OpenAI، فيما وصلت النماذج الأكثر تقدماً مثل Gemini 3.1 Pro وClaude Opus 4.6 إلى نحو 40–50%.

يهدف الاختبار الذي يحمل تسمية «الاختبار الأخير للبشرية» (HLE) إلى أن يكون معياراً شفافاً ومعمماً لقياس حدود أنظمة الذكاء الاصطناعي المتقدمة على المدى الطويل، وفي إطار هذه المهمة أتيح للفريق جزء من أسئلة الاختبار للجمهور مع إبقاء معظمها مخفياً حتى لا تتمكن النماذج من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على