ذات صلة

اخبار متفرقة

مرض الكلى المزمن: 5 مراحل تؤثر في صحتك ونصائح للوقاية

تعمل الكليتان كعضوين أساسيين في الجسم، تقومان بتصفية الفضلات...

إرشادات لتجنب الإمساك خلال رمضان

يواجه الصائمون خلال شهر رمضان إمساكًا محتملًا بسبب تقليل...

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد

استحوذت مي سليم على الأنظار في أحدث جلسة تصوير...

أسباب ارتفاع سكر الدم أثناء صيام رمضان قد تفاجئك

يؤكد الدكتور محمد إسماعيل استشاري الطب الباطني والصدر أنه...

أبسط الخطوات: طريقة إعداد لازانيا نباتية بالمشروم

مقادير لازانيا نباتية بالمشروم استخدم شرائح لازانيا كقاعدة للطبق مع...

اختبار جديد صُمم ليمنع اجتيازه من قبل الذكاء الاصطناعى، والباحثون يكشفون حدود التقنية

كشف الباحثون وجود فجوة في قدرات أنظمة الذكاء الاصطناعي مع تطور هذه الأنظمة، فحتى الاختبارات الشائعة التي كانت تعتبر صعبة في السابق لم تعد تشكل تحديًا كافيًا لتقييم القدرات الحقيقية للنماذج المتقدمة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

أطلق اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، اختبارًا مختلفًا تمامًا يهدف إلى سد هذه الفجوة من خلال اختبار واسع وشديد التحدي ومتجذر في المعرفة البشرية المتخصصة إلى درجة أن أنظمة الذكاء الاصطناعي الحالية تقف أمامه صعوبات مستمرة.

يقدّم الاختبار 2500 سؤال يغطي مجالات الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية دقيقة جدًا.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من جميع أنحاء العالم، وحرصوا على أن يكون لكل سؤال إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستمد الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية. خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يتم حذف السؤال من الاختبار، ليكون الاختبار مخصصًا لتجاوز قدرات الذكاء الاصطناعي الحالية.

أظهرت النتائج الأولية أن حتى أكثر النماذج تطورًا تواجه صعوبات، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم يحقق نموذج o1 من OpenAI سوى 8%، أما النماذج الأكثر تقدمًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فبلغت دقتها نحو 40% إلى 50%.

يهدف الاختبار الذي أطلق عليه اسم “الاختبار الأخير للبشرية” (HLE) إلى أن يكون معيارًا شفافًا وطويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن النماذج من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على