ذات صلة

اخبار متفرقة

مرض الكلى المزمن: 5 مراحل تؤثر في صحتك ونصائح للوقاية

تعمل الكليتان كعضوين أساسيين في الجسم، تقومان بتصفية الفضلات...

إرشادات لتجنب الإمساك خلال رمضان

يواجه الصائمون خلال شهر رمضان إمساكًا محتملًا بسبب تقليل...

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد

استحوذت مي سليم على الأنظار في أحدث جلسة تصوير...

أسباب ارتفاع سكر الدم أثناء صيام رمضان قد تفاجئك

يؤكد الدكتور محمد إسماعيل استشاري الطب الباطني والصدر أنه...

أبسط الخطوات: طريقة إعداد لازانيا نباتية بالمشروم

مقادير لازانيا نباتية بالمشروم استخدم شرائح لازانيا كقاعدة للطبق مع...

اختبار جديد صُمِّم ليكون غير قابل للاجتياز من قبل الذكاء الاصطناعي؛ الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

أشار تحالف عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، إلى إنشاءه اختبارًا مختلفًا كليًا عن الاختبارات التقليدية.

صُمم الاختبار ليكون واسع النطاق وعالي التحدي ومتجذرًا في المعرفة البشرية المتخصصة، إلى الحد الذي تفشل فيه أنظمة الذكاء الاصطناعي المعاصرة باستمرار في الإجابة عليه.

يتألف الاختبار من 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية شديدة التخصص.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء من أنحاء العالم، حرصوا على أن تكون لكل سؤال إجابة واحدة دقيقة وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولاً إلى تحليل خصائص نطق العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وعند تمكن أي نظام من الإجابة الصحيحة، حُذف السؤال.

أظهرت النتائج الأولية صعوبة الاختبار حتى أمام النماذج الأكثر تطورًا، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم تبلغ نسبة نموذج o1 الرائد من OpenAI سوى 8%.

أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد بلغت دقتها ما بين 40% و50%.

يهدف الاختبار، الذي سُمي بـ”الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معيارًا شفافًا وطويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة.

كجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على