ذات صلة

اخبار متفرقة

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

نفذت تجربة عشوائية قارنت برنامج تمارين عالي الشدة متقطعة...

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

تعمل الكليتان كعضوين أساسيين في الجسم على تصفية الفضلات...

زوجة كريم فهمي تتألق بإطلالة أنيقة.. شاهِد

التقطت دانية، زوجة كريم فهمي، صورًا جديدة من أحدث...

ما السبب وراء استمرار السعال في الشتاء لفترة طويلة

يظل السعال الشتوي مستمرًا لفترة طويلة ليس لكونك ما...

مي سليم تستعرض رشاقتها بفستانٍ لافتٍ.. شاهد

إطلالة مي سليم خطفت مي سليم الأنظار في أحدث جلسة...

اختبار جديد صُمِّم ليكون غير قابل للاجتياز من قبل الذكاء الاصطناعي؛ الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

أشار تحالف عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، إلى إنشاءه اختبارًا مختلفًا كليًا عن الاختبارات التقليدية.

صُمم الاختبار ليكون واسع النطاق وعالي التحدي ومتجذرًا في المعرفة البشرية المتخصصة، إلى الحد الذي تفشل فيه أنظمة الذكاء الاصطناعي المعاصرة باستمرار في الإجابة عليه.

يتألف الاختبار من 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية شديدة التخصص.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء من أنحاء العالم، حرصوا على أن تكون لكل سؤال إجابة واحدة دقيقة وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولاً إلى تحليل خصائص نطق العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وعند تمكن أي نظام من الإجابة الصحيحة، حُذف السؤال.

أظهرت النتائج الأولية صعوبة الاختبار حتى أمام النماذج الأكثر تطورًا، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم تبلغ نسبة نموذج o1 الرائد من OpenAI سوى 8%.

أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد بلغت دقتها ما بين 40% و50%.

يهدف الاختبار، الذي سُمي بـ”الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معيارًا شفافًا وطويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة.

كجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على