ذات صلة

اخبار متفرقة

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

أُجريت تجربة سريرية عشوائية في كلية الطب بجامعة ساو...

مرض الكلى المزمن: خمس مراحل تؤثر في صحتك ونصائح للوقاية

تعمل الكليتان كعضوين أساسيين في الجسم بلا كلل لتصفية...

سبب استمرار السعال في الشتاء لفترة طويلة

يستمر السعال الشتوي لفترة طويلة ليس بسبب استمرار المرض...

مي سليم تستعرض رشاقتها بفستان لافت.. شاهد

خطفت مي سليم الأنظار في أحدث جلسة تصوير، بإطلالة...

الأسباب التي لن تتوقعها لارتفاع سكر الدم خلال صيام رمضان

أسباب ارتفاع السكر بعد الإفطار يرتفع معدل السكر في الدم...

اختبار جديد صُمِّم ليكون غير قابل للاجتياز من قبل الذكاء الاصطناعي؛ الباحثون يكشفون حدود التقنية

جهد عالمي لقياس حدود الذكاء الاصطناعي

أشار تحالف عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، إلى إنشاءه اختبارًا مختلفًا كليًا عن الاختبارات التقليدية.

صُمم الاختبار ليكون واسع النطاق وعالي التحدي ومتجذرًا في المعرفة البشرية المتخصصة، إلى الحد الذي تفشل فيه أنظمة الذكاء الاصطناعي المعاصرة باستمرار في الإجابة عليه.

يتألف الاختبار من 2500 سؤال يغطي الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية شديدة التخصص.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء من أنحاء العالم، حرصوا على أن تكون لكل سؤال إجابة واحدة دقيقة وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستقي الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولاً إلى تحليل خصائص نطق العبرية التوراتية.

خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وعند تمكن أي نظام من الإجابة الصحيحة، حُذف السؤال.

أظهرت النتائج الأولية صعوبة الاختبار حتى أمام النماذج الأكثر تطورًا، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم تبلغ نسبة نموذج o1 الرائد من OpenAI سوى 8%.

أما النماذج الأكثر تطورًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فقد بلغت دقتها ما بين 40% و50%.

يهدف الاختبار، الذي سُمي بـ”الاختبار الأخير للبشرية” (HLE)، إلى أن يكون معيارًا شفافًا وطويل الأجل لتقييم أنظمة الذكاء الاصطناعي المتقدمة.

كجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن نماذج الذكاء الاصطناعي من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على