ذات صلة

اخبار متفرقة

كيف تصنع قصصًا بصرية في استوديو جوجل باستخدام نانو بانانا

واجهة مستخدم جديدة وشبكة أصول موحدة أطلقت جوجل فلو تحديثًا...

تقرير: من المحتمل ألا تشارك مركبة ستارشيب في مهمة أرتميس 3

الإطار العام لإعادة الهيكلة وخطط الإطلاق أعلنت ناسا إعادة هيكلة...

5 أحجار كريمة تعزز ثقتك أثناء القيادة.. الفيروز الأبرز بينها

حجر الأوبسيديان اعتمدي قطعة أوبسيديان صغيرة تحفظينها في حقيبتك أو...

التمارين المكثفة تتفوق على الاسترخاء في السيطرة على نوبات الهلع

نفّذ فريق في كلية الطب بجامعة ساو باولو دراسة...

اختبار جديد صُمم ليمنع اجتيازه من قبل الذكاء الاصطناعى، والباحثون يكشفون حدود التقنية

كشف الباحثون وجود فجوة في قدرات أنظمة الذكاء الاصطناعي مع تطور هذه الأنظمة، فحتى الاختبارات الشائعة التي كانت تعتبر صعبة في السابق لم تعد تشكل تحديًا كافيًا لتقييم القدرات الحقيقية للنماذج المتقدمة.

جهد عالمي لقياس حدود الذكاء الاصطناعي

أطلق اتحاد عالمي يضم نحو ألف باحث، من بينهم أستاذ من جامعة تكساس إيه آند إم، اختبارًا مختلفًا تمامًا يهدف إلى سد هذه الفجوة من خلال اختبار واسع وشديد التحدي ومتجذر في المعرفة البشرية المتخصصة إلى درجة أن أنظمة الذكاء الاصطناعي الحالية تقف أمامه صعوبات مستمرة.

يقدّم الاختبار 2500 سؤال يغطي مجالات الرياضيات والعلوم الإنسانية والعلوم الطبيعية واللغات القديمة ومجالات فرعية دقيقة جدًا.

كُتبت أسئلة مشروع HLE ومراجعتها من قبل خبراء في مجالاتهم من جميع أنحاء العالم، وحرصوا على أن يكون لكل سؤال إجابة واحدة واضحة لا لبس فيها وقابلة للتحقق، ولا يمكن حلها فورًا عبر الإنترنت.

تستمد الأسئلة من مسائل أكاديمية متخصصة، بدءًا من ترجمة النقوش التدمرية القديمة، مرورًا بتحديد التراكيب التشريحية الدقيقة في الطيور، وصولًا إلى تحليل الخصائص المعقدة لنطق اللغة العبرية التوراتية. خضع كل سؤال للاختبار باستخدام نماذج الذكاء الاصطناعي الرائدة، وفي حال تمكن أي نظام من الإجابة عليه بشكل صحيح، يتم حذف السؤال من الاختبار، ليكون الاختبار مخصصًا لتجاوز قدرات الذكاء الاصطناعي الحالية.

أظهرت النتائج الأولية أن حتى أكثر النماذج تطورًا تواجه صعوبات، حيث حقق GPT-40 نسبة 2.7%، ووصل Claude 3.5 Sonnet إلى 4.1%، بينما لم يحقق نموذج o1 من OpenAI سوى 8%، أما النماذج الأكثر تقدمًا، بما في ذلك Gemini 3.1 Pro وClaude Opus 4.6، فبلغت دقتها نحو 40% إلى 50%.

يهدف الاختبار الذي أطلق عليه اسم “الاختبار الأخير للبشرية” (HLE) إلى أن يكون معيارًا شفافًا وطويل الأمد لتقييم أنظمة الذكاء الاصطناعي المتقدمة، وكجزء من هذه المهمة، أتاح الفريق بعض أسئلة الاختبار للجمهور مع إبقاء معظمها مخفيًا حتى لا تتمكن النماذج من حفظ الإجابات.

spot_img
spot_imgspot_img

تابعونا على