مقارنة معيارية بين ChatGPT وGemini في اختبارات الذكاء الاصطناعي
تشير الاختبارات المعيارية إلى تفوق واضح لـChatGPT على Gemini في ثلاث مجالات رئيسية تتطلب تفكيرًا عميقًا وحل المشكلات والقدرة على الاستدلال المجرد.
1- الإجابة عن الأسئلة العلمية المعقدة “غير القابلة للبحث”
سجلت النتيجة ChatGPT-5.2 نحو 92.4% في GPQA Diamond، مقابل 91.9% لـGemini 3 Pro. ويتعلق الاختبار بأسئلة من مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، وتستلزم ربط مفاهيم علمية متعددة وتجنب الاستنتاجات السطحية.
2- حل مشكلات البرمجة الواقعية
في SWE-Bench Pro (البيانات الخاصة)، حل ChatGPT-5.2 نحو 24% من المشكلات، مقابل 18% لـGemini. وتفيد هذه النسب بأن التحدي كبير، فحتى الإنسان يحل نسبة قريبة من 100% في بعض الحالات لا تزال صعبة للآلة.
3- حل الألغاز البصرية والتفكير المجرد
في ARC-AGI-2، سجلت ChatGPT-5.2 Pro 54.2% مقابل 31.1% لـGemini 3 Pro، بينما نسخ Gemini الأعلى تكلفة تقارب النتائج لكنها لم تتفوق.
يعكس هذا المجال صعوبة كبيرة للذكاء الاصطناعي، لكنه يبرز تفوق ChatGPT في هذه الفئة مقارنة بمعظم المنافسين.
اعتمد التحليل على أحدث الإصدارات المدفوعة من النظامين مع التركيز على الاختبارات المعيارية بدل التجارب الشخصية. ورغم أن Gemini قد يتفوق في اختبارات أخرى، فإن هذه المعايير الثلاثة تمثل مزيجًا مهمًا من التفكير العلمي وحل المشكلات والذكاء المجرد. وتبقى المنافسة مفتوحة ومتغيرة، لكن النتائج الحالية تشير إلى أن ChatGPT يحافظ على تقدم ملحوظ في مجالات تتطلب عمق التفكير وليس فقط الإجابات السريعة.



