تشير التحديثات المتسارعة في عالم الذكاء الاصطناعي إلى أن الفروق بين أنظمة مثل ChatGPT وGemini تتغير باستمرار، وأن الاعتماد على الاختبارات المعيارية صار ضروريًا لقياس التفكير المنطقي وحل المشكلات والاستدلال المجرد.
ثلاث مجالات يظهر فيها تفوق واضح لـChatGPT على Gemini
سجلت GPQA Diamond، وهو اختبار يقيس التفكير على مستوى الدكتوراه في الفيزياء والكيمياء والأحياء، تفوقاً لـChatGPT-5.2 بمعدل 92.4% مقابل 91.9% لـGemini 3 Pro.
أظهرت SWE-Bench Pro (البيانات الخاصة) قدرة على حل مشكلات مأخوذة من GitHub، حيث بلغت نسبة الحل عند ChatGPT-5.2 نحو 24% مقابل 18% لـGemini، مع الإشارة إلى صعوبة الاختبار وأن الإنسان لا يزال يتفوق في هذه الحالات.
حقق ARC-AGI-2 أداءً في استنتاج الأنماط المجردة من أمثلة محدودة، فبلغت نتيجة ChatGPT-5.2 Pro 54.2% مقابل 31.1% لـGemini 3 Pro، بينما حققت نسخ Gemini الأعلى تكلفة نتائج أقرب لكنها لم تتفوق.
اعتمد التحليل على أحدث الإصدارات المدفوعة من النظامين، مع التركيز على الاختبارات المعيارية بدلاً من المقارنات الشخصية، فهذه المعايير تمثل مزيجاً من التفكير العلمي وحل المشكلات والذكاء المجرد.
تبقى المنافسة مفتوحة ومتغيرة، لكن الأرقام الحالية تشير إلى أن ChatGPT يحافظ على تقدم ملحوظ في مجالات تتطلب عمقاً في التفكير وليس مجرد إجابات سريعة.



