أطلقت شركة جوجل اليوم Gemini 3.1 Pro، ورأيت للتو تقييمات الاختبار، وأشعر أن هذا يأتي بهدف التفوق على الجميع (منافسة الأسلحة في النماذج مستمرة، وتفيد صناعة أشباه الموصلات!)😂
التحديد الرسمي واضح جدًا: مصمم للمهام المعقدة، مثل البحث العميق، وحل المشكلات الهندسية، والاستنتاجات طويلة السلسلة، وسير العمل الوكيل. النقاط الرئيسية: نافذة سياق من 1 مليون رمز (ثابتة) دعم متعدد الوسائط (نص + صورة + فيديو + صوت + كود) إخراج حتى 64 ألف رمز مقارنة الأداء مع النماذج السائدة حاليًا (Claude Opus 4.6، GPT-5.2/5.3 وغيرها): ARC-AGI-2 (أصعب معيار استنتاج تجريدي): Gemini 3.1 Pro 77.1%، متفوقًا على Claude 4.6 (68.8%) بحوالي 8-9 نقاط، ومتفوقًا على سلسلة GPT-5 بنسبة 20-30+ نقطة. هذا هو أكبر تقدم، ويمثل قفزة نوعية في الاستنتاج الأساسي. GPQA Diamond (استنتاج علمي من مستوى دكتوراه): 94.3%، يتفوق قليلاً على Claude 4.6 (91.3%) وGPT-5.2 (92.4%)، بفارق 2-3 نقاط، والمعيار قريب من التشبع. SWE-Bench Verified (مهام هندسة البرمجيات الحقيقية): 80.6%، متفوقًا على Claude 4.6 (حوالي 76-77%) بثلاث إلى خمس نقاط، وتفوق واضح على GPT (5-15%). أما باقي الاختبارات مثل Terminal-Bench، APEX-Agents وغيرها من مهام الوكيل طويلة المدى، فقد حققت مراكز أولى متعددة؛ ومؤشر LMArena/Artificial Analysis يحتل المرتبة الأولى حاليًا، مع كفاءة عالية من حيث التكلفة. الأهم من ذلك، أن الميزة التنافسية من حيث التكلفة واضحة جدًا: أسعار API (لكل مليون رمز، استنادًا إلى أحدث بيانات Vertex AI / Gemini API، السعر القياسي للسياق حتى 200 ألف رمز): Gemini 3.1 Pro: الإدخال 2.00 دولار، الإخراج 12.00 دولار (مضاعف عند تجاوز 200 ألف رمز إلى 4/18 دولار) Claude Opus 4.6: الإدخال 5.00 دولارات، الإخراج 25.00 دولار GPT-5.2 / 5.x: عادةً الإدخال بين 10-15+ دولار، والإخراج بين 30-75+ دولار (الطبقات العليا أعلى، حسب الإصدار) الفارق في الميزة: الإدخال: Gemini أرخص بحوالي 60% من Claude (2 مقابل 5)، وأرخص بنسبة 70-80% من سلسلة GPT. الإخراج: Gemini أرخص بحوالي 52% من Claude (12 مقابل 25)، وأرخص بنسبة 60-80% من GPT.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
أطلقت شركة جوجل اليوم Gemini 3.1 Pro، ورأيت للتو تقييمات الاختبار، وأشعر أن هذا يأتي بهدف التفوق على الجميع (منافسة الأسلحة في النماذج مستمرة، وتفيد صناعة أشباه الموصلات!)😂
التحديد الرسمي واضح جدًا: مصمم للمهام المعقدة، مثل البحث العميق، وحل المشكلات الهندسية، والاستنتاجات طويلة السلسلة، وسير العمل الوكيل.
النقاط الرئيسية: نافذة سياق من 1 مليون رمز (ثابتة)
دعم متعدد الوسائط (نص + صورة + فيديو + صوت + كود)
إخراج حتى 64 ألف رمز
مقارنة الأداء مع النماذج السائدة حاليًا (Claude Opus 4.6، GPT-5.2/5.3 وغيرها):
ARC-AGI-2 (أصعب معيار استنتاج تجريدي):
Gemini 3.1 Pro 77.1%، متفوقًا على Claude 4.6 (68.8%) بحوالي 8-9 نقاط،
ومتفوقًا على سلسلة GPT-5 بنسبة 20-30+ نقطة. هذا هو أكبر تقدم، ويمثل قفزة نوعية في الاستنتاج الأساسي.
GPQA Diamond (استنتاج علمي من مستوى دكتوراه): 94.3%، يتفوق قليلاً على Claude 4.6 (91.3%) وGPT-5.2 (92.4%)، بفارق 2-3 نقاط، والمعيار قريب من التشبع.
SWE-Bench Verified (مهام هندسة البرمجيات الحقيقية): 80.6%، متفوقًا على Claude 4.6 (حوالي 76-77%) بثلاث إلى خمس نقاط، وتفوق واضح على GPT (5-15%).
أما باقي الاختبارات مثل Terminal-Bench، APEX-Agents وغيرها من مهام الوكيل طويلة المدى، فقد حققت مراكز أولى متعددة؛ ومؤشر LMArena/Artificial Analysis يحتل المرتبة الأولى حاليًا، مع كفاءة عالية من حيث التكلفة.
الأهم من ذلك، أن الميزة التنافسية من حيث التكلفة واضحة جدًا:
أسعار API (لكل مليون رمز، استنادًا إلى أحدث بيانات Vertex AI / Gemini API، السعر القياسي للسياق حتى 200 ألف رمز):
Gemini 3.1 Pro: الإدخال 2.00 دولار، الإخراج 12.00 دولار (مضاعف عند تجاوز 200 ألف رمز إلى 4/18 دولار)
Claude Opus 4.6: الإدخال 5.00 دولارات، الإخراج 25.00 دولار
GPT-5.2 / 5.x: عادةً الإدخال بين 10-15+ دولار، والإخراج بين 30-75+ دولار (الطبقات العليا أعلى، حسب الإصدار)
الفارق في الميزة: الإدخال: Gemini أرخص بحوالي 60% من Claude (2 مقابل 5)، وأرخص بنسبة 70-80% من سلسلة GPT.
الإخراج: Gemini أرخص بحوالي 52% من Claude (12 مقابل 25)، وأرخص بنسبة 60-80% من GPT.