#GatePreIPOsLaunchesWithSpaceX


أنثروبي أطلقت للتو كلاود أوبوس 4.7 — أقوى نموذج متاح للجمهور حتى الآن. وفي جدول المقارنة عرضوا أيضًا كلاود ميثوس بريوي — "وحش" داخلي، لم يُتاح بعد للجميع (نظرًا لقدراته السيبرانية القوية).

برمجة الوكيل (أهم شيء للمطورين)
SWE-bench Pro (مهام حقيقية معقدة لإصلاح الأخطاء):
ميثوس بريوي — 77.8% | أوبوس 4.7 — 64.3% | أوبوس 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: ميثوس — 93.9% | أوبوس 4.7 — 87.6% | أوبوس 4.6 — 80.8%

هذه قفزة هائلة. ميثوس يضاعف تقريبًا نتائج النماذج من 2024–2025 على مهام GitHub الحقيقية.
Terminal-Bench 2.0 (العمل في الطرفية، برمجة الوكيل):
ميثوس — 82.0% | GPT-5.4 — 75.1% | أوبوس 4.7 — 69.4%

التفكير متعدد الجوانب والمهام المعقدة اختبار الإنسانية الأخير (واحد من أصعب "الامتحانات النهائية للبشرية" متعدد التخصصات، بمستوى الدراسات العليا):

ميثوس — 56.8% | أوبوس 4.7 — 46.9% مع الأدوات: ميثوس — 64.7% | أوبوس 4.7 — 54.7%
GPQA Diamond (مستوى عالٍ من التفكير العلمي): جميع النماذج الرائدة حوالي 94%، ميثوس يتقدم قليلاً — 94.6%.

القدرات الوكيلة
استخدام الأدوات الموسع (MCP-Atlas):
أوبوس 4.7 — 77.3% (الريادي بين المتاح)
استخدام الحاسوب الوكلي (OSWorld-Verified): أوبوس 4.7 — 78.0% | ميثوس — 79.6%
البحث الوكلي (BrowseComp): GPT-5.4 يتصدر بنسبة 89.3%، ميثوس — 86.9%
إعادة إنتاج ثغرات الأمن السيبراني (CyberGym): ميثوس — 83.1% (هنا هو قوي بشكل خاص)

التفكير البصري والتعدد الوسائط CharXiv Reasoning: أوبوس 4.7 بدون أدوات — 82.1% | مع الأدوات — 91.0% ميثوس — 93.2% مع الأدوات.
الأسئلة والأجوبة متعددة اللغات (MMMLU): أوبوس 4.7 و 4.6 — حوالي 91%، جيميني 3.1 برو — 92.6%.

أوبوس 4.7 هو الخيار الأفضل الآن لمعظم المهام:
أفضل بكثير من أوبوس 4.6 في جميع المجالات تقريبًا (خصوصًا في برمجة الوكيل، استخدام الحاسوب، التفكير البصري والتحليل المالي).
السعر نفسه: $5 / $25 للمليون رمز.
متاح للجميع عبر كلاود، API، Bedrock، Vertex AI وغيرها.
تم تحسين العمل مع الصور عالية الجودة (حتى 3.75 ميجابكسل)، مستوى جهد "إضافي عالي"، مراجعة فائقة في كلاود كود وغيرها.

ميثوس بريوي هو فعلاً شيء غير طبيعي — إنه المستوى التالي. يهيمن تقريبًا على جميع الاختبارات الوكيلة والمعقدة. أنثروبي يحتفظ به ضمن وصول محدود (مشروع جلاسوينج)، لأن النموذج قوي بشكل خاص في البحث وإعادة إنتاج الثغرات في الكود. في الأساس — هو "سلاح سيبراني" بمستوى الحدود، يتم اختباره حاليًا مع تدابير حماية معززة. أنثروبي تقول مباشرة: أوبوس 4.7 يتراجع أمام ميثوس في جميع الجوانب تقريبًا، لكنه أكثر أمانًا ومتاح بالفعل للاستخدام في الإنتاج.

عام 2026 — لم يعد الأمر مجرد "روبوتات دردشة". نرى وكلاء حقيقيين يمكنهم العمل لساعات في الطرفية، إصلاح الكود الحقيقي، تحليل المالية وحل مهام بمستوى دكتوراه.
أوبوس 4.7 يمكن الآن وضعه في الإنتاج لعمليات سير عمل معقدة. أما ميثوس فيشير إلى الاتجاه الذي تتجه إليه الصناعة في الأشهر القادمة.

هل هو المستقبل الآن بالفعل؟
ما رأيكم؟ 🤝
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت