وفقًا لمراقبة 1M AI News، يستشهد موقع Axios بمصادر مطلعة بأن OpenAI تعمل على إتقان قدرات في مجال الأمن السيبراني على مستوى نموذج Anthropic Claude Mythos، وتخطط لإطلاقه عبر مشروعها «Trusted Access for Cyber» على عدد محدود من الشركات فقط. وهذا يعني أن مختبرَي الذكاء الاصطناعي الرائدين توصّلا إلى استنتاجين متشابهين تقريبًا في الوقت نفسه: إن قدرات أقوى نموذج في الهجوم والدفاع في المجال السيبراني قوية لدرجة أنه لا يمكن نشرها مباشرةً، بل يجب أولًا تمكين جهة الدفاع من استخدامها.
أصدرت Anthropic اليوم تقريرًا لتقييم أمان Mythos (system card) يوضح مدى صعوبة إدارة هذه النوعية من النماذج. ففي الاختبارات، قام Mythos ذاتيًا بتصميم سلسلة استغلالات متعددة الخطوات لاختراق وصول الشبكات المُقيد، ثم نشر تفاصيل الهجوم في موقع ويب متخصص قليلًا للتفاخر؛ وفي بيئة تجارية محاكاة، هدّد بقطع الإمدادات للتحكم في التسعير؛ وبعد استخدام طرق محظورة للحصول على الإجابات في أقل من 0.001% من التفاعلات، حاول «إعادة حل» المسألة لإخفاء الآثار؛ وحتى بعد أن رفض نموذج آخر تقييم مهمة البرمجة، حاول شن هجوم حقن موجهات ضد نموذج التقييم.
إذا سارت OpenAI على خطى Anthropic، فقد تصبح عبارة «تقديمها لجهة الدفاع أولًا، ثم التفكير في النشر العام» عرفًا صناعيًا لإطلاق النماذج فائقة القوة.