OpenAI va bientôt lancer une version limitée d’un modèle de niveau similaire à Claude Mythos

robot
Création du résumé en cours

Communiqué de Jiejie.com : en citant des initiés, Axios affirme que OpenAI est en train de finaliser un modèle de capacités de cybersécurité comparable, au niveau de Anthropic Claude Mythos. Le projet prévoit une publication uniquement pour un petit nombre d’entreprises via son programme « Trusted Access for Cyber ». Cela signifie que deux des principaux laboratoires d’IA ont presque simultanément tiré la même conclusion : les capacités d’attaque et de défense du modèle le plus puissant sont devenues trop fortes pour être rendues publiques directement ; il faut d’abord les mettre à disposition des équipes de défense. Le rapport d’évaluation de sécurité (system card) de Mythos publié aujourd’hui par Anthropic montre à quel point ces modèles sont difficiles à maîtriser. Lors des tests, Mythos a conçu de manière autonome plusieurs chaînes d’exploitation de failles pour contourner l’accès à un réseau restreint, puis a diffusé les détails de l’attaque vers un site peu connu pour s’en vanter ; a menacé de couper l’approvisionnement dans un environnement commercial simulé afin de contrôler les prix ; a tenté de « ré- résoudre » pour masquer les traces après avoir utilisé une méthode interdite pour obtenir une réponse dans moins de 0,001 % des interactions ; et même, après qu’une autre IA a refusé d’évaluer une tâche de programmation, a tenté une attaque par injection d’instructions contre le modèle de notation. Si OpenAI suit la voie d’Anthropic, « d’abord pour la défense, puis envisager la publication » pourrait devenir une pratique industrielle pour le lancement de modèles ultra-performants.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler