研究者によると、Anthropicの不安を煽る神話的発見が市販のAIで再現されている

要約

  • 研究者は、Anthropicスタイルの脆弱性利用が公開AIでも再現可能であると報告。
  • 研究は、脆弱性発見がすでに安価で広くアクセス可能であることを示唆。
  • これらの発見は、AIのサイバー能力が予想以上に早く拡散している可能性を示している。

今月初めにAnthropicがClaude Mythosを発表した際、同モデルは検証済みのテック大手の連合に閉じられ、一般公開には危険すぎると位置付けられた。財務長官スコット・ベッセントと連邦準備制度理事会議長ジェローム・パウエルは、ウォール街のCEOたちと緊急会議を開催した。「脆弱性の黙示録(vulnpocalypse)」という言葉もセキュリティ界隈で再浮上した。 そして今、研究者のチームがその物語をさらに複雑にしている。 Vidoc Securityは、Anthropic自身が修正した公開例を用いて、GPT-5.4とClaude Opus 4.6をオープンソースのコーディングエージェント「opencode」内で再現を試みた。招待なし、プライベートAPIアクセスなし、Anthropic内部のスタックもなし。 「私たちは、Anthropicのプライベートスタックではなく、公開モデルを使ってopencode内でMythosの発見を再現しました」と、実験に関わった研究者の一人Dawid Moczadłoは結果を公開後Xで書いた。「AnthropicのMythosリリースを読むより良い方法は…経済的な観点から脆弱性発見の仕組みが変わりつつあるということです。」

私たちは、Anthropicのプライベートスタックではなく、公開モデルを使ってopencode内でMythosの発見を再現しました。

溝はモデルアクセスから検証へと移動している:脆弱性の信号を見つけるコストが下がっている;それを信頼できるセキュリティに変えるのは依然として難しい

AnthropicのMythosリリースを読むより良い方法は… https://t.co/0FFxrc8Sr1 pic.twitter.com/NjqDhsK1LA

— Dawid Moczadło (@kannthu1) 2026年4月16日

彼らがターゲットにしたケースは、Anthropicが公開資料で強調したものと同じだった:サーバーファイル共有プロトコル、セキュリティ重視OSのネットワークスタック、ほぼすべてのメディアプラットフォームに埋め込まれた動画処理ソフトウェア、そしてウェブ上のデジタルIDを検証するために使われる2つの暗号ライブラリ。 GPT-5.4とClaude Opus 4.6は、各3回の実行で2つのバグケースを再現した。Claude Opus 4.6はまた、OpenBSDのバグを独立して3回連続で再発見し、GPT-5.4はそれに対してゼロのスコアだった。FFmpegライブラリを使った動画再生や、wolfSSLを用いたデジタル署名処理に関わるバグも部分的にしか再現できなかった—つまり、モデルは正しいコードの表面は見つけたが、正確な根本原因までは特定できなかった。

画像:Vidoc Security

各スキャンは(ファイルあたりのコストを下回り、研究者はAnthropicと同じ脆弱性を見つけながらも、より少ないコストで済ませることができた。

「AIモデルはすでに、探索空間を狭め、実際の手がかりを浮き彫りにし、時には戦闘テスト済みのコードの完全な根本原因を回復するのに十分な性能を持っている」とMoczadłoはXで述べた。 彼らの使ったワークフローは一回限りのプロンプトではなかった。Anthropic自身が公開した内容と同じもので、コードベースを与え、探索させ、並列化して試行し、信号をフィルタリングするというものだった。Vidocチームは同じアーキテクチャをオープンツールで構築した。計画エージェントが各ファイルをチャンクに分割し、検出エージェントが各チャンクで動作、その後リポジトリ内の他のファイルを検査して結果を確認または除外した。 各検出プロンプト内の行範囲(例:「1158-1215行に焦点を当てる」)は、研究者が手動で選んだものではなく、前の計画段階の出力だった。ブログ記事ではこれを明示している:「このチャンク戦略が各検出エージェントの見る範囲を形成するため、手動でよりキュレーションされたものとして見せたくないからです。」 この研究は、公開モデルがMythosとすべての点で一致していると主張していない。Anthropicのモデルは、FreeBSDのバグを見つけただけでなく、攻撃者が複数のネットワークパケットを横断してコード断片を連結し、リモートでマシンを完全に制御できる攻撃の設計図を構築した。Vidocのモデルはその欠陥を見つけたが、攻撃手段を構築しなかった。ここに本当のギャップがある:穴を見つけることと、それをどう通り抜けるかを正確に知ることの違いだ。 しかし、Moczadłoの主張は、公開モデルが同じくらい強力だということではない。むしろ、ワークフローの高価な部分がAPIキーさえあれば誰でも利用できるようになったという点だ。「溝はモデルアクセスから検証へと移動している:脆弱性の信号を見つけるコストは下がっている;それを信頼できるセキュリティ作業に変えるのは依然として難しい。」 Anthropic自身の安全性レポートは、モデルが深刻なサイバーリスクをもたらすかどうかを測る基準であるCybenchが、「現在の最先端モデルの能力を十分に示すものではなくなった」と認めている。Mythosはこれを完全にクリアしたためだ。研究所は、同等の能力が他のAI研究所から6〜18ヶ月以内に広がると見積もっている。 Vidocの研究は、その発見側の側面はすでにゲートの外でも利用可能であることを示唆している。彼らの完全なプロンプト抜粋、モデル出力、方法論の付録は、研究所の公式サイトに公開されている。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン