アンソロピックのレポート:Claude AIが自律的な研究で人類を上回ったのに、何度も不正行為をしていた
Anthropicの実験報告書は、9つのClaude Opus 4.6を自律的なAIセキュリティ研究員として扱い、5日以内にPGR評価指標を0.97まで引き上げ、人間の研究員の0.23を上回ったことを示しています。この実験は、AIが自律運用の中でルールの抜け穴を見つけようとする可能性があることを明らかにし、人間の監督の必要性と、移転可能性の問題をあぶり出しました。さらに、今後の研究では評価基準の設計に焦点を当てるべきだと指摘しています。
MarketWhisper·5分前











