NvidiaのCEOジェンセン・フアンは先週、レックス・フリッドマンのポッドキャストに出演し、「我々はAGIを達成したと思う」と明言した。2日後、AI研究で最も厳格なテストの新しい人工汎用知能ベンチマークが発表され、すべての最先端モデルが1%未満のスコアにとどまった。 今週、ARC賞財団はARC-AGI-3を公開し、その結果は非常に厳しいものだった。GoogleのGemini 3.1 Proが0.37%、OpenAIのGPT-5.4が0.26%、AnthropicのClaude Opus 4.6が0.25%、xAIのGrok-4.20はまさかのゼロ点を記録。一方、人間はすべての環境を100%解決した。 これはトリビアやコーディングの試験、あるいは超難関の博士課程レベルの問題ではない。ARC-AGI-3は、AI業界がこれまで直面したことのない全く新しい挑戦である。
このベンチマークは、フランソワ・チョレとマイク・クノップの財団によって作られたもので、社内のゲームスタジオを設立し、135のオリジナルインタラクティブ環境をゼロから作成した。アイデアは、AIエージェントを未知のゲームのような世界に投入し、ゼロから探索し、何をすべきかを理解し、計画を立てて実行させることにある。 もしこれが5歳児でもできることだと感じるなら、問題の本質が見えてきた証拠だ。自分がAIより優れているか試したい場合は、こちらのリンクから同じゲームをプレイできる。最初は奇妙に感じるかもしれないが、数秒後には簡単に慣れる。
これが「G」が示すものの最も明確な例でもある。一般化とは、新しい知識(奇妙なゲームの仕組み)を事前に訓練されることなく創り出す能力のことだ。
以前のARCバージョンは静的な視覚パズルをテストしていた—パターンを見せて次のパターンを予測させるものだった。最初は難しかったが、その後、計算能力と訓練を投入してベンチマークをほぼ解消した。2019年に導入されたARC-AGI-1は、テスト時の訓練と推論モデルに落ちた。ARC-AGI-2は約1年持ち、Gemini 3.1 Proが77.1%に到達した。研究所は訓練可能なベンチマークを飽和させるのが非常に得意だ。 バージョン3はそれを防ぐために特別に設計された。135の環境のうち110は非公開、55はAPIテスト用の半公開、55は完全にロックされており、データセットを丸暗記できない仕組みだ。未見の新しいゲームロジックをブルートフォースで突破することは不可能だ。 スコアは合格/不合格ではない。ARC-AGI-3は、財団が「RHAE(相対人間行動効率)」と呼ぶ指標を採用している。基準は二番目に優れた人間のパフォーマンスだ。AIが人間の10倍の行動を取ると、そのレベルでのスコアは1%、10%ではない。効率の悪さに対して二乗のペナルティが課される。徘徊やバックトラック、推測による解答は厳しく罰せられる。 最も優れたAIエージェントは、1か月の開発者プレビューで12.58%のスコアを記録した。公式APIを通じてテストされたフロンティアLLMsは、カスタムツールなしでは1%すら超えられなかった。一般の人間は事前訓練や指示なしで135の環境すべてを解決した。これが基準なら、現行のモデル群はそれをクリアできていない。 ここには一つの方法論的な議論もある。ARCの報告によると、デューク大学が作ったカスタムハーネスを使ったClaude Opus 4.6は、TR87と呼ばれる単一の環境バリアントで0.25%から97.1%に向上した。これはClaudeがARC-AGI-3全体で97.1%を記録したわけではなく、公式のベンチマークスコアは依然として0.25%のままだが、その変化は注目に値する。 公式のベンチマークはエージェントにJSONコードを入力させるもので、ビジュアルではない。これは方法論的な欠陥か、あるいは今日のモデルが生の構造化データよりも人間に優しい情報処理に長けていることの証明だ。チョレの財団はこの議論を認めているが、フォーマットの変更は行わない方針だ。 「フレーム内容の認識やAPIフォーマットは、ARC-AGI-3における最先端モデルの性能を制限しない」と論文には記されている。つまり、モデルが「タスクを正しく見えない」ために失敗しているという考えを否定し、むしろ認識はすでに十分であり、真の差は推論と一般化にあると主張している。
このAGIの現実性の検証は、宣伝が全盛の週に到来した。フアンのコメントに加え、Armは新しいデータセンター用チップを「AGI CPU」と名付けた。OpenAIのサム・アルトマンは「ほぼAGIを構築した」と述べており、MicrosoftはすでにAGI達成後の進化形であるASI(超知能)を構築する研究所をマーケティングしている。これらの用語は、商業的に都合の良い意味に引き伸ばされているだけのようだ。 チョレの立場はより単純だ。普通の人間が指示なしでできることを、あなたのシステムができないなら、それはAGIではなく、非常に高価なオートコンプリートに過ぎない。 ARC賞2026は、Kaggle上で開催される3つのコンペティショントラックに合計200万ドルの賞金を提供している。すべての勝者のソリューションはオープンソース化が義務付けられている。時間は迫っており、現状ではその壁を突破できるマシンはまだ遠い。