AGIはすでに到来しているのか？まったくの遠い話だと、新しいAIベンチマークが示唆している

Decrypt

2026-03-26 19:35:54

要約

ARC-AGI-3は、AGIの主張と現実の間に巨大なギャップがあることを浮き彫りにしており、最先端のAIモデルは1%未満のスコアにとどまる一方、人間は完璧なパフォーマンスを達成している。
このベンチマークは真の汎用性を測定しており、エージェントが未知の環境で探索、計画、学習をゼロから行う必要があることを示している。これは訓練済みのパターンを単に記憶しているだけでは不十分である。
業界の誇大宣伝にもかかわらず、現行のAIシステムは依然としてAGIからは遠く、若い人間が自然に示す推論や適応力には及ばない。

NvidiaのCEOジェンセン・フアンは先週、レックス・フリッドマンのポッドキャストに出演し、「我々はAGIを達成したと思う」と明言した。2日後、AI研究で最も厳格なテストの新しい人工汎用知能ベンチマークが発表され、すべての最先端モデルが1%未満のスコアにとどまった。今週、ARC賞財団はARC-AGI-3を公開し、その結果は非常に厳しいものだった。GoogleのGemini 3.1 Proが0.37%、OpenAIのGPT-5.4が0.26%、AnthropicのClaude Opus 4.6が0.25%、xAIのGrok-4.20はまさかのゼロ点を記録。一方、人間はすべての環境を100%解決した。これはトリビアやコーディングの試験、あるいは超難関の博士課程レベルの問題ではない。ARC-AGI-3は、AI業界がこれまで直面したことのない全く新しい挑戦である。

このベンチマークは、フランソワ・チョレとマイク・クノップの財団によって作られたもので、社内のゲームスタジオを設立し、135のオリジナルインタラクティブ環境をゼロから作成した。アイデアは、AIエージェントを未知のゲームのような世界に投入し、ゼロから探索し、何をすべきかを理解し、計画を立てて実行させることにある。もしこれが5歳児でもできることだと感じるなら、問題の本質が見えてきた証拠だ。自分がAIより優れているか試したい場合は、こちらのリンクから同じゲームをプレイできる。最初は奇妙に感じるかもしれないが、数秒後には簡単に慣れる。

これが「G」が示すものの最も明確な例でもある。一般化とは、新しい知識（奇妙なゲームの仕組み）を事前に訓練されることなく創り出す能力のことだ。

以前のARCバージョンは静的な視覚パズルをテストしていた—パターンを見せて次のパターンを予測させるものだった。最初は難しかったが、その後、計算能力と訓練を投入してベンチマークをほぼ解消した。2019年に導入されたARC-AGI-1は、テスト時の訓練と推論モデルに落ちた。ARC-AGI-2は約1年持ち、Gemini 3.1 Proが77.1%に到達した。研究所は訓練可能なベンチマークを飽和させるのが非常に得意だ。バージョン3はそれを防ぐために特別に設計された。135の環境のうち110は非公開、55はAPIテスト用の半公開、55は完全にロックされており、データセットを丸暗記できない仕組みだ。未見の新しいゲームロジックをブルートフォースで突破することは不可能だ。スコアは合格/不合格ではない。ARC-AGI-3は、財団が「RHAE（相対人間行動効率）」と呼ぶ指標を採用している。基準は二番目に優れた人間のパフォーマンスだ。AIが人間の10倍の行動を取ると、そのレベルでのスコアは1%、10%ではない。効率の悪さに対して二乗のペナルティが課される。徘徊やバックトラック、推測による解答は厳しく罰せられる。最も優れたAIエージェントは、1か月の開発者プレビューで12.58%のスコアを記録した。公式APIを通じてテストされたフロンティアLLMsは、カスタムツールなしでは1%すら超えられなかった。一般の人間は事前訓練や指示なしで135の環境すべてを解決した。これが基準なら、現行のモデル群はそれをクリアできていない。ここには一つの方法論的な議論もある。ARCの報告によると、デューク大学が作ったカスタムハーネスを使ったClaude Opus 4.6は、TR87と呼ばれる単一の環境バリアントで0.25%から97.1%に向上した。これはClaudeがARC-AGI-3全体で97.1%を記録したわけではなく、公式のベンチマークスコアは依然として0.25%のままだが、その変化は注目に値する。公式のベンチマークはエージェントにJSONコードを入力させるもので、ビジュアルではない。これは方法論的な欠陥か、あるいは今日のモデルが生の構造化データよりも人間に優しい情報処理に長けていることの証明だ。チョレの財団はこの議論を認めているが、フォーマットの変更は行わない方針だ。「フレーム内容の認識やAPIフォーマットは、ARC-AGI-3における最先端モデルの性能を制限しない」と論文には記されている。つまり、モデルが「タスクを正しく見えない」ために失敗しているという考えを否定し、むしろ認識はすでに十分であり、真の差は推論と一般化にあると主張している。

このAGIの現実性の検証は、宣伝が全盛の週に到来した。フアンのコメントに加え、Armは新しいデータセンター用チップを「AGI CPU」と名付けた。OpenAIのサム・アルトマンは「ほぼAGIを構築した」と述べており、MicrosoftはすでにAGI達成後の進化形であるASI（超知能）を構築する研究所をマーケティングしている。これらの用語は、商業的に都合の良い意味に引き伸ばされているだけのようだ。チョレの立場はより単純だ。普通の人間が指示なしでできることを、あなたのシステムができないなら、それはAGIではなく、非常に高価なオートコンプリートに過ぎない。 ARC賞2026は、Kaggle上で開催される3つのコンペティショントラックに合計200万ドルの賞金を提供している。すべての勝者のソリューションはオープンソース化が義務付けられている。時間は迫っており、現状ではその壁を突破できるマシンはまだ遠い。

原文表示

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし

AGIはすでに到来しているのか？ まったくの遠い話だと、新しいAIベンチマークが示唆している

要約

AGIはすでに到来しているのか？まったくの遠い話だと、新しいAIベンチマークが示唆している