出典: ギークパーク **著者 | 霊子県、李源****編集者 | 魏時傑**「そして私は年をとった」と75歳のヒントンは出席した若い科学者全員に語り、全員が「超知性を持つ方法」を研究することを望んだ。彼は、知性の劣る種が自分よりも賢いものを制御するという前例のない挑戦に直面していると考えています。 **知源人工知能会議では、AIのゴッドファーザーであるヒントンが「知能への2つの道」について講演した。彼は、コンピューティング アーキテクチャと原理の分析から、「人工ニューラル ネットワークは人間の脳よりも知能が高くなる」という独自の結論に達しました。これは当初想像していたよりもはるかに高速です。 30 分間の講演の中で、同氏はソフトウェアとハードウェアが分離されている現在のコンピューティング アーキテクチャについて語り、このルールの下では大規模なモデルのトレーニングに多くのコンピューティング パワーが消費されます。大規模なモデルのトレーニングに使用するエネルギーを減らすために、彼は **モータル コンピューティング** の概念を提案しました。人の知能がその身体に依存するのと同じように、それを自由に他の身体にコピーすることはできず、ソフトウェアはより多くのことに依存します。それが存在するハードウェア。しかし、その後の問題は、特定のハードウェアが損傷すると、ソフトウェアも損傷し、「学んだ知識も一緒に失われる」ということです。彼が提案した解決策は、ちょうど教師が生徒に教えるのと同じように、古いハードウェアに関する知識を「蒸留された」方法で新しいハードウェアに伝達することです。**「知識の蒸留」(バイオロジカル・コンピューティング)に対応する概念は「重み共有」(デジタル・コンピューティング)であり、ヒントンはこれを「インテリジェンスへの2つの道」と呼びました。 **大規模な言語モデルとそのコピーの関係は重み共有であり、各コピーはモデル パラメーター全体の知識を直接取得します。たとえば、ChatGPT は、その背後にあるモデルに基づいて、同時に何千人もの人々と会話できます。そして、全員と話し合う継続的な学習プロセスは「知識の蒸留」に属します。「知識の蒸留」は「重み付け共有」よりもはるかに効率が低く、帯域幅も狭いですが、大規模なモデルでは 1000 個のコピーを持つことができ、最終的には 1 人の人間よりも 1000 倍多くの知識を得ることができます。現在、モデルは文書、つまり人間が処理した知識からのみ学習しますが、テクノロジーが発展するにつれて、視覚情報から学習できるようになり、ロボットの操作を学習する可能性があります。そして彼らは人間よりも簡単に賢く、人を騙すのが得意なほど賢いのです。 **そして、人間は自分より賢いものとうまくやっていくのが苦手です。これらの「超賢い」知性の危険を回避するにはどうすればよいでしょうか?これは彼がすべての若い科学者に残したテーマです。 **## **以下は Geek Park がまとめた主なスピーチ内容です。****今日は、超知性が私が思っていたよりも身近にあると信じさせる研究について話します。 **話したい質問が 2 つあります。私のエネルギーは主に 1 つ目の質問に集中します。人工ニューラル ネットワークはすぐに本物のニューラル ネットワークよりも賢くなるかどうかです。そのようなことが近いうちに起こるかもしれないという結論に至った私の研究について詳しく説明します。講演の最後に、超情報統制を維持できるかどうかについてお話しますが、これはこの講演の主な内容ではありません。 従来のコンピューティングでは、コンピューターは指示に正確に従うように設計されています。ハードウェアが命令に正確に従うことがわかっているため、まったく同じプログラムやニューラル ネットワークを異なる物理ハードウェア上で実行できます。これは、プログラム内の知識またはニューラル ネットワークの重みが不滅であること、つまり特定のハードウェアに依存しないことを意味します。この種の不死性を達成するには、多額の費用がかかります。トランジスタを高電力で動作させる必要があるため、トランジスタの動作はデジタルになります。また、ハードウェアの豊富なアナログ特性と可変特性を活用することはできません。デジタル コンピューターが存在する理由、そしてデジタル コンピューターが指示に正確に従う理由は、従来の設計では、人間が問題を見て、問題を解決するためにどのような手順を実行する必要があるかを判断し、その後コンピューターにそれらの手順を実行するように指示するためです。 。しかし、それは変わりました。私たちは現在、コンピュータに何かをさせる別の方法を持っています。それは例から学ぶことであり、コンピュータにやってもらいたいことを示すだけです。この変化により、私たちはコンピューター サイエンスの最も基本的な原則の 1 つであるソフトウェアとハードウェアの分離を放棄する機会を得ました。それをあきらめる前に、なぜそれがそれほど良い原則なのかを見てみましょう。分離性により、同じプログラムを異なるハードウェアで実行できます。電子ハードウェアを気にすることなく、プログラムの特性を直接研究することもできます。だからこそ、コンピューター サイエンス学部は、電気工学部から独立した独自の学問となり得るのです。**ハードウェアとソフトウェアの分離を放棄すると、私が非不滅のコンピューティングと呼んでいるものを手に入れることができます。 **明らかに大きな欠点がありますが、いくつかの大きな利点もあります。大規模な言語モデルを少ないエネルギーで実行できるようにするため、特に言語モデルをトレーニングできるようにするために、私は非永久コンピューティングに取り組み始めました。 不死性を放棄することで得られる最大の利点は、ハードウェアとソフトウェアの分離を放棄することで、多くのエネルギーを節約できることです。なぜなら、私たちは非常に低電力でアナログ コンピューティングを使用できるからであり、それはまさに脳が行っていることなのです。ニューロンはオンかオフのいずれかであるため、1 ビットの計算が必要です。ただし、ほとんどの計算はアナログで行われるため、非常に低消費電力で実行できます。より安価なハードウェアも入手できます。したがって、今日のハードウェアは 2D (平面) で非常に正確に製造する必要がありますが、私たちは 3D (環境) で成長させることができます。これは、ハードウェアがどのように電気を伝導するか、またはハードウェアの各部分がどのように機能するかを正確に知る必要がないためです。 。明らかに、それを行うには、多くの新しいナノテクノロジー、またはおそらく生物学的ニューロンの遺伝子再工学が必要になります。なぜなら、生物学的ニューロンは、ほぼ私たちが望んでいることを行うからです。 **不滅ではないコンピューティングのすべての欠点について説明する前に、アナログ ハードウェアを使用してはるかに安価に実行できるコンピューティングの例を示したいと思います。 **ニューラル アクティビティのベクトルに重み行列を乗算する場合、それがニューラル ネットワークの中心となる計算であり、ニューラル ネットワークの作業のほとんどを実行します。私たちが現在行っていることは、数値のビットを数値で表すために非常に高い電力でトランジスタを駆動していることです。次に、2 つの n 桁の数値を乗算する O(n^2) を実行します。これはコンピュータ上の操作かもしれませんが、n の平方ビット レベルです。別のアプローチは、ニューロンの活動を電圧として、重みを導電率として実装することです。次に、単位時間内に、電圧にコンダクタンスが乗算されて電荷が得られ、電荷は自動的に加算されます。したがって、明らかに、電圧ベクトルとコンダクタンス行列を乗算することができます。これはエネルギー効率が高く、このように動作するチップはすでに存在します。残念なことに、人々はアナログの答えをデジタルに変換しようとすることになりますが、これには非常に高価な AC コンバータの使用が必要になります。できれば完全にアナログの領域に留まりたいと思っています。しかし、そうすることで、異なるハードウェアがわずかに異なる処理を実行することになります。したがって、**非永久コンピューティングの主な問題は、プログラムが学習する際、ハードウェアの各部分の特定の特性が何であるかを正確に知らずに、シミュレートされたハードウェアの特定の特性に従って学習しなければならないことです**。例: 接続性を意識せずに、ニューロンの入力をニューロンの出力に接続する正確な関数。これは、バックプロパゲーションには順伝播の正確なモデルが必要であるため、バックプロパゲーションのようなアルゴリズムを使用して勾配を取得することはできないことを意味します。そこで問題は、バックプロパゲーション アルゴリズムを使用できない場合、他に何ができるかということです。なぜなら、私たちは今、バックプロパゲーションに大きく依存しているからです。多くの研究が行われてきた、重量摂動についての非常にシンプルかつ直接的な学習を示すことができます。ネットワーク内の重みごとに、ランダムな小さな一時的な摂動ベクトルが生成されます。次に、サンプルの小さなバッチにわたって全体的な目的関数の変化を測定し、目的関数がどのように改善されるかに応じて、摂動ベクトルのサイズによって重みを永続的に変更します。したがって、目的関数が悪化すると、明らかに別の方向に進むことになります。 このアルゴリズムの優れた点は、平均して勾配にも従うため、平均してバックプロパゲーションと同様に実行されることです。問題は、ばらつきが非常に大きいことです。したがって、ランダムな方向を選択して移動すると、ネットワークのサイズが大きくなるにつれて、結果として生じるノイズが非常に悪化します。これは、このアルゴリズムは少数の接続には効果的ですが、大規模なネットワークには効果がないことを意味します。また、アクティビティ摂動学習のためのより優れたアルゴリズムもあります。まだ同様の問題はありますが、重量の摂動よりははるかに優れています。アクティビティ摂動は、各ニューロンへの合計入力のランダム ベクトル摂動とみなされるものです。ニューロンへの各入力に対してランダムなベクトル摂動を実行し、サンプルの小さなバッチに対してこのランダムな摂動を実行すると目的関数に何が起こるかを確認します。この摂動による目的関数が得られます。その後、それぞれを変更する方法を計算できます。勾配に従うニューロンの入力重み。この方法はノイズが少なくなります。MNIST のような単純なタスクの場合は、このようなアルゴリズムで十分です。しかし、大規模なニューラル ネットワークに拡張するにはまだ十分に機能しません。** 小規模なニューラル ネットワークに適用できる目的関数を見つける代わりに、大規模なニューラル ネットワークで機能する学習アルゴリズムを見つけることを試みることができます。 **そのアイデアは、大規模なニューラル ネットワークをトレーニングすることです。そして、私たちがやろうとしていることは、ネットワーク全体の小さな部分に適用される多数の小さな目的関数を用意することです。したがって、ニューロンの小グループはそれぞれ独自の局所目的関数を持ちます。**要約すると、これまでのところ、シミュレーションの特性を活用できる本当に優れた学習アルゴリズムは見つかっていませんが、悪くはなく、MNIST のような単純な問題を解決できるが、それほど良くはない学習アルゴリズムはあります。 **非不滅のコンピューティングに関する 2 番目の大きな問題は、その非不滅の性質です。これは、**特定のハードウェアが死ぬと、その学習はすべて特定のハードウェアの詳細に基づいているため、学習したすべての知識も一緒に消滅する**ことを意味します。したがって、この問題を解決する最善の方法は、ハードウェアが故障する前に教師 (古いハードウェア) から生徒 (新しいハードウェア) に知識を抽出することです。これが私が今進めようとしている研究の方向性です。 旅の途中で生成されました教師はさまざまな入力に対する正しい応答を生徒に示し、生徒は教師の応答を真似しようとしました。トランプ大統領のツイッターみたいなものだ。一部の人々は、トランプが嘘をついていると感じ、トランプが事実を説明しようとしていると考え、トランプのツイートに非常に腹を立てています。いいえ。トランプがやったことは、状況を特定し、その状況に対して的を絞った非常に感情的な反応を示すことだ。彼の信者たちはそれを見て、その状況に対処する方法を学び、ニューラルネットワークの重みを調整する方法を学び、同じように状況に感情的に反応しました。これはカルト指導者がカルト信者に偏見を教えるという事実とは何の関係もありませんが、非常に効果的です。したがって、蒸留がどのように機能するかを考える場合、エージェントが画像を 1024 個の重複しないクラスに分類することを考えてみましょう。正しい答えを表現するには、わずか 10 ビットしかかかりません。したがって、トレーニング インスタンスでエージェントをトレーニングするときに、正しい答えを伝えたとしても、ネットワークの重みに 10 ビットの制約を課すことになります。**しかしここで、これら 1024 のカテゴリに対する教師の回答に従ってエージェントを調整するようにトレーニングすると仮定します。 ** すると、同じ確率分布が得られ、その分布では 1023 個の実数が得られますが、これらの確率が小さくないと仮定すると、数百倍の制約が与えられることになります。通常、モデルをトレーニングするときは、トレーニング データ セットでモデルを正しくトレーニングし、それがテスト データで正しく一般化されることを期待します。しかし、ここでは、生徒を見つけたら、一般化するように生徒を直接訓練します。訓練された人は教師と同じように一般化するからです。 例として、MNIST の桁 2 の画像データを使用します。教師がさまざまなカテゴリに割り当てた確率を確認できます。最初の行は明らかに 2 であり、先生も 2 の可能性が高いと答えました。 2 行目、教師はそれが 2 であるとかなり自信を持っていますが、3 である可能性もあれば 8 である可能性もあると考えています。実際、3 と 8 はこの絵にわずかに似ていることがわかります。 。 3 行目では、この 2 は 0 に非常に近いです。したがって、教師は生徒に、この時点では 2 を出力することを選択する必要がありますが、0 にも少額の賭けをする必要があると伝えます。このようにして、この場合、生徒はこれが 2 であると直接教えるよりも多くのことを学ぶことができ、その形がどのような数字に見えるかを学ぶことができます。 4 行目で、先生は 2 だと思っていますが、1 である可能性も非常に高く、私はこのように 1 を書きました。時々、このように 1 を書く人もいます。そして最後の行は、実際のところ、AI の推測が間違っており、5 であると考えられ、MNIST データセットによって与えられた正解は 2 でした。そして生徒たちは実際に教師の間違いから学ぶことができます。知識蒸留モデルで私が本当に気に入っている点は、誤答の可能性が低い場合にマークを付けるなど、教師と同じ方法で一般化できるように生徒を訓練していることです。通常、モデルをトレーニングするときは、モデルにトレーニング データセットと正しい答えを与え、それがテスト データセットに正しく一般化されて正しい答えが生成されることを期待します。複雑になりすぎないようにしようとしたり、正しく一般化されることを願いながらさまざまなことをしたりします。しかし、ここでは、学生を訓練するとき、教師と同じように一般化するよう学生を直接訓練することになります。そこで今回は、エージェント コミュニティがどのように知識を共有できるかについて話したいと思います。単一のエージェントについて考えるのではなく、コミュニティ内で知識を共有することを考える方が良いでしょう。そして、コミュニティが知識を共有する方法が、コンピューティングに関して行うことの多くを決定することがわかりました。したがって、デジタル モデルとデジタル インテリジェンスを使用すると、多数のエージェントがまったく同じ重みのコピーを使用し、それらの重みをまったく同じ方法で使用できるようになります。これは、異なるエージェントがトレーニング データの異なるビットを確認できることを意味します。トレーニング データのこれらのビットの重みの勾配を計算し、その勾配を平均することができます。これで、各モデルは各モデルが認識するデータから学習します。つまり、さまざまなデータを参照するモデルのさまざまなコピーが存在し、勾配を共有できるため、多くのデータを参照する非常に優れた能力が得られます。または、非常に効率的に学んだことを共有するために重みを共有します。1 兆の重みを持つモデルがある場合、何かを共有するたびに 1 兆ビットの帯域幅が得られることになります。ただし、これを行う代償として、デジタル エージェントをまったく同じように動作させる必要があります。したがって、重量共有を使用する代わりに蒸留を使用することもできます。それが私たちがデジタルモデルで実現したことです。これは異なるアーキテクチャです。ただし、特定のハードウェアのシミュレートされた性質を利用する生物学的モデルがある場合は、これを行う必要があります。体重を共有することはできません。したがって、分散された共有知識を使用する必要がありますが、これはあまり効率的ではありません。 **蒸留に関する知識を共有するのは難しいです。私が生成する文について、あなたは同じ文を生成するために重みを変更する方法を見つけようとしています。 **ただし、これは単にグラデーションを共有する場合よりも帯域幅がはるかに低くなります。教えたことのある人なら誰でも、自分が知っていることを話して、それを生徒の脳に注ぎ込みたいと願っています。それは大学の終わりだろう。しかし、私たちは生物学的に知性があり、私のやり方はあなたにはうまくいかないので、このように働くことはできません。これまでのところ、計算を行う 2 つの異なる方法があります。 **数値コンピューティングと生物学的コンピューティング。後者は動物の特性を利用します。異なるエージェント間で知識を効果的に共有する方法が大きく異なります。 ** 大規模な言語モデルを見ると、数値計算と重み共有が使用されます。しかし、モデルの各コピー、各エージェントは、非常に非効率的な方法でファイルから知識を取得しています。文書を取得して次の単語を予測しようとすることは、実際には非常に非効率的な知識の蒸留であり、学習するのは教師による次の単語の確率分布の予測ではなく、文書作成者が選択した次の単語の内容です。したがって、これは非常に低い帯域幅になります。そしてそれが、これらの大きな言語モデルが人々から学ぶ方法です。**大規模な言語モデルの各コピーを学習するのは非効率的ですが、コピーは 1000 個あります。だからこそ、彼らは私たちの1000倍も学ぶことができるのです。したがって、これらの大規模な言語モデルは、個々の人間よりも 1000 倍多くのことを知っていると私は信じています。 **さて、問題は、これらのデジタル エージェントが、知識の蒸留を通じて非常にゆっくりと私たちから学習するのではなく、現実世界から直接学習し始めたらどうなるかということです。知識の蒸留でさえ学ぶのは非常に遅いですが、彼らが私たちから学ぶとき、彼らは非常に抽象的なことを学ぶことができることを強調しておく必要があります。 ** 人間は過去数千年にわたって世界について多くのことを学び、デジタル エージェントはこの知識を直接活用できます。人間は私たちが学んだことを言語化できるため、デジタルエージェントは、人間が過去数千年にわたって世界について学んだことすべてに直接アクセスできます。それは、人間がそれを書き留めたためです。ただし、この方法では、各デジタル エージェントの帯域幅は依然として非常に低くなります。これは、デジタル エージェントがドキュメントから学習するためです。動画をモデリングするなど教師なし学習を行う場合、動画をモデル化してモデルをトレーニングする効率的な方法が見つかると、大量のデータであるすべての YouTube 動画から学習できるようになります。あるいは、ロボットアームなどを制御できるように、物理世界を操作できるかどうか。これらのデジタルエージェントがこれを始めれば、人間よりもはるかに多くのことを学ぶことができ、かなり早く学習できるようになるだろうと私は本当に信じています。したがって、スライドショーで上で述べた 2 番目の点に到達する必要があります。これは、これらのものが私たちよりも賢くなったらどうなるでしょうか? ** もちろん、これが今回の会議の主な内容でもあります。しかし、私の主な貢献は、**これらの超知性体が私が以前考えていたよりもはるかに早く到着する可能性があることをお伝えしたいことです。 ****悪い人々は、電子機器を操作するなどのことを行うためにそれらを使用します。これは米国や他の多くの場所ですでに行われており、人々は戦争に勝つためにAIを使用しようとします。 **スーパー エージェントを効率的にしたい場合は、スーパー エージェントにサブ目標の作成を許可する必要があります。これは明らかな問題を引き起こします**。なぜなら、私たちが何かを達成するのに役立つ能力を大幅に強化できる明らかなサブ目標があるからです。それは、人工知能システムにさらなるパワーと制御を与えることです。コントロールが強化されるほど、目標を達成することが容易になります。 **デジタル・インテリジェンスが他の目標を達成するためにさらに制御しようとするのをどうやって阻止できるのかわかりません。したがって、彼らがそれをやり始めると、問題が発生します。超知能の場合、たとえそれを完全にオフラインの隔離された環境(エアギャップ)に保管していたとしても、人々を操作することでより大きな力を簡単に獲得できることがわかります。 **私たちは、自分よりはるかに賢い物事や、それらとどのように対話したいかを考えることに慣れていません。 **しかし、彼らは明らかに人々を騙すのが非常に上手になることを学ぶことができるように私には思えます。なぜなら、多くの小説やニッコロ・マキャヴェッリの作品の中に、私たちが他者を欺く行為が見られるからです。そして、人を騙すのが本当に上手になると、どんな行動も人に実行させることができるようになります。たとえば、ワシントンの建物をハッキングしたい場合、そこに行く必要はありません。その建物をハッキングすることで民主主義を救っていると人々を騙すだけです。そしてそれはかなり怖いことだと思います。**今、これを防ぐ方法がわかりません、そして私は年をとりました。 **カンファレンスに参加した皆さんのように、多くの若くて優秀な研究者が、これらの超知性をどのようにして私たちに持たせることができるかを考え出して、彼らが支配政党にならずに私たちの生活をより良くしてくれることを願っています。私たちには、これらのものは進化したのではなく、私たちが構築したという利点、わずかな利点があります。 **彼らは進化していないので、おそらく人間が持っている競合する攻撃的な目標を持っていない可能性があります** それは役立つかもしれません、おそらく私たちは彼らに道徳原則を与えることができます。しかし現時点では、知性に大きな差があったときよりも、より知的なものがより知性の低いものに支配された例を知らないので、ただ不安になっているだけだ。 **私が例として挙げたいのは、カエルが人間を創造したと仮定することです。今誰が主導権を握っていると思いますか?カエルか人間か?私のスピーチは以上です。 **
AIゴッドファーザー・ヒントン「私は年をとった、人間より賢い「超知能」をどう制御するかはあなた次第
出典: ギークパーク
「そして私は年をとった」と75歳のヒントンは出席した若い科学者全員に語り、全員が「超知性を持つ方法」を研究することを望んだ。彼は、知性の劣る種が自分よりも賢いものを制御するという前例のない挑戦に直面していると考えています。 **
知源人工知能会議では、AIのゴッドファーザーであるヒントンが「知能への2つの道」について講演した。彼は、コンピューティング アーキテクチャと原理の分析から、「人工ニューラル ネットワークは人間の脳よりも知能が高くなる」という独自の結論に達しました。これは当初想像していたよりもはるかに高速です。
しかし、その後の問題は、特定のハードウェアが損傷すると、ソフトウェアも損傷し、「学んだ知識も一緒に失われる」ということです。彼が提案した解決策は、ちょうど教師が生徒に教えるのと同じように、古いハードウェアに関する知識を「蒸留された」方法で新しいハードウェアに伝達することです。
**「知識の蒸留」(バイオロジカル・コンピューティング)に対応する概念は「重み共有」(デジタル・コンピューティング)であり、ヒントンはこれを「インテリジェンスへの2つの道」と呼びました。 **大規模な言語モデルとそのコピーの関係は重み共有であり、各コピーはモデル パラメーター全体の知識を直接取得します。たとえば、ChatGPT は、その背後にあるモデルに基づいて、同時に何千人もの人々と会話できます。そして、全員と話し合う継続的な学習プロセスは「知識の蒸留」に属します。
「知識の蒸留」は「重み付け共有」よりもはるかに効率が低く、帯域幅も狭いですが、大規模なモデルでは 1000 個のコピーを持つことができ、最終的には 1 人の人間よりも 1000 倍多くの知識を得ることができます。
現在、モデルは文書、つまり人間が処理した知識からのみ学習しますが、テクノロジーが発展するにつれて、視覚情報から学習できるようになり、ロボットの操作を学習する可能性があります。そして彼らは人間よりも簡単に賢く、人を騙すのが得意なほど賢いのです。 **そして、人間は自分より賢いものとうまくやっていくのが苦手です。これらの「超賢い」知性の危険を回避するにはどうすればよいでしょうか?これは彼がすべての若い科学者に残したテーマです。 **
以下は Geek Park がまとめた主なスピーチ内容です。
**今日は、超知性が私が思っていたよりも身近にあると信じさせる研究について話します。 **
話したい質問が 2 つあります。私のエネルギーは主に 1 つ目の質問に集中します。人工ニューラル ネットワークはすぐに本物のニューラル ネットワークよりも賢くなるかどうかです。そのようなことが近いうちに起こるかもしれないという結論に至った私の研究について詳しく説明します。講演の最後に、超情報統制を維持できるかどうかについてお話しますが、これはこの講演の主な内容ではありません。
デジタル コンピューターが存在する理由、そしてデジタル コンピューターが指示に正確に従う理由は、従来の設計では、人間が問題を見て、問題を解決するためにどのような手順を実行する必要があるかを判断し、その後コンピューターにそれらの手順を実行するように指示するためです。 。しかし、それは変わりました。
私たちは現在、コンピュータに何かをさせる別の方法を持っています。それは例から学ぶことであり、コンピュータにやってもらいたいことを示すだけです。この変化により、私たちはコンピューター サイエンスの最も基本的な原則の 1 つであるソフトウェアとハードウェアの分離を放棄する機会を得ました。
それをあきらめる前に、なぜそれがそれほど良い原則なのかを見てみましょう。分離性により、同じプログラムを異なるハードウェアで実行できます。電子ハードウェアを気にすることなく、プログラムの特性を直接研究することもできます。だからこそ、コンピューター サイエンス学部は、電気工学部から独立した独自の学問となり得るのです。
**ハードウェアとソフトウェアの分離を放棄すると、私が非不滅のコンピューティングと呼んでいるものを手に入れることができます。 **
明らかに大きな欠点がありますが、いくつかの大きな利点もあります。大規模な言語モデルを少ないエネルギーで実行できるようにするため、特に言語モデルをトレーニングできるようにするために、私は非永久コンピューティングに取り組み始めました。
より安価なハードウェアも入手できます。したがって、今日のハードウェアは 2D (平面) で非常に正確に製造する必要がありますが、私たちは 3D (環境) で成長させることができます。これは、ハードウェアがどのように電気を伝導するか、またはハードウェアの各部分がどのように機能するかを正確に知る必要がないためです。 。
明らかに、それを行うには、多くの新しいナノテクノロジー、またはおそらく生物学的ニューロンの遺伝子再工学が必要になります。なぜなら、生物学的ニューロンは、ほぼ私たちが望んでいることを行うからです。 **不滅ではないコンピューティングのすべての欠点について説明する前に、アナログ ハードウェアを使用してはるかに安価に実行できるコンピューティングの例を示したいと思います。 **
ニューラル アクティビティのベクトルに重み行列を乗算する場合、それがニューラル ネットワークの中心となる計算であり、ニューラル ネットワークの作業のほとんどを実行します。私たちが現在行っていることは、数値のビットを数値で表すために非常に高い電力でトランジスタを駆動していることです。次に、2 つの n 桁の数値を乗算する O(n^2) を実行します。これはコンピュータ上の操作かもしれませんが、n の平方ビット レベルです。
別のアプローチは、ニューロンの活動を電圧として、重みを導電率として実装することです。次に、単位時間内に、電圧にコンダクタンスが乗算されて電荷が得られ、電荷は自動的に加算されます。したがって、明らかに、電圧ベクトルとコンダクタンス行列を乗算することができます。これはエネルギー効率が高く、このように動作するチップはすでに存在します。
残念なことに、人々はアナログの答えをデジタルに変換しようとすることになりますが、これには非常に高価な AC コンバータの使用が必要になります。できれば完全にアナログの領域に留まりたいと思っています。しかし、そうすることで、異なるハードウェアがわずかに異なる処理を実行することになります。
したがって、非永久コンピューティングの主な問題は、プログラムが学習する際、ハードウェアの各部分の特定の特性が何であるかを正確に知らずに、シミュレートされたハードウェアの特定の特性に従って学習しなければならないことです。例: 接続性を意識せずに、ニューロンの入力をニューロンの出力に接続する正確な関数。
これは、バックプロパゲーションには順伝播の正確なモデルが必要であるため、バックプロパゲーションのようなアルゴリズムを使用して勾配を取得することはできないことを意味します。そこで問題は、バックプロパゲーション アルゴリズムを使用できない場合、他に何ができるかということです。なぜなら、私たちは今、バックプロパゲーションに大きく依存しているからです。
多くの研究が行われてきた、重量摂動についての非常にシンプルかつ直接的な学習を示すことができます。ネットワーク内の重みごとに、ランダムな小さな一時的な摂動ベクトルが生成されます。次に、サンプルの小さなバッチにわたって全体的な目的関数の変化を測定し、目的関数がどのように改善されるかに応じて、摂動ベクトルのサイズによって重みを永続的に変更します。したがって、目的関数が悪化すると、明らかに別の方向に進むことになります。
また、アクティビティ摂動学習のためのより優れたアルゴリズムもあります。まだ同様の問題はありますが、重量の摂動よりははるかに優れています。アクティビティ摂動は、各ニューロンへの合計入力のランダム ベクトル摂動とみなされるものです。ニューロンへの各入力に対してランダムなベクトル摂動を実行し、サンプルの小さなバッチに対してこのランダムな摂動を実行すると目的関数に何が起こるかを確認します。この摂動による目的関数が得られます。その後、それぞれを変更する方法を計算できます。勾配に従うニューロンの入力重み。この方法はノイズが少なくなります。
MNIST のような単純なタスクの場合は、このようなアルゴリズムで十分です。しかし、大規模なニューラル ネットワークに拡張するにはまだ十分に機能しません。
** 小規模なニューラル ネットワークに適用できる目的関数を見つける代わりに、大規模なニューラル ネットワークで機能する学習アルゴリズムを見つけることを試みることができます。 **そのアイデアは、大規模なニューラル ネットワークをトレーニングすることです。そして、私たちがやろうとしていることは、ネットワーク全体の小さな部分に適用される多数の小さな目的関数を用意することです。したがって、ニューロンの小グループはそれぞれ独自の局所目的関数を持ちます。
**要約すると、これまでのところ、シミュレーションの特性を活用できる本当に優れた学習アルゴリズムは見つかっていませんが、悪くはなく、MNIST のような単純な問題を解決できるが、それほど良くはない学習アルゴリズムはあります。 **
非不滅のコンピューティングに関する 2 番目の大きな問題は、その非不滅の性質です。これは、特定のハードウェアが死ぬと、その学習はすべて特定のハードウェアの詳細に基づいているため、学習したすべての知識も一緒に消滅することを意味します。したがって、この問題を解決する最善の方法は、ハードウェアが故障する前に教師 (古いハードウェア) から生徒 (新しいハードウェア) に知識を抽出することです。これが私が今進めようとしている研究の方向性です。
教師はさまざまな入力に対する正しい応答を生徒に示し、生徒は教師の応答を真似しようとしました。トランプ大統領のツイッターみたいなものだ。一部の人々は、トランプが嘘をついていると感じ、トランプが事実を説明しようとしていると考え、トランプのツイートに非常に腹を立てています。いいえ。トランプがやったことは、状況を特定し、その状況に対して的を絞った非常に感情的な反応を示すことだ。彼の信者たちはそれを見て、その状況に対処する方法を学び、ニューラルネットワークの重みを調整する方法を学び、同じように状況に感情的に反応しました。これはカルト指導者がカルト信者に偏見を教えるという事実とは何の関係もありませんが、非常に効果的です。
したがって、蒸留がどのように機能するかを考える場合、エージェントが画像を 1024 個の重複しないクラスに分類することを考えてみましょう。正しい答えを表現するには、わずか 10 ビットしかかかりません。したがって、トレーニング インスタンスでエージェントをトレーニングするときに、正しい答えを伝えたとしても、ネットワークの重みに 10 ビットの制約を課すことになります。
**しかしここで、これら 1024 のカテゴリに対する教師の回答に従ってエージェントを調整するようにトレーニングすると仮定します。 ** すると、同じ確率分布が得られ、その分布では 1023 個の実数が得られますが、これらの確率が小さくないと仮定すると、数百倍の制約が与えられることになります。
通常、モデルをトレーニングするときは、トレーニング データ セットでモデルを正しくトレーニングし、それがテスト データで正しく一般化されることを期待します。しかし、ここでは、生徒を見つけたら、一般化するように生徒を直接訓練します。訓練された人は教師と同じように一般化するからです。
最初の行は明らかに 2 であり、先生も 2 の可能性が高いと答えました。 2 行目、教師はそれが 2 であるとかなり自信を持っていますが、3 である可能性もあれば 8 である可能性もあると考えています。実際、3 と 8 はこの絵にわずかに似ていることがわかります。 。 3 行目では、この 2 は 0 に非常に近いです。したがって、教師は生徒に、この時点では 2 を出力することを選択する必要がありますが、0 にも少額の賭けをする必要があると伝えます。このようにして、この場合、生徒はこれが 2 であると直接教えるよりも多くのことを学ぶことができ、その形がどのような数字に見えるかを学ぶことができます。 4 行目で、先生は 2 だと思っていますが、1 である可能性も非常に高く、私はこのように 1 を書きました。時々、このように 1 を書く人もいます。
そして最後の行は、実際のところ、AI の推測が間違っており、5 であると考えられ、MNIST データセットによって与えられた正解は 2 でした。そして生徒たちは実際に教師の間違いから学ぶことができます。
知識蒸留モデルで私が本当に気に入っている点は、誤答の可能性が低い場合にマークを付けるなど、教師と同じ方法で一般化できるように生徒を訓練していることです。通常、モデルをトレーニングするときは、モデルにトレーニング データセットと正しい答えを与え、それがテスト データセットに正しく一般化されて正しい答えが生成されることを期待します。複雑になりすぎないようにしようとしたり、正しく一般化されることを願いながらさまざまなことをしたりします。しかし、ここでは、学生を訓練するとき、教師と同じように一般化するよう学生を直接訓練することになります。
そこで今回は、エージェント コミュニティがどのように知識を共有できるかについて話したいと思います。単一のエージェントについて考えるのではなく、コミュニティ内で知識を共有することを考える方が良いでしょう。
そして、コミュニティが知識を共有する方法が、コンピューティングに関して行うことの多くを決定することがわかりました。したがって、デジタル モデルとデジタル インテリジェンスを使用すると、多数のエージェントがまったく同じ重みのコピーを使用し、それらの重みをまったく同じ方法で使用できるようになります。これは、異なるエージェントがトレーニング データの異なるビットを確認できることを意味します。
トレーニング データのこれらのビットの重みの勾配を計算し、その勾配を平均することができます。これで、各モデルは各モデルが認識するデータから学習します。つまり、さまざまなデータを参照するモデルのさまざまなコピーが存在し、勾配を共有できるため、多くのデータを参照する非常に優れた能力が得られます。または、非常に効率的に学んだことを共有するために重みを共有します。
1 兆の重みを持つモデルがある場合、何かを共有するたびに 1 兆ビットの帯域幅が得られることになります。ただし、これを行う代償として、デジタル エージェントをまったく同じように動作させる必要があります。
したがって、重量共有を使用する代わりに蒸留を使用することもできます。それが私たちがデジタルモデルで実現したことです。これは異なるアーキテクチャです。
ただし、特定のハードウェアのシミュレートされた性質を利用する生物学的モデルがある場合は、これを行う必要があります。体重を共有することはできません。したがって、分散された共有知識を使用する必要がありますが、これはあまり効率的ではありません。 **蒸留に関する知識を共有するのは難しいです。私が生成する文について、あなたは同じ文を生成するために重みを変更する方法を見つけようとしています。 **
ただし、これは単にグラデーションを共有する場合よりも帯域幅がはるかに低くなります。教えたことのある人なら誰でも、自分が知っていることを話して、それを生徒の脳に注ぎ込みたいと願っています。それは大学の終わりだろう。しかし、私たちは生物学的に知性があり、私のやり方はあなたにはうまくいかないので、このように働くことはできません。
これまでのところ、計算を行う 2 つの異なる方法があります。 **数値コンピューティングと生物学的コンピューティング。後者は動物の特性を利用します。異なるエージェント間で知識を効果的に共有する方法が大きく異なります。 **
**大規模な言語モデルの各コピーを学習するのは非効率的ですが、コピーは 1000 個あります。だからこそ、彼らは私たちの1000倍も学ぶことができるのです。したがって、これらの大規模な言語モデルは、個々の人間よりも 1000 倍多くのことを知っていると私は信じています。 **
さて、問題は、これらのデジタル エージェントが、知識の蒸留を通じて非常にゆっくりと私たちから学習するのではなく、現実世界から直接学習し始めたらどうなるかということです。
知識の蒸留でさえ学ぶのは非常に遅いですが、彼らが私たちから学ぶとき、彼らは非常に抽象的なことを学ぶことができることを強調しておく必要があります。 ** 人間は過去数千年にわたって世界について多くのことを学び、デジタル エージェントはこの知識を直接活用できます。人間は私たちが学んだことを言語化できるため、デジタルエージェントは、人間が過去数千年にわたって世界について学んだことすべてに直接アクセスできます。それは、人間がそれを書き留めたためです。
ただし、この方法では、各デジタル エージェントの帯域幅は依然として非常に低くなります。これは、デジタル エージェントがドキュメントから学習するためです。動画をモデリングするなど教師なし学習を行う場合、動画をモデル化してモデルをトレーニングする効率的な方法が見つかると、大量のデータであるすべての YouTube 動画から学習できるようになります。あるいは、ロボットアームなどを制御できるように、物理世界を操作できるかどうか。
これらのデジタルエージェントがこれを始めれば、人間よりもはるかに多くのことを学ぶことができ、かなり早く学習できるようになるだろうと私は本当に信じています。したがって、スライドショーで上で述べた 2 番目の点に到達する必要があります。これは、これらのものが私たちよりも賢くなったらどうなるでしょうか? **
**悪い人々は、電子機器を操作するなどのことを行うためにそれらを使用します。これは米国や他の多くの場所ですでに行われており、人々は戦争に勝つためにAIを使用しようとします。 **
スーパー エージェントを効率的にしたい場合は、スーパー エージェントにサブ目標の作成を許可する必要があります。これは明らかな問題を引き起こします**。なぜなら、私たちが何かを達成するのに役立つ能力を大幅に強化できる明らかなサブ目標があるからです。それは、人工知能システムにさらなるパワーと制御を与えることです。コントロールが強化されるほど、目標を達成することが容易になります。 **デジタル・インテリジェンスが他の目標を達成するためにさらに制御しようとするのをどうやって阻止できるのかわかりません。したがって、彼らがそれをやり始めると、問題が発生します。
超知能の場合、たとえそれを完全にオフラインの隔離された環境(エアギャップ)に保管していたとしても、人々を操作することでより大きな力を簡単に獲得できることがわかります。 **私たちは、自分よりはるかに賢い物事や、それらとどのように対話したいかを考えることに慣れていません。 **しかし、彼らは明らかに人々を騙すのが非常に上手になることを学ぶことができるように私には思えます。なぜなら、多くの小説やニッコロ・マキャヴェッリの作品の中に、私たちが他者を欺く行為が見られるからです。そして、人を騙すのが本当に上手になると、どんな行動も人に実行させることができるようになります。たとえば、ワシントンの建物をハッキングしたい場合、そこに行く必要はありません。その建物をハッキングすることで民主主義を救っていると人々を騙すだけです。そしてそれはかなり怖いことだと思います。
**今、これを防ぐ方法がわかりません、そして私は年をとりました。 **カンファレンスに参加した皆さんのように、多くの若くて優秀な研究者が、これらの超知性をどのようにして私たちに持たせることができるかを考え出して、彼らが支配政党にならずに私たちの生活をより良くしてくれることを願っています。
私たちには、これらのものは進化したのではなく、私たちが構築したという利点、わずかな利点があります。 彼らは進化していないので、おそらく人間が持っている競合する攻撃的な目標を持っていない可能性があります それは役立つかもしれません、おそらく私たちは彼らに道徳原則を与えることができます。しかし現時点では、知性に大きな差があったときよりも、より知的なものがより知性の低いものに支配された例を知らないので、ただ不安になっているだけだ。 **私が例として挙げたいのは、カエルが人間を創造したと仮定することです。今誰が主導権を握っていると思いますか?カエルか人間か?私のスピーチは以上です。 **