モデルが使用できるコンテキストの量と、モデルがコンテキストをどの程度効率的に使用できるかは、2 つのまったく異なる問題です。私たちがしなければならないことは、モデル コンテキストの長さを増やしながら、並行してモデル処理コンテキストの効率を高めることです。たとえば、「Lost in the Middle: How Language Models Use Long Contexts」という論文では、モデルがインデックスの中間の情報ではなく先頭と末尾の情報をどのようにしてよりよく理解できるかについて説明しています。
致命的な幻覚、代替 GPU の開発、大型モデルは依然としてこれら 10 の主要な課題に直面しています
ChatGPT、GPT-4などのリリースにより、さまざまな課題を伴う大型モデル(LLM)の魅力が見えてきました。
LLM をより良くするにはどうすればよいでしょうか?大規模なモデルに直面して、どのような問題を解決する必要がありますか? AI分野における重要な研究テーマとなっている。
この記事では、コンピューター科学者の Chip Huyen が 10 の側面から始めて、LLM が直面する課題を包括的に説明します。具体的には、最初の 2 つの側面は幻覚とコンテキスト学習に関するもので、他のいくつかの側面にはマルチモダリティ、アーキテクチャ、GPU の代替手段の発見などが含まれますが、これらに限定されません。
以下は原文の翻訳です。
1. 幻覚を軽減する方法
幻覚の問題は、LLM によって生成されたテキストが流動的で自然であるものの、コンテンツのソースに忠実ではない (本質的問題) および/または不確実である (外部問題) 場合に発生します。この問題は LLM に広く存在します。
そのため、幻覚の軽減や幻覚を測定する指標の開発は非常に重要であり、多くの企業や機関がこの問題に注目しています。 Chip Huyen 氏は、この段階で幻覚を軽減するには、プロンプトにコンテキストを追加する、思考連鎖を使用する、モデルの応答をより簡潔にするなど、多くの方法があると述べました。
参照できる資料には次のものがあります。
2. コンテキストの長さとコンテキスト構造を最適化する
LLM のもう 1 つの研究対象はコンテキストの長さです。大規模なモデルはユーザーの質問に答えるときにコンテキストを参照する必要があり、処理できる長さが長いほど LLM にとって有用になるためです。たとえば、ChatGPT に「最高のベトナム料理レストランはどれですか?」と尋ねました。この質問に直面した場合、ChatGPT はコンテキストを参照して、ユーザーがベトナムで最高のベトナム料理レストランについて尋ねているのか、それとも米国で最高のベトナム料理レストランについて尋ねているのかを判断する必要があります。州も同じではありません。
このサブセクションでは、Chip Huyen がいくつかの関連論文を紹介します。
1 つ目は「SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA」で、著者は両方ともテキサス大学オースティン校の出身です。この論文ではオープン検索 QA データセット SITUATEDQA を紹介しており、興味のある読者はそれをチェックして詳細を学ぶことができます。
Chip Huyen 氏は、モデルは提供されたコンテキストから学習するため、このプロセスはコンテキスト学習と呼ばれると述べました。
RGA 操作プロセスは、チャンキング (取得とも呼ばれる) フェーズとクエリ フェーズの 2 つのフェーズに分かれています。
モデルが使用できるコンテキストの量と、モデルがコンテキストをどの程度効率的に使用できるかは、2 つのまったく異なる問題です。私たちがしなければならないことは、モデル コンテキストの長さを増やしながら、並行してモデル処理コンテキストの効率を高めることです。たとえば、「Lost in the Middle: How Language Models Use Long Contexts」という論文では、モデルがインデックスの中間の情報ではなく先頭と末尾の情報をどのようにしてよりよく理解できるかについて説明しています。
3. マルチモーダル
Chip Huyen 氏は、マルチモダリティが非常に重要であると信じています。
まず、ヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテイメントなどの分野では、マルチモーダル データが必要です。たとえば、医療予測には、CT、X 線、MRI スキャンなどの画像情報だけでなく、医師のメモや患者のアンケートなどのテキスト コンテンツも必要です。
第 2 に、マルチモダリティによりモデルのパフォーマンスが大幅に向上し、テキストと画像の両方を理解できるモデルの方が、テキストのみを理解できるモデルよりもパフォーマンスが向上します。しかし、テキストベースのモデルはテキストを非常に要求するため、人々はモデルをトレーニングするためのインターネット データが間もなく枯渇するのではないかと心配し始めています。テキストを使い尽くしたら、他のデータ形式を検討する必要があります。
マルチモダリティについては、次のコンテンツを参照してください。
4. LLM をより速く、より安くする
GPT-3.5は2022年11月下旬に初めてリリースされ、多くの人が使用コストの高さを懸念しています。しかし、コミュニティはわずか半年で、パフォーマンスの点で GPT-3.5 に近いモデルを発見し、必要なメモリ使用量は GPT-3.5 のわずか 2% に抑えられました。
チップ・フエン氏は、十分に優れたものを作成すれば、人々はすぐにそれを早く安く作る方法を見つけるだろうと語った。
知識蒸留による Alpaca のトレーニングや、低ランク分解と量子化を組み合わせた QLoRA など、上記の 4 つの方法は依然として人気があります。
5. 新しいモデル アーキテクチャを設計する
2012 年の AlexNet のリリース以来、LSTM、seq2seq を含む多くのアーキテクチャが人気を博しましたが、その後廃止されました。それと違って、トランスフォーマーは信じられないほど粘着力があります。 2017 年から存在し、現在まで広く使用されています。このアーキテクチャがいつまで人気があるかを見積もるのは困難です。
しかし、Transformerを超える全く新しいアーキテクチャを開発することは容易ではありません。過去 6 年間、研究者は Transformer に対して多くの最適化を行ってきました。モデル アーキテクチャに加えて、ハードウェア レベルでの最適化も含まれます。
アメリカのコンピューター科学者 Chris Ré が率いる研究室は、2021 年の S4 に関して多くの研究を実施しました。詳細については、論文「構造化状態空間を使用した長いシーケンスの効率的なモデリング」を参照してください。さらに、Chris Ré 研究所は新しいアーキテクチャの開発に多額の投資を行っており、最近ではスタートアップの Together と提携して Monarch Mixer アーキテクチャを開発しました。
彼らの重要なアイデアは、既存の Transformer アーキテクチャの場合、注目される複雑さはシーケンス長の 2 次であるのに対し、MLP の複雑さはモデル次元の 2 次であり、複雑さが低いアーキテクチャの方が効率的であるということです。
2012 年の AlexNet のリリース以来、GPU がディープラーニングの主流を占めてきました。実際、AlexNet の人気のよく知られた理由の 1 つは、これが GPU を使用してニューラル ネットワークのトレーニングに成功した最初の論文であることです。 GPU が登場する前は、AlexNet のサイズのモデルをトレーニングしたい場合、数千の CPU を使用する必要があり、数個の GPU でそれを行うことができました。
過去 10 年間にわたり、大企業と新興企業の両方が人工知能用の新しいハードウェアを開発しようと試みてきました。最も代表的なものには、Google の TPU、Graphcore の IPU、AI チップ会社 Cerebras などがありますが、これらに限定されません。さらに、AI チップのスタートアップである SambaNova は、新しい AI チップの開発のために 10 億ドル以上を調達しました。
もう 1 つの興味深い方向性はフォトニック チップです。フォトニック チップは、光子を使用してデータを移動させ、より高速で効率的な計算を可能にします。この分野のいくつかのスタートアップ企業は、Lightmatter (2 億 7,000 万ドル)、Ayar Labs (2 億 2,000 万ドル)、Lightelligence (2 億ドル以上)、Luminous Compute (1 億 1,500 万ドル) など、数億ドルを調達しています。
以下は、フォトニック マトリックス コンピューティングにおける 3 つの主要なアプローチの進歩の年表であり、論文「フォトニック マトリックスの乗算がフォトニック アクセラレータとその先を照らす」から抜粋したものです。 3 つの方式は、平面光変換 (PLC)、マッハツェンダー干渉計 (MZI)、および波長分割多重 (WDM) です。
エージェントは、インターネットの閲覧、電子メールの送信、部屋の予約などのアクションを実行できる LLM です。この記事の他の研究方向と比較すると、この方向は比較的遅く登場したものであり、誰にとっても非常に新しいものです。
その新規性と大きな可能性のために、誰もがインテリジェントエージェントに異常なほどの執着を持っています。 Auto-GPT は現在、GitHub で 25 番目に人気のあるプロジェクトです。 GPT エンジニアリングも非常に人気のあるプロジェクトです。
これは期待されており、興味深いことですが、LLM が行動する権利を与えるのに十分な信頼性とパフォーマンスを備えているかどうかは依然として疑問です。
しかし、すでに登場している応用例は、エージェントを社会調査に応用することです。少し前に、スタンフォード大学は「仮想都市」スモールビルをオープンソース化しました。町には 25 人の AI エージェントが住んでいました。彼らは仕事を持っており、噂話をすることができ、社会的な活動を組織することができますアクティビティを行ったり、新しい友達を作ったり、バレンタインデー パーティーを主催したりすることもでき、町の住人はそれぞれ独自の個性とバックストーリーを持っています。
詳細については、以下の論文を参照してください。
おそらくこの分野で最も有名なスタートアップは、Transformer の共著者 2 名と OpenAI の元副社長によって設立された Adept で、これまでに 5 億ドル近くを調達しています。昨年、彼らはエージェントがどのようにインターネットを閲覧し、Salesforce に新しいアカウントを追加できるかを示すデモを行いました。
、再生時間 03:30
8. 人間の好みから学習を改善
RLHF は人間の好みからの強化学習の略です。 RLHF にはまだ解決すべき問題がたくさんあるのですから、人々が LLM を訓練する別の方法を見つけても不思議ではありません。チップ・フエン氏は以下の3点を挙げた。
**人間の好みを数学的に表現するにはどうすればよいでしょうか? **
現在、人間の好みは比較によって決定されます。ヒューマン アノテーターは、応答 A が応答 B より優れているかどうかを判断しますが、応答 A が応答 B よりどの程度優れているかは考慮しません。
**人間の好みとは何ですか? **
Anthropic は、有用性、誠実さ、無邪気さの 3 つの軸に沿ってモデルの応答品質を測定します。
DeepMind はまた、多数派を満足させる応答を生成しようとします。以下のこの論文を参照してください。
しかし、明確にしておきたいのは、私たちが望むのは、自分の立場を主張できる AI でしょうか、それとも、物議を醸す可能性のあるトピックを回避する汎用 AI でしょうか?
**「人」の好みは誰の好みですか? **
文化、宗教などの違いを考慮すると、すべての潜在的なユーザーを適切に表すトレーニング データを取得するには多くの課題があります。
たとえば、OpenAI の InstructGPT データでは、ラベラーは主にフィリピン人とバングラデシュ人であり、地理的な違いにより多少の差異が生じる可能性があります。
研究コミュニティもこれに取り組んでいますが、データの偏りは依然として残っています。たとえば、OpenAssistant データセットの人口統計分布では、回答者 222 人中 201 人 (90.5%) が男性でした。
ChatGPT 以来、チャットがさまざまなタスクに適しているかどうかについて多くの議論が行われてきました。たとえば、次のような議論があります。
ただし、こうした議論は新しいものではありません。多くの国、特にアジアでは、約 10 年にわたってスーパー アプリのインターフェイスとしてチャットが使用されてきました。
2016 年、多くのアプリは死に、チャットボットが未来だと考えられていましたが、議論は再び緊迫したものになりました。
※チャットインターフェースについて:
Chip Huyen 氏は、次の理由からチャット インターフェイスがとても気に入っていると述べました。
しかし、Chip Huyen 氏は、チャット インターフェイスにはいくつかの点で改善の余地があると考えています。彼は次のような提案をしています
現在のところ、ラウンドごとに送信できるメッセージは 1 つだけであると考えられています。しかし、実際の生活ではそうはいきません。通常、個人のアイデアを完成させるには複数の情報が必要です。その過程でさまざまなデータ (写真、場所、リンクなど) を挿入する必要があり、ユーザーは以前の情報で何かを見逃していたり、単に認識していない可能性があるためです。すべてを含めたい 長い段落で書きます。
マルチモーダル アプリケーションの領域では、ほとんどの労力はより良いモデルの構築に費やされ、より良いインターフェイスの構築にはほとんど費やされません。 Nvidia の NeVA チャットボットの場合、ユーザー エクスペリエンスを改善する余地があるかもしれません。
ライナス・リーは、「チャットを超えた AI 生成のインターフェース」という講演の中で、このことをうまく表現しています。たとえば、作成中のグラフの列について質問したい場合は、その列を指して質問するだけで済みます。
ビデオアドレス:
ユーザー入力を編集または削除すると、チャットボットとの会話の流れがどのように変化するかについて考えてみる価値があります。
10. 英語以外の言語用の LLM の構築
英語を第一言語とする現在の LLM は、パフォーマンス、遅延、速度の点で他の言語にうまく対応できません。関連コンテンツでは次の記事を読むことができます。
チップ・フエン氏によると、この記事を初期に読んだ何人かの読者は、次の 2 つの理由から、この方向性を含めるべきではないと考えていると語ったという。
機械翻訳やチャットボットなどの AI ツールが言語学習に与える影響は不明です。それが人々が新しい言語をより速く学ぶのに役立つのか、それとも新しい言語を完全に学ぶ必要性をなくすのに役立つのかは不明です。
要約
このホワイトペーパーで説明されている問題には、さまざまな難易度があります。たとえば、最後の問題は、十分なリソースと時間があれば、英語以外の言語用の LLM を構築することも可能です。
最初の問題の 1 つは、幻覚を減らすことですが、幻覚は LLM が確率的なことをしているだけであるため、これは非常に困難です。
4 番目の問題は、LLM をより高速かつ安価にすることであり、これは完全には解決されません。この分野ではある程度の進歩が見られ、今後もさらなる進歩が見られるでしょうが、完璧に改善することは決してありません。
5 番目と 6 番目の問題は新しいアーキテクチャと新しいハードウェアであり、これは非常に困難ですが、時間の経過とともに避けられません。新しいアーキテクチャは汎用ハードウェア向けに最適化する必要があり、ハードウェアは汎用アーキテクチャをサポートする必要があるという、アーキテクチャとハードウェアの共生関係により、この問題は同じ企業によって解決できる可能性があります。
技術的な知識だけでは解決できない問題もあります。たとえば、人間の好みから学習するための方法を改善するという 8 番目の問題は、技術的な問題というよりも政策的な問題である可能性があります。 9 番目の質問、インターフェイスの効率の向上に関して言えば、これはユーザー エクスペリエンスの問題に近いため、この問題を一緒に解決するには、技術的知識以外の背景を持つより多くの人々が必要です。
これらの問題を別の角度から見てみたい場合は、Chip Huyen 氏が次の論文を読むことをお勧めします。