致命的な幻覚、代替 GPU の開発、大型モデルは依然としてこれら 10 の主要な課題に直面しています

ChatGPT、GPT-4などのリリースにより、さまざまな課題を伴う大型モデル(LLM)の魅力が見えてきました。

画像ソース: Unbounded AI によって生成

LLM をより良くするにはどうすればよいでしょうか?大規模なモデルに直面して、どのような問題を解決する必要がありますか? AI分野における重要な研究テーマとなっている。

この記事では、コンピューター科学者の Chip Huyen が 10 の側面から始めて、LLM が直面する課題を包括的に説明します。具体的には、最初の 2 つの側面は幻覚とコンテキスト学習に関するもので、他のいくつかの側面にはマルチモダリティ、アーキテクチャ、GPU の代替手段の発見などが含まれますが、これらに限定されません。

元のアドレス:

以下は原文の翻訳です。

1. 幻覚を軽減する方法

幻覚の問題は、LLM によって生成されたテキストが流動的で自然であるものの、コンテンツのソースに忠実ではない (本質的問題) および/または不確実である (外部問題) 場合に発生します。この問題は LLM に広く存在します。

そのため、幻覚の軽減や幻覚を測定する指標の開発は非常に重要であり、多くの企業や機関がこの問題に注目しています。 Chip Huyen 氏は、この段階で幻覚を軽減するには、プロンプトにコンテキストを追加する、思考連鎖を使用する、モデルの応答をより簡潔にするなど、多くの方法があると述べました。

参照できる資料には次のものがあります。

  • 自然言語生成における幻覚に関する研究のレビュー:
  • 言語モデルの幻想が雪だるま式に膨らむ様子:
  • 推論、幻覚、対話性に関する ChatGPT の評価:
  • 対比学習により、会話中の幻覚が軽減されます。
  • 自己一貫性により、言語モデルの思考連鎖推論能力が向上します。
  • 大規模言語生成モデルのブラックボックス幻覚検出:

2. コンテキストの長さとコンテキスト構造を最適化する

LLM のもう 1 つの研究対象はコンテキストの長さです。大規模なモデルはユーザーの質問に答えるときにコンテキストを参照する必要があり、処理できる長さが長いほど LLM にとって有用になるためです。たとえば、ChatGPT に「最高のベトナム料理レストランはどれですか?」と尋ねました。この質問に直面した場合、ChatGPT はコンテキストを参照して、ユーザーがベトナムで最高のベトナム料理レストランについて尋ねているのか、それとも米国で最高のベトナム料理レストランについて尋ねているのかを判断する必要があります。州も同じではありません。

このサブセクションでは、Chip Huyen がいくつかの関連論文を紹介します。

1 つ目は「SITUATEDQA: Incorporating Extra-Linguistic Contexts into QA」で、著者は両方ともテキサス大学オースティン校の出身です。この論文ではオープン検索 QA データセット SITUATEDQA を紹介しており、興味のある読者はそれをチェックして詳細を学ぶことができます。

Chip Huyen 氏は、モデルは提供されたコンテキストから学習するため、このプロセスはコンテキスト学習と呼ばれると述べました。

2つ目の論文は「知識集約型NLPタスクのためのRetri-Augmented Generation」で、事前学習された言語モデルと外部知識を組み合わせてオープンドメインの生成的質問応答やその他の知識を実現できるRAG(Retri-Augmented Generation)を提案しています。集中的なタスク。

RGA 操作プロセスは、チャンキング (取得とも呼ばれる) フェーズとクエリ フェーズの 2 つのフェーズに分かれています。

この調査に基づいて、多くの人は、コンテキストが長いほど、モデルに詰め込まれる情報が多くなり、応答が良くなると考えています。チップ・フエン氏は、この発言は完全に真実ではないと考えています。

モデルが使用できるコンテキストの量と、モデルがコンテキストをどの程度効率的に使用できるかは、2 つのまったく異なる問題です。私たちがしなければならないことは、モデル コンテキストの長さを増やしながら、並行してモデル処理コンテキストの効率を高めることです。たとえば、「Lost in the Middle: How Language Models Use Long Contexts」という論文では、モデルがインデックスの中間の情報ではなく先頭と末尾の情報をどのようにしてよりよく理解できるかについて説明しています。

3. マルチモーダル

Chip Huyen 氏は、マルチモダリティが非常に重要であると信じています。

まず、ヘルスケア、ロボット工学、電子商取引、小売、ゲーム、エンターテイメントなどの分野では、マルチモーダル データが必要です。たとえば、医療予測には、CT、X 線、MRI スキャンなどの画像情報だけでなく、医師のメモや患者のアンケートなどのテキスト コンテンツも必要です。

第 2 に、マルチモダリティによりモデルのパフォーマンスが大幅に向上し、テキストと画像の両方を理解できるモデルの方が、テキストのみを理解できるモデルよりもパフォーマンスが向上します。しかし、テキストベースのモデルはテキストを非常に要求するため、人々はモデルをトレーニングするためのインターネット データが間もなく枯渇するのではないかと心配し始めています。テキストを使い尽くしたら、他のデータ形式を検討する必要があります。

フラミンゴのアーキテクチャ図

マルチモダリティについては、次のコンテンツを参照してください。

  • 论文 1《自然言語監督から伝達可能な視覚モデルを学習する》:
  • 论文 2《Flamingo: 少数ショット学習のための視覚言語モデル》:
  • 论文 3《BLIP-2: 凍結画像エンコーダと大規模言語モデルを使用したブートストラッピング言語画像事前トレーニング》:
  • 论文 4《必要なのは言語だけではありません: 認識を言語モデルに合わせる》:
  • 論文 5「視覚的指示のチューニング」:
  • Google PaLM-E:
  • NVIDIA NeVA:

4. LLM をより速く、より安くする

GPT-3.5は2022年11月下旬に初めてリリースされ、多くの人が使用コストの高さを懸念しています。しかし、コミュニティはわずか半年で、パフォーマンスの点で GPT-3.5 に近いモデルを発見し、必要なメモリ使用量は GPT-3.5 のわずか 2% に抑えられました。

チップ・フエン氏は、十分に優れたものを作成すれば、人々はすぐにそれを早く安く作る方法を見つけるだろうと語った。

以下は、Guanaco 7B と ChatGPT や GPT-4 などのモデルのパフォーマンスの比較です。しかし、LLM を評価するのは非常に難しいことを強調しなければなりません。

次に、Chip Huyen 氏はモデルの最適化と圧縮のテクニックを挙げました。

  • 定量化: 現在までのモデル最適化の最も一般的な方法。量子化では、パラメーターを表現するために使用するビットが少なくなり、モデルのサイズが削減されます。たとえば、32 ビットの浮動小数点数を 16 ビット、さらには 4 ビットの浮動小数点数に変更します。
  • 知識の蒸留: 小さなモデル (生徒) をトレーニングして、より大きなモデルまたはモデルのアンサンブル (教師) を模倣する方法。
  • 低ランク分解: 重要なアイデアは、高次元テンソルを低次元テンソルに置き換えてパラメータの数を減らすことです。たとえば、ユーザーは 3x3 テンソルを 3x1 と 1x3 テンソルの積に分解して、パラメーターが 9 つではなく 6 つだけになるようにすることができます。 *剪定。

知識蒸留による Alpaca のトレーニングや、低ランク分解と量子化を組み合わせた QLoRA など、上記の 4 つの方法は依然として人気があります。

5. 新しいモデル アーキテクチャを設計する

2012 年の AlexNet のリリース以来、LSTM、seq2seq を含む多くのアーキテクチャが人気を博しましたが、その後廃止されました。それと違って、トランスフォーマーは信じられないほど粘着力があります。 2017 年から存在し、現在まで広く使用されています。このアーキテクチャがいつまで人気があるかを見積もるのは困難です。

しかし、Transformerを超える全く新しいアーキテクチャを開発することは容易ではありません。過去 6 年間、研究者は Transformer に対して多くの最適化を行ってきました。モデル アーキテクチャに加えて、ハードウェア レベルでの最適化も含まれます。

アメリカのコンピューター科学者 Chris Ré が率いる研究室は、2021 年の S4 に関して多くの研究を実施しました。詳細については、論文「構造化状態空間を使用した長いシーケンスの効率的なモデリング」を参照してください。さらに、Chris Ré 研究所は新しいアーキテクチャの開発に多額の投資を行っており、最近ではスタートアップの Together と提携して Monarch Mixer アーキテクチャを開発しました。

彼らの重要なアイデアは、既存の Transformer アーキテクチャの場合、注目される複雑さはシーケンス長の 2 次であるのに対し、MLP の複雑さはモデル次元の 2 次であり、複雑さが低いアーキテクチャの方が効率的であるということです。

6. 代替 GPU を開発する

2012 年の AlexNet のリリース以来、GPU がディープラーニングの主流を占めてきました。実際、AlexNet の人気のよく知られた理由の 1 つは、これが GPU を使用してニューラル ネットワークのトレーニングに成功した最初の論文であることです。 GPU が登場する前は、AlexNet のサイズのモデルをトレーニングしたい場合、数千の CPU を使用する必要があり、数個の GPU でそれを行うことができました。

過去 10 年間にわたり、大企業と新興企業の両方が人工知能用の新しいハードウェアを開発しようと試みてきました。最も代表的なものには、Google の TPU、Graphcore の IPU、AI チップ会社 Cerebras などがありますが、これらに限定されません。さらに、AI チップのスタートアップである SambaNova は、新しい AI チップの開発のために 10 億ドル以上を調達しました。

もう 1 つの興味深い方向性はフォトニック チップです。フォトニック チップは、光子を使用してデータを移動させ、より高速で効率的な計算を可能にします。この分野のいくつかのスタートアップ企業は、Lightmatter (2 億 7,000 万ドル)、Ayar Labs (2 億 2,000 万ドル)、Lightelligence (2 億ドル以上)、Luminous Compute (1 億 1,500 万ドル) など、数億ドルを調達しています。

以下は、フォトニック マトリックス コンピューティングにおける 3 つの主要なアプローチの進歩の年表であり、論文「フォトニック マトリックスの乗算がフォトニック アクセラレータとその先を照らす」から抜粋したものです。 3 つの方式は、平面光変換 (PLC)、マッハツェンダー干渉計 (MZI)、および波長分割多重 (WDM) です。

7. エージェントをさらに使いやすくする

エージェントは、インターネットの閲覧、電子メールの送信、部屋の予約などのアクションを実行できる LLM です。この記事の他の研究方向と比較すると、この方向は比較的遅く登場したものであり、誰にとっても非常に新しいものです。

その新規性と大きな可能性のために、誰もがインテリジェントエージェントに異常なほどの執着を持っています。 Auto-GPT は現在、GitHub で 25 番目に人気のあるプロジェクトです。 GPT エンジニアリングも非常に人気のあるプロジェクトです。

これは期待されており、興味深いことですが、LLM が行動する権利を与えるのに十分な信頼性とパフォーマンスを備えているかどうかは依然として疑問です。

しかし、すでに登場している応用例は、エージェントを社会調査に応用することです。少し前に、スタンフォード大学は「仮想都市」スモールビルをオープンソース化しました。町には 25 人の AI エージェントが住んでいました。彼らは仕事を持っており、噂話をすることができ、社会的な活動を組織することができますアクティビティを行ったり、新しい友達を作ったり、バレンタインデー パーティーを主催したりすることもでき、町の住人はそれぞれ独自の個性とバックストーリーを持っています。

詳細については、以下の論文を参照してください。

用紙のアドレス:

おそらくこの分野で最も有名なスタートアップは、Transformer の共著者 2 名と OpenAI の元副社長によって設立された Adept で、これまでに 5 億ドル近くを調達しています。昨年、彼らはエージェントがどのようにインターネットを閲覧し、Salesforce に新しいアカウントを追加できるかを示すデモを行いました。

、再生時間 03:30

8. 人間の好みから学習を改善

RLHF は人間の好みからの強化学習の略です。 RLHF にはまだ解決すべき問題がたくさんあるのですから、人々が LLM を訓練する別の方法を見つけても不思議ではありません。チップ・フエン氏は以下の3点を挙げた。

**人間の好みを数学的に表現するにはどうすればよいでしょうか? **

現在、人間の好みは比較によって決定されます。ヒューマン アノテーターは、応答 A が応答 B より優れているかどうかを判断しますが、応答 A が応答 B よりどの程度優れているかは考慮しません。

**人間の好みとは何ですか? **

Anthropic は、有用性、誠実さ、無邪気さの 3 つの軸に沿ってモデルの応答品質を測定します。

用紙のアドレス:

DeepMind はまた、多数派を満足させる応答を生成しようとします。以下のこの論文を参照してください。

用紙のアドレス:

しかし、明確にしておきたいのは、私たちが望むのは、自分の立場を主張できる AI でしょうか、それとも、物議を醸す可能性のあるトピックを回避する汎用 AI でしょうか?

**「人」の好みは誰の好みですか? **

文化、宗教などの違いを考慮すると、すべての潜在的なユーザーを適切に表すトレーニング データを取得するには多くの課題があります。

たとえば、OpenAI の InstructGPT データでは、ラベラーは主にフィリピン人とバングラデシュ人であり、地理的な違いにより多少の差異が生じる可能性があります。

ソース:

研究コミュニティもこれに取り組んでいますが、データの偏りは依然として残っています。たとえば、OpenAssistant データセットの人口統計分布では、回答者 222 人中 201 人 (90.5%) が男性でした。

9. チャット インターフェースの効率を向上させる

ChatGPT 以来、チャットがさまざまなタスクに適しているかどうかについて多くの議論が行われてきました。たとえば、次のような議論があります。

  • 自然言語は遅延 UI です
  • チャットボットが未来ではない理由:
  • 対話を必要とする質問にはどのような種類がありますか?
  • AI チャット インターフェイスは、ドキュメントを読むためのメインのユーザー インターフェイスになる可能性があります。
  • 最小限のチャットで LLM と対話します。

ただし、こうした議論は新しいものではありません。多くの国、特にアジアでは、約 10 年にわたってスーパー アプリのインターフェイスとしてチャットが使用されてきました。

  • *中国アプリの共通インターフェイスとしてのチャット

2016 年、多くのアプリは死に、チャットボットが未来だと考えられていましたが、議論は再び緊迫したものになりました。

※チャットインターフェースについて:

  • チャットボットのトレンドは大きな誤解ですか:
  • ボットがアプリを置き換えるのではなく、より優れたアプリは次のことを行います。

Chip Huyen 氏は、次の理由からチャット インターフェイスがとても気に入っていると述べました。

  • チャットは、コンピュータやインターネットにアクセスしたことがない人でも、誰でもすぐに使い方を習得できるインターフェイスです。
  • チャットインターフェイスに障害がなく、急いでいる場合でもテキストの代わりに音声を使用できます。
  • チャットは非常に強力なインターフェースでもあり、どんなリクエストをしても応答が良くなくても応答します。

しかし、Chip Huyen 氏は、チャット インターフェイスにはいくつかの点で改善の余地があると考えています。彼は次のような提案をしています

  1. ラウンドごとに複数のメッセージ

現在のところ、ラウンドごとに送信できるメッセージは 1 つだけであると考えられています。しかし、実際の生活ではそうはいきません。通常、個人のアイデアを完成させるには複数の情報が必要です。その過程でさまざまなデータ (写真、場所、リンクなど) を挿入する必要があり、ユーザーは以前の情報で何かを見逃していたり、単に認識していない可能性があるためです。すべてを含めたい 長い段落で書きます。

  1. マルチモーダル入力

マルチモーダル アプリケーションの領域では、ほとんどの労力はより良いモデルの構築に費やされ、より良いインターフェイスの構築にはほとんど費やされません。 Nvidia の NeVA チャットボットの場合、ユーザー エクスペリエンスを改善する余地があるかもしれません。

住所:

  1. 生成 AI をワークフローに組み込む

ライナス・リーは、「チャットを超えた AI 生成のインターフェース」という講演の中で、このことをうまく表現しています。たとえば、作成中のグラフの列について質問したい場合は、その列を指して質問するだけで済みます。

ビデオアドレス:

  1. 情報の編集・削除

ユーザー入力を編集または削除すると、チャットボットとの会話の流れがどのように変化するかについて考えてみる価値があります。

10. 英語以外の言語用の LLM の構築

英語を第一言語とする現在の LLM は、パフォーマンス、遅延、速度の点で他の言語にうまく対応できません。関連コンテンツでは次の記事を読むことができます。

用紙のアドレス:

記事アドレス:

チップ・フエン氏によると、この記事を初期に読んだ何人かの読者は、次の 2 つの理由から、この方向性を含めるべきではないと考えていると語ったという。

  1. これは研究の問題というよりも、ロジスティックスの問題です。私たちはそれを行う方法をすでに知っていますが、誰かがお金とエネルギーを投資するだけで済みますが、これは完全に真実ではありません。ほとんどの言語は低リソース言語とみなされます。たとえば、英語や中国語に比べて高品質なデータがはるかに少ないため、大規模な言語モデルをトレーニングするには異なる手法が必要になる場合があります。次の記事を参照してください。

用紙のアドレス:

用紙のアドレス:

  1. 悲観的な人々は、将来多くの言語が消滅し、将来のインターネットは英語と中国語の 2 つの言語で構成されると考えています。

機械翻訳やチャットボットなどの AI ツールが言語学習に与える影響は不明です。それが人々が新しい言語をより速く学ぶのに役立つのか、それとも新しい言語を完全に学ぶ必要性をなくすのに役立つのかは不明です。

要約

このホワイトペーパーで説明されている問題には、さまざまな難易度があります。たとえば、最後の問題は、十分なリソースと時間があれば、英語以外の言語用の LLM を構築することも可能です。

最初の問題の 1 つは、幻覚を減らすことですが、幻覚は LLM が確率的なことをしているだけであるため、これは非常に困難です。

4 番目の問題は、LLM をより高速かつ安価にすることであり、これは完全には解決されません。この分野ではある程度の進歩が見られ、今後もさらなる進歩が見られるでしょうが、完璧に改善することは決してありません。

5 番目と 6 番目の問題は新しいアーキテクチャと新しいハードウェアであり、これは非常に困難ですが、時間の経過とともに避けられません。新しいアーキテクチャは汎用ハードウェア向けに最適化する必要があり、ハードウェアは汎用アーキテクチャをサポートする必要があるという、アーキテクチャとハードウェアの共生関係により、この問題は同じ企業によって解決できる可能性があります。

技術的な知識だけでは解決できない問題もあります。たとえば、人間の好みから学習するための方法を改善するという 8 番目の問題は、技術的な問題というよりも政策的な問題である可能性があります。 9 番目の質問、インターフェイスの効率の向上に関して言えば、これはユーザー エクスペリエンスの問題に近いため、この問題を一緒に解決するには、技術的知識以外の背景を持つより多くの人々が必要です。

これらの問題を別の角度から見てみたい場合は、Chip Huyen 氏が次の論文を読むことをお勧めします。

用紙のアドレス:

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)