MITの研究者がLLMの強力な重ね合わせメカニズムを明らかに:幅を倍にすると誤りが約半分に減少

robot
概要作成中

AIMPACT メッセージ、5 月 3 日(UTC+8)、MITの研究者は大規模言語モデルの性能が規模に比例して信頼性高く拡大するメカニズムを明らかにし、「重ね合わせ」現象に対して初めて実験的検証を行った。研究は、LLMが同一次元に複数の概念を格納することで次元制限を回避していることを発見し、この「強い重ね合わせ」によりモデルはすべての概念を同時に表現できるが、誤りは重なりから生じるノイズに起因すると示した。チームはAnthropicの簡略化モデルやOPT、GPT-2、Qwen2.5、Pythiaなどのオープンソースモデルを用いて検証し、モデルの幅を倍にすると誤りが約半減し、スケーリング指数は0.91に達し、理論値の1に近づいていることを示した。研究は二つの重要な問いに答える:スケーリングはモデルの幅が語彙表のサイズに達するまで止まらないこと、自然言語タスクにおいて語彙頻度分布が平坦であることが空間の制約を加速させるが、重ね合わせを促すアーキテクチャ設計は同じ規模でより良い性能を実現できること。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし