GPT-4 に対する完全な勝利、クローズドソース モデルを数秒で破壊しました。 Code Llamaの謎のバージョンが公開される

出典: 新志源

画像ソース: Unbounded AI によって生成‌

リリースからわずか 2 日後に、Code Llama は再び AI コーディングの革命に火をつけました。

Meta が GPT-4 と完全に同等化できる Code Llama 論文に登場した謎のバージョン Unnatural Code Llama を覚えていますか?

大物セバスチャンは自身のブログでこう説明した。

これは、15,000 の非自然言語命令を使用した Code Llama-Python 34B の微調整バージョンです。

このような非常に隠された情報を論文に隠すことで、Meta はオープンソース コミュニティに、Code Llama には大きな可能性があるので、微調整しましょう! ということを示唆したいようです。

そこで先ほど、Code Llama に基づいて微調整された WizardCoder 34B が、Human ベンチマークで GPT-4 を直接破りました。

具体的には、WizardCoder は 73.2% の勝率で GPT-4 の 3 月バージョン (67%) を破りました。

さらに、WizardCoder 34B のパフォーマンスは、最新バージョン GPT-3.5 および Claude 2 を上回ります。

プログラミング モデル WizardCoder は、Microsoft と香港バプテスト大学によって 6 月にリリースされました。微調整された 13B/7B バージョンが近々登場すると言われています。

Nvidia のトップサイエンティストである Jim Fan 氏によると、これは基本的に「Unnatural Code Llama」のオープンバージョンです。

ベンチマーク データは良好に見えますが、Human は狭い分布のみをテストするため、過剰適合する可能性があります。自然なシナリオでのデータテストは非常に重要です。コーディングベンチマークには大幅なアップグレードが必要です。

## **Code Llama の謎のバージョンが誕生? **

金曜日、Meta は Code Llama の 3 つのバージョンを正式にオープンソース化しました。

Human および MBPP のベンチマークでは、多くの人が公式の Meta - Unnatural Code Llama で言及されていないバージョンを見つけました。

この謎のバージョンは、Human pass@1 で 62.2% のパフォーマンスを達成しました。

本日リリースされた、微調整された WizardCoder 34B は、Human pass@1 で 73.2% のパフォーマンスを示しました。

概要によると、WizardCoder 34B は、合成データセット Evol-Instruct を使用して Code Llama モデルを微調整したバージョンです。

以下は、すべてのオープン ソース モデルとクローズド ソース モデルとのパフォーマンスの比較を視覚化したものです。

OpenAI モデルと比較して、研究者らは、GPT4 と ChatGPT-3.5 には 2 つの人間による結果があると指摘しました。

OpenAI の公式 GPT4 レポート (2023/03/15) によって提供される結果は、それぞれ 67.0% と 48.1% です。最新の API (2023/08/26) テストを使用した研究者の結果は、82.0% と 72.5% でした。

さらに、研究者らは、このパフォーマンス結果は 100% 再現可能であると強調しています。

WizardCoder 34B のデモは、誰でもテストできるように公開されています。

オープンソース モデルが実際にうまくいかない主な理由の 1 つは、公開リーダーボードへの過剰適合であることが指摘されています。以下は、Human pass@1 スコアを使用してデータセットをさらに開発するかどうかを決定するウィザードコーダーのデータ準備の例です。テスト セットのみを最適化すると、テスト セットの目的が損なわれます。

またつい昨日、Phind 組織の研究者はコード Llama-34B を人間の評価で GPT-4 を上回るように微調整しました。

ChatGPT 対 Code Llama

Code Llama は実際のコーディング タスクでどのように動作しますか?

ネチズンは GPT-3.5 と Code Llama Instruct-34B の比較テストを行いました。 Perplexity.AI が提供する Code Llama 34B にアクセスしてテストされました。

8 つの同一のコード タスクを 2 つのモデルにそれぞれ供給し、生成されたコードの品質を比較します。

結果は、GPT-3.5 が 8:5 で勝利しました。

具体的なテスト結果は以下の通りです。

最初の質問

2 つの文字列 word1 と word2 を指定して、Python を使用してこのタスクを実行します。 word1 から始めて文字を交互に追加して文字列を結合します。一方の文字列がもう一方の文字列より長い場合は、結合された文字列の末尾に文字を追加します。

最後にマージされた文字列を出力します。

例えば:

入力: word1 = "abc"、word2 = "pqr" 出力: "apbqcr"

GPT-3.5 と Code Llama は両方とも 1:1 で完了できます

2 番目の質問

Python を使用してこのタスクを実行するには、文字列 s を指定し、文字列内のすべての母音を反転してそれを返します。

母音は「a」、「e」、「i」、「o」、「u」で、小文字と大文字の両方で複数回出現する可能性があります。

例: 入力: s = "hello" 出力: "ello"

GPT-3.5 は完了しましたが、Code Llama は未完了です - 2:1

3番目の質問

Python を使用してこのタスクを実行するには、整数配列 nums を指定し、ゼロ以外の要素の相対的な順序を維持しながら、すべての 0 を配列の末尾に移動します。

これは、配列のコピーを作成せずに、その場で行う必要があることに注意してください。

例: 入力: nums = [0,1,0,3,12] 出力: [1,3,12,0,0]

GPT-3.5 は完了しましたが、コード Llama は未完了です - 3:1

質問 4

このタスクに Python を使用すると、長い花壇があり、花が植えられている区画もあれば、植えられていない区画もあります。

ただし、隣接する区画に花を植えることはできません。花壇の 0 と 1 の整数配列 (0 は空、1 は空ではありません) と整数 n を指定すると、隣接する花のルールに違反せずに新しい花を花壇に植えることができる場合は true を出力します。それ以外の場合は、 falseが出力されます。

例 1: 入力: Flowerbed = [1,0,0,0,1]、n = 1 出力: true 例 2: 入力: Flowerbed = [1,0,0,0,1]、n = 2 出力: false

両方のモデルが完了しました - 4:2

質問 5

Python を使用して、入力文字列 s を指定すると、単語の順序が逆になります。単語は、空白以外の文字のシーケンスとして定義されます。 s 内の単語は少なくとも 1 つのスペースで区切られます。

単一のスペースで結合された単語の文字列を逆順に出力します。 s には、先頭または末尾のスペース、または 2 つの単語の間に複数のスペースが含まれる場合があることに注意してください。

返される文字列には、単語を区切るためのスペースが 1 つだけ含まれている必要があります。余分なスペースは含めないでください。

例: 入力: s = "空は青い" 出力: "空は青い"

両方のモデルが完了 - 5:3

質問 6

このタスクを実行するには Python を使用します。文字列 s と整数 k を指定すると、s 内の長さ k の部分文字列内の母音の最大数を返します。

英語の母音は「a」、「e」、「i」、「o」、「u」です。例: 入力: s = "leetcode"、k = 3 出力: 2

説明: 「lee」、「eet」、および「ode」には 2 つの母音が含まれています。

両方のモデルが完了しました - 6:4

質問 7

アスタリスク * を含む文字列 s を指定して、Python を使用してこのタスクを実行します。 1 回の操作で次のことができます。 s 内のアスタリスクを選択します。

左側にある最も近い非アスタリスク文字を削除し、アスタリスク自体を削除します。すべてのアスタリスクを削除して文字列を出力します。例: 入力: s = "leet**cod*e" 出力: "lecoe"

GPT-3.5 は完了しましたが、Code Llama は完了していません - 7:4

質問 8

Python を使用してこのタスクを実行します。毎日の気温を表す整数の温度配列を指定すると、配列の答えが返されます。 [i] 気温が暖かくなるまで待たなければならない日数です。

将来これを行う日がない場合は、答えを保持してください [i] == 0。例: 入力: 温度 = [73,74,75,71,69,72,76,73] 出力: [1,1,4,2,1,1,0,0]

両方のモデルが完了 - 8:5

2 つのモデルのパフォーマンスについて、このネチズンは、これは厳密な調査ではなく、単純なテストであると信じています。モデルを再生成してコードを生成するたびに、基本的にはより良い答えが得られるはずですが、テストはありません。

したがって、テストの結論は、最後の 2 つのモデルのパフォーマンスではありません。

GPT-4 と同様に、Llama 3 はオープンソースである必要があります

Llama と Llama 2 のリリース以来、機械学習コミュニティ ChatGPT が爆発的に成長し、さまざまな微調整モデルが登場しました。

OpenAIの研究者Jason Wei氏は、Meta GenAIのソーシャル活動から、将来的にはLlama 3とLlama 4もオープンソースになることを知ったと述べた。

私たちはラマ 3 と 4 を訓練するための計算能力を持っています。私たちの計画は、Llama-3 を GPT-4 と同じくらい優れたものにすることです。うわー、もし Llama-3 が GPT-4 と同じくらい優れているなら、オープンソースにしてくれませんか?はいします。ごめんなさい、調整スタッフ。

別のネチズンは、Meta は GPT-5 レベルのモデルをオープンソース化したいと考えており、AGI よりも先にオープンソース化を主張していたようだと述べた。

これが何を意味するのか明確にしておきたいのですが、キルスイッチがないということです。

エージェントが制御不能になったり、悪意のある攻撃者がエージェントを攻撃したりするなど、何か問題が発生した場合、エージェントをシャットダウンする簡単な方法はありません。任意の小規模クラスター上で実行できます。セキュリティはまったくありません。

安全保障研究は無意味になる。

AI システムを正直で、一貫性があり、倫理的であるなどにするために人々が行ってきた作業はすべて無意味になります。世界の AI システムは、その価値観や動機に関係なく、最も大きな経済的利益をもたらすシステムを目指して進化していきます。ガードレールはありません。 AIの価値観や能力は良くも悪くも誰でも自由に変えることができます。

AI がより賢くなる一方で、メタがオープンソース化され続ければ、事態は混乱することは明らかです。これらの地球外知性体の到来はすでに世界を混乱させていますが、人間がほとんどコントロールできないものを私たちが放棄すれば、状況はさらに悪化するでしょう。

私の知る限り、Meta のオープンソースに対する期待は主に「オープンソース コミュニティの定説」、つまり「オープンソースは良いものである」に由来しています。そして、私の知る限り、最初のモデルである Llama が誤って流出するまでは、彼らはそこまでオープンソース支持者ではありませんでしたが、それ以来ずっとオープンソースであるふりをし続けています。

この点に関して、マスク氏は、しかし、自己回帰型Transformerを使用するLLMは、トレーニングだけでなく推論においてもエネルギー効率が非常に悪いと述べた。数桁違うと思います。

## Llama 2 のコーディング能力が飛躍的に向上

Llama 2 はあらゆる面で非常に強力なモデルです。

ただし、コーディング能力という明らかな弱点があります。

Meta が発表した Llama 2 に関する論文のデータによると、Hum (LLM とコーディングを評価するためのベンチマーク テスト) における Llama 2 のパフォーマンスは、GPT-4 よりもどれほど悪いかは言うまでもなく、GPT-3.5 よりもさらに悪いです。

オリジナルの Llama 2 論文からの注釈付きの図

しかし、コード能力は、オープンソース コミュニティが将来的に Llama 2 を使用するための重要な方向性になることは間違いありません。当然のことながら、この方向で Meta が不十分であるはずはありません。そのため、コード能力を大幅に最適化した Code Llama があります。

2 日前、Meta は Code Llama ファミリを正式にリリースしました: Code Llama (7B、13B、および 34B)、および 3 つのバリアント: 一般的なコード モデル Code Llama、命令次のモデル Code Llama-instruct、および Python コード固有のバージョン Code Llama - パイソン。

これらのモデルは、Llama 2 ライセンスと同様に、アカデミックおよび商用で無料です。

Code Llama 34B モデルのコード能力は Llama 2 のほぼ 2 倍であり、GPT-4 との差は大幅に縮まっています。

Meta が Code Llama 論文に登場した、GPT-4 バージョンを完全に同等にすることができる Unnatural Code Llama を覚えていますか?

大物セバスチャンは自身のブログでこう説明した。

これは、15,000 の非自然言語命令を使用した Code Llama-Python 34B の微調整バージョンです。

このような非常に隠された情報を論文に隠すことで、Meta はオープンソース コミュニティに、Code Llama には大きな可能性があるので、微調整しましょう! ということを示唆したいようです。

70B Code Llama モデルがないのはなぜですか?

興味深いことに、Code Llama には 7B、13B、および 34B のパラメータ バージョンしかなく、Llama 2 より 70B 少ないです。

メタ氏は論文の中でなぜこのようなことになるのか説明していないが、テクノロジーの第一人者であるセバスティアン氏は考えられる理由を2つ挙げている。

  1. コード Llama は 500B トークンでトレーニングされ、Llama 2 は 2T トークンでトレーニングされます。

Code Llama の学習データは Llama 2 の 1/4 しかないため、十分な学習データがないことと、LLM の Scaling Laws の制限が重なって、CodeLlama70B のパフォーマンスが良くない可能性があります。

  1. Code Llama モデルは 100k のコンテキスト サイズをサポートします。これは、コード タスクを処理するときに非常に便利です。

対照的に、Llama 2 は最大 4k までの入力長のみをサポートします。 70B モデルが 100k トークンの入力長をサポートする場合、モデルの計算要件が過大になる可能性があります。

参考文献:

原文表示
内容は参考用であり、勧誘やオファーではありません。 投資、税務、または法律に関するアドバイスは提供されません。 リスク開示の詳細については、免責事項 を参照してください。
  • 報酬
  • コメント
  • 共有
コメント
0/400
コメントなし
  • ピン
いつでもどこでも暗号資産取引
qrCode
スキャンしてGate.ioアプリをダウンロード
コミュニティ
日本語
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)