AI システムを正直で、一貫性があり、倫理的であるなどにするために人々が行ってきた作業はすべて無意味になります。世界の AI システムは、その価値観や動機に関係なく、最も大きな経済的利益をもたらすシステムを目指して進化していきます。ガードレールはありません。 AIの価値観や能力は良くも悪くも誰でも自由に変えることができます。
AI がより賢くなる一方で、メタがオープンソース化され続ければ、事態は混乱することは明らかです。これらの地球外知性体の到来はすでに世界を混乱させていますが、人間がほとんどコントロールできないものを私たちが放棄すれば、状況はさらに悪化するでしょう。
GPT-4 に対する完全な勝利、クローズドソース モデルを数秒で破壊しました。 Code Llamaの謎のバージョンが公開される
出典: 新志源
リリースからわずか 2 日後に、Code Llama は再び AI コーディングの革命に火をつけました。
Meta が GPT-4 と完全に同等化できる Code Llama 論文に登場した謎のバージョン Unnatural Code Llama を覚えていますか?
大物セバスチャンは自身のブログでこう説明した。
これは、15,000 の非自然言語命令を使用した Code Llama-Python 34B の微調整バージョンです。
そこで先ほど、Code Llama に基づいて微調整された WizardCoder 34B が、Human ベンチマークで GPT-4 を直接破りました。
さらに、WizardCoder 34B のパフォーマンスは、最新バージョン GPT-3.5 および Claude 2 を上回ります。
Nvidia のトップサイエンティストである Jim Fan 氏によると、これは基本的に「Unnatural Code Llama」のオープンバージョンです。
ベンチマーク データは良好に見えますが、Human は狭い分布のみをテストするため、過剰適合する可能性があります。自然なシナリオでのデータテストは非常に重要です。コーディングベンチマークには大幅なアップグレードが必要です。
金曜日、Meta は Code Llama の 3 つのバージョンを正式にオープンソース化しました。
Human および MBPP のベンチマークでは、多くの人が公式の Meta - Unnatural Code Llama で言及されていないバージョンを見つけました。
概要によると、WizardCoder 34B は、合成データセット Evol-Instruct を使用して Code Llama モデルを微調整したバージョンです。
以下は、すべてのオープン ソース モデルとクローズド ソース モデルとのパフォーマンスの比較を視覚化したものです。
OpenAI の公式 GPT4 レポート (2023/03/15) によって提供される結果は、それぞれ 67.0% と 48.1% です。最新の API (2023/08/26) テストを使用した研究者の結果は、82.0% と 72.5% でした。
ネチズンは GPT-3.5 と Code Llama Instruct-34B の比較テストを行いました。 Perplexity.AI が提供する Code Llama 34B にアクセスしてテストされました。
結果は、GPT-3.5 が 8:5 で勝利しました。
具体的なテスト結果は以下の通りです。
最初の質問
2 つの文字列 word1 と word2 を指定して、Python を使用してこのタスクを実行します。 word1 から始めて文字を交互に追加して文字列を結合します。一方の文字列がもう一方の文字列より長い場合は、結合された文字列の末尾に文字を追加します。
最後にマージされた文字列を出力します。
例えば:
入力: word1 = "abc"、word2 = "pqr" 出力: "apbqcr"
2 番目の質問
Python を使用してこのタスクを実行するには、文字列 s を指定し、文字列内のすべての母音を反転してそれを返します。
母音は「a」、「e」、「i」、「o」、「u」で、小文字と大文字の両方で複数回出現する可能性があります。
例: 入力: s = "hello" 出力: "ello"
3番目の質問
Python を使用してこのタスクを実行するには、整数配列 nums を指定し、ゼロ以外の要素の相対的な順序を維持しながら、すべての 0 を配列の末尾に移動します。
これは、配列のコピーを作成せずに、その場で行う必要があることに注意してください。
例: 入力: nums = [0,1,0,3,12] 出力: [1,3,12,0,0]
質問 4
このタスクに Python を使用すると、長い花壇があり、花が植えられている区画もあれば、植えられていない区画もあります。
ただし、隣接する区画に花を植えることはできません。花壇の 0 と 1 の整数配列 (0 は空、1 は空ではありません) と整数 n を指定すると、隣接する花のルールに違反せずに新しい花を花壇に植えることができる場合は true を出力します。それ以外の場合は、 falseが出力されます。
例 1: 入力: Flowerbed = [1,0,0,0,1]、n = 1 出力: true 例 2: 入力: Flowerbed = [1,0,0,0,1]、n = 2 出力: false
質問 5
Python を使用して、入力文字列 s を指定すると、単語の順序が逆になります。単語は、空白以外の文字のシーケンスとして定義されます。 s 内の単語は少なくとも 1 つのスペースで区切られます。
単一のスペースで結合された単語の文字列を逆順に出力します。 s には、先頭または末尾のスペース、または 2 つの単語の間に複数のスペースが含まれる場合があることに注意してください。
返される文字列には、単語を区切るためのスペースが 1 つだけ含まれている必要があります。余分なスペースは含めないでください。
例: 入力: s = "空は青い" 出力: "空は青い"
質問 6
このタスクを実行するには Python を使用します。文字列 s と整数 k を指定すると、s 内の長さ k の部分文字列内の母音の最大数を返します。
英語の母音は「a」、「e」、「i」、「o」、「u」です。例: 入力: s = "leetcode"、k = 3 出力: 2
説明: 「lee」、「eet」、および「ode」には 2 つの母音が含まれています。
質問 7
アスタリスク * を含む文字列 s を指定して、Python を使用してこのタスクを実行します。 1 回の操作で次のことができます。 s 内のアスタリスクを選択します。
左側にある最も近い非アスタリスク文字を削除し、アスタリスク自体を削除します。すべてのアスタリスクを削除して文字列を出力します。例: 入力: s = "leet**cod*e" 出力: "lecoe"
質問 8
Python を使用してこのタスクを実行します。毎日の気温を表す整数の温度配列を指定すると、配列の答えが返されます。 [i] 気温が暖かくなるまで待たなければならない日数です。
将来これを行う日がない場合は、答えを保持してください [i] == 0。例: 入力: 温度 = [73,74,75,71,69,72,76,73] 出力: [1,1,4,2,1,1,0,0]
2 つのモデルのパフォーマンスについて、このネチズンは、これは厳密な調査ではなく、単純なテストであると信じています。モデルを再生成してコードを生成するたびに、基本的にはより良い答えが得られるはずですが、テストはありません。
したがって、テストの結論は、最後の 2 つのモデルのパフォーマンスではありません。
GPT-4 と同様に、Llama 3 はオープンソースである必要があります
Llama と Llama 2 のリリース以来、機械学習コミュニティ ChatGPT が爆発的に成長し、さまざまな微調整モデルが登場しました。
OpenAIの研究者Jason Wei氏は、Meta GenAIのソーシャル活動から、将来的にはLlama 3とLlama 4もオープンソースになることを知ったと述べた。
これが何を意味するのか明確にしておきたいのですが、キルスイッチがないということです。
エージェントが制御不能になったり、悪意のある攻撃者がエージェントを攻撃したりするなど、何か問題が発生した場合、エージェントをシャットダウンする簡単な方法はありません。任意の小規模クラスター上で実行できます。セキュリティはまったくありません。
安全保障研究は無意味になる。
AI システムを正直で、一貫性があり、倫理的であるなどにするために人々が行ってきた作業はすべて無意味になります。世界の AI システムは、その価値観や動機に関係なく、最も大きな経済的利益をもたらすシステムを目指して進化していきます。ガードレールはありません。 AIの価値観や能力は良くも悪くも誰でも自由に変えることができます。
AI がより賢くなる一方で、メタがオープンソース化され続ければ、事態は混乱することは明らかです。これらの地球外知性体の到来はすでに世界を混乱させていますが、人間がほとんどコントロールできないものを私たちが放棄すれば、状況はさらに悪化するでしょう。
私の知る限り、Meta のオープンソースに対する期待は主に「オープンソース コミュニティの定説」、つまり「オープンソースは良いものである」に由来しています。そして、私の知る限り、最初のモデルである Llama が誤って流出するまでは、彼らはそこまでオープンソース支持者ではありませんでしたが、それ以来ずっとオープンソースであるふりをし続けています。
Llama 2 はあらゆる面で非常に強力なモデルです。
ただし、コーディング能力という明らかな弱点があります。
Meta が発表した Llama 2 に関する論文のデータによると、Hum (LLM とコーディングを評価するためのベンチマーク テスト) における Llama 2 のパフォーマンスは、GPT-4 よりもどれほど悪いかは言うまでもなく、GPT-3.5 よりもさらに悪いです。
しかし、コード能力は、オープンソース コミュニティが将来的に Llama 2 を使用するための重要な方向性になることは間違いありません。当然のことながら、この方向で Meta が不十分であるはずはありません。そのため、コード能力を大幅に最適化した Code Llama があります。
2 日前、Meta は Code Llama ファミリを正式にリリースしました: Code Llama (7B、13B、および 34B)、および 3 つのバリアント: 一般的なコード モデル Code Llama、命令次のモデル Code Llama-instruct、および Python コード固有のバージョン Code Llama - パイソン。
これらのモデルは、Llama 2 ライセンスと同様に、アカデミックおよび商用で無料です。
Code Llama 34B モデルのコード能力は Llama 2 のほぼ 2 倍であり、GPT-4 との差は大幅に縮まっています。
Meta が Code Llama 論文に登場した、GPT-4 バージョンを完全に同等にすることができる Unnatural Code Llama を覚えていますか?
大物セバスチャンは自身のブログでこう説明した。
これは、15,000 の非自然言語命令を使用した Code Llama-Python 34B の微調整バージョンです。
70B Code Llama モデルがないのはなぜですか?
興味深いことに、Code Llama には 7B、13B、および 34B のパラメータ バージョンしかなく、Llama 2 より 70B 少ないです。
メタ氏は論文の中でなぜこのようなことになるのか説明していないが、テクノロジーの第一人者であるセバスティアン氏は考えられる理由を2つ挙げている。
Code Llama の学習データは Llama 2 の 1/4 しかないため、十分な学習データがないことと、LLM の Scaling Laws の制限が重なって、CodeLlama70B のパフォーマンスが良くない可能性があります。
対照的に、Llama 2 は最大 4k までの入力長のみをサポートします。 70B モデルが 100k トークンの入力長をサポートする場合、モデルの計算要件が過大になる可能性があります。
参考文献: