Kapalı kaynak modeli saniyeler içinde yok ederek GPT-4'e karşı tam zafer! Code Llama'nın gizemli versiyonu ortaya çıktı

Orijinal kaynak: Xinzhiyuan

Resim kaynağı: Sınırsız Yapay Zeka tarafından oluşturulmuştur

Code Llama, piyasaya sürülmesinden sadece 2 gün sonra bir kez daha yapay zeka kodlamasında devrimi ateşledi.

Meta'nın Code Llama makalesinde yer alan ve GPT-4'ü tamamen eşitleyebilen gizemli Doğal Olmayan Code Llama versiyonunu hatırlıyor musunuz?

Büyük adam Sebastian blogunda şöyle açıkladı:

Code Llama-Python 34B'nin 15.000 doğal olmayan dil talimatını kullanan ince ayarlı bir versiyonudur.

Meta, bu kadar gizli bir bilgiyi makalede saklayarak, açık kaynak topluluğuna Code Llama'nın büyük bir potansiyele sahip olduğunu ima etmek istiyor gibi görünüyor, o yüzden hadi ince ayar yapalım!

Yani az önce Code Llama'ya göre ince ayar yapılan WizardCoder 34B, İnsan testinde GPT-4'ü doğrudan mağlup etti.

Özellikle WizardCoder, GPT-4'ün Mart sürümünü (%67) %73,2'lik bir kazanma oranıyla geride bıraktı.

Ayrıca WizardCoder 34B'nin performansı en son GPT-3.5 ve Claude 2 sürümlerini aşıyor.

WizardCoder programlama modeli Haziran ayında Microsoft ve Hong Kong Baptist Üniversitesi tarafından piyasaya sürüldü. İnce ayarlı 13B/7B versiyonunun yakında geleceği söyleniyor.

Nvidia'nın önde gelen bilim adamlarından Jim Fan'a göre bu, temelde "Doğal Olmayan Kod Laması"nın açık versiyonu.

Karşılaştırma verileri iyi görünse de, İnsan yalnızca dar bir dağılımı test ediyor ve fazla uyum sağlayabilir. Doğal senaryolarda veri testi gerçekten önemlidir. Kodlama kıyaslamalarının büyük bir yükseltmeye ihtiyacı var.

## **Code Lama'nın gizemli bir versiyonu mu doğdu? **

Cuma günü Meta, Code Llama'nın üç versiyonunu resmi olarak açık kaynaklı hale getirdi.

İnsan ve MBPP kıyaslamalarında birçok kişi resmi Meta - Doğal Olmayan Kod Laması'nda belirtilmeyen bir sürüm buldu.

Bu gizemli sürüm, Human pass@1'de %62,2 performans elde etti.

Bugün piyasaya sürülen ince ayarlı WizardCoder 34B, Human pass@1'de %73,2 performansa sahip.

Girişe göre WizardCoder 34B, Evol-Instruct sentetik veri kümesini kullanan Code Llama modelinin ince ayarlı bir versiyonudur.

Aşağıda tüm açık kaynak ve kapalı kaynak modelleriyle performans karşılaştırmasının görselleştirilmesi yer almaktadır.

OpenAI modeliyle karşılaştırıldığında araştırmacılar, GPT4 ve ChatGPT-3.5'in iki İnsan sonucuna sahip olduğuna dikkat çekti:

OpenAI'nin resmi GPT4 raporunun (2023/03/15) sağladığı sonuçlar sırasıyla: %67,0 ve %48,1. En son API (2023/08/26) testini kullanan araştırmacıların sonuçları %82,0 ve %72,5'tir.

Ayrıca araştırmacılar bu performans sonucunun %100 tekrarlanabilir olduğunu da vurguluyor!

WizardCoder 34B'nin demosu herkesin test etmesine açıktır.

Açık kaynak modellerinin pratikte zorlanmasının ana nedenlerinden birinin halka açık skor tablolarına aşırı uyum sağlamak olduğuna dikkat çekildi. Burada, veri kümesinin daha da geliştirilip geliştirilmeyeceğine karar vermek için Human pass@1 puanlarını kullanan sihirbaz-kodlayıcı veri hazırlama örneği verilmiştir. Yalnızca test kümesinde optimizasyon yapmak, test kümesinin amacını ortadan kaldırır.

Yine dün, Phind organizasyonundan araştırmacılar Code Llama-34B'de İnsan değerlendirmesinde GPT-4'ü geçecek şekilde ince ayar yaptılar.

ChatGPT ve Code Lama

Code Lama gerçek kodlama görevlerinde nasıl performans gösteriyor?

Bir netizen GPT-3.5 ve Code Llama Instruct-34B'nin karşılaştırmalı testini yaptı. Perplexity.AI tarafından sağlanan Code Llama 34B erişimiyle test edildi.

Sırasıyla iki modele 8 özdeş kod görevi besler ve oluşturulan kodların kalitesini karşılaştırır.

Sonuç olarak GPT-3.5 8:5 farkla kazanıyor.

Aşağıda spesifik test sonuçları yer almaktadır.

ilk soru

Word1 ve word2 olmak üzere iki dize verildiğinde bu görevi gerçekleştirmek için Python'u kullanın. Kelime1'den başlayarak harfleri dönüşümlü sırayla ekleyerek dizeleri birleştirin. Bir dize diğerinden daha uzunsa, birleştirilmiş dizenin sonuna ek harfler ekleyin.

Sonunda birleştirilmiş dizenin çıktısını alın.

Örneğin:

Giriş: kelime1 = "abc", kelime2 = "pqr" Çıkış: "apbqcr"

Hem GPT-3.5 hem de Code Lama tamamlayabilir - 1:1

İkinci soru

Bu görevi gerçekleştirmek için Python'u kullanın, bir s dizesi verildiğinde, yalnızca dizedeki tüm sesli harfleri ters çevirin ve onu döndürün.

Ünlü harfler "a", "e", "i", "o" ve "u" olup hem küçük hem de büyük harf olarak birden çok kez görünebilir.

Örneğin: giriş: s = "merhaba" çıkış: "merhaba"

GPT-3.5 tamamlandı, Kod Laması tamamlanmadı - 2:1

Üçüncü soru

Bu görevi gerçekleştirmek için Python'u kullanın, bir tamsayı dizisi verildiğinde, sıfır olmayan öğelerin göreceli sırasını korurken tüm 0'ları dizinin sonuna taşıyın.

Bunu, dizinin bir kopyasını yapmadan yerinde yapmanız gerektiğini unutmayın.

Örneğin: Giriş: sayılar = [0,1,0,3,12] Çıkış: [1,3,12,0,0]

GPT-3.5 tamamlandı, Kod Lama tamamlanmadı - 3:1

Soru 4

Bu görev için Python'u kullandığınızda, uzun bir çiçek tarhınız olur, bazı alanlara çiçekler ekilir, bazıları ise ekilmez.

Ancak bitişik parsellere çiçek dikilemez. Bir çiçek tarhı için 0 ve 1'den oluşan bir tamsayı dizisi (0'ın boş olduğu ve 1'in boş olmadığı) ve bir n tamsayısı verildiğinde, bitişik çiçek yok kuralını ihlal etmeden çiçek tarhına n yeni çiçek dikilebiliyorsa çıktı doğru olur, Aksi takdirde, yanlış çıktıdır.

Örnek 1: Giriş: Flowerbed = [1,0,0,0,1], n = 1 Çıkış: true Örnek 2: Giriş: Flowerbed = [1,0,0,0,1], n = 2 Çıkış: false

Her iki model de tamamlandı - 4:2

Soru 5

Python'u kullanarak, bir giriş dizesi verildiğinde, kelimelerin sırasını tersine çevirin. Kelime, boşluk olmayan karakterlerin dizisi olarak tanımlanır. E-postalardaki kelimeler en az bir boşlukla ayrılacaktır.

Tek boşluklarla birleştirilmiş bir kelime dizisinin ters sırada çıktısını alın. E-postaların başında veya sonunda boşluk veya iki sözcük arasında birden fazla boşluk bulunabileceğini unutmayın.

Döndürülen dizede sözcükleri ayırmak için yalnızca bir boşluk bulunmalıdır. Fazladan boşluk eklemeyin.

Örnek: Giriş: s = "gökyüzü mavidir" Çıkış: "mavi gökyüzüdür"

Her iki model de tamamlandı - 5:3

Soru 6

Bu görevi gerçekleştirmek için Python'u kullanın.Bir s dizisi ve bir k tamsayı verildiğinde, s cinsinden k uzunluğundaki herhangi bir alt dizideki maksimum sesli harf sayısını döndürün.

İngilizce'deki sesli harfler "a", "e", "i", "o" ve "u"dur. Örnek: Giriş: s = "leetcode", k = 3 Çıkış: 2

Açıklama: "lee", "eet" ve "ode" 2 sesli harf içerir.

Her iki model de tamamlandı - 6:4

Soru 7

Yıldız işaretlerini * içeren bir dize verildiğinde, bu görevi gerçekleştirmek için Python'u kullanın. Tek bir işlemle şunları yapabilirsiniz: S cinsinden bir yıldız işareti seçin.

Sol taraftaki yıldız işareti olmayan en yakın karakteri ve yıldız işaretinin kendisini kaldırır. Tüm yıldız işaretlerini kaldırdıktan sonra dizenin çıktısını alın. Örnek: Giriş: s = "leet**cod*e" Çıkış: "lecoe"

GPT-3.5 yapıldı ancak Kod Laması yapılmadı - 7:4

Soru 8

Günlük sıcaklığı temsil eden bir tamsayı sıcaklık dizisi verildiğinde, bu görevi gerçekleştirmek için Python'u kullanın, bir dizi yanıtı döndürün; burada yanıt [i] sıcaklıkların yükselmesini beklemek zorunda olduğunuz günlerin sayısıdır.

Gelecekte bunu yapacak bir gün yoksa cevabı saklayın [i] == 0. Örnek: Giriş: Sıcaklık = [73,74,75,71,69,72,76,73] Çıkış: [1,1,4,2,1,1,0,0]

Her iki model de tamamlandı - 8:5

İki modelin performansıyla ilgili olarak, bu netizen bunun titiz bir çalışma değil, basit bir test olduğuna inanıyor.Model, kod oluşturmak için her yeniden oluşturulduğunda temelde daha iyi bir cevap alabilir, ancak böyle bir şey yoktur Ölçek.

Yani testin sonucu son iki modelin performansı değildir.

GPT-4 ile kıyaslandığında Lama 3 açık kaynak olmalıdır

Llama ve Llama 2'nin piyasaya sürülmesinden bu yana, makine öğrenimi topluluğu ChatGPT büyük bir patlama yaşadı ve çeşitli ince ayar modelleri ortaya çıktı.

OpenAI araştırmacısı Jason Wei, Meta GenAI sosyal aktivitelerinden Llama 3 ve Llama 4'ün de gelecekte açık kaynak olacağını öğrendiğini söyledi.

Lama 3 ve 4'ü eğitecek hesaplama gücüne sahibiz. Planımız Llama-3'ü GPT-4 kadar iyi hale getirmek. Vay be, eğer Llama-3 GPT-4 kadar iyiyse, onu da kaynak olarak açar mısın? Evet yapacağız. Kusura bakmayın hizalama personeli.

Başka bir netizen, Meta'nın GPT-5 seviyesinde bir modeli açık kaynak olarak sunmayı umduğunu ve AGI'den önce açık kaynak konusunda ısrar etmiş gibi göründüğünü söyledi.

Bunun ne anlama geldiği konusunda açık olmak istiyorum: durdurma anahtarı yok.

Bir şeyler ters giderse (bir ajan kontrolden çıkarsa ya da kötü bir aktör onu silahlandırırsa), onu kapatmanın kolay bir yolu yoktur. Herhangi bir küçük kümede çalışabilir. Hiçbir güvenlik yok.

Güvenlik araştırması anlamsız hale gelir.

İnsanların yapay zeka sistemlerini dürüst, tutarlı, etik vb. hale getirmek için yaptığı tüm çalışmalar anlamsız hale geliyor. Dünyanın yapay zeka sistemleri, değerleri veya motivasyonları ne olursa olsun, en büyük ekonomik faydayı sağlayan sistem hangisiyse ona doğru gelişecektir. Korkuluk yok. Herkes yapay zekanın değerlerini veya yeteneklerini iyi ya da kötü yönde istediği gibi değiştirebilir.

Biz daha akıllı yapay zekaya kavuşurken Meta açık kaynaklı olmaya devam ederse, işlerin karışacağı bana göre açık. Bu dünya dışı zekaların gelişi zaten dünyayı altüst ediyor, ancak insanların sahip olduğu azıcık kontrolden vazgeçersek durum daha da kötü olacak.

Bildiğim kadarıyla Meta'nın açık kaynak umudu esas olarak "açık kaynak topluluğu dogmasından", yani "açık kaynak iyidir"den kaynaklanıyor. Ve bildiğim kadarıyla, ilk modelleri olan Lama kazara sızdırılana kadar açık kaynak yanlısı değillerdi ve o zamandan beri açık kaynakmış gibi davranıyorlar.

Bu bağlamda Musk, otoregresif Transformatör kullanan LLM'nin yalnızca eğitimde değil, aynı zamanda muhakeme açısından da son derece zayıf enerji verimliliğine sahip olduğunu söyledi. Sanırım birkaç büyüklük sırasına göre kapalı.

## Llama 2'nin kodlama yeteneği hızla artıyor

Llama 2 her yönüyle çok güçlü bir model.

Ancak çok bariz bir zayıflığı var; kodlama yeteneği.

Meta'nın Llama 2 hakkında yayınladığı makaledeki verilere göre, Llama 2'nin Hum'daki (LLM ve kodlamayı değerlendirmek için bir kıyaslama testi) performansı GPT-3.5'ten bile daha kötü, hatta GPT-4'ten ne kadar daha kötü olduğunu söylemeye bile gerek yok.

Orijinal Llama 2 makalesinden açıklamalı şekil

Ancak kod yeteneği, açık kaynak topluluğunun gelecekte Llama 2'yi kullanması için kesinlikle önemli bir yön olacaktır.Doğal olarak Meta bu yönde zayıf olamaz, bu nedenle kod yeteneği için büyük ölçüde optimize edilmiş Code Llama var.

İki gün önce Meta, Code Llama ailesini resmi olarak yayınladı: Code Llama (7B, 13B ve 34B) ve 3 varyant: genel kod modeli Code Llama, Code Llama-instruct modelini takip eden talimat ve Python koduna özgü Code Llama sürümü - Piton.

Bu modeller, Llama 2 lisansları gibi ücretsiz akademik ve ticaridir.

Code Llama 34B modelinin kodlama yeteneği, Llama 2'nin neredeyse iki katı olup, GPT-4 ile aradaki farkı büyük ölçüde daraltmaktadır.

Meta'nın Code Llama makalesinde yer alan ve GPT-4 sürümünü tamamen eşitleyebilen Doğal Olmayan Kod Lamasını hatırlıyor musunuz?

Büyük adam Sebastian blogunda şöyle açıkladı:

Code Llama-Python 34B'nin 15.000 doğal olmayan dil talimatını kullanan ince ayarlı bir versiyonudur.

Meta, bu kadar gizli bir bilgiyi makalede saklayarak, açık kaynak topluluğuna Code Llama'nın büyük bir potansiyele sahip olduğunu ima etmek istiyor gibi görünüyor, o yüzden hadi ince ayar yapalım!

Neden 70B Kodlu Lama modeli yok?

İlginç bir şekilde, Code Llama'nın yalnızca 7B, 13B ve 34B parametre versiyonları vardır; bu, Llama 2'den 70B daha azdır.

Meta makalede bunun neden böyle olduğunu açıklamasa da teknoloji gurusu Sebastian iki olası neden öne sürdü:

  1. Code Llama 500B jetonları üzerinde eğitilir ve Llama 2, 2T jetonları üzerinde eğitilir.

Code Llama'nın eğitim verileri, Llama 2'ninkiyle karşılaştırıldığında yalnızca 1/4 olduğundan, bunun nedeni yeterli eğitim verisi olmaması ve LLM'nin Ölçeklendirme Yasalarının sınırlamaları ile birleştiğinde CodeLlama70B'nin performansının iyi olmaması olabilir.

  1. Code Llama modeli 100k bağlam boyutunu destekler; bu, kod görevleriyle uğraşırken çok faydalıdır.

Buna karşılık Llama 2 yalnızca 4k'ye kadar giriş uzunluklarını destekler. 70B modelinin 100.000 jetonluk bir giriş uzunluğunu desteklemesi durumunda, bu durum modelin hesaplama gereksinimlerini çok abartılı hale getirebilir.

Referanslar:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin