Code Llama'nın piyasaya sürülmesinden bir gün sonra kodlama yeteneği hızla gelişti ve Human_'ın ince ayarlı sürümü GPT-4'ten daha yüksek puan aldı.

Dün ben: Açık kaynaklı Yüksek Lisans, kod oluşturmada birkaç ay içinde GPT-4'ü yenecek. Şimdi ben: Aslında bugün.

Dün, kod üretme konusunda uzmanlaşmış temel bir model olan Meta açık kaynak kodu Llama, araştırma ve ticari amaçlarla ücretsiz olarak kullanıma sunuldu.

Code Llama serisi modellerin üç parametreli versiyonu vardır, parametre sayısı 7B, 13B ve 34B'dir. Ayrıca Python, C++, Java, PHP, Type (Java), C# ve Bash dahil olmak üzere birden fazla programlama dilini destekler.

Meta tarafından sağlanan Code Llama sürümleri şunları içerir:

  • Code Lama, temel kod modeli;
  • Code Llama-Python, Python'un ince ayarlı bir versiyonu;
  • Code Llama-Instruct, doğal dil talimatlarının ince ayarlı bir versiyonu.

Etkisi açısından Code Llama'nın farklı sürümleri, İnsan ve MBPP veri kümeleri üzerinde GPT-3.5'i aşan bir nesil geçiş oranına (geçiş@1) sahiptir.

Ayrıca Code Llama'nın "Unnatural" 34B sürümünün İnsan veri kümesindeki pass@1'i GPT-4'e yakındır (%62,2'ye karşı %67,0). Ancak Meta bu sürümü yayınlamadı ancak az miktarda yüksek kaliteli kodlanmış veriyle eğitim yoluyla önemli performans iyileştirmeleri elde etti.

Kaynak:

Bir gün sonra bazı araştırmacılar GPT-4'e meydan okudu. Bunlar, ince ayarlı Code Llama-34B ile insan değerlendirmesinde GPT-4'ü geride bırakan Phind'den (geliştiriciler için yapay zeka arama motoru oluşturmayı amaçlayan bir kuruluş) geliyor.

Phind kurucu ortağı Michael Royzen şunları söyledi: "Bu, Meta makalesindeki "Doğal Olmayan Kod Laması" sonuçlarını yeniden üretmeyi (ve aşmayı) amaçlayan erken bir deneydir. Gelecekte, gerçek dünyadaki iş akışlarında rekabetçi olacağını düşündüğüm farklı CodeLlama modellerinden oluşan uzman bir portföyümüz olacak. "

Her iki model de açık kaynaklıdır:

Araştırmacılar bu iki modeli Huggingface'te yayınladılar ve herkes gidip onları kontrol edebilir.

  • Phind-CodeLlama-34B-v1:
  • Phind-CodeLlama-34B-Python-v1:

Şimdi bu araştırmanın nasıl uygulandığını görelim.

** GPT-4'ü yenmek için Code Llama-34B'ye ince ayar yapın**

Önce sonuçlara bakalım. Bu çalışma, Code Llama-34B ve Code Llama-34B-Python'da Phind'in dahili veri kümesiyle ince ayar yaptı ve sırasıyla Phind-CodeLlama-34B-v1 ve Phind-CodeLlama-34B-Python-v1 olmak üzere iki model elde etti.

Yeni elde edilen iki model İnsan üzerinde sırasıyla %67,6 ve %69,5 geçiş elde etti.

Karşılaştırma için, CodeLlama-34B pass@1 %48,8; CodeLlama-34B-Python pass@1 ise %53,7'dir.

Ve İnsan üzerinde GPT-4 pass@1 %67'dir (OpenAI tarafından bu yılın Mart ayında yayınlanan "GPT-4 Teknik Raporunda" yayınlanan veriler).

Kaynak:

Kaynak:

İnce ayar söz konusu olduğunda veri kümeleri bir zorunluluktur ve bu çalışma Code Llama-34B ve Code Llama-34B-Python'da yaklaşık 80.000 yüksek kaliteli programlama problemi ve çözümü içeren özel bir veri kümesi üzerinde ince ayar yapmıştır.

Bu veri kümesi, kod tamamlama örnekleri yerine, İnsan veri yapısından farklı olan talimat-cevap çiftlerini kullanır. Çalışma daha sonra Phind modelini toplamda yaklaşık 160.000 örnekle iki dönem için eğitti. Araştırmacılar, eğitimde LoRA teknolojisinin kullanılmadığını ancak yerel ince ayarın kullanıldığını söyledi.

Ayrıca araştırmada DeepSpeed Zero 3 ve Flash Attention 2 teknolojileri de benimsendi ve 4096 token dizi uzunluğuna sahip bu modelleri eğitmek için 32 adet A100-80GB GPU üzerinde üç saat harcadılar.

Ayrıca çalışma, model sonuçlarının daha etkili hale getirilmesi için OpenAI'nin dekontaminasyon yöntemini veri setine uyguladı.

Hepimizin bildiği gibi, çok güçlü GPT-4 bile veri kirliliği ikilemiyle karşı karşıya kalacaktır.Profesyonel olmayan bir deyimle, eğitilen model değerlendirme verileri üzerinde eğitilmiş olabilir.

Bu problem LLM için çok zordur.Örneğin bir modelin performansını değerlendirme sürecinde bilimsel olarak güvenilir bir değerlendirme yapabilmek için araştırmacının değerlendirme için kullanılan problemin modelin eğitim verilerinde olup olmadığını kontrol etmesi gerekir. Eğer öyleyse, model bu soruları hatırlayabilir ve modeli değerlendirirken bu spesifik sorularda açıkça daha iyi performans gösterecektir.

Sanki insan sınava girmeden önce sınav sorularını biliyormuş gibi.

Bu sorunu çözmek için OpenAI, halka açık GPT-4 teknik belgesi "GPT-4 Teknik Raporu"nda GPT-4'ün veri kirliliğini nasıl değerlendirdiğini açıkladı. bunu kamuoyuna açıkladılar

Bu veri kirliliğini ölçmeye ve değerlendirmeye yönelik stratejiler.

Özellikle OpenAI, değerlendirme veri kümesi ile eğitim öncesi veriler arasındaki çapraz kontaminasyonu ölçmek için alt dizi eşleştirmeyi kullanır. Hem değerlendirme hem de eğitim verileri, tüm boşluklar ve semboller kaldırılarak, yalnızca karakterler (sayılar dahil) bırakılarak işlenir.

Her değerlendirme örneği için OpenAI rastgele üç adet 50 karakterlik alt dize seçer (veya 50'den az karakter varsa tüm örneği kullanır). Örneklenen üç değerlendirme alt dizisinden herhangi birinin işlenmiş eğitim örneğinin bir alt dizisi olması durumunda bir eşleşme belirlenir.

Bu, OpenAI'nin temiz bir puan elde etmek için attığı ve yeniden çalıştırdığı hatalı örneklerin bir listesini oluşturur. Ancak bu filtreleme yönteminin bazı sınırlamaları vardır; alt dize eşleştirmesi, yanlış pozitiflerin yanı sıra yanlış negatiflere (değerlendirme ve eğitim verileri arasında küçük farklar varsa) yol açabilir. Dolayısıyla OpenAI, değerlendirme örneklerinde bilginin yalnızca bir kısmını, yani yalnızca soruyu, bağlamı veya eşdeğer verileri kullanır ve yanıtları, yanıtları veya eşdeğer verileri göz ardı eder. Bazı durumlarda çoktan seçmeli seçenekler de hariç tutulmuştur. Bu hariç tutmalar yanlış pozitiflerin artmasına neden olabilir.

Bu bölümle ilgilenen okuyucular daha fazla bilgi için makaleye başvurabilirler.

Kağıt adresi:

Ancak GPT-4'ü kıyaslarken kullanılan Phind İnsan puanı konusunda bazı tartışmalar var. Bazıları GPT-4'ün son test puanının %85'e ulaştığını söylüyor. Ancak Phind, bu puanı elde eden ilgili araştırmanın kirlilik araştırması yapmadığını ve GPT-4'ün yeni bir test turuna girerken Human'ın test verilerini görüp görmediğini belirlemenin imkansız olduğunu söyledi. "GPT-4'ün aptallaşmasına" ilişkin yakın zamanda yapılan bazı araştırmalar göz önüne alındığında, orijinal teknik rapordaki verileri kullanmak daha güvenli olacaktır.

Ancak büyük ölçekli model değerlendirmesinin karmaşıklığı göz önüne alındığında, bu değerlendirme sonuçlarının modelin gerçek yeteneklerini yansıtıp yansıtmadığı hala tartışmalı bir konudur. Modeli indirip kendiniz deneyimleyebilirsiniz.

Referans bağlantısı:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin