Code Llama'nın piyasaya sürülmesinden bir gün sonra kodlama yeteneği hızla gelişti ve Human_'ın ince ayarlı sürümü GPT-4'ten daha yüksek puan aldı.

Dünden ben (25 Ağustos): Açık kaynak LLM, kod oluşturmada birkaç ay içinde GPT-4'ü yenecek. Şimdi ben: Aslında bugün.

Dün, kod üretme konusunda uzmanlaşmış temel bir model olan Meta açık kaynak kodu Llama, araştırma ve ticari amaçlarla ücretsiz olarak kullanıma sunuldu.

Code Llama serisi modellerin üç parametreli versiyonu vardır, parametre sayısı 7B, 13B ve 34B'dir. Ayrıca Python, C++, Java, PHP, Type (Java), C# ve Bash dahil olmak üzere birden fazla programlama dilini destekler.

Meta tarafından sağlanan Code Llama sürümleri şunları içerir:

  • Code Llama, temel kod modeli;
  • Code Llama-Python, Python'un ince ayarlı versiyonu;
  • Code Llama-Instruct, doğal dil talimatlarının ince ayarlı bir versiyonu.

Etkisi açısından Code Llama'nın farklı sürümleri, İnsan ve MBPP veri kümeleri üzerinde GPT-3.5'i aşan bir nesil geçiş oranına (geçiş@1) sahiptir.

Ayrıca Code Llama'nın "Unnatural" 34B versiyonunun İnsan veri kümesindeki pass@1'i GPT-4'e yakındır (%62,2'ye karşılık %67,0). Ancak Meta bu sürümü yayınlamadı ancak az miktarda yüksek kaliteli kodlanmış veriyle eğitim yoluyla önemli performans iyileştirmeleri elde etti.

Kaynak:

Bir gün sonra bazı araştırmacılar GPT-4'e meydan okudu. Bunlar, ince ayarlı Kod Llama-34B ile İnsan değerlendirmesinde GPT-4'ü geride bırakan Phind'den (geliştiriciler için bir yapay zeka arama motoru oluşturmayı amaçlayan bir kuruluş) geliyor.

Phind kurucu ortağı Michael Royzen şunları söyledi: "Bu, Meta makalesindeki "Doğal Olmayan Kod Laması" sonuçlarını yeniden üretmeyi (ve aşmayı) amaçlayan erken bir deneydir. Gelecekte, gerçek dünyadaki iş akışlarında rekabetçi olacağını düşündüğüm farklı CodeLlama modellerinden oluşan uzman bir portföyümüz olacak. "

Her iki model de açık kaynaklıdır:

Araştırmacılar bu iki modeli Huggingface'te yayınladılar ve herkes gidip onları kontrol edebilir.

  • Phind-CodeLlama-34B-v1:
  • Phind-CodeLlama-34B-Python-v1:

Şimdi bu araştırmanın nasıl uygulandığını görelim.

** GPT-4'ü yenmek için Code Llama-34B'ye ince ayar yapın**

Önce sonuçlara bakalım. Bu çalışma, Code Llama-34B ve Code Llama-34B-Python'da Phind'in dahili veri kümesiyle ince ayar yaptı ve sırasıyla Phind-CodeLlama-34B-v1 ve Phind-CodeLlama-34B-Python-v1 olmak üzere iki model elde etti.

Yeni elde edilen iki model İnsan üzerinde sırasıyla %67,6 ve %69,5 geçiş elde etti.

Karşılaştırma için CodeLlama-34B pass@1 %48,8; CodeLlama-34B-Python pass@1 ise %53,7'dir.

Ve İnsan üzerinde GPT-4 pass@1 %67'dir (OpenAI tarafından bu yılın Mart ayında yayınlanan "GPT-4 Teknik Raporu"nda yayınlanan veriler).

Kaynak:

Kaynak:

İnce ayar söz konusu olduğunda, veri setleri doğal olarak vazgeçilmezdir.Çalışma, Code Llama-34B ve Code Llama-34B-Python'un yaklaşık 80.000 yüksek kaliteli programlama problemi ve çözümünü içeren özel bir veri seti üzerinde ince ayarını yaptı.

Bu veri kümesi, kod tamamlama örnekleri yerine, İnsan veri yapısından farklı olan talimat-cevap çiftlerini kullanır. Çalışma daha sonra Phind modelini toplamda yaklaşık 160.000 örnekle iki dönem için eğitti. Araştırmacılar, eğitimde LoRA teknolojisinin kullanılmadığını ancak yerel ince ayarın kullanıldığını söyledi.

Ayrıca araştırmada DeepSpeed ZeRO3 ve Flash Attention2 teknolojileri de benimsendi ve bu modellerin dizi uzunluğu 4096 token olan 32 adet A100-80GB GPU üzerinde eğitilmesi üç saat sürdü.

Ayrıca çalışma, model sonuçlarının daha etkili hale getirilmesi için OpenAI'nin dekontaminasyon yöntemini veri setine uyguladı.

Hepimizin bildiği gibi, çok güçlü GPT-4 bile veri kirliliği ikilemiyle karşı karşıya kalacaktır.Profesyonel olmayan bir deyimle, eğitilen model değerlendirme verileri üzerinde eğitilmiş olabilir.

Bu problem LLM için çok zordur.Örneğin bir modelin performansını değerlendirme sürecinde bilimsel olarak güvenilir bir değerlendirme yapabilmek için araştırmacının değerlendirme için kullanılan problemin modelin eğitim verilerinde olup olmadığını kontrol etmesi gerekir. Eğer öyleyse, model bu soruları hatırlayabilir ve modeli değerlendirirken bu spesifik sorularda açıkça daha iyi performans gösterecektir.

Sanki insan sınava girmeden önce sınav sorularını biliyormuş gibi.

Bu sorunu çözmek için OpenAI, GPT-4'ün halka açık GPT-4 teknik belgesi "GPT-4Teknik Rapor"da veri kirliliğini nasıl değerlendirdiğini açıkladı. Bu veri kirliliğini ölçmek ve değerlendirmek için stratejiler açıklıyorlar.

Özellikle OpenAI, değerlendirme veri kümesi ile eğitim öncesi veriler arasındaki çapraz kontaminasyonu ölçmek için alt dizi eşleştirmeyi kullanır. Hem değerlendirme hem de eğitim verileri, tüm boşluklar ve semboller kaldırılarak, yalnızca karakterler (sayılar dahil) bırakılarak işlenir.

Her değerlendirme örneği için OpenAI rastgele üç adet 50 karakterlik alt dize seçer (50 karakterden azsa örneğin tamamı kullanılır). Örneklenen üç değerlendirme alt dizisinden herhangi birinin işlenmiş eğitim örneğinin bir alt dizisi olması durumunda bir eşleşme belirlenir.

Bu, OpenAI'nin temiz bir puan elde etmek için attığı ve yeniden çalıştırdığı hatalı örneklerin bir listesini oluşturur. Ancak bu filtreleme yönteminin bazı sınırlamaları vardır; alt dize eşleştirmesi, yanlış pozitiflerin yanı sıra yanlış negatiflere (değerlendirme ve eğitim verileri arasında küçük farklar varsa) yol açabilir. Dolayısıyla OpenAI, değerlendirme örneklerinde bilgilerin yalnızca bir kısmını kullanır; yalnızca soruları, bağlamı veya eşdeğer verileri kullanır, ancak yanıtları, yanıtları veya eşdeğer verileri göz ardı eder. Bazı durumlarda çoktan seçmeli seçenekler de hariç tutulmuştur. Bu hariç tutmalar yanlış pozitiflerin artmasına neden olabilir.

Bu bölümle ilgilenen okuyucular daha fazla bilgi için makaleye başvurabilirler.

Kağıt adresi:

Ancak GPT-4'ü kıyaslarken kullanılan Phind İnsan puanı konusunda bazı tartışmalar var. Bazıları GPT-4'ün son test puanının %85'e ulaştığını söylüyor. Ancak Phind, bu puanı elde eden ilgili araştırmanın kirlilik araştırması yapmadığını ve GPT-4'ün yeni bir test turuna girerken Human'ın test verilerini görüp görmediğini belirlemenin imkansız olduğunu söyledi. "GPT-4'ün aptallaşmasına" ilişkin yakın zamanda yapılan bazı araştırmalar göz önüne alındığında, orijinal teknik rapordaki verileri kullanmak daha güvenli olacaktır.

Ancak büyük ölçekli model değerlendirmesinin karmaşıklığı göz önüne alındığında, bu değerlendirme sonuçlarının modelin gerçek yeteneklerini yansıtıp yansıtmadığı hala tartışmalı bir konudur. Modeli indirip kendiniz deneyimleyebilirsiniz.

Referans bağlantısı:

View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
  • Reward
  • Comment
  • Share
Comment
0/400
No comments
  • Pin