بعد يوم واحد من الإصدار، تحسنت قدرة البرمجة في Code Llama بشكل كبير، وحصلت النسخة المضبوطة بدقة من Human_ على نقاط أعلى من GPT-4

أنا بالأمس: سوف تتفوق LLM مفتوحة المصدر على GPT-4 في غضون بضعة أشهر في إنشاء التعليمات البرمجية. أنا الآن: اليوم، في الواقع.

بالأمس، أصبح كود Llama مفتوح المصدر، وهو نموذج أساسي متخصص في إنشاء الأكواد، مجانيًا للأغراض البحثية والتجارية.

هناك ثلاثة إصدارات معلمات من سلسلة نماذج Code Llama، وعدد المعلمات هو 7B و13B و34B. ويدعم لغات برمجة متعددة، بما في ذلك Python وC++ وJava وPHP وType (Java) وC# وBash.

تتضمن إصدارات Code Llama المقدمة من Meta ما يلي:

  • كود اللاما، نموذج الكود الأساسي؛
  • Code Llama-Python، نسخة معدلة من Python؛
  • Code Llama-Instruct، نسخة دقيقة من تعليمات اللغة الطبيعية.

من حيث تأثيره، تتمتع الإصدارات المختلفة من Code Llama بمعدل نجاح جيل (pass@1) على مجموعات البيانات البشرية وMBPP يتجاوز GPT-3.5.

بالإضافة إلى ذلك، فإن pass@1 لإصدار 34B "غير الطبيعي" الخاص بـ Code Llama في مجموعة البيانات البشرية قريب من GPT-4 (62.2% مقابل 67.0%). ومع ذلك، لم تصدر Meta هذا الإصدار، ولكنها حققت تحسينات كبيرة في الأداء من خلال التدريب بكمية صغيرة من البيانات المشفرة عالية الجودة.

مصدر:

وبعد يوم واحد فقط، تحدى بعض الباحثين GPT-4. إنهم يأتون من Phind (وهي منظمة تهدف إلى بناء محرك بحث يعمل بالذكاء الاصطناعي للمطورين)، والتي تفوقت على GPT-4** في التقييم البشري باستخدام **Code Llama-34B المضبوط بدقة.

قال مايكل رويزن، المؤسس المشارك لشركة Phind: "هذه مجرد تجربة مبكرة تهدف إلى إعادة إنتاج (وتجاوز) نتائج "Unnatural Code Llama" في ورقة التعريف. في المستقبل، سيكون لدينا مجموعة خبراء من نماذج CodeLlama المختلفة التي أعتقد أنها ستكون قادرة على المنافسة في سير العمل في العالم الحقيقي. "

كلا النموذجين مفتوحان المصدر:

وقد نشر الباحثون هذين النموذجين على موقع Huggingface، ويمكن للجميع الذهاب للتحقق منهما.

  • Phind-CodeLlama-34B-v1:
  • Phind-CodeLlama-34B-Python-v1:

بعد ذلك، دعونا نرى كيف تم تنفيذ هذا البحث.

** اضبط الكود Llama-34B ليتفوق على GPT-4**

دعونا ننظر إلى النتائج أولا. قامت هذه الدراسة بضبط Code Llama-34B وCode Llama-34B-Python باستخدام مجموعة البيانات الداخلية لـ Phind، وحصلت على نموذجين، Phind-CodeLlama-34B-v1 وPhind-CodeLlama-34B-Python-v1، على التوالي.

حقق النموذجان اللذان تم الحصول عليهما حديثًا 67.6% و69.5% pass@1 على التوالي على الإنسان.

للمقارنة، CodeLlama-34B pass@1 تبلغ 48.8%، CodeLlama-34B-Python pass@1 تبلغ 53.7%.

وGPT-4 pass@1 على الإنسان يبلغ 67% (البيانات الصادرة عن OpenAI في "تقرير GPT-4 الفني" الصادر في مارس من هذا العام).

مصدر:

مصدر:

عندما يتعلق الأمر بالضبط الدقيق، فإن مجموعات البيانات أمر لا بد منه، وهذه الدراسة تدرس Code Llama-34B وCode Llama-34B-Python المضبوطة بدقة على مجموعة بيانات خاصة تحتوي على حوالي 80,000 مشكلة وحلول برمجة عالية الجودة.

بدلاً من أمثلة إكمال التعليمات البرمجية، تستخدم مجموعة البيانات هذه أزواج التعليمات والإجابات، والتي تختلف عن بنية البيانات البشرية. ثم قامت الدراسة بتدريب نموذج Phind على عصرين، بإجمالي حوالي 160.000 مثال. وقال الباحثون إن تقنية LoRA لم تستخدم في التدريب، ولكن تم استخدام الضبط الدقيق المحلي.

بالإضافة إلى ذلك، اعتمد البحث أيضًا على تقنيات DeepSpeed ZeRO 3 وFlash Attention 2. وأمضوا ثلاث ساعات على 32 وحدة معالجة رسوميات A100-80GB لتدريب هذه النماذج بطول تسلسلي يبلغ 4096 رمزًا مميزًا.

بالإضافة إلى ذلك، طبقت الدراسة طريقة OpenAI لإزالة التلوث على مجموعة البيانات لجعل نتائج النموذج أكثر فعالية.

وكما نعلم جميعا، فحتى GPT-4 القوي للغاية سوف يواجه معضلة تلوث البيانات. وبعبارات عامة، ربما تم تدريب النموذج المدرب على بيانات التقييم.

هذه المشكلة صعبة للغاية بالنسبة لماجستير القانون، على سبيل المثال، في عملية تقييم أداء النموذج، من أجل إجراء تقييم ذي مصداقية علمية، يجب على الباحث التحقق مما إذا كانت المشكلة المستخدمة للتقييم موجودة في بيانات التدريب الخاصة بالنموذج. إذا كان الأمر كذلك، فيمكن للنموذج أن يتذكر هذه الأسئلة، وعند تقييم النموذج، من الواضح أنه سيكون أداؤه أفضل في هذه الأسئلة المحددة.

يبدو الأمر كما لو أن الشخص يعرف أسئلة الاختبار بالفعل قبل إجراء الاختبار.

من أجل حل هذه المشكلة، كشفت OpenAI عن كيفية تقييم GPT-4 لتلوث البيانات في الوثيقة الفنية العامة لـ GPT-4 "التقرير الفني لـ GPT-4". لقد جعلوها علنية

استراتيجيات قياس وتقييم تلوث البيانات هذا.

على وجه التحديد، يستخدم OpenAI مطابقة السلسلة الفرعية لقياس التلوث المتبادل بين مجموعة بيانات التقييم وبيانات ما قبل التدريب. تتم معالجة كل من بيانات التقييم والتدريب عن طريق إزالة جميع المسافات والرموز، مع ترك الأحرف فقط (بما في ذلك الأرقام).

لكل مثال تقييم، يختار OpenAI بشكل عشوائي ثلاث سلاسل فرعية مكونة من 50 حرفًا (أو يستخدم المثال بأكمله إذا كان هناك أقل من 50 حرفًا). يتم تحديد التطابق إذا كانت أي من سلاسل التقييم الفرعية الثلاثة التي تم أخذ عينات منها عبارة عن سلسلة فرعية من مثال التدريب المعالج.

وينتج عن ذلك قائمة من الأمثلة الملوثة، والتي يتجاهلها OpenAI ويعيد تشغيلها للحصول على نتيجة غير ملوثة. لكن طريقة التصفية هذه لها بعض القيود، حيث يمكن أن تؤدي مطابقة السلسلة الفرعية إلى نتائج سلبية كاذبة (إذا كانت هناك اختلافات صغيرة بين بيانات التقييم والتدريب) بالإضافة إلى نتائج إيجابية كاذبة. وبالتالي، يستخدم OpenAI جزءًا فقط من المعلومات في أمثلة التقييم، فقط السؤال أو السياق أو البيانات المعادلة، ويتجاهل الإجابات أو الاستجابات أو البيانات المعادلة. وفي بعض الحالات، تم أيضًا استبعاد خيارات الاختيار المتعدد. قد تؤدي هذه الاستثناءات إلى زيادة الإيجابيات الكاذبة.

في هذا الجزء، يمكن للقراء المهتمين الرجوع إلى الورقة لمزيد من المعلومات.

عنوان الورقة:

ومع ذلك، هناك بعض الجدل حول النتيجة البشرية Phind المستخدمة عند قياس GPT-4. يقول بعض الأشخاص أن نتيجة اختبار GPT-4 الأخير وصلت إلى 85%. لكن أجاب فيند بأن الأبحاث ذات الصلة التي استمدت هذه النتيجة لم تقم بإجراء أبحاث التلوث، وكان من المستحيل تحديد ما إذا كان GPT-4 قد اطلع على بيانات اختبار الإنسان عند خضوعه لجولة جديدة من الاختبارات. وبالنظر إلى بعض الأبحاث الحديثة حول "تحول GPT-4 إلى غبي"، فمن الآمن استخدام البيانات الموجودة في التقرير الفني الأصلي.

ومع ذلك، وبالنظر إلى مدى تعقيد تقييم النماذج واسعة النطاق، فإن ما إذا كانت نتائج التقييم هذه يمكن أن تعكس القدرات الحقيقية للنموذج لا تزال قضية مثيرة للجدل. يمكنك تنزيل النموذج وتجربته بنفسك.

الرابط المرجعي:

شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
  • أعجبني
  • تعليق
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • تثبيت
تداول العملات الرقمية في أي مكان وفي أي وقت
qrCode
امسح لتنزيل تطبيق Gate.io
المنتدى
بالعربية
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)