أنا من الأمس (25 أغسطس): سوف تتفوق LLM مفتوحة المصدر على GPT-4 في غضون أشهر قليلة في إنشاء التعليمات البرمجية. أنا الآن: اليوم، في الواقع.
بالأمس، أصبح كود Llama مفتوح المصدر، وهو نموذج أساسي متخصص في إنشاء الأكواد، مجانيًا للأغراض البحثية والتجارية.
هناك ثلاثة إصدارات معلمات من سلسلة نماذج Code Llama، وعدد المعلمات هو 7B و13B و34B. ويدعم لغات البرمجة المتعددة، بما في ذلك Python وC++ وJava وPHP وType (Java) وC# وBash.
تتضمن إصدارات Code Llama المقدمة من Meta ما يلي:
كود اللاما، نموذج الكود الأساسي؛
Code Llama-Python، نسخة معدلة من Python؛
Code Llama-Instruct، نسخة دقيقة من تعليمات اللغة الطبيعية.
من حيث تأثيره، تتمتع الإصدارات المختلفة من Code Llama بمعدل نجاح جيل (pass@1) على مجموعات البيانات البشرية وMBPP يتجاوز GPT-3.5.
بالإضافة إلى ذلك، فإن pass@1 لإصدار 34B "غير الطبيعي" الخاص بـ Code Llama في مجموعة البيانات البشرية قريب من GPT-4 (62.2% مقابل 67.0%). ومع ذلك، لم تصدر Meta هذا الإصدار، ولكنها حققت تحسينات كبيرة في الأداء من خلال التدريب بكمية صغيرة من البيانات المشفرة عالية الجودة.
مصدر:
وبعد يوم واحد فقط، تحدى بعض الباحثين GPT-4. إنهم يأتون من Phind (وهي منظمة تهدف إلى بناء محرك بحث يعمل بالذكاء الاصطناعي للمطورين)، والتي تغلبت على GPT-4** في التقييم البشري باستخدام **Code Llama-34B المضبوط بدقة.
قال مايكل رويزن، المؤسس المشارك لشركة Phind: "هذه مجرد تجربة مبكرة تهدف إلى إعادة إنتاج (وتجاوز) نتائج "Unnatural Code Llama" في ورقة التعريف. في المستقبل، سيكون لدينا مجموعة خبراء من نماذج CodeLlama المختلفة التي أعتقد أنها ستكون قادرة على المنافسة في سير العمل في العالم الحقيقي. "
كلا النموذجين مفتوحان المصدر:
وقد نشر الباحثون هذين النموذجين على موقع Huggingface، ويمكن للجميع الذهاب للتحقق منهما.
Phind-CodeLlama-34B-v1:
Phind-CodeLlama-34B-Python-v1:
بعد ذلك، دعونا نرى كيف تم تنفيذ هذا البحث.
** اضبط الكود Llama-34B ليتفوق على GPT-4**
دعونا ننظر إلى النتائج أولا. قامت هذه الدراسة بضبط Code Llama-34B وCode Llama-34B-Python باستخدام مجموعة البيانات الداخلية لـ Phind، وحصلت على نموذجين، Phind-CodeLlama-34B-v1 وPhind-CodeLlama-34B-Python-v1، على التوالي.
حقق النموذجان اللذان تم الحصول عليهما حديثًا 67.6% و69.5% pass@1 على التوالي على الإنسان.
للمقارنة، CodeLlama-34B pass@1 تبلغ 48.8%، CodeLlama-34B-Python pass@1 تبلغ 53.7%.
وGPT-4 pass@1 على الإنسان يبلغ 67% (البيانات الصادرة عن OpenAI في "تقرير GPT-4Technical" الصادر في مارس من هذا العام).
مصدر:
مصدر:
عندما يتعلق الأمر بالضبط الدقيق، فإن مجموعات البيانات لا غنى عنها بطبيعة الحال. وقد قامت دراسة الضبط الدقيق لـ Code Llama-34B و Code Llama-34B-Python على مجموعة بيانات خاصة تحتوي على حوالي 80.000 مشكلة وحل برمجي عالي الجودة.
بدلاً من أمثلة إكمال التعليمات البرمجية، تستخدم مجموعة البيانات هذه أزواج التعليمات والإجابات، والتي تختلف عن بنية البيانات البشرية. ثم قامت الدراسة بتدريب نموذج Phind على عصرين، بإجمالي حوالي 160.000 مثال. وقال الباحثون إن تقنية LoRA لم تستخدم في التدريب، ولكن تم استخدام الضبط الدقيق المحلي.
بالإضافة إلى ذلك، اعتمد البحث أيضًا على تقنيات DeepSpeed ZeRO3 وFlash Attention2، واستغرق تدريب هذه النماذج ثلاث ساعات على 32 وحدة معالجة رسوميات A100-80GB، بطول تسلسلي يبلغ 4096 رمزًا.
بالإضافة إلى ذلك، طبقت الدراسة طريقة OpenAI لإزالة التلوث على مجموعة البيانات لجعل نتائج النموذج أكثر فعالية.
وكما نعلم جميعا، فحتى GPT-4 القوي للغاية سوف يواجه معضلة تلوث البيانات. وبعبارات عامة، ربما تم تدريب النموذج المدرب على بيانات التقييم.
هذه المشكلة صعبة للغاية بالنسبة لماجستير القانون، على سبيل المثال، في عملية تقييم أداء النموذج، من أجل إجراء تقييم ذي مصداقية علمية، يجب على الباحث التحقق مما إذا كانت المشكلة المستخدمة للتقييم موجودة في بيانات التدريب الخاصة بالنموذج. إذا كان الأمر كذلك، فيمكن للنموذج أن يتذكر هذه الأسئلة، وعند تقييم النموذج، من الواضح أنه سيكون أداؤه أفضل في هذه الأسئلة المحددة.
يبدو الأمر كما لو أن الشخص يعرف أسئلة الاختبار بالفعل قبل إجراء الاختبار.
من أجل حل هذه المشكلة، كشفت OpenAI عن كيفية تقييم GPT-4 لتلوث البيانات في الوثيقة الفنية العامة لـ GPT-4 "GPT-4Technical Report". ويكشفون عن استراتيجيات لقياس وتقييم تلوث البيانات هذا.
على وجه التحديد، يستخدم OpenAI مطابقة السلسلة الفرعية لقياس التلوث المتبادل بين مجموعة بيانات التقييم وبيانات ما قبل التدريب. تتم معالجة كل من بيانات التقييم والتدريب عن طريق إزالة جميع المسافات والرموز، مع ترك الأحرف فقط (بما في ذلك الأرقام).
لكل مثال تقييم، يختار OpenAI بشكل عشوائي ثلاث سلاسل فرعية مكونة من 50 حرفًا (إذا كانت أقل من 50 حرفًا، فسيتم استخدام المثال بأكمله). يتم تحديد التطابق إذا كانت أي من سلاسل التقييم الفرعية الثلاثة التي تم أخذ عينات منها عبارة عن سلسلة فرعية من مثال التدريب المعالج.
وينتج عن ذلك قائمة من الأمثلة الملوثة، والتي يتجاهلها OpenAI ويعيد تشغيلها للحصول على نتيجة غير ملوثة. لكن طريقة التصفية هذه لها بعض القيود، حيث يمكن أن تؤدي مطابقة السلسلة الفرعية إلى نتائج سلبية كاذبة (إذا كانت هناك اختلافات صغيرة بين بيانات التقييم والتدريب) بالإضافة إلى نتائج إيجابية كاذبة. وبالتالي، تستخدم OpenAI جزءًا فقط من المعلومات في أمثلة التقييم، فقط باستخدام الأسئلة أو السياق أو البيانات المعادلة، مع تجاهل الإجابات أو الاستجابات أو البيانات المعادلة. وفي بعض الحالات، تم أيضًا استبعاد خيارات الاختيار المتعدد. قد تؤدي هذه الاستثناءات إلى زيادة الإيجابيات الكاذبة.
في هذا الجزء، يمكن للقراء المهتمين الرجوع إلى الورقة لمزيد من المعلومات.
عنوان الورقة:
ومع ذلك، هناك بعض الجدل حول النتيجة البشرية Phind المستخدمة عند قياس GPT-4. يقول بعض الأشخاص أن نتيجة اختبار GPT-4 الأخير وصلت إلى 85%. لكن أجاب فيند بأن الأبحاث ذات الصلة التي استمدت هذه النتيجة لم تقم بإجراء أبحاث التلوث، وكان من المستحيل تحديد ما إذا كان GPT-4 قد اطلع على بيانات اختبار الإنسان عند خضوعه لجولة جديدة من الاختبارات. وبالنظر إلى بعض الأبحاث الحديثة حول "تحول GPT-4 إلى غبي"، فمن الآمن استخدام البيانات الموجودة في التقرير الفني الأصلي.
ومع ذلك، وبالنظر إلى مدى تعقيد تقييم النماذج واسعة النطاق، فإن ما إذا كانت نتائج التقييم هذه يمكن أن تعكس القدرات الحقيقية للنموذج لا تزال قضية مثيرة للجدل. يمكنك تنزيل النموذج وتجربته بنفسك.
رابط المرجع:
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
بعد يوم واحد من الإصدار، تحسنت قدرة البرمجة في Code Llama بشكل كبير، وحصلت النسخة المضبوطة بدقة من Human_ على نقاط أعلى من GPT-4
بالأمس، أصبح كود Llama مفتوح المصدر، وهو نموذج أساسي متخصص في إنشاء الأكواد، مجانيًا للأغراض البحثية والتجارية.
هناك ثلاثة إصدارات معلمات من سلسلة نماذج Code Llama، وعدد المعلمات هو 7B و13B و34B. ويدعم لغات البرمجة المتعددة، بما في ذلك Python وC++ وJava وPHP وType (Java) وC# وBash.
تتضمن إصدارات Code Llama المقدمة من Meta ما يلي:
من حيث تأثيره، تتمتع الإصدارات المختلفة من Code Llama بمعدل نجاح جيل (pass@1) على مجموعات البيانات البشرية وMBPP يتجاوز GPT-3.5.
بالإضافة إلى ذلك، فإن pass@1 لإصدار 34B "غير الطبيعي" الخاص بـ Code Llama في مجموعة البيانات البشرية قريب من GPT-4 (62.2% مقابل 67.0%). ومع ذلك، لم تصدر Meta هذا الإصدار، ولكنها حققت تحسينات كبيرة في الأداء من خلال التدريب بكمية صغيرة من البيانات المشفرة عالية الجودة.
وبعد يوم واحد فقط، تحدى بعض الباحثين GPT-4. إنهم يأتون من Phind (وهي منظمة تهدف إلى بناء محرك بحث يعمل بالذكاء الاصطناعي للمطورين)، والتي تغلبت على GPT-4** في التقييم البشري باستخدام **Code Llama-34B المضبوط بدقة.
قال مايكل رويزن، المؤسس المشارك لشركة Phind: "هذه مجرد تجربة مبكرة تهدف إلى إعادة إنتاج (وتجاوز) نتائج "Unnatural Code Llama" في ورقة التعريف. في المستقبل، سيكون لدينا مجموعة خبراء من نماذج CodeLlama المختلفة التي أعتقد أنها ستكون قادرة على المنافسة في سير العمل في العالم الحقيقي. "
بعد ذلك، دعونا نرى كيف تم تنفيذ هذا البحث.
** اضبط الكود Llama-34B ليتفوق على GPT-4**
دعونا ننظر إلى النتائج أولا. قامت هذه الدراسة بضبط Code Llama-34B وCode Llama-34B-Python باستخدام مجموعة البيانات الداخلية لـ Phind، وحصلت على نموذجين، Phind-CodeLlama-34B-v1 وPhind-CodeLlama-34B-Python-v1، على التوالي.
حقق النموذجان اللذان تم الحصول عليهما حديثًا 67.6% و69.5% pass@1 على التوالي على الإنسان.
للمقارنة، CodeLlama-34B pass@1 تبلغ 48.8%، CodeLlama-34B-Python pass@1 تبلغ 53.7%.
وGPT-4 pass@1 على الإنسان يبلغ 67% (البيانات الصادرة عن OpenAI في "تقرير GPT-4Technical" الصادر في مارس من هذا العام).
عندما يتعلق الأمر بالضبط الدقيق، فإن مجموعات البيانات لا غنى عنها بطبيعة الحال. وقد قامت دراسة الضبط الدقيق لـ Code Llama-34B و Code Llama-34B-Python على مجموعة بيانات خاصة تحتوي على حوالي 80.000 مشكلة وحل برمجي عالي الجودة.
بدلاً من أمثلة إكمال التعليمات البرمجية، تستخدم مجموعة البيانات هذه أزواج التعليمات والإجابات، والتي تختلف عن بنية البيانات البشرية. ثم قامت الدراسة بتدريب نموذج Phind على عصرين، بإجمالي حوالي 160.000 مثال. وقال الباحثون إن تقنية LoRA لم تستخدم في التدريب، ولكن تم استخدام الضبط الدقيق المحلي.
بالإضافة إلى ذلك، اعتمد البحث أيضًا على تقنيات DeepSpeed ZeRO3 وFlash Attention2، واستغرق تدريب هذه النماذج ثلاث ساعات على 32 وحدة معالجة رسوميات A100-80GB، بطول تسلسلي يبلغ 4096 رمزًا.
بالإضافة إلى ذلك، طبقت الدراسة طريقة OpenAI لإزالة التلوث على مجموعة البيانات لجعل نتائج النموذج أكثر فعالية.
وكما نعلم جميعا، فحتى GPT-4 القوي للغاية سوف يواجه معضلة تلوث البيانات. وبعبارات عامة، ربما تم تدريب النموذج المدرب على بيانات التقييم.
هذه المشكلة صعبة للغاية بالنسبة لماجستير القانون، على سبيل المثال، في عملية تقييم أداء النموذج، من أجل إجراء تقييم ذي مصداقية علمية، يجب على الباحث التحقق مما إذا كانت المشكلة المستخدمة للتقييم موجودة في بيانات التدريب الخاصة بالنموذج. إذا كان الأمر كذلك، فيمكن للنموذج أن يتذكر هذه الأسئلة، وعند تقييم النموذج، من الواضح أنه سيكون أداؤه أفضل في هذه الأسئلة المحددة.
يبدو الأمر كما لو أن الشخص يعرف أسئلة الاختبار بالفعل قبل إجراء الاختبار.
من أجل حل هذه المشكلة، كشفت OpenAI عن كيفية تقييم GPT-4 لتلوث البيانات في الوثيقة الفنية العامة لـ GPT-4 "GPT-4Technical Report". ويكشفون عن استراتيجيات لقياس وتقييم تلوث البيانات هذا.
على وجه التحديد، يستخدم OpenAI مطابقة السلسلة الفرعية لقياس التلوث المتبادل بين مجموعة بيانات التقييم وبيانات ما قبل التدريب. تتم معالجة كل من بيانات التقييم والتدريب عن طريق إزالة جميع المسافات والرموز، مع ترك الأحرف فقط (بما في ذلك الأرقام).
لكل مثال تقييم، يختار OpenAI بشكل عشوائي ثلاث سلاسل فرعية مكونة من 50 حرفًا (إذا كانت أقل من 50 حرفًا، فسيتم استخدام المثال بأكمله). يتم تحديد التطابق إذا كانت أي من سلاسل التقييم الفرعية الثلاثة التي تم أخذ عينات منها عبارة عن سلسلة فرعية من مثال التدريب المعالج.
وينتج عن ذلك قائمة من الأمثلة الملوثة، والتي يتجاهلها OpenAI ويعيد تشغيلها للحصول على نتيجة غير ملوثة. لكن طريقة التصفية هذه لها بعض القيود، حيث يمكن أن تؤدي مطابقة السلسلة الفرعية إلى نتائج سلبية كاذبة (إذا كانت هناك اختلافات صغيرة بين بيانات التقييم والتدريب) بالإضافة إلى نتائج إيجابية كاذبة. وبالتالي، تستخدم OpenAI جزءًا فقط من المعلومات في أمثلة التقييم، فقط باستخدام الأسئلة أو السياق أو البيانات المعادلة، مع تجاهل الإجابات أو الاستجابات أو البيانات المعادلة. وفي بعض الحالات، تم أيضًا استبعاد خيارات الاختيار المتعدد. قد تؤدي هذه الاستثناءات إلى زيادة الإيجابيات الكاذبة.
في هذا الجزء، يمكن للقراء المهتمين الرجوع إلى الورقة لمزيد من المعلومات.
عنوان الورقة:
ومع ذلك، هناك بعض الجدل حول النتيجة البشرية Phind المستخدمة عند قياس GPT-4. يقول بعض الأشخاص أن نتيجة اختبار GPT-4 الأخير وصلت إلى 85%. لكن أجاب فيند بأن الأبحاث ذات الصلة التي استمدت هذه النتيجة لم تقم بإجراء أبحاث التلوث، وكان من المستحيل تحديد ما إذا كان GPT-4 قد اطلع على بيانات اختبار الإنسان عند خضوعه لجولة جديدة من الاختبارات. وبالنظر إلى بعض الأبحاث الحديثة حول "تحول GPT-4 إلى غبي"، فمن الآمن استخدام البيانات الموجودة في التقرير الفني الأصلي.
رابط المرجع: