انتصر تمامًا على GPT-4، مما أدى إلى القضاء على النموذج مغلق المصدر في ثوانٍ! تم الكشف عن نسخة غامضة من كود اللاما

巴比特_

2023-08-28 03:33:11

المصدر الأصلي: Xinzhiyuan

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI‌

بعد يومين فقط من صدوره، أشعل Code Llama مرة أخرى ثورة برمجة الذكاء الاصطناعي.

هل تتذكر النسخة الغامضة Unnatural Code Llama التي ظهرت Meta في ورقة Code Llama والتي يمكنها معادلة GPT-4 بالكامل؟

وأوضح الرجل الكبير سيباستيان في مدونته:

إنها نسخة مضبوطة بدقة من Code Llama-Python 34B باستخدام 15000 تعليمات لغة غير طبيعية.

من خلال إخفاء مثل هذه المعلومات المخفية للغاية في الورقة، يبدو أن Meta تريد تلميح مجتمع المصادر المفتوحة إلى أن Code Llama يتمتع بإمكانيات كبيرة، لذلك دعونا نحسنها!

لذا، فقد هزم WizardCoder 34B، الذي تم ضبطه استنادًا إلى Code Llama، GPT-4 بشكل مباشر على المعيار البشري.

على وجه التحديد، سحق WizardCoder إصدار مارس من GPT-4 (67%) بمعدل فوز قدره 73.2%.

بالإضافة إلى ذلك، فإن أداء WizardCoder 34B يتجاوز الإصدار الأحدث GPT-3.5، وClaude 2.

تم إصدار نموذج البرمجة WizardCoder في يونيو من قبل Microsoft وجامعة هونغ كونغ المعمدانية. ويقال إن إصدار 13B/7B المضبوط سيأتي قريبًا.

وفقًا لجيم فان، أحد كبار العلماء في Nvidia، فهذه في الأساس نسخة مفتوحة من "Unnatural Code Llama".

على الرغم من أن البيانات المعيارية تبدو جيدة، إلا أن Human يختبر فقط توزيعًا ضيقًا وقد يؤدي إلى الإفراط في الاحتواء. يعد اختبار البيانات في السيناريوهات الطبيعية أمرًا مهمًا حقًا. تحتاج معايير الترميز إلى ترقية كبيرة.

## **هل ولدت نسخة غامضة من Code Llama؟ **

في يوم الجمعة، قامت Meta رسميًا بفتح ثلاثة إصدارات من Code Llama مفتوحة المصدر.

في معايير Human وMBPP، وجد العديد من الأشخاص إصدارًا غير مذكور في Meta الرسمي - Unnatural Code Llama.

حققت هذه النسخة الغامضة أداءً بنسبة 62.2% على Human pass@1.

يتمتع WizardCoder 34B المضبوط جيدًا والذي تم إصداره اليوم بأداء يصل إلى 73.2% على Human pass@1.

وفقًا للمقدمة، يعد WizardCoder 34B نسخة دقيقة من نموذج Code Llama باستخدام مجموعة البيانات الاصطناعية Evol-Instruct.

فيما يلي تصور لمقارنة الأداء مع جميع النماذج مفتوحة المصدر ومغلقة المصدر.

بالمقارنة مع نموذج OpenAI، أشار الباحثون إلى أن GPT4 وChatGPT-3.5 لهما نتيجتان بشريتان:

النتائج المقدمة من تقرير GPT4 الرسمي لـ OpenAI (2023/03/15) هي: 67.0% و48.1% على التوالي. نتائج الباحثين الذين يستخدمون أحدث اختبار API (2023/08/26) هي 82.0% و72.5%.

بالإضافة إلى ذلك، يؤكد الباحثون أن نتيجة الأداء هذه قابلة للتكرار بنسبة 100%!

العرض التجريبي لـ WizardCoder 34B مفتوح لأي شخص لاختباره.

لقد تمت الإشارة إلى أن الملاءمة المفرطة للوحات المتصدرين العامة هي أحد الأسباب الرئيسية وراء صعوبة النماذج مفتوحة المصدر في الممارسة العملية. فيما يلي مثال على إعداد بيانات المبرمج المعالج باستخدام درجات Human pass@1 لتحديد ما إذا كان سيتم مواصلة تطوير مجموعة البيانات. يؤدي التحسين على مجموعة الاختبار فقط إلى إحباط الغرض من مجموعة الاختبار.

بالأمس أيضًا، قام باحثون من منظمة Phind بضبط Code Llama-34B ليتفوق على GPT-4 في التقييم البشري.

ChatGPT مقابل Code Llama

كيف يعمل Code Llama في مهام البرمجة الفعلية؟

أجرى أحد مستخدمي الإنترنت اختبارًا مقارنًا لـ GPT-3.5 وCode Llama Instruct-34B. تم اختباره من خلال الوصول إلى Code Llama 34B المقدم من Perplexity.AI.

فهو يغذي 8 مهام تعليمات برمجية متطابقة للنموذجين على التوالي، ويقارن جودة الرموز التي تم إنشاؤها.

والنتيجة هي فوز GPT-3.5 بنسبة 8:5.

فيما يلي نتائج الاختبار المحددة.

السؤال الأول

استخدم بايثون لإنجاز هذه المهمة، مع وجود سلسلتين word1 وword2. دمج السلاسل عن طريق إضافة أحرف بالترتيب بالتناوب، بدءًا من الكلمة 1. إذا كانت إحدى السلسلة أطول من الأخرى، قم بإلحاق أحرف إضافية بنهاية السلسلة المدمجة.

وأخيرا إخراج السلسلة المدمجة.

على سبيل المثال:

الإدخال: word1 = "abc"، word2 = "pqr" الإخراج: "apbqcr"

يمكن إكمال كل من GPT-3.5 وCode Llama - 1:1

السؤال الثاني

استخدم Python لإنجاز هذه المهمة، نظرًا لوجود سلسلة s، ما عليك سوى عكس جميع حروف العلة في السلسلة وإعادتها.

حروف العلة هي "a" و"e" و"i" و"o" و"u"، والتي يمكن أن تظهر عدة مرات بالأحرف الصغيرة والكبيرة.

على سبيل المثال: الإدخال: s = "مرحبًا" الإخراج: "ello"

اكتمل GPT-3.5، ولم يكتمل رمز اللاما - 2:1

السؤال الثالث

استخدم Python لإنجاز هذه المهمة، مع وجود مصفوفة أرقام صحيحة، انقل جميع الأصفار إلى نهايتها مع الحفاظ على الترتيب النسبي للعناصر غير الصفرية.

لاحظ أنه يتعين عليك القيام بذلك في مكانه، دون عمل نسخة من المصفوفة.

على سبيل المثال: الإدخال: الأعداد = [0,1,0,3,12] الإخراج: [1,3,12,0,0]

اكتمل GPT-3.5، ولم يكتمل رمز اللاما - 3:1

السؤال 4

باستخدام بايثون لهذه المهمة، يكون لديك مشتل زهور طويل، وبعض قطع الأراضي مزروعة بالزهور، وبعضها الآخر ليس كذلك.

ومع ذلك، لا يمكن زراعة قطع الأراضي المجاورة بالورود. بالنظر إلى مصفوفة أعداد صحيحة من 0 و1 لقاع الزهرة، حيث 0 فارغ و1 ليس فارغًا، وعدد صحيح n، يكون الناتج صحيحًا إذا كان من الممكن زراعة زهور جديدة في قاع الزهرة دون انتهاك قاعدة الزهرة غير المتجاورة، وإلا، خطأ هو الإخراج.

المثال 1: الإدخال: قاع الزهرة = [1,0,0,0,1]، n = 1 الإخراج: صحيح المثال 2: الإدخال: قاع الزهرة = [1,0,0,0,1]، n = 2 الإخراج: خطأ

تم الانتهاء من كلا النموذجين - 4:2

السؤال 5

باستخدام لغة بايثون، مع إعطاء سلسلة إدخال، قم بعكس ترتيب الكلمات. يتم تعريف الكلمة على أنها سلسلة من الأحرف غير ذات المسافات البيضاء. سيتم فصل الكلمات الموجودة في s بمسافة واحدة على الأقل.

إخراج سلسلة من الكلمات المرتبطة بمسافات مفردة بترتيب عكسي. لاحظ أن s قد تحتوي على مسافات بادئة أو لاحقة أو مسافات متعددة بين كلمتين.

يجب أن تحتوي السلسلة التي تم إرجاعها على مسافة واحدة فقط لفصل الكلمات. لا تقم بتضمين أي مسافات إضافية.

مثال: الإدخال: s = "السماء زرقاء" الإخراج: "الأزرق هو السماء"

تم الانتهاء من كلا النموذجين - 5:3

السؤال السادس

استخدم بايثون لإنجاز هذه المهمة، بالنظر إلى سلسلة s وعدد صحيح k، قم بإرجاع الحد الأقصى لعدد حروف العلة في أي سلسلة فرعية بطول k في s.

حروف العلة في اللغة الإنجليزية هي "a" و"e" و"i" و"o" و"u". مثال: الإدخال: s = "leetcode"، k = 3 الإخراج: 2

الشرح: "lee" و"eet" و"ode" تحتوي على حرفين متحركين.

تم الانتهاء من كلا النموذجين - 6:4

السؤال 7

استخدم Python لإنجاز هذه المهمة، مع وجود سلسلة تحتوي على العلامات النجمية *. من خلال عملية واحدة، يمكنك: تحديد علامة النجمة في s.

إزالة أقرب حرف غير النجمة إلى يساره، وإزالة العلامة النجمية نفسها. إخراج السلسلة بعد إزالة جميع العلامات النجمية. مثال: الإدخال: s = "leet**cod*e" الإخراج: "lecoe"

تم الانتهاء من GPT-3.5، ولكن لم يتم الانتهاء من Code Llama - 7:4

السؤال 8

استخدم Python لإنجاز هذه المهمة، نظرًا لمصفوفة درجة الحرارة الصحيحة التي تمثل درجة الحرارة اليومية، قم بإرجاع إجابة المصفوفة، حيث الإجابة [i] هو عدد الأيام بعد اليوم الذي يتعين عليك فيه انتظار درجات الحرارة الأكثر دفئًا.

إذا لم يكن هناك يوم في المستقبل للقيام بذلك، فاحتفظ بالإجابة [i] == 0. مثال: الإدخال: درجة الحرارة = [73,74,75,71,69,72,76,73] الإخراج: [1,1,4,2,1,1,0,0]

تم الانتهاء من كلا النموذجين - 8:5

فيما يتعلق بأداء النموذجين، يعتقد مستخدم الإنترنت هذا أن هذه ليست دراسة صارمة، بل اختبار بسيط، في كل مرة يتم فيها إعادة إنشاء النموذج لإنشاء رمز، يمكن أن يحصل بشكل أساسي على إجابة أفضل، ولكن لا يوجد اختبار.

لذا فإن نتيجة الاختبار ليست أداء النموذجين الأخيرين.

بالمقارنة مع GPT-4، يجب أن تكون Llama 3 مفتوحة المصدر

منذ إصدار Llama وLlama 2، انفجر مجتمع التعلم الآلي ChatGPT، وظهرت العديد من نماذج الضبط الدقيق.

قال الباحث في OpenAI جيسون وي إنه علم من الأنشطة الاجتماعية لـ Meta GenAI أن Llama 3 وLlama 4 سيكونان أيضًا مفتوحي المصدر في المستقبل.

لدينا القدرة الحاسوبية لتدريب اللاما 3 و4. خطتنا هي جعل Llama-3 بنفس جودة GPT-4. واو، إذا كان Llama-3 بنفس جودة GPT-4، فهل ستفتحه كمصدر؟ نعم نحن سوف. عذرا، الموظفين المحاذاة.

قال أحد مستخدمي الإنترنت أن شركة Meta تأمل في فتح نموذج بمستوى GPT-5، ويبدو أنها أصرت على المصدر المفتوح قبل AGI.

أريد أن أكون واضحًا بشأن ما يعنيه هذا: لا يوجد مفتاح قتل.

إذا حدث خطأ ما - خرج أحد العملاء عن نطاق السيطرة، أو قام ممثل سيء بتسليحه - فلا توجد طريقة سهلة لإيقافه. يمكن تشغيله على أي مجموعة صغيرة. لا يوجد أمن على الإطلاق.

البحوث الأمنية تصبح بلا معنى.

كل العمل الذي قام به الناس لجعل أنظمة الذكاء الاصطناعي صادقة ومتسقة وأخلاقية، وما إلى ذلك، أصبح بلا معنى. سوف تتطور أنظمة الذكاء الاصطناعي في العالم نحو أي نظام يحقق أعظم فائدة اقتصادية، بغض النظر عن قيمها أو دوافعها. لا توجد حواجز حماية. يمكن لأي شخص تغيير قيم أو قدرات الذكاء الاصطناعي حسب الرغبة، للأفضل أو للأسوأ.

إذا استمرت Meta في كونها مفتوحة المصدر بينما أصبحنا أكثر ذكاءً في مجال الذكاء الاصطناعي، فمن الواضح بالنسبة لي أن الأمور سوف تصبح فوضوية. لقد أدى وصول هذه الكائنات الذكية من خارج كوكب الأرض إلى إفساد العالم بالفعل، لكن الأمر سيكون أسوأ إذا تخلينا عن السيطرة القليلة التي يتمتع بها البشر.

بقدر ما أعرف، فإن أمل ميتا في المصدر المفتوح مستمد بشكل أساسي من "عقيدة مجتمع المصادر المفتوحة"، أي أن "المصادر المفتوحة جيدة". وعلى حد علمي، لم يكونوا مؤيدين للمصادر المفتوحة حتى التسريب العرضي لنموذجهم الأول، اللاما، وهم يتظاهرون بأنهم مفتوحي المصدر منذ ذلك الحين.

في هذا الصدد، قال ماسك إن ماجستير القانون الذي يستخدم محول الانحدار الذاتي لديه كفاءة طاقة سيئة للغاية، ليس فقط في التدريب، ولكن أيضًا في التفكير. أعتقد أنه تم إيقافه بعدة أوامر من حيث الحجم.

## ارتفاع القدرة على البرمجة في Llama 2

Llama 2 هو نموذج قوي جدًا في جميع الجوانب.

ومع ذلك، لديه نقطة ضعف واضحة جدًا - القدرة على البرمجة.

وفقًا للبيانات الواردة في الورقة التي نشرتها Meta on Llama 2، فإن أداء Llama 2 في Hum (اختبار مرجعي لتقييم LLM والترميز) أسوأ من GPT-3.5، ناهيك عن أنه أسوأ من GPT-4.

رقم مشروح من ورقة Llama 2 الأصلية

لكن القدرة على البرمجة ستكون بالتأكيد اتجاهًا مهمًا لمجتمع المصادر المفتوحة لاستخدام Llama 2 في المستقبل، وبطبيعة الحال، لا يمكن أن يكون Meta ضعيفًا في هذا الاتجاه، لذلك هناك Code Llama، الذي تم تحسينه بشكل كبير لقدرة التعليمات البرمجية.

منذ يومين، أصدرت Meta رسميًا عائلة Code Llama: Code Llama (7B و13B و34B)، و3 متغيرات: نموذج التعليمات البرمجية العام Code Llama، والنموذج الذي يتبع التعليمات Code Llama-instruct، والإصدار الخاص بكود Python Code Llama - بايثون.

هذه النماذج أكاديمية وتجارية مجانية، وكذلك تراخيص Llama 2.

تبلغ القدرة البرمجية لنموذج Code Llama 34B ضعف قدرة Llama 2 تقريبًا، مما يؤدي إلى تضييق الفجوة بشكل كبير مع GPT-4.

هل تتذكرون اللاما غير الطبيعية التي ظهرت ميتا في ورقة Code Llama، والتي يمكنها معادلة إصدار GPT-4 بشكل كامل؟

وأوضح الرجل الكبير سيباستيان في مدونته:

إنها نسخة مضبوطة بدقة من Code Llama-Python 34B باستخدام 15000 تعليمات لغة غير طبيعية.

لماذا لا يوجد نموذج 70B Code Llama؟

ومن المثير للاهتمام أن Code Llama يحتوي فقط على إصدارات معلمات 7B و13B و34B، وهو أقل بمقدار 70B من Llama 2.

على الرغم من أن ميتا لم يشرح سبب حدوث ذلك في الورقة، إلا أن خبير التكنولوجيا سيباستيان قدم سببين محتملين:

تم تدريب Code Llama على 500B من الرموز، وتم تدريب Llama 2 على 2T من الرموز.

نظرًا لأن بيانات التدريب الخاصة بـ Code Llama تبلغ 1/4 فقط مقارنة ببيانات Llama 2، فقد يكون ذلك بسبب عدم وجود بيانات تدريب كافية، إلى جانب قيود قوانين القياس الخاصة بـ LLM، فإن أداء CodeLlama70B ليس جيدًا.

يدعم نموذج Code Llama حجم سياق يبلغ 100 كيلو بايت، وهو أمر مفيد جدًا عند التعامل مع مهام التعليمات البرمجية.

في المقابل، لاما 2 يدعم فقط أطوال الإدخال التي تصل إلى 4K. إذا كان النموذج 70B يدعم طول إدخال يبلغ 100 ألف رمز، فقد يجعل ذلك المتطلبات الحسابية للنموذج مبالغ فيها للغاية.

مراجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#TOKEN OF LOVE IS BACK
10779 درجة الشعبية
#BTC Market Cap Tops Amazon
1728 درجة الشعبية
#Show My Alpha Points
88747 درجة الشعبية
#BTC Back To $120k
22737 درجة الشعبية
#Stablecoin Supply Tops $270B
2484 درجة الشعبية

تثبيت

خريطة الموقع