Un jour après sa sortie, la capacité de codage de Code Llama s'est améliorée à pas de géant, et la version affinée de Human_ a obtenu un score supérieur à GPT-4.

Moi d'hier (25 août) : LLM open source battra GPT-4 dans quelques mois pour la génération de code. Moi maintenant : Aujourd'hui, en fait.

Hier, le code open source Meta Llama, un modèle de base spécialisé dans la génération de code, est gratuit à des fins de recherche et commerciales.

Il existe trois versions de paramètres de la série de modèles Code Llama, le nombre de paramètres est de 7B, 13B et 34B. Et prend en charge plusieurs langages de programmation, notamment Python, C++, Java, PHP, Type (Java), C# et Bash.

Les versions de Code Llama fournies par Meta incluent :

  • Code Llama, le modèle de code de base ;
  • Code Llama-Python, version peaufinée de Python ;
  • Code Llama-Instruct, une version affinée des instructions en langage naturel.

En termes d'effet, différentes versions de Code Llama ont un taux de réussite de génération (pass@1) sur les ensembles de données Human et MBPP qui dépasse GPT-3.5.

De plus, le pass@1 de la version "Unnatural" 34B de Code Llama sur l'ensemble de données Human est proche de GPT-4 (62,2 % contre 67,0 %). Cependant, Meta n'a pas publié cette version, mais a obtenu des améliorations évidentes des performances grâce à un entraînement avec une petite quantité de données codées de haute qualité.

Source:

Juste après une journée, certains chercheurs ont contesté GPT-4. Ils viennent de Phind (une organisation qui vise à créer un moteur de recherche d'IA pour les développeurs), qui a battu GPT-4** sur l'évaluation humaine avec **Code Llama-34B affiné.

Le co-fondateur de Phind, Michael Royzen, a déclaré : « Il ne s'agit que d'une première expérience visant à reproduire (et surpasser) les résultats du « Unnatural Code Llama » dans l'article Meta. À l'avenir, nous disposerons d'un portefeuille expert de différents modèles CodeLlama qui, je pense, seront compétitifs dans les flux de travail du monde réel. "

Les deux modèles sont open source :

Les chercheurs ont publié ces deux modèles sur Huggingface, et tout le monde peut aller les découvrir.

*Phind-CodeLlama-34B-v1 :

  • Phind-CodeLlama-34B-Python-v1 :

Voyons ensuite comment cette recherche a été mise en œuvre.

** Affinez le Code Llama-34B pour battre GPT-4**

Regardons d'abord les résultats. Cette étude a affiné Code Llama-34B et Code Llama-34B-Python avec l'ensemble de données interne de Phind et a obtenu deux modèles, Phind-CodeLlama-34B-v1 et Phind-CodeLlama-34B-Python-v1, respectivement.

Les deux modèles nouvellement obtenus ont obtenu respectivement 67,6 % et 69,5 % de réussite à 1 sur l'humain.

À titre de comparaison, CodeLlama-34B pass@1 est de 48,8 % ; CodeLlama-34B-Python pass@1 est de 53,7 %.

Et GPT-4 pass@1 sur Human est de 67 % (données publiées par OpenAI dans le « GPT-4Technical Report » publié en mars de cette année).

Source:

Source:

Lorsqu'il s'agit de réglage fin, les ensembles de données sont naturellement indispensables. L'étude a affiné Code Llama-34B et Code Llama-34B-Python sur un ensemble de données propriétaire contenant environ 80 000 problèmes et solutions de programmation de haute qualité.

Au lieu d'exemples de complétion de code, cet ensemble de données utilise des paires instruction-réponse, ce qui est différent de la structure de données humaine. L’étude a ensuite entraîné le modèle Phind sur deux époques, avec un total d’environ 160 000 exemples. Les chercheurs ont déclaré que la technologie LoRA n’avait pas été utilisée dans la formation, mais qu’un réglage local avait été utilisé.

En outre, la recherche a également adopté les technologies DeepSpeed ZeRO3 et Flash Attention 2. Il leur a fallu trois heures pour former ces modèles sur 32 GPU A100-80 Go, avec une longueur de séquence de 4096 jetons.

De plus, l'étude a appliqué la méthode de décontamination d'OpenAI à l'ensemble de données pour rendre les résultats du modèle plus efficaces.

Comme nous le savons tous, même le très puissant GPT-4 sera confronté au dilemme de la pollution des données. En termes simples, le modèle entraîné peut avoir été entraîné sur les données d'évaluation.

Ce problème est très délicat pour le LLM : par exemple, dans le processus d'évaluation des performances d'un modèle, afin de faire une évaluation scientifiquement crédible, le chercheur doit vérifier si le problème utilisé pour l'évaluation se trouve dans les données d'entraînement du modèle. Si tel est le cas, le modèle peut mémoriser ces questions et lors de l’évaluation du modèle, il sera évidemment plus performant sur ces questions spécifiques.

C'est comme si une personne connaissait déjà les questions de l'examen avant de passer l'examen.

Afin de résoudre ce problème, OpenAI a révélé comment GPT-4 évalue la pollution des données dans le document technique public GPT-4 « GPT-4Technical Report ». Ils dévoilent des stratégies pour quantifier et évaluer cette pollution des données.

Plus précisément, OpenAI utilise la correspondance de sous-chaînes pour mesurer la contamination croisée entre l'ensemble de données d'évaluation et les données de pré-entraînement. Les données d'évaluation et de formation sont traitées en supprimant tous les espaces et symboles, ne laissant que les caractères (y compris les chiffres).

Pour chaque exemple d'évaluation, OpenAI sélectionne au hasard trois sous-chaînes de 50 caractères (si moins de 50 caractères, l'exemple entier est utilisé). Une correspondance est déterminée si l'une des trois sous-chaînes d'évaluation échantillonnées est une sous-chaîne de l'exemple d'apprentissage traité.

Cela produit une liste d'exemples corrompus, qu'OpenAI supprime et réexécute pour obtenir un score intact. Mais cette méthode de filtrage présente certaines limites : la correspondance de sous-chaînes peut conduire à des faux négatifs (s'il existe de petites différences entre les données d'évaluation et d'entraînement) ainsi qu'à des faux positifs. Ainsi, OpenAI n'utilise qu'une partie des informations contenues dans les exemples d'évaluation, en utilisant uniquement des questions, du contexte ou des données équivalentes, mais en ignorant les réponses, les réponses ou les données équivalentes. Dans certains cas, les options à choix multiples ont également été exclues. Ces exclusions peuvent entraîner une augmentation des faux positifs.

Pour cette partie, les lecteurs intéressés peuvent se référer à l'article pour plus d'informations.

Adresse papier :

Cependant, il existe une certaine controverse sur le score humain Phind utilisé lors de l'analyse comparative de GPT-4. Certaines personnes disent que le dernier score au test GPT-4 a atteint 85 %. Mais Phind a répondu que les recherches pertinentes qui ont abouti à ce score n'avaient pas mené de recherche sur la pollution et qu'il était impossible de déterminer si GPT-4 avait vu les données de test de l'Homme lors d'une nouvelle série de tests. Compte tenu de certaines recherches récentes sur « GPT-4 devenant stupide », il est plus sûr d'utiliser les données du rapport technique original.

Cependant, compte tenu de la complexité de l’évaluation d’un modèle à grande échelle, la question de savoir si ces résultats d’évaluation peuvent refléter les véritables capacités du modèle reste une question controversée. Vous pouvez télécharger le modèle et en faire l'expérience vous-même.

Lien de référence :

Voir l'original
Le contenu est fourni à titre de référence uniquement, il ne s'agit pas d'une sollicitation ou d'une offre. Aucun conseil en investissement, fiscalité ou juridique n'est fourni. Consultez l'Avertissement pour plus de détails sur les risques.
  • Récompense
  • Commentaire
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate.io app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)