Un día después del lanzamiento, la capacidad de codificación de Code Llama ha mejorado a pasos agigantados, y la versión mejorada de Human_ obtuvo una puntuación más alta que GPT-4.

Yo de ayer (25 de agosto): LLM de código abierto superará a GPT-4 en unos meses en generación de código. Yo ahora: Hoy, en realidad.

Ayer, el código fuente abierto Meta Llama, un modelo básico especializado en generación de código, es gratuito para fines comerciales y de investigación.

Hay tres versiones de parámetros de la serie de modelos Code Llama, el número de parámetros es 7B, 13B y 34B. Y admite múltiples lenguajes de programación, incluidos Python, C++, Java, PHP, Type (Java), C# y Bash.

Las versiones de Code Llama proporcionadas por Meta incluyen:

  • Code Llama, el modelo de código base;
  • Code Llama-Python, versión mejorada de Python;
  • Code Llama-Instruct, una versión mejorada de instrucciones en lenguaje natural.

En términos de su efecto, las diferentes versiones de Code Llama tienen una tasa de aprobación de generación (pass@1) en conjuntos de datos humanos y MBPP que supera GPT-3.5.

Además, el pase@1 de la versión 34B "Unnatural" de Code Llama en el conjunto de datos humanos está cerca de GPT-4 (62,2% frente a 67,0%). Sin embargo, Meta no lanzó esta versión, pero logró importantes mejoras de rendimiento mediante el entrenamiento con una pequeña cantidad de datos codificados de alta calidad.

Fuente:

Poco después de un día, algunos investigadores desafiaron al GPT-4. Provienen de Phind (una organización que tiene como objetivo construir un motor de búsqueda de inteligencia artificial para desarrolladores), que superó a GPT-4** en evaluación humana con **Code Llama-34B perfeccionado.

El cofundador de Phind, Michael Royzen, dijo: "Este es sólo un experimento inicial destinado a reproducir (y superar) los resultados de "Unnatural Code Llama" en el documento Meta. En el futuro, tendremos una cartera experta de diferentes modelos de CodeLlama que creo que serán competitivos en los flujos de trabajo del mundo real. "

Ambos modelos son de código abierto:

Los investigadores publicaron estos dos modelos en Huggingface y cualquiera puede ir a verlos.

  • Phind-CodeLlama-34B-v1:
  • Phind-CodeLlama-34B-Python-v1:

A continuación, veamos cómo se implementó esta investigación.

** Afina Code Llama-34B para vencer a GPT-4**

Veamos primero los resultados. Este estudio ajustó Code Llama-34B y Code Llama-34B-Python con el conjunto de datos interno de Phind y obtuvo dos modelos, Phind-CodeLlama-34B-v1 y Phind-CodeLlama-34B-Python-v1, respectivamente.

Los dos modelos recién obtenidos lograron un 67,6 % y un 69,5 % de aprobación@1 respectivamente en Humano.

A modo de comparación, CodeLlama-34B pass@1 es 48,8%; CodeLlama-34B-Python pass@1 es 53,7%.

Y GPT-4 pass@1 en humanos es del 67% (datos publicados por OpenAI en el "Informe técnico GPT-4" publicado en marzo de este año).

Fuente:

Fuente:

Cuando se trata de ajustes, los conjuntos de datos son naturalmente indispensables. El estudio ajustó Code Llama-34B y Code Llama-34B-Python en un conjunto de datos patentado que contiene alrededor de 80.000 problemas y soluciones de programación de alta calidad.

En lugar de ejemplos de finalización de código, este conjunto de datos utiliza pares instrucción-respuesta, que es diferente de la estructura de datos humana. Luego, el estudio entrenó el modelo Phind durante dos épocas, con un total de alrededor de 160.000 ejemplos. Los investigadores dijeron que no se utilizó la tecnología LoRA en el entrenamiento, pero se utilizaron ajustes locales.

Además, la investigación también adoptó las tecnologías DeepSpeed ZeRO3 y Flash Attention2. Les llevó tres horas entrenar estos modelos en 32 GPU A100-80GB, con una longitud de secuencia de 4096 tokens.

Además, el estudio aplicó el método de descontaminación de OpenAI al conjunto de datos para que los resultados del modelo sean más efectivos.

Como todos sabemos, incluso el muy poderoso GPT-4 enfrentará el dilema de la contaminación de datos. En términos simples, es posible que el modelo entrenado haya sido entrenado con los datos de evaluación.

Este problema es muy complicado para LLM: por ejemplo, en el proceso de evaluación del desempeño de un modelo, para realizar una evaluación científicamente creíble, el investigador debe verificar si el problema utilizado para la evaluación está en los datos de entrenamiento del modelo. Si es así, el modelo puede recordar estas preguntas y, al evaluar el modelo, obviamente funcionará mejor en estas preguntas específicas.

Es como si una persona ya supiera las preguntas del examen antes de realizarlo.

Para resolver este problema, OpenAI reveló cómo GPT-4 evalúa la contaminación de datos en el documento técnico público de GPT-4 "GPT-4Technical Report". Revelan estrategias para cuantificar y evaluar esta contaminación de datos.

Específicamente, OpenAI utiliza la coincidencia de subcadenas para medir la contaminación cruzada entre el conjunto de datos de evaluación y los datos previos al entrenamiento. Tanto los datos de evaluación como los de entrenamiento se procesan eliminando todos los espacios y símbolos, dejando solo caracteres (incluidos números).

Para cada ejemplo de evaluación, OpenAI selecciona aleatoriamente tres subcadenas de 50 caracteres (si tienen menos de 50 caracteres, se utiliza el ejemplo completo). Se determina una coincidencia si cualquiera de las tres subcadenas de evaluación muestreadas es una subcadena del ejemplo de entrenamiento procesado.

Esto produce una lista de ejemplos contaminados, que OpenAI descarta y vuelve a ejecutar para obtener una puntuación no contaminada. Pero este método de filtrado tiene algunas limitaciones: la coincidencia de subcadenas puede generar falsos negativos (si hay pequeñas diferencias entre los datos de evaluación y entrenamiento), así como falsos positivos. Así, OpenAI utiliza sólo parte de la información de los ejemplos de evaluación, utilizando únicamente preguntas, contexto o datos equivalentes, pero ignorando respuestas, respuestas o datos equivalentes. En algunos casos, también se excluyeron las opciones de opción múltiple. Estas exclusiones pueden dar lugar a un aumento de falsos positivos.

Para esta parte, los lectores interesados pueden consultar el artículo para obtener más información.

Dirección del papel:

Sin embargo, existe cierta controversia sobre la puntuación humana que Phind utilizó al comparar GPT-4. Algunas personas dicen que la última puntuación de la prueba GPT-4 ha alcanzado el 85%. Pero Phind respondió que la investigación relevante que derivó esta puntuación no realizó investigaciones sobre contaminación y que era imposible determinar si GPT-4 había visto los datos de prueba de Human cuando se sometió a una nueva ronda de pruebas. Teniendo en cuenta algunas investigaciones recientes sobre "GPT-4 volviéndose estúpido", es más seguro utilizar los datos del informe técnico original.

Sin embargo, considerando la complejidad de la evaluación de modelos a gran escala, si estos resultados de la evaluación pueden reflejar las verdaderas capacidades del modelo sigue siendo un tema controvertido. Puedes descargar el modelo y experimentarlo tú mismo.

Link de referencia:

Ver originales
El contenido es solo de referencia, no una solicitud u oferta. No se proporciona asesoramiento fiscal, legal ni de inversión. Consulte el Descargo de responsabilidad para obtener más información sobre los riesgos.
  • Recompensa
  • Comentar
  • Compartir
Comentar
0/400
Sin comentarios
  • Anclado
Comercie con criptomonedas en cualquier lugar y en cualquier momento
qrCode
Escanee para descargar la aplicación Gate.io
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • ไทย
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)