Полная победа над GPT-4, убейте модель с закрытым исходным кодом за считанные секунды! Раскрыта загадочная версия кода Ламы

Первоисточник: Синьчжиюань

Источник изображения: Создано Unbounded AI‌

Всего через два дня после выхода Code Llama снова положила начало революции в кодировании искусственного интеллекта.

Помните загадочную версию Unnatural Code Llama, которую Мета появилась в статье Code Llama, которая может полностью уравнять GPT-4?

Большой парень Себастьян объяснил в своем блоге:

Это доработанная версия Code Llama-Python 34B, использующая 15 000 инструкций на неестественном языке.

Скрывая такую очень скрытую информацию в документе, Meta, похоже, хочет намекнуть сообществу открытого исходного кода, что у Code Llama есть большой потенциал, поэтому давайте его настроим!

Итак, только что WizardCoder 34B, настроенный на основе Code Llama, напрямую победил GPT-4 в тесте Human.

В частности, WizardCoder разгромил мартовскую версию GPT-4 (67%) с процентом побед 73,2%.

Кроме того, производительность WizardCoder 34B превосходит последние версии GPT-3.5 и Claude 2.

Модель программирования WizardCoder была выпущена в июне Microsoft и Гонконгским баптистским университетом. Говорят, что скоро появится доработанная версия 13B/7B.

По словам Джима Фана, ведущего ученого Nvidia, это, по сути, открытая версия «Unnatural Code Llama».

Хотя эталонные данные выглядят хорошо, Human тестирует только узкое распределение и может оказаться слишком подходящим. Тестирование данных в естественных сценариях действительно важно. Тесты кодирования нуждаются в серьезном обновлении.

## **Родилась загадочная версия Code Llama? **

В пятницу Meta официально открыла исходный код трех версий Code Llama.

В тестах Human и MBPP многие люди находили версию, не упомянутую в официальной мета-версии — Unnatural Code Llama.

Эта загадочная версия достигла производительности 62,2% на Human pass@1.

Выпущенный сегодня усовершенствованный WizardCoder 34B имеет производительность 73,2% на Human pass@1.

Согласно введению, WizardCoder 34B представляет собой доработанную версию модели Code Llama, использующую синтетический набор данных Evol-Instruct.

Ниже приводится визуализация сравнения производительности со всеми моделями с открытым и закрытым исходным кодом.

По сравнению с моделью OpenAI исследователи отметили, что GPT4 и ChatGPT-3.5 имеют два результата для человека:

Результаты, предоставленные официальным отчетом OpenAI GPT4 (2023/03/15), составляют: 67,0% и 48,1% соответственно. Результаты исследователей, использующих последний тест API (26 августа 2023 г.), составляют 82,0% и 72,5%.

Кроме того, исследователи подчеркивают, что этот результат производительности воспроизводим на 100%!

Демо-версия WizardCoder 34B открыта для всех желающих.

Было отмечено, что приспособление к общедоступным спискам лидеров является одной из основных причин, почему модели с открытым исходным кодом не работают на практике. Вот пример подготовки данных мастером-кодировщиком с использованием оценок Human pass@1 для принятия решения о дальнейшей разработке набора данных. Оптимизация только тестового набора противоречит цели тестового набора.

Также буквально вчера исследователи из организации Phind усовершенствовали код Llama-34B, чтобы превзойти GPT-4 в оценке человека.

ChatGPT и Code Llama

Как Code Llama справляется с реальными задачами кодирования?

Пользователь сети провел сравнительный тест GPT-3.5 и Code Llama Instruct-34B. Он был протестирован с доступом к коду Llama 34B, предоставленному Perplexity.AI.

Он передает 8 идентичных кодовых задач двум моделям соответственно и сравнивает качество сгенерированных ими кодов.

В результате GPT-3.5 выигрывает со счетом 8:5.

Ниже приведены конкретные результаты испытаний.

Первый вопрос

Используйте Python для выполнения этой задачи, имея две строки word1 и word2. Объедините строки, добавляя буквы в чередующемся порядке, начиная со слова1. Если одна строка длиннее другой, добавьте дополнительные буквы в конец объединенной строки.

Наконец выведите объединенную строку.

Например:

Ввод: слово1 = «abc», слово2 = «pqr» Выход: «apbqcr»

И GPT-3.5, и Code Llama могут пройти - 1:1.

Второй вопрос

Используйте Python для выполнения этой задачи, учитывая строку s, просто поменяйте местами все гласные в строке и верните ее.

Гласные: «a», «e», «i», «o» и «u», которые могут встречаться несколько раз как в нижнем, так и в верхнем регистре.

Например: ввод: s = «привет» вывод: «привет»

GPT-3.5 пройден, Код Лама не пройден - 2:1

Третий вопрос

Используйте Python для выполнения этой задачи. Учитывая числа целочисленного массива, переместите все 0 в его конец, сохраняя при этом относительный порядок ненулевых элементов.

Обратите внимание, что вам нужно сделать это на месте, не создавая копию массива.

Например: Входные данные: nums = [0,1,0,3,12] Выходные данные: [1,3,12,0,0]

GPT-3.5 пройден, Код Лама не пройден - 3:1

Вопрос 4

Используя Python для этой задачи, у вас есть длинная клумба, некоторые участки засажены цветами, а некоторые нет.

Однако прилегающие участки нельзя засаживать цветами. Учитывая целочисленный массив 0 и 1 для клумбы, где 0 пусто, а 1 не пусто, и целое число n, выведите true, если на клумбе можно посадить n новых цветов, не нарушая правило отсутствия соседних цветов. В противном случае, false выводится.

Пример 1: Входные данные: Клумба = [1,0,0,0,1], n = 1 Выходные данные: true Пример 2: Входные данные: Клумба = [1,0,0,0,1], n = 2 Выходные данные: false

Обе модели готовы - 4:2.

Вопрос 5

Используя Python, учитывая входную строку s, измените порядок слов на обратный. Слово определяется как последовательность символов без пробелов. Слова в s будут разделены хотя бы одним пробелом.

Выведите строку слов, соединенных одинарными пробелами, в обратном порядке. Обратите внимание, что s может содержать начальные или конечные пробелы или несколько пробелов между двумя словами.

Возвращаемая строка должна содержать только один пробел для разделения слов. Не включайте лишних пробелов.

Пример: Ввод: s = «небо голубое». Вывод: «Небо голубое».

Обе модели завершены - 5:3.

Вопрос 6

Для выполнения этой задачи используйте Python.Для заданной строки s и целого числа k верните максимальное количество гласных в любой подстроке длины k в s.

Гласные в английском языке: «a», «e», «i», «o» и «u». Пример: ввод: s = "leetcode", k = 3 вывод: 2

Пояснение: «ли», «еэт» и «ода» содержат 2 гласные.

Обе модели готовы - 6:4.

Вопрос 7

Используйте Python для выполнения этой задачи, имея строку s, содержащую звездочки *. Одной операцией вы можете: Выбрать звездочку в s.

Удаляет ближайший слева от него символ, не являющийся звездочкой, а также саму звездочку. Выведите строку после удаления всех звездочек. Пример: ввод: s = "leet**cod*e" вывод: "lecoe"

GPT-3.5 готов, а Code Llama нет — 7:4

Вопрос 8

Используйте Python для выполнения этой задачи, учитывая целочисленный массив температур, представляющий дневную температуру, верните ответ массива, где ответ [i] — это количество дней за днем, когда вам придется ждать потепления.

Если в будущем не будет дня, чтобы сделать это, сохраните ответ [i] == 0. Пример: Входные данные: Температура = [73,74,75,71,69,72,76,73] Выходные данные: [1,1,4,2,1,1,0,0]

Обе модели завершены - 8:5.

Что касается производительности двух моделей, этот пользователь сети считает, что это не тщательное исследование, а простой тест.Каждый раз, когда модель регенерируется для генерации кода, она может получить лучший ответ, но теста нет.

Таким образом, итог теста – это не производительность последних двух моделей.

По сравнению с GPT-4, Llama 3 должен иметь открытый исходный код

С момента выпуска Llama и Llama 2 сообщество ChatGPT по машинному обучению резко возросло, и появились различные модели тонкой настройки.

Исследователь OpenAI Джейсон Вэй рассказал, что благодаря социальной деятельности Meta GenAI он узнал, что Llama 3 и Llama 4 также будут иметь открытый исходный код в будущем.

У нас есть вычислительная мощность, чтобы обучить Ламу 3 и 4. Наш план — сделать Ламу-3 не хуже GPT-4. Ого, если Llama-3 так же хорош, как GPT-4, вы откроете исходный код? Да мы будем. Извините, сотрудники выравнивания.

Другой пользователь сети сказал, что Meta надеется открыть исходный код модели уровня GPT-5 и, похоже, настаивала на открытом исходном коде до AGI.

Я хочу прояснить, что это означает: никакого аварийного выключателя.

Если что-то пойдет не так — агент выйдет из-под контроля или злоумышленник вооружит его — нет простого способа остановить это. Он может работать на любом небольшом кластере. Никакой безопасности нет вообще.

Исследования безопасности становятся бессмысленными.

Вся работа, которую люди проделали, чтобы сделать системы ИИ честными, последовательными, этичными и т. д., становится бессмысленной. Мировые системы искусственного интеллекта будут развиваться в направлении той системы, которая принесет наибольшую экономическую выгоду, независимо от их ценностей или мотивации. Ограждений нет. Любой может по своему желанию изменить ценности или возможности ИИ, в лучшую или худшую сторону.

Если Meta продолжит оставаться с открытым исходным кодом, в то время как мы получим более умный ИИ, то мне ясно, что все пойдет не так. Прибытие этих внеземных разумов уже разрушает мир, но будет еще хуже, если мы откажемся от того небольшого контроля, который есть у людей.

Насколько мне известно, надежда Меты на открытый исходный код в основном основана на «догме сообщества открытого исходного кода», то есть «открытый исходный код — это хорошо». И, насколько я знаю, они не были такими сторонниками открытого исходного кода до случайной утечки их первой модели, Llama, и с тех пор они притворяются открытым исходным кодом.

В связи с этим Маск заявил, что, однако, LLM с использованием авторегрессионного трансформатора имеет крайне низкую энергоэффективность не только в обучении, но и в рассуждениях. Я думаю, что это на несколько порядков меньше.

## Увеличение возможностей кодирования в Llama 2

Лама 2 – очень сильная модель во всех отношениях.

Однако у него есть очень очевидная слабость — умение программировать.

Согласно данным статьи, опубликованной Meta о Llama 2, производительность Llama 2 в Hum (тесте производительности для оценки LLM и кодирования) даже хуже, чем GPT-3.5, не говоря уже о том, насколько хуже, чем GPT-4.

Аннотированный рисунок из оригинальной статьи Llama 2.

Но умение кодировать определенно станет важным направлением для сообщества открытого исходного кода в будущем для использования Llama 2. Естественно, Meta не может быть плохой в этом направлении, поэтому существует Code Llama, который значительно оптимизирован для кодирования.

Два дня назад Meta официально выпустила семейство Code Llama: Code Llama (7B, 13B и 34B) и 3 варианта: общую модель кода Code Llama, инструкцию, следующую за моделью Code Llama-instruct, и версию Code Llama, специфичную для кода Python. - Питон.

Эти модели являются бесплатными для академических и коммерческих целей, как и лицензии Llama 2.

Способность кодирования модели Code Llama 34B почти вдвое выше, чем у Llama 2, что значительно сокращает разрыв с GPT-4.

Помните Неестественную Кодовую Ламу, которую Мета появилась в статье Кодовой Ламы, которая может полностью равняться версии GPT-4?

Большой парень Себастьян объяснил в своем блоге:

Это доработанная версия Code Llama-Python 34B, использующая 15 000 инструкций на неестественном языке.

Скрывая такую очень скрытую информацию в документе, Meta, похоже, хочет намекнуть сообществу открытого исходного кода, что у Code Llama есть большой потенциал, поэтому давайте его настроим!

Почему нет модели 70B Code Llama?

Интересно, что Code Llama имеет только версии параметров 7B, 13B и 34B, что на 70B меньше, чем в Llama 2.

Хотя Мета в статье не объяснила, почему это так, гуру технологий Себастьян предложил две возможные причины:

  1. Код Llama обучается на токенах 500B, а Llama 2 — на токенах 2T.

Поскольку обучающие данные Code Llama составляют всего 1/4 по сравнению с данными Llama 2, возможно, из-за недостаточности обучающих данных в сочетании с ограничениями законов масштабирования LLM производительность CodeLlama70B не очень хорошая.

  1. Модель Code Llama поддерживает размер контекста 100 КБ, что очень полезно при работе с кодовыми задачами.

Напротив, Llama 2 поддерживает входную длину только до 4 КБ. Если модель 70B будет поддерживать входную длину 100 тыс. токенов, это может привести к слишком завышенным вычислительным требованиям модели.

Использованная литература:

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить