Фатальные галлюцинации, разработка альтернатив графическим процессорам, большие модели по-прежнему сталкиваются с этими 10 основными проблемами

Выпуск ChatGPT, GPT-4 и т. д. позволил нам увидеть очарование большой модели (LLM), сопровождающееся различными проблемами, с которыми она сталкивается.

Источник изображения: Создано Unbounded AI

Как сделать LLM лучше? Какие проблемы необходимо решить при наличии больших моделей? Это стало важной темой исследований в области искусственного интеллекта.

В этой статье ученый-компьютерщик Чип Хуен начинает с 10 аспектов и всесторонне излагает проблемы, с которыми сталкивается LLM. В частности, первые два аспекта касаются галлюцинаций и контекстного обучения, а несколько других аспектов включают, помимо прочего, мультимодальность, архитектуру, поиск альтернатив графическому процессору и т. д.

Исходный адрес:

Ниже приводится перевод оригинального текста.

1. Как уменьшить галлюцинации

Проблема галлюцинаций заключается в том, что текст, генерируемый LLM, подвижен и естественен, но не соответствует источнику содержания (внутренняя проблема) и/или неопределенен (внешняя проблема). Эта проблема широко распространена в LLM.

Поэтому очень важно облегчить галлюцинации и разработать индикаторы для измерения галлюцинаций, и этому вопросу уделяют внимание многие компании и учреждения. Чип Хьюен сказал, что на этом этапе есть много способов уменьшить галлюцинации, например, добавить больше контекста к подсказке, использовать цепочки мыслей или сделать ответ модели более кратким.

К материалам, на которые можно ссылаться, относятся:

  • Обзор исследований галлюцинаций при генерации естественного языка:
  • Как иллюзия языка моделирует снежные комы:
  • Оценка ChatGPT на рассуждение, галлюцинации и интерактивность:
  • Контрастное обучение уменьшает галлюцинации в разговорах:
  • Самосогласованность улучшает способность языковой модели к цепочке мышления:
  • Обнаружение галлюцинаций «черного ящика» для генеративных моделей большого языка:

2. Оптимизация длины и структуры контекста

Еще одним направлением исследования LLM является длина контекста, поскольку большая модель должна ссылаться на контекст при ответе на вопросы пользователей, и чем больше длина, которую можно обработать, тем полезнее она для LLM. Например, мы спросили ChatGPT: «Какой вьетнамский ресторан лучший?» Столкнувшись с этим вопросом, ChatGPT необходимо обратиться к контексту, чтобы выяснить, спрашивает ли пользователь о лучшем вьетнамском ресторане во Вьетнаме или о лучшем вьетнамском ресторане в США. Штаты.нет то же самое.

В этом подразделе Чип Хуен представляет несколько связанных статей.

Первый — «SITUATEDQA: Включение экстралингвистических контекстов в контроль качества», оба автора из Техасского университета в Остине. В документе представлен открытый набор данных QA SITUATEDQA, и заинтересованные читатели могут ознакомиться с ним, чтобы узнать больше.

Чип Хьюен заявил, что, поскольку модель учится на основе предоставленного контекста, этот процесс называется контекстным обучением.

Вторая статья называется «Ретри-дополненная генерация для наукоемких задач НЛП». В этой статье предлагается RAG (Ретри-дополненная генерация), которая может сочетать предварительно обученные языковые модели и внешние знания для реализации генеративных ответов на вопросы в открытой области и других знаний. Интенсивные задачи.

Процесс работы RGA разделен на две фазы: фазу фрагментирования (также известную как извлечение) и фазу запроса:

Основываясь на этом исследовании, многие люди думают, что чем длиннее контекст, тем больше информации вместит модель и тем лучше ее реакция. Чип Хуен считает, что это утверждение не совсем верно.

Сколько контекста может использовать модель и насколько эффективно модель использует контекст — это два совершенно разных вопроса. Что нам нужно сделать, так это параллельно повысить эффективность контекста обработки модели, одновременно увеличивая длину контекста модели. Например, в статье «Затерянные посередине: как языковые модели используют длинные контексты» описывается, как модель может лучше понимать информацию в начале и конце индекса, а не среднюю информацию.

3. Мультимодальный

Чип Хуен считает, что мультимодальность очень важна.

Во-первых, такие области, как здравоохранение, робототехника, электронная коммерция, розничная торговля, игры, развлечения и т. д., требуют мультимодальных данных. Например, для медицинского прогноза требуется текстовый контент, такой как записи врача и анкеты пациентов, а также информация об изображениях, такая как КТ, рентген и МРТ.

Во-вторых, мультимодальность обещает значительно улучшить производительность моделей: модели, которые могут понимать как текст, так и изображения, работают лучше, чем модели, которые могут понимать только текст. Однако текстовые модели настолько требовательны к тексту, что люди начинают беспокоиться, что скоро у нас закончатся данные из Интернета для обучения моделей. Как только текст исчерпан, нам нужно рассмотреть другие модальности данных.

Схема архитектуры фламинго

Что касается мультимодальности, вы можете обратиться к следующему содержанию:

  • 论文 1《Изучение переносимых визуальных моделей под контролем естественного языка》:
  • Книга 2 «Фламинго: модель визуального языка для кратковременного обучения»:
  • 论文 3《BLIP-2: Предварительное обучение языку-изображению с помощью кодировщиков замороженных изображений и больших языковых моделей》:
  • 论文 4. «Язык — это еще не все, что вам нужно: согласование восприятия с языковыми моделями».
  • Документ 5 «Настройка визуальных инструкций»:
  • Гугл ПалМ-Е:
  • NVIDIA НеВА:

4. Сделайте LLM быстрее и дешевле

GPT-3.5 впервые выпущен в конце ноября 2022 года, и многие обеспокоены высокой стоимостью использования. Однако всего за полгода сообщество нашело модель, близкую к GPT-3.5 по производительности, а требуемый объем памяти составляет всего 2% от GPT-3.5.

Чип Хуен сказал, что если создать что-то достаточно хорошее, люди скоро найдут способ сделать это быстро и дешево.

Ниже приводится сравнение производительности Guanaco 7B с такими моделями, как ChatGPT и GPT-4. Но мы должны подчеркнуть, что оценивать LLM очень сложно.

Затем Чип Хьюен перечислил методы оптимизации и сжатия модели:

  • Количественная оценка: наиболее общий метод оптимизации модели на сегодняшний день. Квантование использует меньшее количество битов для представления параметров, тем самым уменьшая размер модели.Например, кто-то меняет 32-битное число с плавающей запятой на 16-битное или даже 4-битное представление с плавающей запятой;
  • Дистилляция знаний: метод обучения маленькой модели (ученика) имитации более крупной модели или ансамбля моделей (учитель);
  • Разложение низкого ранга. Основная идея заключается в замене тензоров большой размерности тензорами низкой размерности для уменьшения количества параметров. Например, пользователи могут разложить тензор 3х3 на произведение тензоров 3х1 и 1х3, так что параметров будет всего 6 вместо 9;
  • Обрезка.

Вышеупомянутые четыре метода по-прежнему популярны, например, обучение альпаки с помощью дистилляции знаний и QLoRA, сочетающее разложение низкого ранга и квантование.

5. Разработайте новую архитектуру модели

С момента выпуска AlexNet в 2012 году многие архитектуры, включая LSTM и seq2seq, стали популярными, а затем устарели. В отличие от этого, Трансформер невероятно липкий. Он существует с 2017 года и до сих пор широко используется. Как долго эта архитектура будет популярна, оценить сложно.

Однако разработать совершенно новую архитектуру, которая превзойдет Transformer, непросто. За последние 6 лет исследователи внесли множество оптимизаций в Transformer. Помимо архитектуры модели, сюда также входит оптимизация на аппаратном уровне.

Лаборатория под руководством американского ученого-компьютерщика Криса Ре провела множество исследований в области S4 в 2021 году. Для получения дополнительной информации обратитесь к статье «Эффективное моделирование длинных последовательностей с помощью структурированных пространств состояний». Кроме того, лаборатория Криса Ре вложила значительные средства в разработку новых архитектур, а недавно они заключили партнерство со стартапом Together для разработки архитектуры Monarch Mixer.

Их ключевая идея заключается в том, что для существующей архитектуры Transformer сложность внимания квадратична длине последовательности, тогда как сложность MLP квадратична размерности модели, и архитектура с низкой сложностью будет более эффективной.

6. Разработка альтернативных графических процессоров

Графические процессоры доминировали в глубоком обучении с момента выпуска AlexNet в 2012 году. Фактически, одной из общепризнанных причин популярности AlexNet является то, что это была первая статья, успешно обучающая нейронную сеть с использованием графических процессоров. До появления графических процессоров, если вы хотели обучить модель размером с AlexNet, вам приходилось использовать тысячи процессоров, а несколько графических процессоров могли это сделать.

За последнее десятилетие как крупные корпорации, так и стартапы пытались создать новое оборудование для искусственного интеллекта. Наиболее представительные из них включают, помимо прочего, TPU от Google, IPU от Graphcore и компанию Cerebras, производящую чипы искусственного интеллекта. Кроме того, стартап по производству ИИ-чипов SambaNova привлек более 1 миллиарда долларов на разработку новых ИИ-чипов.

Еще одно интересное направление — фотонные чипы, которые используют фотоны для перемещения данных, обеспечивая более быстрые и эффективные вычисления. Несколько стартапов в этой сфере собрали сотни миллионов долларов, в том числе Lightmatter (270 миллионов долларов), Ayar Labs (220 миллионов долларов), Lightelligence (более 200 миллионов долларов) и Luminous Compute (115 миллионов долларов).

Ниже приводится временная шкала развития трех основных подходов к вычислениям фотонной матрицы, взятая из статьи «Умножение фотонной матрицы освещает фотонный ускоритель и не только». Этими тремя методами являются плоское преобразование света (PLC), интерферометр Маха-Цендера (MZI) и мультиплексирование с разделением по длине волны (WDM).

7. Сделайте агентов более удобными

Агенты — это LLM, которые могут выполнять такие действия, как просмотр страниц в Интернете, отправка электронных писем, бронирование номера и т. д. По сравнению с другими направлениями исследований, рассматриваемыми в данной статье, данное направление появилось относительно поздно и является для всех совершенно новым.

Именно из-за новизны и огромного потенциала у всех возникает безумная одержимость интеллектуальными агентами. Auto-GPT в настоящее время является 25-м по популярности проектом на GitHub. ГПТ-Инжиниринг — еще один очень популярный проект.

Хотя это ожидаемо и интересно, остается сомнительным, будет ли LLM достаточно надежным и эффективным, чтобы получить право действовать.

Однако уже появился вариант применения агентов для социальных исследований.Некоторое время назад Стэнфорд открыл исходный код «виртуального города» Смоллвиль.В городке жили 25 ИИ-агентов.Они имеют работу,могут сплетничать и могут организовывать социальные , завести новых друзей и даже устроить вечеринку в честь Дня святого Валентина — каждый горожанин обладает уникальной личностью и предысторией.

Для получения более подробной информации, пожалуйста, обратитесь к следующим документам.

Бумажный адрес:

Вероятно, самым известным стартапом в этой сфере является Adept, основанный двумя соавторами Transformer и бывшим вице-президентом OpenAI. На сегодняшний день он собрал почти 500 миллионов долларов. В прошлом году они провели демонстрацию, показывающую, как их агент может просматривать Интернет и добавлять новую учетную запись в Salesforce.

, продолжительность 03:30

8. Улучшенное обучение на основе человеческих предпочтений

RLHF означает «Обучение с подкреплением на основе человеческих предпочтений». Было бы неудивительно, если бы люди нашли другие способы обучения LLM, ведь RLHF еще предстоит решить множество проблем. Чип Хуен перечислил следующие 3 пункта.

**Как математически представить человеческие предпочтения? **

В настоящее время человеческие предпочтения определяются путем сравнения: люди-аннотаторы определяют, лучше ли ответ А, чем ответ Б, но не учитывают, насколько ответ А лучше, чем ответ Б.

**Каковы человеческие предпочтения? **

Anthropic измеряет качество реакции своих моделей по трем осям: полезность, честность и невиновность.

Бумажный адрес:

DeepMind также пытается генерировать ответы, удовлетворяющие большинство. См. этот документ ниже.

Бумажный адрес:

Но чтобы внести ясность: нужен ли нам ИИ, который сможет занять определенную позицию, или универсальный ИИ, который избегает любых потенциально спорных тем?

**Чьи предпочтения являются предпочтениями «народа»? **

Учитывая различия в культуре, религии и т. д., существует множество проблем в получении обучающих данных, которые адекватно отражают всех потенциальных пользователей.

Например, в данных OpenAI InstructGPT маркировщиками являются в основном филиппинцы и бангладешцы, что может вызвать некоторые отклонения из-за географических различий.

Источник:

Исследовательское сообщество также работает над этим, но предвзятость данных сохраняется. Например, в демографическом распределении набора данных OpenAssistant 201 из 222 респондентов (90,5%) были мужчинами.

9. Повышение эффективности интерфейса чата

Со времен ChatGPT было много дискуссий о том, подходит ли чат для различных задач. Например, эти обсуждения:

  • Естественный язык — это ленивый интерфейс.
  • Почему за чат-ботами нет будущего:
  • Какие типы вопросов требуют ответа в диалоге?
  • Интерфейс AI-чата может стать основным пользовательским интерфейсом для чтения документации:
  • Взаимодействуйте с LLM с минимальным общением:

Однако эти дискуссии не новы. Многие страны, особенно в Азии, уже около десяти лет используют чат в качестве интерфейса для суперприложений.

  • *Чат как общий интерфейс для китайских приложений

В 2016 году, когда многие приложения считались мертвыми, а будущее — за чат-ботами, дискуссия снова стала напряженной:

  • Об интерфейсе чата:
  • Является ли тенденция использования чат-ботов огромным заблуждением:
  • Боты не заменят приложения, лучшие приложения будут:

Чип Хуен рассказал, что ему очень нравится интерфейс чата по следующим причинам:

  • Чат — это интерфейс, которым быстро научиться пользоваться может каждый, даже тот, кто никогда раньше не имел доступа к компьютеру или Интернету.
  • В интерфейсе чата нет препятствий, даже если вы спешите, вы можете использовать голос вместо текста.
  • Чат также имеет очень мощный интерфейс, вы можете сделать к нему любой запрос, даже если ответ неудовлетворительный, он ответит.

Однако Чип Хуен считает, что интерфейс чата в некоторых областях нуждается в улучшении. У него есть следующие предложения

  1. Несколько сообщений за раунд

В настоящее время считается, что за раунд можно отправить только одно сообщение. Но в реальной жизни люди пишут не так. Обычно для реализации индивидуальной идеи требуется несколько фрагментов информации, поскольку в процесс необходимо вставлять разные данные (например, изображения, местоположения, ссылки), а пользователь может что-то пропустить в предыдущей информации или просто не знать. хочу включить все. Напишите это длинным абзацем.

  1. Мультимодальный ввод

В области мультимодальных приложений большая часть усилий тратится на создание лучших моделей и мало тратится на создание лучших интерфейсов. В случае с чат-ботом NeVA от Nvidia, возможно, есть возможности для улучшения пользовательского опыта.

адрес:

  1. Включите генеративный искусственный интеллект в рабочие процессы

Линус Ли хорошо формулирует это в своем докладе «Интерфейсы, создаваемые искусственным интеллектом за пределами чата». Например, если вы хотите задать вопрос о столбце диаграммы, над которой вы работаете, у вас должна быть возможность просто указать на этот столбец и задать вопрос.

Адрес видео:

  1. Редактирование и удаление информации

Стоит подумать о том, как редактирование или удаление вводимых пользователем данных может изменить ход разговора с чат-ботом.

10. Создание программы LLM для неанглийских языков

Текущие LLM для английского как первого языка плохо масштабируются для других языков с точки зрения производительности, задержки и скорости. Связанный контент можно прочитать в следующих статьях:

Бумажный адрес:

Адрес статьи:

Чип Хуен сказал, что несколько первых читателей этой статьи сказали ему, что, по их мнению, это направление не следует включать по двум причинам.

  1. Это не столько исследовательский вопрос, сколько логистический. Мы уже знаем, как это сделать, просто нужно, чтобы кто-то вложил деньги и силы, что не совсем так. Большинство языков считаются языками с низким уровнем ресурсов, например, имеют гораздо меньше качественных данных, чем английский или китайский, и поэтому могут требовать различных методов обучения больших языковых моделей. См. следующие статьи:

Бумажный адрес:

Бумажный адрес:

  1. Пессимистично настроенные люди думают, что в будущем многие языки вымрут, а будущий Интернет будет состоять из двух языков: английского и китайского.

Влияние инструментов искусственного интеллекта, таких как машинный перевод и чат-боты, на изучение языка неясно. Помогают ли они людям быстрее изучать новые языки или полностью устраняют необходимость изучения новых языков, неизвестно.

Подведем итог

Проблемы, упомянутые в этой статье, также имеют разные уровни сложности, например, последняя проблема: если вы найдете достаточно ресурсов и времени, можно построить LLM для неанглийских языков.

Одна из первых проблем — уменьшить галлюцинации, что будет намного сложнее, потому что галлюцинации — это просто LLM, выполняющий вероятностные действия.

Четвертая проблема — сделать LLM быстрее и дешевле, и она не будет полностью решена. В этой области достигнут некоторый прогресс, и в будущем прогресс будет еще больше, но мы никогда не достигнем совершенства.

Пятая и шестая проблемы — это новые архитектуры и новое оборудование, что очень сложно, но со временем неизбежно. Из-за симбиотических отношений между архитектурой и оборудованием, когда новые архитектуры необходимо оптимизировать для оборудования общего назначения, а оборудование должно поддерживать архитектуры общего назначения, эта проблема потенциально может быть решена одной и той же компанией.

Есть также проблемы, которые невозможно решить только с помощью технических знаний. Например, восьмая проблема улучшения методов обучения на основе человеческих предпочтений может быть скорее политическим вопросом, чем техническим. Говоря о девятом вопросе о повышении эффективности интерфейса, это больше похоже на проблему пользовательского опыта, и для совместного решения этой проблемы необходимо больше людей с нетехническим образованием.

Если вы хотите взглянуть на эти проблемы под другим углом, Чип Хьюен рекомендует прочитать следующую статью.

Бумажный адрес:

Посмотреть Оригинал
Содержание носит исключительно справочный характер и не является предложением или офертой. Консультации по инвестициям, налогообложению или юридическим вопросам не предоставляются. Более подробную информацию о рисках см. в разделе «Дисклеймер».
  • Награда
  • комментарий
  • Поделиться
комментарий
0/400
Нет комментариев
  • Закрепить