Фатальні галюцинації, розробка альтернатив GPU, великі моделі все ще стикаються з цими 10 основними проблемами

2023-08-28 01:50:24

Випуск ChatGPT, GPT-4 тощо дозволяє побачити чарівність великої моделі (LLM), що супроводжується різними проблемами, з якими вона стикається.

Джерело зображення: створено Unbounded AI

Як зробити LLM кращим? Які проблеми потрібно вирішити перед великими моделями? Це стало важливою темою дослідження в галузі ШІ.

У цій статті фахівець з комп’ютерних технологій Чіп Гюєн починає з 10 аспектів і всебічно пояснює проблеми, з якими стикається LLM. Зокрема, перші два аспекти стосуються галюцинацій і контекстного навчання, а деякі інші аспекти включають, але не обмежуються мультимодальністю, архітектурою, пошуком альтернатив GPU тощо.

Оригінальна адреса:

Нижче подано переклад оригінального тексту.

1. Як зменшити галюцинації

Проблема галюцинацій виникає, коли текст, створений LLM, є плинним і природним, але не відповідає джерелу вмісту (внутрішня проблема) та/або невизначений (зовнішня проблема). Ця проблема широко існує в LLM.

Тому дуже важливо полегшити галюцинації та розробити індикатори для вимірювання галюцинацій, і багато компаній та установ приділяють цьому питанню увагу. Чіп Гюєн сказав, що на цій стадії існує багато способів зменшити галюцинації, наприклад додати більше контексту до підказки, використати ланцюжки думок або зробити відповідь моделі більш короткою.

Матеріали, на які можна посилатися, включають:

Огляд досліджень галюцинацій у створенні природної мови:
Як ілюзія мови моделює сніжки:
Оцінка ChatGPT щодо міркувань, галюцинацій та інтерактивності:
Контрастне навчання зменшує галюцинації в розмовах:
Самоузгодженість покращує здатність ланцюга мислення аргументувати мовну модель:
Виявлення галюцинацій чорного ящика для генеративних великих мовних моделей:

2. Оптимізуйте довжину контексту та структуру контексту

Іншим напрямком дослідження LLM є довжина контексту, оскільки велика модель повинна посилатися на контекст, відповідаючи на запитання користувача, і чим більша довжина може бути оброблена, тим вона корисніша для LLM. Наприклад, ми запитали ChatGPT: «Який найкращий в’єтнамський ресторан?» Зіткнувшись із цим запитанням, ChatGPT потрібно звернутись до контексту, щоб зрозуміти, чи запитує користувач про найкращий в’єтнамський ресторан у В’єтнамі чи найкращий в’єтнамський ресторан у Сполучених Штатах. Держави.не однаково.

У цьому підрозділі Чіп Гуєн представляє кілька пов’язаних документів.

Перша — «SITUATEDQA: включення екстралінгвістичних контекстів у QA», обидва автори — з Техаського університету в Остіні. Стаття представляє відкритий набір даних QA SITUATEDQA, і зацікавлені читачі можуть перевірити його, щоб дізнатися більше.

Чіп Гюен заявив, що оскільки модель навчається з наданого контексту, цей процес називається контекстним навчанням.

Друга стаття — «Повторно доповнена генерація для наукомістких завдань НЛП». У цій статті пропонується RAG (повторно доповнена генерація), яка може поєднувати попередньо підготовлені мовні моделі та зовнішні знання для реалізації відкритих генеративних відповідей на запитання та інших знань. Інтенсивні завдання.

Процес роботи RGA поділяється на дві фази: фазу фрагментації (також відому як отримання) і фазу запиту:

На підставі цього дослідження багато людей вважають, що чим довший контекст, тим більше інформації вдасться в модель і тим краще її реакція. Чіп Гюєн вважає це твердження не зовсім вірним.

Скільки контексту може використовувати модель і наскільки ефективно модель використовує контекст – два абсолютно різні питання. Що ми повинні зробити, так це підвищити ефективність контексту обробки моделі паралельно збільшуючи довжину контексту моделі. Наприклад, у статті «Загублені посередині: як мовні моделі використовують довгі контексти» документ описує, як модель може краще зрозуміти інформацію на початку та в кінці індексу, а не проміжну інформацію.

3. Мультимодальний

Чіп Гюєн вважає, що мультимодальність дуже важлива.

По-перше, такі сфери, як охорона здоров’я, робототехніка, електронна комерція, роздрібна торгівля, ігри, розваги тощо, потребують мультимодальних даних. Наприклад, для медичного прогнозу потрібен текстовий вміст, як-от примітки лікаря та анкети пацієнтів, а також інформація про зображення, як-от сканування КТ, рентгенівського та МРТ-сканування.

По-друге, мультимодальність обіцяє значно покращити продуктивність моделі, при цьому моделі, які можуть розуміти як текст, так і зображення, працюють краще, ніж моделі, які можуть розуміти лише текст. Проте текстові моделі настільки вимогливі до тексту, що люди починають хвилюватися, що незабаром у нас закінчаться Інтернет-дані для навчання моделей. Коли текст буде вичерпано, нам потрібно розглянути інші модальності даних.

Діаграма архітектури Flamingo

Що стосується мультимодальності, ви можете звернутися до наступного вмісту:

论文 1《Вивчення візуальних моделей, які можна перенести за допомогою нагляду за природною мовою》：
论文 2《Flamingo: візуальна модель мови для швидкого навчання》：
论文 3《BLIP-2: Попереднє навчання мови початкового зображення з кодувальниками заморожених зображень і великими мовними моделями》：
论文 4《Мова — це не все, що вам потрібно: узгодження сприйняття з мовними моделями》：
Папір 5 «Налаштування візуальних інструкцій»:
Google PaLM-E:
NVIDIA NeVA:

4. Зробіть LLM швидшим і дешевшим

GPT-3.5 вперше випущено наприкінці листопада 2022 року, і багато людей стурбовані високою вартістю використання. Проте всього за півроку спільнота знайшла модель, яка за продуктивністю близька до GPT-3.5, а необхідний обсяг пам’яті становить лише 2% від GPT-3.5.

Чіп Гюєн сказав, що якщо створити щось достатньо хороше, люди незабаром знайдуть спосіб зробити це швидко та дешево.

Нижче наведено порівняння продуктивності Guanaco 7B з такими моделями, як ChatGPT і GPT-4. Але ми повинні підкреслити, що оцінити LLM дуже важко.

Потім Чіп Гюєн перерахував методи оптимізації моделі та стиснення:

Кількісна оцінка: найбільш загальний метод оптимізації моделі на сьогоднішній день. Квантування використовує менше бітів для представлення параметрів, таким чином зменшуючи розмір моделі.Наприклад, хтось змінює 32-бітне число з плаваючою комою на 16-бітне або навіть 4-бітове представлення з плаваючою комою;
Дистиляція знань: метод навчання маленької моделі (учня) імітувати більшу модель або ансамбль моделей (учитель);
Розкладання низького рангу: ключова ідея полягає в заміні тензорів високої розмірності на тензори низької розмірності, щоб зменшити кількість параметрів. Наприклад, користувачі можуть розкласти тензор 3x3 на добуток тензорів 3x1 і 1x3, щоб було лише 6 параметрів замість 9;
Обрізка.

Вищевказані чотири методи все ще популярні, наприклад навчання Альпаки з дистиляцією знань і QLoRA, що поєднує низькорангову декомпозицію та квантування.

5. Створіть нову архітектуру моделі

Після випуску AlexNet у 2012 році багато архітектур, включаючи LSTM, seq2seq, стали популярними, а потім застаріли. На відміну від цього, Transformer неймовірно липкий. Він існує з 2017 року і досі широко використовується. Як довго ця архітектура буде популярною, оцінити важко.

Однак розробити абсолютно нову архітектуру, щоб перевершити Transformer, нелегко. За останні 6 років дослідники внесли багато оптимізацій у Transformer. Окрім архітектури моделі, він також включає оптимізацію на апаратному рівні.

Лабораторія під керівництвом американського комп’ютерного вченого Кріса Ре провела багато досліджень навколо S4 у 2021 році. Для отримання додаткової інформації зверніться до статті «Ефективне моделювання довгих послідовностей зі структурованими просторами станів». Крім того, лабораторія Chris Ré інвестувала значні кошти в розробку нових архітектур, і нещодавно вони співпрацювали зі стартапом Together для розробки архітектури Monarch Mixer.

Їхня ключова ідея полягає в тому, що для існуючої архітектури Transformer складність уваги є квадратичною від довжини послідовності, тоді як складність MLP є квадратичною від розмірності моделі, і архітектура з низькою складністю буде більш ефективною.

6. Розробка альтернатив GPU

Графічні процесори домінують у глибокому навчанні з моменту випуску AlexNet у 2012 році. Фактично, однією з загальновизнаних причин популярності AlexNet є те, що це була перша стаття, яка успішно навчила нейронну мережу за допомогою GPU. До появи графічних процесорів, якщо ви хотіли навчити модель розміром з AlexNet, вам потрібно було використовувати тисячі процесорів, і кілька графічних процесорів могли це зробити.

За останнє десятиліття як великі корпорації, так і стартапи намагалися створити нове обладнання для штучного інтелекту. Найбільш репрезентативні з них включають, але не обмежуються, TPU від Google, IPU від Graphcore та компанію чіпів AI Cerebras. Крім того, стартап SambaNova зі штучного інтелекту зібрав понад 1 мільярд доларів на розробку нових мікросхем ШІ.

Ще один захоплюючий напрямок — фотонні чіпи, які використовують фотони для переміщення даних, забезпечуючи швидші та ефективніші обчислення. Кілька стартапів у цьому просторі залучили сотні мільйонів доларів, зокрема Lightmatter (270 мільйонів доларів), Ayar Labs (220 мільйонів доларів), Lightelligence (понад 200 мільйонів доларів) і Luminous Compute (115 мільйонів доларів).

Нижче наведено хронологію розвитку трьох основних підходів до фотонних матричних обчислень, взяту з статті «Фотонне матричне множення освітлює фотонний прискорювач і далі». Ці три методи: планарне перетворення світла (PLC), інтерферометр Маха-Цендера (MZI) і мультиплексування за довжиною хвилі (WDM).

7. Зробіть агентів більш зручними

Агенти — це магістри права, які можуть виконувати такі дії, як перегляд веб-сторінок, надсилання електронних листів, бронювання кімнати тощо. Порівняно з іншими напрямками досліджень у цій статті, цей напрямок з’явився відносно пізно і є для всіх дуже новим.

Саме через його новизну та великий потенціал усі мають божевільну одержимість розумними агентами. Наразі Auto-GPT є 25-м за популярністю проектом на GitHub. GPT-Engineering – ще один дуже популярний проект.

Хоча це очікувано та захоплююче, залишається сумнівним, чи LLM буде достатньо надійним і продуктивним, щоб отримати право діяти.

Проте вже з’явилася заява про застосування агентів у соціальних дослідженнях. Деякий час тому Стенфорд відкрив вихідний код «віртуального міста» Смолвіля. У місті жили 25 агентів ШІ. Вони мають роботу, можуть пліткувати та організовувати соціальні , заводити нових друзів і навіть влаштовувати вечірку до Дня святого Валентина, кожен житель міста має унікальну особистість і історію.

Для отримання додаткової інформації зверніться до наступних документів.

Адреса паперу:

Ймовірно, найвідомішим стартапом у цьому просторі є Adept, заснований двома співавторами Transformer і колишнім віце-президентом OpenAI, який на сьогодні залучив майже 500 мільйонів доларів. Минулого року вони провели демонстрацію, демонструючи, як їхній агент може переглядати Інтернет і додати новий обліковий запис до Salesforce.

, тривалість 03:30

8. Покращене навчання на основі людських уподобань

RLHF означає Reinforcement Learning from Human Preferences. Не буде дивним, якщо люди знайдуть інші способи навчання LLM, зрештою, RLHF має ще багато проблем, які потрібно вирішити. Чіп Гюєн перерахував наступні 3 пункти.

**Як представити людські переваги математично? **

Наразі переваги людини визначаються шляхом порівняння: люди-анотатори визначають, чи відповідь A краща за відповідь B, але не враховують, наскільки відповідь A краща за відповідь B.

**Які людські переваги? **

Anthropic вимірює якість реакції своїх моделей за трьома осями: корисність, чесність і невинність.

Адреса паперу:

DeepMind також намагається генерувати відповіді, які задовольняють більшість. Перегляньте цей документ нижче.

Адреса паперу:

Але щоб було зрозуміло, ми хочемо ШІ, який може зайняти позицію, чи загальний ШІ, який уникає будь-яких потенційно суперечливих тем?

**Чиї вподобання є уподобаннями «людей»? **

Враховуючи відмінності в культурі, релігії тощо, існує багато проблем із отриманням навчальних даних, які адекватно представляють усіх потенційних користувачів.

Наприклад, у даних InstructGPT OpenAI мітками є переважно філіппінці та бангладешці, що може спричинити певні відхилення через географічні відмінності.

Джерело:

Дослідницьке співтовариство також працює над цим, але упередженість даних залишається. Наприклад, у демографічному розподілі набору даних OpenAssistant 201 із 222 респондентів (90,5%) були чоловіками.

9. Підвищте ефективність інтерфейсу чату

Після ChatGPT було багато дискусій про те, чи підходить чат для різних завдань. Наприклад, такі дискусії:

Природна мова — це лінивий інтерфейс користувача
Чому чат-боти - це не майбутнє:
Для відповіді на які типи питань потрібен діалог?
Інтерфейс чату AI може стати основним інтерфейсом користувача для читання документації:
Взаємодія з LLM з мінімальним чатом:

Однак ці дискусії не нові. Багато країн, особливо в Азії, використовують чат як інтерфейс для суперпрограм уже близько десяти років.

*Чат як загальний інтерфейс для китайських програм

У 2016 році, коли багато хто вважав, що програми мертві, а майбутнє за чат-ботами, дискусія знову стала напруженою:

Про інтерфейс чату:
Чи є тенденція чат-ботів величезною помилкою:
Боти не замінять програми, кращі програми:

Чіп Гюєн сказав, що йому дуже подобається інтерфейс чату з таких причин:

Чат – це інтерфейс, яким може швидко навчитися користуватися кожен, навіть той, хто ніколи раніше не мав доступу до комп’ютера чи Інтернету.
В інтерфейсі чату немає перешкод, навіть коли ви поспішаєте, ви можете використовувати голос замість тексту.
Чат також є дуже потужним інтерфейсом, ви можете зробити будь-який запит до нього, навіть якщо відповідь буде поганою, він відповість.

Однак Чіп Гюєн вважає, що інтерфейс чату залишає місце для вдосконалення в деяких сферах. Він має такі пропозиції

Кілька повідомлень за раунд

Наразі вважається, що за раунд можна надіслати лише одне повідомлення. Але це не те, як люди пишуть повідомлення в реальному житті. Зазвичай, щоб завершити ідею окремої людини, потрібно кілька частин інформації, оскільки різні дані (такі як зображення, розташування, посилання) потрібно вставити в процес, і користувач може пропустити щось у попередній інформації або просто не хочете включити все Напишіть це довгим абзацом.

Мультимодальний вхід

У сфері мультимодальних додатків більшість зусиль витрачається на створення кращих моделей, і мало витрачається на створення кращих інтерфейсів. У випадку чат-бота NeVA від Nvidia, можливо, є місце для покращення взаємодії з користувачем.

адреса:

Включіть Generative AI у робочі процеси

Лінус Лі добре формулює це у своїй доповіді «Інтерфейси, створені ШІ за межами чату». Наприклад, якщо ви хочете поставити запитання про стовпець у діаграмі, над якою ви працюєте, ви повинні мати можливість просто вказати на цей стовпець і запитати.

Адреса відео:

Редагування та видалення інформації

Варто подумати про те, як редагування або видалення введених користувачем даних може змінити перебіг розмови з чат-ботом.

10. Створення LLM для неанглійських мов

Поточні LLM для англійської як першої мови погано масштабуються з іншими мовами з точки зору продуктивності, затримки та швидкості. Відповідний вміст можна прочитати в наступних статтях:

Адреса паперу:

Адреса статті:

Чіп Гюєн сказав, що кілька перших читачів цієї статті сказали йому, що вони вважають, що цей напрямок не слід включати з двох причин.

Це не стільки дослідницьке питання, скільки питання логістики. Ми вже знаємо, як це зробити, просто треба, щоб хтось вклав гроші та енергію, що не зовсім так. Більшість мов вважаються мовами з низьким ресурсом, наприклад, мають набагато менш якісні дані, ніж англійська чи китайська, і тому можуть вимагати інших методів для навчання великих мовних моделей. Перегляньте наступні статті:

Адреса паперу:

Песимістичні люди думають, що багато мов вимруть у майбутньому, а майбутній Інтернет складатиметься з двох мов: англійської та китайської.

Вплив інструментів ШІ, таких як машинний переклад і чат-боти, на вивчення мови незрозумілий. Чи допомагають вони людям швидше вивчати нові мови, чи повністю усувають необхідність вивчати нові мови, невідомо.

Підсумуйте

Проблеми, згадані в цьому документі, також мають різні рівні складності, наприклад остання проблема, якщо ви можете знайти достатньо ресурсів і часу, це досяжно побудувати LLM для неанглійських мов.

Однією з перших проблем є зменшення галюцинацій, що буде набагато важче, тому що галюцинації - це просто LLM, які роблять імовірнісні речі.

Четверта проблема полягає в тому, щоб зробити LLM швидшим і дешевшим, і це не буде повністю вирішено. У цій сфері було досягнуто певного прогресу, і в майбутньому буде ще більше, але ми ніколи не вдосконалимося до досконалості.

П’ятий і шостий питання – це нові архітектури та нове апаратне забезпечення, що дуже складно, але з часом неминуче. Через симбіотичний зв’язок між архітектурою та апаратним забезпеченням, де нові архітектури потрібно оптимізувати для апаратного забезпечення загального призначення, а апаратне забезпечення потребує підтримки архітектур загального призначення, цю проблему потенційно може вирішити одна компанія.

Існують також проблеми, які неможливо вирішити лише технічними знаннями. Наприклад, восьма проблема вдосконалення методів навчання на основі людських уподобань може бути більше політичною, ніж технічною. Говорячи про дев’яте питання, підвищення ефективності інтерфейсу, це більше схоже на проблему взаємодії з користувачем, і для спільного вирішення цієї проблеми потрібно більше людей із нетехнічним досвідом.

Якщо ви хочете поглянути на ці проблеми з іншого боку, Чіп Гюєн рекомендує прочитати наступну статтю.

Адреса паперу:

Переглянути оригінал

Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.

1 лайків

Нагородити
1
Прокоментувати
Поділіться

Прокоментувати

0/400

Немає коментарів

Тема
#BTC#
210k публікації
#PI#
165k публікації
#ETH#
133k публікації
4#GateioInto11#
78k публікації
5#ContentStar#
65k публікації
6#BOME#
60k публікації
7#GT#
60k публікації
8#DOGE#
55k публікації
9#MAGA#
52k публікації
10#SLERF#
51k публікації

Закріпити

карта сайту