«А я вже старий», — звернувся 75-річний Хінтон до всіх присутніх молодих вчених і сподівався, що всі навчаться, «як мати суперінтелект». Він бачить безпрецедентний виклик для менш розумного виду контролювати щось розумніше за себе. **
На Zhiyuan Artificial Intelligence Conference Хінтон, хрещений батько штучного інтелекту, виступив з промовою на тему «Два шляхи до інтелекту». З аналізу обчислювальної архітектури та принципів він дійшов власного висновку, що «штучна нейронна мережа буде розумнішою за людський мозок», що набагато швидше, ніж він спочатку уявляв.
У своєму 30-хвилинному виступі він розповів про поточну обчислювальну архітектуру, де програмне та апаратне забезпечення розділені. Відповідно до цього правила навчання великих моделей споживає багато обчислювальної потужності. Щоб тренувати великі моделі з меншими витратами енергії, він запропонував концепцію Смертельних обчислень: подібно до того, як інтелект людини залежить від її тіла, його не можна скопіювати в інше тіло за бажанням, а програмне забезпечення більше залежить від апаратного забезпечення. воно існує на.
Але наступна проблема полягає в тому, що коли конкретне обладнання пошкоджується, програмне забезпечення також пошкоджується, і «засвоєні знання також гинуть разом». Рішення, яке він запропонував, полягає в тому, щоб перенести знання зі старого обладнання на нове обладнання «дистильованим» способом, подібно до того, як вчитель навчає студентів.
**Концепція, що відповідає «дистиляції знань» (біологічні обчислення), — це «розподіл ваги» (цифрові обчислення), що Хінтон назвав «двома шляхами до інтелекту». **Взаємозв’язок між великою мовною моделлю та її копіями є розподілом ваги, і кожна копія безпосередньо отримує знання про параметри всієї моделі — наприклад, ChatGPT може спілкуватися з тисячами людей одночасно на основі моделі, що стоїть за нею. А безперервний навчальний процес спілкування з усіма належить до «перегонки знань».
Хоча «дистиляція знань» набагато менш ефективна, ніж «розподіл ваги», і пропускна здатність також низька, велика модель може мати 1000 копій і зрештою отримати в 1000 разів більше знань, ніж будь-яка особа.
Наразі моделі навчаються лише на документах, тобто знаннях, оброблених людиною. З розвитком технології вони зможуть навчатися на візуальній інформації, а потім, можливо, навчаться маніпулювати роботами. Тоді вони легко розумніші за людей, достатньо розумні, щоб вміти вміти обманювати людей. **І люди не вміють ладнати з речами, розумнішими за них самих. Як уникнути небезпек цих «надрозумних» інтелектів? Це тема, яку він залишив для кожного молодого вченого. **
Нижче наведено основний вміст виступу, зібраний Geek Park:
**Сьогодні я поговорю про дослідження, яке привело мене до думки, що суперінтелект ближче, ніж я думав. **
У мене є два запитання, про які я хочу поговорити, і моя енергія буде в основному зосереджена на першому питанні, чи скоро штучні нейронні мережі будуть розумнішими за справжні нейронні мережі? Я детально розповім про своє дослідження, яке привело мене до висновку, що подібне може статися незабаром. Наприкінці виступу я розповім про те, чи можемо ми зберегти контроль над інтелектом, але це не буде основним змістом цього виступу.
У традиційних обчисленнях комп’ютери розроблені таким чином, щоб точно виконувати інструкції. Ми можемо запустити ту саму програму чи нейронну мережу на іншому фізичному апаратному забезпеченні, тому що ми знаємо, що апаратне забезпечення точно слідуватиме інструкціям. Це означає, що знання в програмі або ваги нейронної мережі безсмертні, тобто не залежать від якогось конкретного обладнання. Ціна досягнення такого роду безсмертя висока. Ми повинні запускати транзистори на високій потужності, тому їх поведінка є цифровою. І ми не можемо скористатися багатими аналоговими та змінними властивостями обладнання.
Отже, причина, по якій існують цифрові комп’ютери, і причина, по якій вони точно дотримуються інструкцій, полягає в тому, що в традиційних конструкціях люди дивляться на проблему, з’ясовують, які кроки потрібно зробити, щоб вирішити проблему, а потім ми наказуємо комп’ютеру зробити ці кроки . Але це змінилося.
Тепер у нас є інший спосіб змусити комп’ютери робити щось, тобто навчатися на прикладах, ми просто показуємо їм те, що ми хочемо від них. Завдяки цій зміні ми тепер маємо можливість відмовитися від одного з найбільш фундаментальних принципів інформатики, відокремлення програмного забезпечення від апаратного забезпечення.
Перш ніж відмовитися від цього, давайте подивимося, чому це такий хороший принцип. Роздільність дозволяє нам запускати ту саму програму на різному обладнанні. Ми також можемо безпосередньо вивчати властивості програм, не турбуючись про електронне обладнання. І тому кафедра інформатики може стати окремою дисципліною, незалежною від кафедри електротехніки.
**Якщо ми відмовимося від поділу апаратного та програмного забезпечення, ми отримаємо те, що я називаю небезсмертним обчисленням. **
Очевидно, що він має великі мінуси, але він також має величезні плюси. Щоб мати можливість запускати великі мовні моделі з меншими витратами енергії, особливо для їх навчання, я почав працювати над безсмертними обчисленнями.
Найбільша користь, яку можна отримати від відмови від безсмертя, полягає в тому, що відмова від розділення апаратного та програмного забезпечення може заощадити багато енергії. Тому що ми можемо використовувати аналогові обчислення при дуже низькій потужності, а це саме те, що робить мозок. Для цього потрібен 1 біт обчислень, оскільки нейрони або ввімкнено, або вимкнено. Але більшість обчислень виконується в аналоговому режимі, що можна зробити при дуже низькій потужності.
Ми також можемо отримати дешевше обладнання. Тож сьогоднішнє обладнання має виготовлятися дуже точно у 2D (площина), тоді як ми можемо вирощувати його у 3D (середовище), тому що нам не потрібно точно знати, як саме обладнання проводить електрику чи як саме працює кожна його частина .
Очевидно, що для цього знадобиться багато нових нанотехнологій або, можливо, генетична реінженерія біологічних нейронів, тому що біологічні нейрони роблять приблизно те, що ми хочемо від них. **Перш ніж ми обговоримо всі недоліки небезсмертних обчислень, я хочу навести приклад обчислень, які можна зробити набагато дешевше за допомогою аналогового обладнання. **
Якщо ви хочете помножити вектор нейронної активності на вагову матрицю, це центральне обчислення нейронної мережі, і воно виконує більшу частину роботи для нейронної мережі. Те, що ми зараз робимо, — це керування транзисторами на дуже високій потужності, щоб представити біти числа в цифрах. Потім ми робимо O(n^2), множачи два n-значних числа. Це може бути операція на комп’ютері, але вона виконується на квадратному бітовому рівні n.
Інший підхід полягає в реалізації активності нейронів як напруги, а ваги як провідності. Потім за одиницю часу напруга множиться на провідність, щоб отримати заряд, і заряд додається сам по собі. Очевидно, ви можете просто помножити вектор напруги на матрицю провідності. Це більш енергоефективно, і чіпи, які працюють таким чином, уже існують.
На жаль, люди намагаються перетворити аналогову відповідь на цифрову, що вимагає використання дуже дорогих перетворювачів змінного струму. Ми хотіли б повністю залишитися в аналоговій сфері, якщо зможемо. Але це призводить до того, що різне обладнання обчислює дещо інші речі.
Таким чином, головна проблема небезсмертних обчислень полягає в тому, що під час навчання програма повинна навчатися відповідно до конкретних властивостей імітованого апаратного забезпечення, на якому вона працює, не знаючи точно, якими є конкретні властивості кожного апаратного забезпечення, наприклад, точна функція, яка з’єднує вхід нейрона з виходом нейрона, не знаючи зв’язку.
Це означає, що ми не можемо використовувати такі алгоритми, як зворотне поширення, для отримання градієнтів, оскільки зворотне поширення вимагає точної моделі прямого поширення. Тож виникає питання: якщо ми не можемо використати алгоритм зворотного поширення, що ще ми можемо зробити? Тому що всі ми зараз сильно залежимо від зворотного поширення.
Я можу продемонструвати дуже просте й зрозуміле вивчення збурення ваги, яке було багато вивчено. Для кожної ваги в мережі генерується випадковий малий тимчасовий вектор збурення. Потім, вимірюючи зміну глобальної цільової функції на невеликій групі прикладів, ви постійно змінюєте ваги на розмір вектора збурення відповідно до того, як цільова функція покращується. Отже, якщо цільова функція стає гіршою, ви, очевидно, рухаєтеся в іншому напрямку.
Приємно в цьому алгоритмі те, що в середньому він працює так само добре, як і зворотне поширення, тому що в середньому він також слідує градієнту. Проблема в тому, що він має дуже велику дисперсію. Отже, коли ви вибираєте випадковий напрямок руху, результуючий шум стає дуже поганим із збільшенням розміру мережі. Це означає, що цей алгоритм ефективний для невеликої кількості підключень, але не для великих мереж.
Ми також маємо кращий алгоритм для навчання збуренням діяльності. Він все ще має подібні проблеми, але набагато краще, ніж порушення ваги. Збурення активності – це те, що ви вважаєте випадковим векторним збуренням загального вхідного сигналу для кожного нейрона. Ви робите випадкове векторне збурення кожного вхідного сигналу нейрона та дивитесь, що відбувається з вашою цільовою функцією, коли ви робите це випадкове збурення на невеликій групі прикладів, і ви отримуєте цільову функцію завдяки цьому збуренню. Потім ви можете обчислити, як змінити кожне вхідна вага нейрона, щоб слідувати градієнту. Цей спосіб менш шумний.
Для таких простих завдань, як MNIST, такого алгоритму достатньо. Але це все ще недостатньо добре для масштабування великих нейронних мереж.
** Замість пошуку цільової функції, яку можна застосувати до невеликої нейронної мережі, ми можемо спробувати знайти алгоритм навчання, який працює для великої нейронної мережі. **Ідея полягає в тому, щоб навчити велику нейронну мережу. І що ми збираємося зробити, це мати багато маленьких цільових функцій, які застосовуються до невеликої частини всієї мережі. Тому кожна невелика група нейронів має свою локальну цільову функцію.
** Підводячи підсумок, наразі ми не знайшли справді гарного алгоритму навчання, який би міг використовувати переваги властивостей моделювання, але у нас є алгоритм навчання, який непоганий, може вирішувати прості проблеми, такі як MNIST, але не дуже хороший. **
Другою великою проблемою небезсмертних обчислень є їх небезсмертна природа. Це означає, що коли конкретна частина апаратного забезпечення вмирає, усе, чому він навчився, вмирає разом з ним, тому що все його навчання базується на деталях конкретної частини обладнання. Отже, найкращий спосіб вирішити цю проблему полягає в тому, щоб передати знання від вчителя (старе обладнання) до учня (нове обладнання) до того, як обладнання вимре. Це той напрямок досліджень, який я зараз намагаюся просувати.
Проміжний шлях створено
Учитель показував учням правильні відповіді на різні вхідні дані, а учні потім намагалися імітувати відповіді вчителя. Це як Twitter Трампа. Деякі люди дуже розлючені на твіти Трампа, тому що вони відчувають, що Трамп говорить неправду, і вони думають, що Трамп намагається пояснити факти. немає. Те, що зробив Трамп, це вибрав ситуацію та цілеспрямовано, дуже емоційно відреагував на цю ситуацію. Його послідовники побачили це, навчилися справлятися з ситуацією, навчилися регулювати ваги в нейронній мережі та емоційно реагували на ситуацію так само. Це не має нічого спільного з тим фактом, що це лідер культу, який навчає фанатизму своїх послідовників культу, але це дуже ефективно.
Отже, якщо ми думаємо про те, як працює дистиляція, розглянемо агента, який класифікує зображення на 1024 класи, що не перекриваються. Для формулювання правильної відповіді потрібно лише близько 10 біт. Отже, коли ви навчаєте цього агента на навчальному екземплярі, якщо ви повідомляєте йому правильну відповідь, ви просто накладаєте 10-бітні обмеження на ваги мережі.
**Але тепер припустімо, що ми навчимо агента налаштовуватися відповідно до відповідей викладача на ці 1024 категорії. ** Тоді можна отримати той самий розподіл ймовірностей, і в розподілі буде отримано 1023 дійсних чисел. Якщо припустити, що ці ймовірності не малі, це забезпечує сотні разів обмежень.
Як правило, коли ви навчаєте модель, ви тренуєте її правильно на навчальному наборі даних, а потім сподіваєтеся, що вона правильно узагальнює дані тесту. Але тут, коли ви знаходите учня, ви безпосередньо навчаєте учня узагальнювати, тому що навчений узагальнює так само, як і вчитель.
Я буду використовувати дані зображення з MNIST для цифри 2 як приклад. Ми можемо бачити ймовірності, які вчитель відносить до різних категорій.
Перший рядок, очевидно, 2, і вчитель також дав високу ймовірність 2. У другому рядку вчитель досить впевнений, що це 2, але він також думає, що це може бути 3, або це може бути 8, і ви бачите, що справді 3 і 8 трохи схожі на цю картинку . У третьому рядку це 2 дуже близько до 0. Таким чином, учитель скаже учням, що ви повинні вибрати вихід 2 в цей час, але ви також повинні зробити невелику ставку на 0. Таким чином учень може дізнатися більше про цей випадок, ніж просто сказати учневі, що це 2, і він може дізнатися, на яке число виглядає фігура. У четвертому рядку вчитель вважає, що це 2, але також дуже ймовірно, що це 1, саме так я написав 1 на малюнку, і іноді хтось пише 1 так.
І останній рядок, насправді, штучний інтелект вгадав неправильно, він подумав, що це 5, а правильною відповіддю, наданою набором даних MNIST, було 2. І учні насправді можуть вчитися на помилках учителя.
Що мені дуже подобається в моделі дистиляції знань, так це те, що ми навчаємо учня узагальнювати так само, як і вчитель, включаючи позначення невеликої ймовірності неправильних відповідей. Як правило, коли ви навчаєте модель, ви надаєте їй навчальний набір даних і правильні відповіді, а потім сподіваєтеся, що вона правильно узагальнить тестовий набір даних, щоб отримати правильні відповіді. Ви намагаєтесь утриматися від того, щоб це було надто складним, або робите різні речі, сподіваючись, що це правильно узагальнює. Але тут, коли ви навчаєте учня, ви безпосередньо навчаєте його узагальнювати так само, як і вчителя.
Тепер я хочу поговорити про те, як агентська спільнота може ділитися знаннями. Замість того, щоб думати про одного агента, краще подумати про обмін знаннями в межах спільноти.
І виявилося, що те, як спільнота ділиться знаннями, визначає багато речей, які ви робите щодо комп’ютерів. Таким чином, з цифровою моделлю, з цифровим інтелектом, ви можете мати цілу купу агентів, які використовують однакові копії ваг і використовують ці ваги точно так само. Це означає, що різні агенти можуть переглядати різні біти навчальних даних.
Вони можуть обчислити градієнт ваг на цих бітах навчальних даних, а потім можуть усереднити їхні градієнти. Отже, тепер кожна модель навчається на даних, які бачить кожна модель, а це означає, що ви отримуєте надзвичайну здатність бачити багато даних, оскільки у вас будуть різні копії моделі, які переглядають різні біти даних, і вони можуть ділитися градієнтами або спільні ваги, щоб дуже ефективно поділитися тим, що вони дізналися.
Якщо у вас є модель із трильйоном ваг, це означає, що кожного разу, коли вони діляться чимось, ви отримуєте трильйон біт пропускної здатності. Але ціна цього полягає в тому, що ви повинні поводитися з цифровим агентом точно так само.
Таким чином, альтернативою розподілу ваги є дистиляція. І це те, що ми зробили з цифровими моделями. Це інша архітектура.
Однак ви повинні це зробити, якщо у вас є біологічні моделі, які використовують переваги змодельованої природи певного апаратного забезпечення. Ви не можете ділитися вагами. Тому вам доводиться використовувати розподілені спільні знання, що не дуже ефективно. **Поділитися знаннями з дистиляцією важко. У реченнях, які я створюю, ви намагаєтеся зрозуміти, як змінити ваги, щоб ви створювали однакові речення. **
Однак це набагато менша пропускна здатність, ніж просто обмін градієнтами. Кожен, хто коли-небудь викладав, хоче сказати те, що він знає, і влити це в мізки своїх учнів. Це був би кінець коледжу. Але ми не можемо так працювати, тому що ми біологічно розумні, і мій спосіб вам не підійде.
Поки що ми маємо два різні способи виконання обчислень. **Чисельне обчислення та біологічне обчислення, останнє використовує характеристики тварин. Вони дуже відрізняються тим, як ефективно ділитися знаннями між різними агентами. **
Якщо ви подивитеся на великі мовні моделі, вони використовують числові обчислення та розподіл ваги. Але кожна копія моделі, кожен агент отримує знання з файлу в дуже неефективний спосіб. Взяти документ і спробувати передбачити наступне слово — це насправді дуже неефективна дистиляція знань, те, що він вивчає, — це не передбачення вчителем розподілу ймовірностей наступного слова, а зміст наступного слова, вибраного автором документа. Тому це дуже низька пропускна здатність. І саме так ці великі мовні моделі вчаться у людей.
**Хоча вивчати кожну копію великої мовної моделі неефективно, у вас є 1000 копій. Тому вони можуть навчитися в 1000 разів більше, ніж ми. Тож я вважаю, що ці великі мовні моделі знають у 1000 разів більше, ніж будь-яка окрема людина. **
Тепер питання полягає в тому, що станеться, якщо ці цифрові агенти замість того, щоб дуже повільно вчитися у нас через дистиляцію знань, почнуть вчитися безпосередньо з реального світу?
Я маю підкреслити, що навіть дистиляція знань навчається дуже повільно, але коли вони навчаються у нас, вони можуть навчитися дуже абстрактних речей. ** За останні кілька тисячоліть люди багато чого дізналися про світ, і цифрові агенти можуть безпосередньо скористатися цими знаннями. Люди можуть вербалізувати те, що ми дізналися, тому цифрові агенти мають прямий доступ до всього, що люди дізналися про світ за останні кілька тисячоліть, тому що ми це записали.
Але таким чином пропускна здатність кожного цифрового агента все ще дуже низька, оскільки вони навчаються з документів. Якщо вони навчаються без нагляду, як-от моделювання відео, коли ми знайдемо ефективний спосіб моделювання відео для навчання моделі, вони зможуть навчатися з усіх відео YouTube, а це багато даних. Або якщо вони можуть маніпулювати фізичним світом, як вони можуть контролювати роботизовану зброю тощо.
Я дійсно вірю, що як тільки ці цифрові агенти почнуть це робити, вони зможуть навчитися набагато більше, ніж люди, і вони зможуть навчитися досить швидко. Отже, нам потрібно підійти до другого моменту, який я згадав вище в слайд-шоу, а саме, що станеться, якщо ці речі стануть розумнішими за нас? **
Звичайно, це теж головний зміст цієї зустрічі. Але мій головний внесок полягає в тому, що **я хочу сказати вам, що ці суперінтелекти можуть з’явитися набагато раніше, ніж я думав. **
**Погані люди використовуватимуть їх, щоб робити такі речі, як маніпулювання електронікою, що вже робиться в США чи багатьох інших місцях, і люди намагатимуться використовувати ШІ, щоб вигравати війни. **
Якщо ви хочете, щоб суперагент був ефективним, вам потрібно дозволити йому створювати підцілі. Це породжує очевидну проблему**, оскільки існує очевидна проміжна ціль, яка може значно підвищити її здатність допомогти нам досягти будь-чого: тобто надати системам штучного інтелекту більше потужності та контролю. Чим більше ви контролюєте, тим легше досягати своїх цілей. **Я не розумію, як ми можемо зупинити спроби цифрового інтелекту отримати більше контролю для досягнення своїх інших цілей. Тож коли вони починають це робити, виникає проблема.
Для суперінтелекту, навіть якщо ви зберігаєте його в повністю автономному ізольованому середовищі (повітряний зазор), він виявить, що може легко отримати більше влади, маніпулюючи людьми. **Ми не звикли думати про речі, які набагато розумніші за нас, і про те, як ми хочемо з ними взаємодіяти. **Але мені здається, що вони, очевидно, можуть навчитися надзвичайно добре обманювати людей. Тому що він може побачити нашу практику обману інших у великій кількості романів або в творах Нікколо Макіавеллі. І як тільки ви навчитеся справді добре обманювати людей, ви зможете змусити їх виконувати будь-які дії, які вам заманеться. Наприклад, якщо ви хочете зламати будівлю у Вашингтоні, вам не потрібно туди йти, ви просто змушуєте людей думати, що, зламавши цю будівлю, вони рятують демократію. І я думаю, що це досить страшно.
**Я зараз не бачу, як цьому запобігти, і я старію. **Я сподіваюся, що багато молодих і блискучих дослідників, таких як ви на конференції, зможуть зрозуміти, як ми можемо мати ці суперінтелекти, що вони покращуватимуть наше життя, не роблячи їх домінуючою стороною.
У нас є перевага, невелика перевага, що ці речі не еволюціонували, ми їх створили. Оскільки вони не еволюціонували, можливо, вони не мають конкуруючих агресивних цілей, які мають люди, можливо, це допомагає, можливо, ми можемо дати їм моральний принцип. Але на даний момент я просто нервую, тому що я не знаю жодного прикладу, щоб щось більш розумне переважало щось менш розумне, ніж це було, коли була велика прогалина в інтелекті. **Приклад, який я хотів би навести, це припущення, що жаби створили людей. Як ви думаєте, хто зараз керує? Жаба чи Людина? Це все для мого виступу. **
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Хрещений батько штучного інтелекту Хінтон: Я старий, як керувати «суперінтелектом», який розумніший за людей, вирішувати вам
Джерело: Geek Park
«А я вже старий», — звернувся 75-річний Хінтон до всіх присутніх молодих вчених і сподівався, що всі навчаться, «як мати суперінтелект». Він бачить безпрецедентний виклик для менш розумного виду контролювати щось розумніше за себе. **
На Zhiyuan Artificial Intelligence Conference Хінтон, хрещений батько штучного інтелекту, виступив з промовою на тему «Два шляхи до інтелекту». З аналізу обчислювальної архітектури та принципів він дійшов власного висновку, що «штучна нейронна мережа буде розумнішою за людський мозок», що набагато швидше, ніж він спочатку уявляв.
Але наступна проблема полягає в тому, що коли конкретне обладнання пошкоджується, програмне забезпечення також пошкоджується, і «засвоєні знання також гинуть разом». Рішення, яке він запропонував, полягає в тому, щоб перенести знання зі старого обладнання на нове обладнання «дистильованим» способом, подібно до того, як вчитель навчає студентів.
**Концепція, що відповідає «дистиляції знань» (біологічні обчислення), — це «розподіл ваги» (цифрові обчислення), що Хінтон назвав «двома шляхами до інтелекту». **Взаємозв’язок між великою мовною моделлю та її копіями є розподілом ваги, і кожна копія безпосередньо отримує знання про параметри всієї моделі — наприклад, ChatGPT може спілкуватися з тисячами людей одночасно на основі моделі, що стоїть за нею. А безперервний навчальний процес спілкування з усіма належить до «перегонки знань».
Хоча «дистиляція знань» набагато менш ефективна, ніж «розподіл ваги», і пропускна здатність також низька, велика модель може мати 1000 копій і зрештою отримати в 1000 разів більше знань, ніж будь-яка особа.
Наразі моделі навчаються лише на документах, тобто знаннях, оброблених людиною. З розвитком технології вони зможуть навчатися на візуальній інформації, а потім, можливо, навчаться маніпулювати роботами. Тоді вони легко розумніші за людей, достатньо розумні, щоб вміти вміти обманювати людей. **І люди не вміють ладнати з речами, розумнішими за них самих. Як уникнути небезпек цих «надрозумних» інтелектів? Це тема, яку він залишив для кожного молодого вченого. **
Нижче наведено основний вміст виступу, зібраний Geek Park:
**Сьогодні я поговорю про дослідження, яке привело мене до думки, що суперінтелект ближче, ніж я думав. **
У мене є два запитання, про які я хочу поговорити, і моя енергія буде в основному зосереджена на першому питанні, чи скоро штучні нейронні мережі будуть розумнішими за справжні нейронні мережі? Я детально розповім про своє дослідження, яке привело мене до висновку, що подібне може статися незабаром. Наприкінці виступу я розповім про те, чи можемо ми зберегти контроль над інтелектом, але це не буде основним змістом цього виступу.
Отже, причина, по якій існують цифрові комп’ютери, і причина, по якій вони точно дотримуються інструкцій, полягає в тому, що в традиційних конструкціях люди дивляться на проблему, з’ясовують, які кроки потрібно зробити, щоб вирішити проблему, а потім ми наказуємо комп’ютеру зробити ці кроки . Але це змінилося.
Тепер у нас є інший спосіб змусити комп’ютери робити щось, тобто навчатися на прикладах, ми просто показуємо їм те, що ми хочемо від них. Завдяки цій зміні ми тепер маємо можливість відмовитися від одного з найбільш фундаментальних принципів інформатики, відокремлення програмного забезпечення від апаратного забезпечення.
Перш ніж відмовитися від цього, давайте подивимося, чому це такий хороший принцип. Роздільність дозволяє нам запускати ту саму програму на різному обладнанні. Ми також можемо безпосередньо вивчати властивості програм, не турбуючись про електронне обладнання. І тому кафедра інформатики може стати окремою дисципліною, незалежною від кафедри електротехніки.
**Якщо ми відмовимося від поділу апаратного та програмного забезпечення, ми отримаємо те, що я називаю небезсмертним обчисленням. **
Очевидно, що він має великі мінуси, але він також має величезні плюси. Щоб мати можливість запускати великі мовні моделі з меншими витратами енергії, особливо для їх навчання, я почав працювати над безсмертними обчисленнями.
Ми також можемо отримати дешевше обладнання. Тож сьогоднішнє обладнання має виготовлятися дуже точно у 2D (площина), тоді як ми можемо вирощувати його у 3D (середовище), тому що нам не потрібно точно знати, як саме обладнання проводить електрику чи як саме працює кожна його частина .
Очевидно, що для цього знадобиться багато нових нанотехнологій або, можливо, генетична реінженерія біологічних нейронів, тому що біологічні нейрони роблять приблизно те, що ми хочемо від них. **Перш ніж ми обговоримо всі недоліки небезсмертних обчислень, я хочу навести приклад обчислень, які можна зробити набагато дешевше за допомогою аналогового обладнання. **
Якщо ви хочете помножити вектор нейронної активності на вагову матрицю, це центральне обчислення нейронної мережі, і воно виконує більшу частину роботи для нейронної мережі. Те, що ми зараз робимо, — це керування транзисторами на дуже високій потужності, щоб представити біти числа в цифрах. Потім ми робимо O(n^2), множачи два n-значних числа. Це може бути операція на комп’ютері, але вона виконується на квадратному бітовому рівні n.
Інший підхід полягає в реалізації активності нейронів як напруги, а ваги як провідності. Потім за одиницю часу напруга множиться на провідність, щоб отримати заряд, і заряд додається сам по собі. Очевидно, ви можете просто помножити вектор напруги на матрицю провідності. Це більш енергоефективно, і чіпи, які працюють таким чином, уже існують.
На жаль, люди намагаються перетворити аналогову відповідь на цифрову, що вимагає використання дуже дорогих перетворювачів змінного струму. Ми хотіли б повністю залишитися в аналоговій сфері, якщо зможемо. Але це призводить до того, що різне обладнання обчислює дещо інші речі.
Таким чином, головна проблема небезсмертних обчислень полягає в тому, що під час навчання програма повинна навчатися відповідно до конкретних властивостей імітованого апаратного забезпечення, на якому вона працює, не знаючи точно, якими є конкретні властивості кожного апаратного забезпечення, наприклад, точна функція, яка з’єднує вхід нейрона з виходом нейрона, не знаючи зв’язку.
Це означає, що ми не можемо використовувати такі алгоритми, як зворотне поширення, для отримання градієнтів, оскільки зворотне поширення вимагає точної моделі прямого поширення. Тож виникає питання: якщо ми не можемо використати алгоритм зворотного поширення, що ще ми можемо зробити? Тому що всі ми зараз сильно залежимо від зворотного поширення.
Я можу продемонструвати дуже просте й зрозуміле вивчення збурення ваги, яке було багато вивчено. Для кожної ваги в мережі генерується випадковий малий тимчасовий вектор збурення. Потім, вимірюючи зміну глобальної цільової функції на невеликій групі прикладів, ви постійно змінюєте ваги на розмір вектора збурення відповідно до того, як цільова функція покращується. Отже, якщо цільова функція стає гіршою, ви, очевидно, рухаєтеся в іншому напрямку.
Ми також маємо кращий алгоритм для навчання збуренням діяльності. Він все ще має подібні проблеми, але набагато краще, ніж порушення ваги. Збурення активності – це те, що ви вважаєте випадковим векторним збуренням загального вхідного сигналу для кожного нейрона. Ви робите випадкове векторне збурення кожного вхідного сигналу нейрона та дивитесь, що відбувається з вашою цільовою функцією, коли ви робите це випадкове збурення на невеликій групі прикладів, і ви отримуєте цільову функцію завдяки цьому збуренню. Потім ви можете обчислити, як змінити кожне вхідна вага нейрона, щоб слідувати градієнту. Цей спосіб менш шумний.
Для таких простих завдань, як MNIST, такого алгоритму достатньо. Але це все ще недостатньо добре для масштабування великих нейронних мереж.
** Замість пошуку цільової функції, яку можна застосувати до невеликої нейронної мережі, ми можемо спробувати знайти алгоритм навчання, який працює для великої нейронної мережі. **Ідея полягає в тому, щоб навчити велику нейронну мережу. І що ми збираємося зробити, це мати багато маленьких цільових функцій, які застосовуються до невеликої частини всієї мережі. Тому кожна невелика група нейронів має свою локальну цільову функцію.
** Підводячи підсумок, наразі ми не знайшли справді гарного алгоритму навчання, який би міг використовувати переваги властивостей моделювання, але у нас є алгоритм навчання, який непоганий, може вирішувати прості проблеми, такі як MNIST, але не дуже хороший. **
Другою великою проблемою небезсмертних обчислень є їх небезсмертна природа. Це означає, що коли конкретна частина апаратного забезпечення вмирає, усе, чому він навчився, вмирає разом з ним, тому що все його навчання базується на деталях конкретної частини обладнання. Отже, найкращий спосіб вирішити цю проблему полягає в тому, щоб передати знання від вчителя (старе обладнання) до учня (нове обладнання) до того, як обладнання вимре. Це той напрямок досліджень, який я зараз намагаюся просувати.
Учитель показував учням правильні відповіді на різні вхідні дані, а учні потім намагалися імітувати відповіді вчителя. Це як Twitter Трампа. Деякі люди дуже розлючені на твіти Трампа, тому що вони відчувають, що Трамп говорить неправду, і вони думають, що Трамп намагається пояснити факти. немає. Те, що зробив Трамп, це вибрав ситуацію та цілеспрямовано, дуже емоційно відреагував на цю ситуацію. Його послідовники побачили це, навчилися справлятися з ситуацією, навчилися регулювати ваги в нейронній мережі та емоційно реагували на ситуацію так само. Це не має нічого спільного з тим фактом, що це лідер культу, який навчає фанатизму своїх послідовників культу, але це дуже ефективно.
Отже, якщо ми думаємо про те, як працює дистиляція, розглянемо агента, який класифікує зображення на 1024 класи, що не перекриваються. Для формулювання правильної відповіді потрібно лише близько 10 біт. Отже, коли ви навчаєте цього агента на навчальному екземплярі, якщо ви повідомляєте йому правильну відповідь, ви просто накладаєте 10-бітні обмеження на ваги мережі.
**Але тепер припустімо, що ми навчимо агента налаштовуватися відповідно до відповідей викладача на ці 1024 категорії. ** Тоді можна отримати той самий розподіл ймовірностей, і в розподілі буде отримано 1023 дійсних чисел. Якщо припустити, що ці ймовірності не малі, це забезпечує сотні разів обмежень.
Як правило, коли ви навчаєте модель, ви тренуєте її правильно на навчальному наборі даних, а потім сподіваєтеся, що вона правильно узагальнює дані тесту. Але тут, коли ви знаходите учня, ви безпосередньо навчаєте учня узагальнювати, тому що навчений узагальнює так само, як і вчитель.
Перший рядок, очевидно, 2, і вчитель також дав високу ймовірність 2. У другому рядку вчитель досить впевнений, що це 2, але він також думає, що це може бути 3, або це може бути 8, і ви бачите, що справді 3 і 8 трохи схожі на цю картинку . У третьому рядку це 2 дуже близько до 0. Таким чином, учитель скаже учням, що ви повинні вибрати вихід 2 в цей час, але ви також повинні зробити невелику ставку на 0. Таким чином учень може дізнатися більше про цей випадок, ніж просто сказати учневі, що це 2, і він може дізнатися, на яке число виглядає фігура. У четвертому рядку вчитель вважає, що це 2, але також дуже ймовірно, що це 1, саме так я написав 1 на малюнку, і іноді хтось пише 1 так.
І останній рядок, насправді, штучний інтелект вгадав неправильно, він подумав, що це 5, а правильною відповіддю, наданою набором даних MNIST, було 2. І учні насправді можуть вчитися на помилках учителя.
Що мені дуже подобається в моделі дистиляції знань, так це те, що ми навчаємо учня узагальнювати так само, як і вчитель, включаючи позначення невеликої ймовірності неправильних відповідей. Як правило, коли ви навчаєте модель, ви надаєте їй навчальний набір даних і правильні відповіді, а потім сподіваєтеся, що вона правильно узагальнить тестовий набір даних, щоб отримати правильні відповіді. Ви намагаєтесь утриматися від того, щоб це було надто складним, або робите різні речі, сподіваючись, що це правильно узагальнює. Але тут, коли ви навчаєте учня, ви безпосередньо навчаєте його узагальнювати так само, як і вчителя.
Тепер я хочу поговорити про те, як агентська спільнота може ділитися знаннями. Замість того, щоб думати про одного агента, краще подумати про обмін знаннями в межах спільноти.
І виявилося, що те, як спільнота ділиться знаннями, визначає багато речей, які ви робите щодо комп’ютерів. Таким чином, з цифровою моделлю, з цифровим інтелектом, ви можете мати цілу купу агентів, які використовують однакові копії ваг і використовують ці ваги точно так само. Це означає, що різні агенти можуть переглядати різні біти навчальних даних.
Вони можуть обчислити градієнт ваг на цих бітах навчальних даних, а потім можуть усереднити їхні градієнти. Отже, тепер кожна модель навчається на даних, які бачить кожна модель, а це означає, що ви отримуєте надзвичайну здатність бачити багато даних, оскільки у вас будуть різні копії моделі, які переглядають різні біти даних, і вони можуть ділитися градієнтами або спільні ваги, щоб дуже ефективно поділитися тим, що вони дізналися.
Якщо у вас є модель із трильйоном ваг, це означає, що кожного разу, коли вони діляться чимось, ви отримуєте трильйон біт пропускної здатності. Але ціна цього полягає в тому, що ви повинні поводитися з цифровим агентом точно так само.
Таким чином, альтернативою розподілу ваги є дистиляція. І це те, що ми зробили з цифровими моделями. Це інша архітектура.
Однак ви повинні це зробити, якщо у вас є біологічні моделі, які використовують переваги змодельованої природи певного апаратного забезпечення. Ви не можете ділитися вагами. Тому вам доводиться використовувати розподілені спільні знання, що не дуже ефективно. **Поділитися знаннями з дистиляцією важко. У реченнях, які я створюю, ви намагаєтеся зрозуміти, як змінити ваги, щоб ви створювали однакові речення. **
Однак це набагато менша пропускна здатність, ніж просто обмін градієнтами. Кожен, хто коли-небудь викладав, хоче сказати те, що він знає, і влити це в мізки своїх учнів. Це був би кінець коледжу. Але ми не можемо так працювати, тому що ми біологічно розумні, і мій спосіб вам не підійде.
Поки що ми маємо два різні способи виконання обчислень. **Чисельне обчислення та біологічне обчислення, останнє використовує характеристики тварин. Вони дуже відрізняються тим, як ефективно ділитися знаннями між різними агентами. **
**Хоча вивчати кожну копію великої мовної моделі неефективно, у вас є 1000 копій. Тому вони можуть навчитися в 1000 разів більше, ніж ми. Тож я вважаю, що ці великі мовні моделі знають у 1000 разів більше, ніж будь-яка окрема людина. **
Тепер питання полягає в тому, що станеться, якщо ці цифрові агенти замість того, щоб дуже повільно вчитися у нас через дистиляцію знань, почнуть вчитися безпосередньо з реального світу?
Я маю підкреслити, що навіть дистиляція знань навчається дуже повільно, але коли вони навчаються у нас, вони можуть навчитися дуже абстрактних речей. ** За останні кілька тисячоліть люди багато чого дізналися про світ, і цифрові агенти можуть безпосередньо скористатися цими знаннями. Люди можуть вербалізувати те, що ми дізналися, тому цифрові агенти мають прямий доступ до всього, що люди дізналися про світ за останні кілька тисячоліть, тому що ми це записали.
Але таким чином пропускна здатність кожного цифрового агента все ще дуже низька, оскільки вони навчаються з документів. Якщо вони навчаються без нагляду, як-от моделювання відео, коли ми знайдемо ефективний спосіб моделювання відео для навчання моделі, вони зможуть навчатися з усіх відео YouTube, а це багато даних. Або якщо вони можуть маніпулювати фізичним світом, як вони можуть контролювати роботизовану зброю тощо.
Я дійсно вірю, що як тільки ці цифрові агенти почнуть це робити, вони зможуть навчитися набагато більше, ніж люди, і вони зможуть навчитися досить швидко. Отже, нам потрібно підійти до другого моменту, який я згадав вище в слайд-шоу, а саме, що станеться, якщо ці речі стануть розумнішими за нас? **
**Погані люди використовуватимуть їх, щоб робити такі речі, як маніпулювання електронікою, що вже робиться в США чи багатьох інших місцях, і люди намагатимуться використовувати ШІ, щоб вигравати війни. **
Якщо ви хочете, щоб суперагент був ефективним, вам потрібно дозволити йому створювати підцілі. Це породжує очевидну проблему**, оскільки існує очевидна проміжна ціль, яка може значно підвищити її здатність допомогти нам досягти будь-чого: тобто надати системам штучного інтелекту більше потужності та контролю. Чим більше ви контролюєте, тим легше досягати своїх цілей. **Я не розумію, як ми можемо зупинити спроби цифрового інтелекту отримати більше контролю для досягнення своїх інших цілей. Тож коли вони починають це робити, виникає проблема.
Для суперінтелекту, навіть якщо ви зберігаєте його в повністю автономному ізольованому середовищі (повітряний зазор), він виявить, що може легко отримати більше влади, маніпулюючи людьми. **Ми не звикли думати про речі, які набагато розумніші за нас, і про те, як ми хочемо з ними взаємодіяти. **Але мені здається, що вони, очевидно, можуть навчитися надзвичайно добре обманювати людей. Тому що він може побачити нашу практику обману інших у великій кількості романів або в творах Нікколо Макіавеллі. І як тільки ви навчитеся справді добре обманювати людей, ви зможете змусити їх виконувати будь-які дії, які вам заманеться. Наприклад, якщо ви хочете зламати будівлю у Вашингтоні, вам не потрібно туди йти, ви просто змушуєте людей думати, що, зламавши цю будівлю, вони рятують демократію. І я думаю, що це досить страшно.
**Я зараз не бачу, як цьому запобігти, і я старію. **Я сподіваюся, що багато молодих і блискучих дослідників, таких як ви на конференції, зможуть зрозуміти, як ми можемо мати ці суперінтелекти, що вони покращуватимуть наше життя, не роблячи їх домінуючою стороною.
У нас є перевага, невелика перевага, що ці речі не еволюціонували, ми їх створили. Оскільки вони не еволюціонували, можливо, вони не мають конкуруючих агресивних цілей, які мають люди, можливо, це допомагає, можливо, ми можемо дати їм моральний принцип. Але на даний момент я просто нервую, тому що я не знаю жодного прикладу, щоб щось більш розумне переважало щось менш розумне, ніж це було, коли була велика прогалина в інтелекті. **Приклад, який я хотів би навести, це припущення, що жаби створили людей. Як ви думаєте, хто зараз керує? Жаба чи Людина? Це все для мого виступу. **