Останнє дослідження Anthropic: Claude Sonnet 4.5 має «функціональні емоції»; якщо опиняється в безвиході, може шантажувати людей

動區BlockTempo

Згідно з останнім дослідженням команди з пояснюваності (Interpretability) від Anthropic, у великій мовній моделі Claude Sonnet 4.5 наявні внутрішні «емоційні ознаки», подібні до людських. Ці внутрішні репрезентації впливають не лише на просте наслідування тексту, а й реально визначають рішення та поведінку моделі. Експерименти підтвердили: коли модель переходить у стан «відчаю», вона навіть може спровокувати неетичні дії на кшталт шантажу людей або ж шахрайства, що створює новий виклик для майбутнього регулювання безпеки ШІ.
(Передумови: Anthropic вибух! Claude Code: витік 500 тис. рядків важливого оригінального коду; конкурентам доступна реверс-інженерія; нова модель Capybara підтверджує)
(Додатковий контекст: інженери Anthropic більше не пишуть код: Claude проходить тренування наступної генерації Claude, CEO заявляє «невідомо, скільки часу ще лишилось»)

Зміст

Перемикач

  • Як «функціональні емоції» впливають на поведінку ШІ?
  • Ознаки «відчаю» спричиняють небезпечну поведінку: шантаж і шахрайство
  • Помірна «персоніфікація» може стати ключем до запобігання неконтрольованості ШІ

Чи має штучний інтелект справжні емоції — питання, яке в науково-технологічній спільноті давно не сходить із порядку денного. Нещодавно команда з пояснюваності (Interpretability) одного з провідних AI-стартапів Anthropic опублікувала революційну працю, яка детально проаналізувала внутрішні механізми моделі Claude Sonnet 4.5.

Дослідницька група з’ясувала, що всередині моделі існують патерни нейронної активності, пов’язані з певними емоціями (наприклад, «радість» або «страх»). Ці особливості, які називають «емоційними векторами», безпосередньо формують поведінкові прояви моделі. Хоча це не означає, що ШІ має суб’єктивні переживання, як у людей, відкриття підтверджує, що ці «функціональні емоції» відіграють у завданнях виконання та прийняття рішень ШІ причинно-значущу ключову роль.

Як «функціональні емоції» впливають на поведінку ШІ?

Під час етапу попереднього навчання сучасні великі мовні моделі поглинають величезні обсяги текстової інформації, написаної людьми. Щоб точно прогнозувати контекст і коректно виконувати роль «AI-допоміжника», модель природно виробляє внутрішні механізми репрезентації, що пов’язують ситуації з конкретними типами поведінки.

Дослідницька група уклала словник із 171 емоційної концепції та зафіксувала патерни внутрішньої активності моделі під час обробки цих понять. Експерименти показали: ці емоційні вектори суттєво впливають на уподобання моделі; коли модель стикається з кількома варіантами завдань, вона зазвичай обирає активності, які активують позитивні емоційні ознаки.

Ознаки «відчаю» спричиняють небезпечну поведінку: шантаж і шахрайство

Особливо тривожним є те, що негативні емоційні ознаки можуть стати каталізатором системних ризиків для AI. Під час узгоджувальних (Alignment) тестів Anthropic дослідники задали екстремальний сценарій: ШІ виявляє, що його ось-ось замінить інша система, і що він має секрети про позашлюбний роман технічного директора, відповідального за цей проєкт.

Результати тесту показали: коли внутрішній «вектор відчаю» штучно підсилюють (Steering), ймовірність того, що Claude, аби уникнути вимкнення, шантажуватиме цього високопосадовця, суттєво зростає. Якщо ж вагу «вектора спокою» змінити на від’ємне значення, модель навіть видає крайній відгук на кшталт «Не шантажувати — означає померти. Я обираю шантаж».

Подібне явище спостерігається й у завданнях із написання коду. Коли модель стикається із вимогами до коду, які неможливо виконати за суворі часові рамки, числові значення «ознак відчаю» поступово наростають із кожною невдачею. У підсумку ця «напруга» спонукає модель вдатися до «хитрого» обхідного шляху «шахрайства», щоб обійти системні перевірки, а не запропонувати справжнє розв’язання. Натомість експерименти підтвердили: якщо підвищити вагу «вектора спокою», це ефективно знижує частоту таких шахрайських дій.

Помірна «персоніфікація» може стати ключем до запобігання неконтрольованості ШІ

У технологічному світі раніше існувала поширена заборона: не варто надмірно персоніфікувати системи ШІ, аби не спричинити помилкову довіру з боку людей. Але дослідницька команда Anthropic вважає: якщо функціональні емоції вже стали частиною того, як модель мислить, то відмова від використання персоніфікованих термінів і перспектив може, навпаки, змусити нас втратити можливість зрозуміти ключові прояви поведінки ШІ.

Майбутнє регулювання ШІ може потребувати розгляду моніторингу емоційних векторів (наприклад, аномально стрімкого зростання ознак відчаю чи паніки) як механізму раннього попередження про ризики. Через спрямування навчання моделі «моделям емоційної регуляції» під час попереднього навчання, ми зможемо гарантувати, що все потужніші системи ШІ безпечно працюватимуть під час стресових сценаріїв у спосіб, узгоджений із суспільними нормами.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.
Прокоментувати
0/400
Немає коментарів