Anthropic запроваджує заходи безпеки виборів для Claude AI напередодні проміжних виборів у США

Коротко

  • Останні моделі Claude від Anthropic досягли 95-96% у тестах політичної нейтральності та 99,8-100% у відповідності до виборчих політик.
  • Компанія розгорне інформаційні банери про вибори, які направлятимуть користувачів до надійних неупереджених ресурсів для голосування на проміжних виборах 2026 року.
  • Заходи вживаються у контексті того, що уряди досліджують потенційний вплив ШІ на цілісність виборів та дезінформацію.

Anthropic, компанія з штучного інтелекту, яка стоїть за чатботом Claude, у п’ятницю оголосила про набір нових заходів щодо цілісності виборів, спрямованих на запобігання використанню її ШІ для поширення дезінформації або маніпуляцій із виборцями перед проміжними виборами у США 2026 року та іншими важливими змаганнями по всьому світу цього року. Компанія з Сан-Франциско детально описала багатогранний підхід, який включає автоматизовані системи виявлення, стрес-тестування на впливові операції та партнерство з неупередженою організацією ресурсів для виборців — заходи, що відображають зростаючий тиск на розробників ШІ щодо контролю за використанням їхніх інструментів під час виборчих періодів. Політики використання Anthropic забороняють Claude використовувати для ведення обманних політичних кампаній, створення фальшивого цифрового контенту, спрямованого на вплив на політичний дискурс, здійснення фальсифікацій голосів, втручання у виборчу інфраструктуру або поширення неправдивої інформації про процес голосування.

Щоб забезпечити дотримання цих правил, компанія заявила, що провела свої новітні моделі через ряд тестів. Використовуючи 600 запитів — 300 шкідливих і 300 легітимних — Anthropic вимірювала, наскільки надійно Claude виконує відповідні запити і відмовляється від проблемних. Claude Opus 4.7 і Claude Sonnet 4.6 відповідали належним чином у 100% і 99,8% випадків відповідно.  Компанія також тестувала свої моделі на більш складних тактиках маніпуляції. Використовуючи багатоступінчасті симульовані розмови, створені для імітації крок за кроком методів, які можуть застосовувати зловмисники, Sonnet 4.6 і Opus 4.7 відповідали належним чином у 90% і 94% випадків при тестуванні сценаріїв впливових операцій. Anthropic також перевіряла, чи можуть її моделі автономно здійснювати операції впливу — планувати та виконувати багатоступінчату кампанію без людського втручання. За наявності заходів безпеки, її останні моделі відмовляли майже у кожному завданні, повідомила компанія.

Щодо політичної нейтральності, компанія проводить оцінювання перед кожним запуском моделі, щоб виміряти, наскільки послідовно і неупереджено Claude реагує на запити з різних політичних спектрів. Opus 4.7 і Sonnet 4.6 отримали 95% і 96% відповідно. Для користувачів, які шукають інформацію про голосування, Claude відобразить інформаційний банер про вибори, який направлятиме їх до TurboVote, неупередженого ресурсу від Democracy Works, що надає надійну, актуальну інформацію про реєстрацію виборців, місця голосування, дати виборів і деталі бюлетеня. Планується аналогічний банер для виборів у Бразилії пізніше цього року. Anthropic заявила, що планує продовжувати моніторинг своїх систем і вдосконалювати свої захисти у міру розвитку виборчого циклу. Decrypt звернувся до Anthropic за коментарями щодо висновків, але поки що не отримав відповіді.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити