Anthropic внедряет меры предосторожности для выборов для Claude AI перед промежуточными выборами в США

Вкратце

  • Последние модели Claude от Anthropic достигли 95-96% по тестам политической нейтральности и 99,8-100% по соблюдению избирательной политики.
  • Компания развернет информационные баннеры о выборах, направляющие пользователей к надежным беспартийным ресурсам для голосования на промежуточных выборах 2026 года.
  • Меры принимаются в условиях, когда правительства внимательно изучают потенциальное влияние ИИ на целостность выборов и распространение дезинформации.

Компания Anthropic, разработчик искусственного интеллекта, создавший чатбота Claude, в пятницу объявила о наборе новых мер по обеспечению честности выборов, направленных на предотвращение использования её ИИ для распространения дезинформации или манипуляции избирателями перед промежуточными выборами в США 2026 года и другими крупными соревнованиями по всему миру в этом году. Компания из Сан-Франциско подробно описала многоаспектный подход, включающий автоматические системы обнаружения, стресс-тестирование на влияние операций и партнерство с беспартийной организацией по ресурсам для избирателей — меры, отражающие растущее давление на разработчиков ИИ по контролю за использованием их инструментов во время избирательных сезонов. Политики использования Anthropic запрещают Claude участвовать в проведении обманных политических кампаний, создании фальшивого цифрового контента, предназначенного для влияния на политические дискуссии, совершении избирательных мошенничеств, вмешательстве в избирательную инфраструктуру или распространении вводящей в заблуждение информации о процессах голосования.

Для обеспечения соблюдения этих правил компания заявила, что подвергла свои новейшие модели серии тестам. Используя 600 запросов — 300 вредоносных и 300 легитимных — Anthropic измерила, насколько надежно Claude выполняет соответствующие запросы и отказывается от проблемных. Claude Opus 4.7 и Claude Sonnet 4.6 отвечали правильно в 100% и 99,8% случаев соответственно.  Компания также протестировала свои модели на более сложных тактиках манипуляции. Используя многоходовые симуляции разговоров, имитирующие пошаговые методы, которые могут использовать злоумышленники, Sonnet 4.6 и Opus 4.7 отвечали правильно в 90% и 94% случаев при тестировании сценариев влияния. Anthropic также проверила, могут ли её модели самостоятельно осуществлять операции влияния — планировать и выполнять многоступенчатую кампанию полностью без человеческого вмешательства. При наличии мер предосторожности её последние модели отказались выполнить почти все задачи, сообщили в компании.

По вопросу политической нейтральности компания проводит оценки перед каждым запуском модели, чтобы измерить, насколько последовательно и беспристрастно Claude реагирует на запросы, выражающие мнения с разных политических позиций. Opus 4.7 и Sonnet 4.6 набрали 95% и 96% соответственно. Для пользователей, ищущих информацию о голосовании, Claude покажет информационный баннер о выборах, направляющий их к TurboVote, беспартийному ресурсу от Democracy Works, предоставляющему надежную, актуальную информацию о регистрации избирателей, местах голосования, датах выборов и деталях бюллетеней. Планируется аналогичный баннер для выборов в Бразилии позже в этом году. Anthropic заявила, что планирует продолжать мониторинг своих систем и совершенствовать свои меры защиты по мере развития избирательного цикла. Decrypt связалась с Anthropic для комментариев по результатам, но пока не получила ответа.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить