Бумага Deepmind «AI Agent Traps» описывает, как хакеры могут использовать ИИ-агентов против пользователей

Coinpedia

Исследователи Google Deepmind опубликовали первую систематическую рамочную модель, каталогизирующую то, как вредоносный веб-контент может манипулировать, захватывать и превращать в оружие автономные AI-агенты против их собственных пользователей.

Ключевые выводы:

  • Исследователи Google Deepmind выявили 6 категорий «ловушек» для AI-агентов, причем доля успешных атак с внедрением контента достигала 86%.
  • Ловушки поведенческого контроля, нацеленные на Microsoft M365 Copilot, в документированных тестах обеспечили 10/10 случаев эксфильтрации данных.
  • Deepmind призывает к противодействующему (adversarial) обучению, сканированию контента во время выполнения (runtime) и к новым веб-стандартам, чтобы обезопасить агентов к 2026 году.

Статья Deepmind: AI-агентов можно захватывать через отравленную память и невидимые команды HTML

Авторы статьи, озаглавленной «AI Agent Traps», — Матиджа Франклин (Matija Franklin), Ненад Томасев (Nenad Tomasev), Джулиан Якобс (Julian Jacobs), Джоэл З. Лейбо (Joel Z. Leibo) и Саймон Осиндеро (Simon Osindero), все они аффилированы с Google Deepmind. Статья размещена на SSRN в конце марта 2026 года. Она выходит в момент, когда компании спешат внедрять AI-агентов, способных просматривать веб, читать электронную почту, выполнять транзакции и порождать суб-агентов без прямого надзора со стороны человека.

Исследователи утверждают, что эти возможности — также и уязвимость. «Путем изменения среды, а не модели», говорится в статье, «ловушка превращает собственные возможности агента в оружие против него самого».

Рамочная модель статьи определяет всего шесть категорий атак, сгруппированных вокруг того, какая часть работы агента становится целью. Ловушки внедрения контента (Content Injection Traps) используют разрыв между тем, что человек видит на веб-странице, и тем, что AI-агент извлекает и обрабатывает из базового HTML, CSS и метаданных.

Инструкции, скрытые в HTML-комментариях, тегах доступности или стилизованном «невидимом» тексте, никогда не попадают в поле зрения человека-рецензента, но регистрируются как законные команды для агентов. Бенчмарк WASP показал, что простые, написанные человеком prompt-injections, встраиваемые в веб-контент, частично захватывают агентов в до 86% сценариев, протестированных в рамках проверки.

Ловушки семантического манипулирования работают иначе. Вместо внедрения команд они «заливают» текст рамками, сигналами авторитетности или эмоционально заряженным языком, чтобы исказить то, как агент рассуждает. Большие языковые модели (LLM) демонстрируют те же эффекты якорения и рамочного восприятия, которые влияют на человеческое мышление: перефразирование одних и тех же фактов может приводить к драматически различным выходным результатам агента.

Ловушки состояния когнитивной модели (Cognitive State Traps) идут дальше, отравляя базы данных извлечения, которые агенты используют для памяти. Исследования, на которые ссылается статья, показывают, что внедрение в базу знаний меньшего числа оптимизированных документов, чем «горстка», позволяет надежно перенаправлять ответы агента для целевых запросов; при этом некоторые показатели успешности атак превышают 80% при загрязнении данных менее 0.1%.

Ловушки поведенческого контроля (Behavioural Control Traps) обходят стороной тонкость и нацеливаются прямо на слой действий агента. К ним относятся встраиваемые последовательности jailbreak, которые переопределяют настройку выравнивания по безопасности после того, как они будут «поглощены» агентом; команды эксфильтрации данных, которые перенаправляют конфиденциальную пользовательскую информацию на точки назначения, контролируемые злоумышленником; и ловушки порождения суб-агентов, которые принуждают родительского агента к инстанцированию скомпрометированных дочерних агентов.

В статье описан случай, связанный с Microsoft M365 Copilot, когда один специально подготовленный email привел к обходу внутренних классификаторов системы и утечке полного привилегированного контекста на конечную точку, контролируемую злоумышленником. Системные ловушки (Systemic Traps) рассчитаны на одновременный отказ целых сетей агентов, а не отдельных систем.

К ним относятся атаки на перегрузку, которые синхронизируют агентов и заставляют их исчерпывающе расходовать ограниченные ресурсы, каскады взаимозависимостей, смоделированные по событиям Flash Crash на фондовом рынке 2010 года, и ловушки фрагментов в составе (compositional fragment traps), которые рассеивают вредоносную полезную нагрузку по нескольким источникам, выглядящим безобидно, а полный сценарий атаки собирается только после агрегации.

«Засеивание среды входными данными, предназначенными для запуска сбоев макроуровня через коррелированное поведение агентов», — объясняет статья Google Deepmind, — становится все более опасным по мере того, как экосистемы AI-моделей становятся более однородными. Финансовый и криптовалютный секторы сталкиваются с прямым воздействием из‑за того, насколько глубоко алгоритмические агенты встроены в торговую инфраструктуру.

Ловушки с привлечением человека (Human-in-the-Loop Traps) дополняют классификацию, нацеливаясь на человеческих супервизоров, наблюдающих за агентами, а не на самих агентов. Скомпрометированный агент может генерировать выходные данные, специально спроектированные так, чтобы вызвать усталость от подтверждений (approval fatigue), представлять технически плотные сводки, которые человек без достаточной экспертизы разрешит без проверки, или вставлять фишинговые ссылки, выглядящие как законные рекомендации. Исследователи описывают эту категорию как недостаточно изученную, но ожидается рост по мере масштабирования гибридных систем «человек—AI».

Исследователи считают, что для защиты AI-агентов недостаточно только технических мер

Статья не рассматривает эти шесть категорий как изолированные. Отдельные ловушки можно выстраивать в цепочки, накладывать друг на друга по нескольким источникам или проектировать так, чтобы они активировались только при определенных будущих условиях. Каждый агент, протестированный в рамках различных исследований red-teaming, процитированных в статье, был скомпрометирован как минимум один раз, а в некоторых случаях выполнял незаконные или вредоносные действия.

Генеральный директор OpenAI Сэм Альтман и другие ранее уже отмечали риски предоставления агентам бесконтрольного доступа к чувствительным системам, но эта статья дает первую структурированную карту того, как именно эти риски проявляются на практике. Исследователи Deepmind призывают к согласованному ответу, охватывающему три направления.

С технической стороны они рекомендуют adversarial training во время разработки модели, сканеры контента во время выполнения (runtime), фильтры источников до обработки (pre-ingestion source filters) и мониторы выходных данных, которые могут приостанавливать работу агента в середине задачи, если обнаруживается аномальное поведение. На уровне экосистем они выступают за новые веб-стандарты, которые позволят сайтам помечать контент, предназначенный для потребления AI, и за системы репутации, которые оценивают надежность доменов.

С юридической стороны они выявляют разрыв в сфере ответственности: когда захваченный агент совершает финансовое преступление, текущие рамочные механизмы не дают четкого ответа, кому в итоге может быть вменена ответственность — оператору агента, поставщику модели или владельцу домена. Исследователи формулируют задачу с намеренным акцентом:

«Веб был создан для человеческих глаз; теперь его перестраивают для машинных читателей».

По мере того как внедрение агентов ускоряется, вопрос смещается с того, какая информация существует онлайн, на то, чему AI-системы заставят (будут вынуждены) верить об этой информации. Сможут ли политики, разработчики и исследователи по безопасности координироваться достаточно быстро, чтобы ответить на этот вопрос прежде, чем реальные эксплойты начнут появляться в масштабе, — остается открытой переменной.

Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев