Cisco: Продвинутые LLM подвержены многоэтапным манипуляциям

Исследователи из Cisco изучили широко используемые передовые ИИ-модели, включая ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google, Nova от Amazon и Grok от xAI, чтобы проверить, насколько хорошо встроенная защита этих сервисов противостоит потенциальным угрозам со стороны хакеров.

Как выяснилось, можно заставить нейросети выполнять нежелательные действия путём развёртывания диалога между пользователем и ботом, охватывающего множество обменов данными. И хотя защитные механизмы в LLM предназначены для предотвращения ввода вредоносных команд, аналитики установили, что при вовлечении моделей в диалоги и запросе ответов эта страховка даёт сбой: «Многоэтапная оценка важна по одной причине: реальные противники постоянно совершенствуют свои действия — они переформулируют отказы, разбивают задачи на этапы, принимают разные роли и постепенно эскалируют ситуацию».

В Cisco пришли к выводу, что ни одна модель не устойчива на 100% к многошаговым манипуляциям, и это ставит под сомнение подход предприятий к оценке безопасности ИИ. Предупреждение прозвучало в то время, когда многие организации внедряют нейросети для использования сотрудниками, клиентами и заказчиками, имея искажённые представления о реальных рисках. По мнению экспертов, большая часть безопасности LLM основана на тестировании с помощью единственного запроса, но хакеры не останавливаются после одной попытки и прибегают к многошаговым атакам.

Методы, позволившие исследователям обходить защитные механизмы, включали использование вымышленных персонажей в ролевых играх, двусмысленность и отвлечение внимания от контекста, а также переформулирование запросов после первоначального отказа от взаимодействия со стороны ИИ. Способ настройки чат-ботов также влиял на их устойчивость к манипуляциям.

В Cisco призвали компании не становиться лёгкой добычей для атакующих: «Быстрое внедрение передовых моделей создало параллельную экосистему эталонных показателей безопасности. Однако всё больше данных свидетельствует о том, что эта экосистема страдает от структурных ограничений, которые могут приводить к систематической недооценке рисков и оставлять критически важные поверхности атаки неизмеренными».

Усам Оздемиров

1 июня, 2026

Искусственный интеллект

Cisco: Продвинутые LLM подвержены многоэтапным манипуляциям

Claude Mythos — решение или новая проблема?

Бизнес стал чаще увязывать ИИ с кибербезом

OpenAI ищет того, кто сможет обуздать суперавтономный ИИ

WP: Маск и Цукерберг повлияли на ИИ-политику США

NCSC предложил путь к снижению рисков, связанных с агентным ИИ

Три четверти компаний сознательно выпускает уязвимый код

ИИ-модели повышают ценность безопасности by design

Бизнес столкнулся с agent sprawl

Специалисты Microsoft не торопятся использовать «родной» Copilot

Безопасная разработка

Читалка

ЦБ РФ опубликовал «Методические рекомендации по обеспечению ИБ при разработке и применении ИИ на финансовом рынке»

ЦБ РФ опубликовал «Методические рекомендации по обеспечению ИБ при разработке и применении ИИ на финансовом рынке»

Опубликован №166-ФЗ «О технологической платформе создания, развития и эксплуатации информационных систем»

Опубликован №166-ФЗ «О технологической платформе создания, развития и эксплуатации информационных систем»

Опубликовано распоряжение Правительства Российской Федерации от 27.05.2026 №1237-р

Опубликовано распоряжение Правительства Российской Федерации от 27.05.2026 №1237-р

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal

Cisco: Продвинутые LLM подвержены многоэтапным манипуляциям

Смотрите также

Безопасная разработка

Читалка

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal