Исследователи из Cisco изучили широко используемые передовые ИИ-модели, включая ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google, Nova от Amazon и Grok от xAI, чтобы проверить, насколько хорошо встроенная защита этих сервисов противостоит потенциальным угрозам со стороны хакеров.

Как выяснилось, можно заставить нейросети выполнять нежелательные действия путём развёртывания диалога между пользователем и ботом, охватывающего множество обменов данными. И хотя защитные механизмы в LLM предназначены для предотвращения ввода вредоносных команд, аналитики установили, что при вовлечении моделей в диалоги и запросе ответов эта страховка даёт сбой: «Многоэтапная оценка важна по одной причине: реальные противники постоянно совершенствуют свои действия — они переформулируют отказы, разбивают задачи на этапы, принимают разные роли и постепенно эскалируют ситуацию».

В Cisco пришли к выводу, что ни одна модель не устойчива на 100% к многошаговым манипуляциям, и это ставит под сомнение подход предприятий к оценке безопасности ИИ. Предупреждение прозвучало в то время, когда многие организации внедряют нейросети для использования сотрудниками, клиентами и заказчиками, имея искажённые представления о реальных рисках. По мнению экспертов, большая часть безопасности LLM основана на тестировании с помощью единственного запроса, но хакеры не останавливаются после одной попытки и прибегают к многошаговым атакам.

Методы, позволившие исследователям обходить защитные механизмы, включали использование вымышленных персонажей в ролевых играх, двусмысленность и отвлечение внимания от контекста, а также переформулирование запросов после первоначального отказа от взаимодействия со стороны ИИ. Способ настройки чат-ботов также влиял на их устойчивость к манипуляциям.

В Cisco призвали компании не становиться лёгкой добычей для атакующих: «Быстрое внедрение передовых моделей создало параллельную экосистему эталонных показателей безопасности. Однако всё больше данных свидетельствует о том, что эта экосистема страдает от структурных ограничений, которые могут приводить к систематической недооценке рисков и оставлять критически важные поверхности атаки неизмеренными».

 

Усам Оздемиров

1 июня, 2026

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

05.06.2026
Поставщики решений для SOC рассматривают ИИ как «стеклянный ящик»
05.06.2026
Операторы связи вернут россиянам Netflix?
05.06.2026
«Нацмессенджер» начал месяц разнонаправлено
05.06.2026
Morgan Stanley прогнозирует «чипфляцию» на два-три года
05.06.2026
«Сбер» показал платёжный терминал с поддержкой ИИ
05.06.2026
«Мир» оседает в Юго-Восточной Азии
04.06.2026
Эксперт фонда OWASP сравнил ИИ-агентов с роями дронов
04.06.2026
У россиян ещё есть шанс сэкономить на проводном телефоне
04.06.2026
Формула ВТБ: меньше «пластика» внутри России, больше «цифры» — за пределами
04.06.2026
Софт и ПАКи для объектов КИИ в обмен на льготы для сотрудников

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных