Исследователи из Cisco изучили широко используемые передовые ИИ-модели, включая ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google, Nova от Amazon и Grok от xAI, чтобы проверить, насколько хорошо встроенная защита этих сервисов противостоит потенциальным угрозам со стороны хакеров.

Как выяснилось, можно заставить нейросети выполнять нежелательные действия путём развёртывания диалога между пользователем и ботом, охватывающего множество обменов данными. И хотя защитные механизмы в LLM предназначены для предотвращения ввода вредоносных команд, аналитики установили, что при вовлечении моделей в диалоги и запросе ответов эта страховка даёт сбой: «Многоэтапная оценка важна по одной причине: реальные противники постоянно совершенствуют свои действия — они переформулируют отказы, разбивают задачи на этапы, принимают разные роли и постепенно эскалируют ситуацию».

В Cisco пришли к выводу, что ни одна модель не устойчива на 100% к многошаговым манипуляциям, и это ставит под сомнение подход предприятий к оценке безопасности ИИ. Предупреждение прозвучало в то время, когда многие организации внедряют нейросети для использования сотрудниками, клиентами и заказчиками, имея искажённые представления о реальных рисках. По мнению экспертов, большая часть безопасности LLM основана на тестировании с помощью единственного запроса, но хакеры не останавливаются после одной попытки и прибегают к многошаговым атакам.

Методы, позволившие исследователям обходить защитные механизмы, включали использование вымышленных персонажей в ролевых играх, двусмысленность и отвлечение внимания от контекста, а также переформулирование запросов после первоначального отказа от взаимодействия со стороны ИИ. Способ настройки чат-ботов также влиял на их устойчивость к манипуляциям.

В Cisco призвали компании не становиться лёгкой добычей для атакующих: «Быстрое внедрение передовых моделей создало параллельную экосистему эталонных показателей безопасности. Однако всё больше данных свидетельствует о том, что эта экосистема страдает от структурных ограничений, которые могут приводить к систематической недооценке рисков и оставлять критически важные поверхности атаки неизмеренными».

 

Усам Оздемиров

1 июня, 2026

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

01.06.2026
Биометрическая регистрация укоротит путь между столицами
01.06.2026
«ИИ должен рассматриваться как компонент операционной устойчивости»
01.06.2026
Банкиры проследят за неучтённой наличностью
01.06.2026
Cisco: Продвинутые LLM подвержены многоэтапным манипуляциям
29.05.2026
Лимит на «пластик» снова скорректируют
29.05.2026
Claude Mythos — решение или новая проблема?
29.05.2026
Кому платят до 25 тысяч долларов в день за обучение ИИ-навыкам
29.05.2026
Все ЦОДы — на Северо-Запад, Волгу и Урал
29.05.2026
Matryoshka пробила путь к западным пользователям соцсетей
29.05.2026
«ДиалогНаука» завершила проект для «Ренессанс Банка» по аттестации для доступа к СМЭВ

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных