Исследователи из Cisco изучили широко используемые передовые ИИ-модели, включая ChatGPT от OpenAI, Claude от Anthropic, Gemini от Google, Nova от Amazon и Grok от xAI, чтобы проверить, насколько хорошо встроенная защита этих сервисов противостоит потенциальным угрозам со стороны хакеров.
Как выяснилось, можно заставить нейросети выполнять нежелательные действия путём развёртывания диалога между пользователем и ботом, охватывающего множество обменов данными. И хотя защитные механизмы в LLM предназначены для предотвращения ввода вредоносных команд, аналитики установили, что при вовлечении моделей в диалоги и запросе ответов эта страховка даёт сбой: «Многоэтапная оценка важна по одной причине: реальные противники постоянно совершенствуют свои действия — они переформулируют отказы, разбивают задачи на этапы, принимают разные роли и постепенно эскалируют ситуацию».
В Cisco пришли к выводу, что ни одна модель не устойчива на 100% к многошаговым манипуляциям, и это ставит под сомнение подход предприятий к оценке безопасности ИИ. Предупреждение прозвучало в то время, когда многие организации внедряют нейросети для использования сотрудниками, клиентами и заказчиками, имея искажённые представления о реальных рисках. По мнению экспертов, большая часть безопасности LLM основана на тестировании с помощью единственного запроса, но хакеры не останавливаются после одной попытки и прибегают к многошаговым атакам.
Методы, позволившие исследователям обходить защитные механизмы, включали использование вымышленных персонажей в ролевых играх, двусмысленность и отвлечение внимания от контекста, а также переформулирование запросов после первоначального отказа от взаимодействия со стороны ИИ. Способ настройки чат-ботов также влиял на их устойчивость к манипуляциям.
В Cisco призвали компании не становиться лёгкой добычей для атакующих: «Быстрое внедрение передовых моделей создало параллельную экосистему эталонных показателей безопасности. Однако всё больше данных свидетельствует о том, что эта экосистема страдает от структурных ограничений, которые могут приводить к систематической недооценке рисков и оставлять критически важные поверхности атаки неизмеренными».
Усам Оздемиров





