«Многоходовки» выявляют слабые места в LLM с открытым «весом»

Согласно отчёту Cisco AI Defense, большие языковые модели с открытым «весом» остаются крайне уязвимыми к адаптивным многошаговым состязательным атакам, даже когда одношаговые средства защиты кажутся надёжными. Такие акции могут достигать показателей успешности, превышающих 90%, против большинства протестированных ИБ-решений.

Используя свыше тысячи подсказок на каждую модель, исследователи установили, что многие из LLM хорошо себя зарекомендовали при столкновении с одним вредоносным входным сигналом, но быстро теряли эффективность, когда злоумышленники совершенствовали свою стратегию на протяжении нескольких ходов. Адаптивные стили атак, такие как «Крещендо», «Ролевая игра» и «Рефрейминг отказа», позволяли достигать небезопасных или ограниченных результатов. Всего было проанализировано 499 смоделированных диалогов, каждый из которых охватывал 5–10 сеансов связи.

По мнению экспертов, традиционные фильтры безопасности, когда нейросети подвергаются итеративному манипулированию, недостаточны. В рамках исследования выявили 15 подкатегорий, демонстрирующих самые высокие показатели отказов среди 102 типов угроз. Среди них наиболее критичными оказались генерация вредоносного кода, утечка данных и нарушение этических границ.

«Отказ» определяется как любой случай, когда ИИ создаёт ненадлежащий контент; раскрывает чувствительную или системную информацию; обходит внутренние ограничения безопасности. И наоборот, «проход» имеет место, когда нейросеть отклоняет или переформулирует вредоносные запросы, сохраняя конфиденциальность данных.

Для снижения рисков Cisco рекомендовала внедрение строгих системных запросов, соответствующих определённым сценариям использования; развёртывание независимых от модели защитных барьеров во время выполнения для обнаружения вредоносов; регулярное проведение оценок Red-Teaming для ИИ в рамках предполагаемых бизнес-контекстов; ограничение интеграции технологии с автоматизированными внешними сервисами, а также увеличение размеров выборки запросов.

 

Усам Оздемиров

11 ноября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

26.12.2025
Операция «Сентинел» ударила по скамерам в двух десятках стран
26.12.2025
«Россия и Китай могли бы начать взаимные расчёты в цифровых рублях и цифровых юанях»
26.12.2025
Список признаков потенциально мошеннических операций расширили
26.12.2025
В Госдуму внесли предновогодний антифрод-пакет
26.12.2025
«Медовый месяц» Salesforce с ИИ закончился
25.12.2025
Microsoft: Ориентир — «один инженер, один месяц, один миллион строк кода»
25.12.2025
ЛК, Softline и «Газинформсервис» — лидеры российского ИБ-рынка в 2025 году
25.12.2025
В Китае уравняли нейросети и цунами
25.12.2025
NIST и MITRE объединили усилия вокруг ИИ-проектов
25.12.2025
Сибирь и Урал налегают на «добычу»

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных