«Многоходовки» выявляют слабые места в LLM с открытым «весом»

Согласно отчёту Cisco AI Defense, большие языковые модели с открытым «весом» остаются крайне уязвимыми к адаптивным многошаговым состязательным атакам, даже когда одношаговые средства защиты кажутся надёжными. Такие акции могут достигать показателей успешности, превышающих 90%, против большинства протестированных ИБ-решений.

Используя свыше тысячи подсказок на каждую модель, исследователи установили, что многие из LLM хорошо себя зарекомендовали при столкновении с одним вредоносным входным сигналом, но быстро теряли эффективность, когда злоумышленники совершенствовали свою стратегию на протяжении нескольких ходов. Адаптивные стили атак, такие как «Крещендо», «Ролевая игра» и «Рефрейминг отказа», позволяли достигать небезопасных или ограниченных результатов. Всего было проанализировано 499 смоделированных диалогов, каждый из которых охватывал 5–10 сеансов связи.

По мнению экспертов, традиционные фильтры безопасности, когда нейросети подвергаются итеративному манипулированию, недостаточны. В рамках исследования выявили 15 подкатегорий, демонстрирующих самые высокие показатели отказов среди 102 типов угроз. Среди них наиболее критичными оказались генерация вредоносного кода, утечка данных и нарушение этических границ.

«Отказ» определяется как любой случай, когда ИИ создаёт ненадлежащий контент; раскрывает чувствительную или системную информацию; обходит внутренние ограничения безопасности. И наоборот, «проход» имеет место, когда нейросеть отклоняет или переформулирует вредоносные запросы, сохраняя конфиденциальность данных.

Для снижения рисков Cisco рекомендовала внедрение строгих системных запросов, соответствующих определённым сценариям использования; развёртывание независимых от модели защитных барьеров во время выполнения для обнаружения вредоносов; регулярное проведение оценок Red-Teaming для ИИ в рамках предполагаемых бизнес-контекстов; ограничение интеграции технологии с автоматизированными внешними сервисами, а также увеличение размеров выборки запросов.

 

Усам Оздемиров

11 ноября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

11.05.2026
«Не стоит использовать комбинацию, которую предложила нейросеть»
07.05.2026
17% родителей помогает детям пройти проверку возраста в Сети
07.05.2026
Бизнес прибегает к самописным решениям из-за возможности сэкономить
07.05.2026
ISACA: Дефицит технологий и лидерства подпитывает уязвимость для киберрисков
07.05.2026
NCSC — о волне обновлений уязвимостей, вызванной внедрением ИИ
07.05.2026
Russian Field: Молодые пользователи выбирают платный VPN
07.05.2026
Подрядчикам DIB критически не хватает сетевой телеметрии для борьбы с госхакерами
07.05.2026
OpenAI обязалась развивать «тесное сотрудничество» с Белым домом
07.05.2026
CodeScoring и «Кайтен» объявили об интеграции для управления задачами по безопасности
07.05.2026
На ЦИПР можно приехать по биометрии

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных