«Многоходовки» выявляют слабые места в LLM с открытым «весом»

Согласно отчёту Cisco AI Defense, большие языковые модели с открытым «весом» остаются крайне уязвимыми к адаптивным многошаговым состязательным атакам, даже когда одношаговые средства защиты кажутся надёжными. Такие акции могут достигать показателей успешности, превышающих 90%, против большинства протестированных ИБ-решений.

Используя свыше тысячи подсказок на каждую модель, исследователи установили, что многие из LLM хорошо себя зарекомендовали при столкновении с одним вредоносным входным сигналом, но быстро теряли эффективность, когда злоумышленники совершенствовали свою стратегию на протяжении нескольких ходов. Адаптивные стили атак, такие как «Крещендо», «Ролевая игра» и «Рефрейминг отказа», позволяли достигать небезопасных или ограниченных результатов. Всего было проанализировано 499 смоделированных диалогов, каждый из которых охватывал 5–10 сеансов связи.

По мнению экспертов, традиционные фильтры безопасности, когда нейросети подвергаются итеративному манипулированию, недостаточны. В рамках исследования выявили 15 подкатегорий, демонстрирующих самые высокие показатели отказов среди 102 типов угроз. Среди них наиболее критичными оказались генерация вредоносного кода, утечка данных и нарушение этических границ.

«Отказ» определяется как любой случай, когда ИИ создаёт ненадлежащий контент; раскрывает чувствительную или системную информацию; обходит внутренние ограничения безопасности. И наоборот, «проход» имеет место, когда нейросеть отклоняет или переформулирует вредоносные запросы, сохраняя конфиденциальность данных.

Для снижения рисков Cisco рекомендовала внедрение строгих системных запросов, соответствующих определённым сценариям использования; развёртывание независимых от модели защитных барьеров во время выполнения для обнаружения вредоносов; регулярное проведение оценок Red-Teaming для ИИ в рамках предполагаемых бизнес-контекстов; ограничение интеграции технологии с автоматизированными внешними сервисами, а также увеличение размеров выборки запросов.

 

Усам Оздемиров

11 ноября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

13.05.2026
Операторы связи рапортуют об успехах в антифроде
13.05.2026
ИИ активно участвует в рекрутинге — со всеми «за» и «против»
13.05.2026
PT: Число новых вредоносов выросло на 38%
13.05.2026
Власти Бали хотят перевести туристов в диджитал-номадов
13.05.2026
Атакующие заманивают жертв на… легитимные ресурсы
13.05.2026
Практическая применимость и потенциал пилотирования. Как «Ростех» выбирает лучших
12.05.2026
«Большинство компаний находится в зоне иллюзорной безопасности»
12.05.2026
Cisco: Файлы ИИ-моделей перестали быть статическими активами
12.05.2026
CISA обозначило пределы изоляции для критической инфраструктуры
12.05.2026
Российские абоненты будут получать коды в «Максе»

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных