«Многоходовки» выявляют слабые места в LLM с открытым «весом»

Согласно отчёту Cisco AI Defense, большие языковые модели с открытым «весом» остаются крайне уязвимыми к адаптивным многошаговым состязательным атакам, даже когда одношаговые средства защиты кажутся надёжными. Такие акции могут достигать показателей успешности, превышающих 90%, против большинства протестированных ИБ-решений.

Используя свыше тысячи подсказок на каждую модель, исследователи установили, что многие из LLM хорошо себя зарекомендовали при столкновении с одним вредоносным входным сигналом, но быстро теряли эффективность, когда злоумышленники совершенствовали свою стратегию на протяжении нескольких ходов. Адаптивные стили атак, такие как «Крещендо», «Ролевая игра» и «Рефрейминг отказа», позволяли достигать небезопасных или ограниченных результатов. Всего было проанализировано 499 смоделированных диалогов, каждый из которых охватывал 5–10 сеансов связи.

По мнению экспертов, традиционные фильтры безопасности, когда нейросети подвергаются итеративному манипулированию, недостаточны. В рамках исследования выявили 15 подкатегорий, демонстрирующих самые высокие показатели отказов среди 102 типов угроз. Среди них наиболее критичными оказались генерация вредоносного кода, утечка данных и нарушение этических границ.

«Отказ» определяется как любой случай, когда ИИ создаёт ненадлежащий контент; раскрывает чувствительную или системную информацию; обходит внутренние ограничения безопасности. И наоборот, «проход» имеет место, когда нейросеть отклоняет или переформулирует вредоносные запросы, сохраняя конфиденциальность данных.

Для снижения рисков Cisco рекомендовала внедрение строгих системных запросов, соответствующих определённым сценариям использования; развёртывание независимых от модели защитных барьеров во время выполнения для обнаружения вредоносов; регулярное проведение оценок Red-Teaming для ИИ в рамках предполагаемых бизнес-контекстов; ограничение интеграции технологии с автоматизированными внешними сервисами, а также увеличение размеров выборки запросов.

 

Усам Оздемиров

11 ноября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

29.06.2026
«Цифра» поможет в борьбе с рецидивизмом
29.06.2026
ИИ-законопроект сфокусировался на фундаментальных моделях
29.06.2026
Servicepipe подписала соглашение о сотрудничестве с НИУ «МЭИ» для подготовки ИБ-кадров
29.06.2026
НИУ ВШЭ: Самый острый дефицит ИИ-навыков — у ИКТ-специалистов
29.06.2026
Пятёрка стран Европы стала главной мишенью программ-вымогателей
29.06.2026
CISA поможет ведомствам осознать плюсы «нулевого доверия»
26.06.2026
Интерпол — о действиях скамеров в Азиатско-Тихоокеанском регионе
26.06.2026
Приложение VK удалили из App Store
26.06.2026
ЛК: Загрузка APK-файлов из сторонних источников связана с повышенными рисками
26.06.2026
SentinelOne: Обнаружен ИИ-газлайтер!

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных