Обеспечение информационной безопасности. «Многоходовки» выявляют слабые места в LLM с открытым «весом»

Согласно отчёту Cisco AI Defense, большие языковые модели с открытым «весом» остаются крайне уязвимыми к адаптивным многошаговым состязательным атакам, даже когда одношаговые средства защиты кажутся надёжными. Такие акции могут достигать показателей успешности, превышающих 90%, против большинства протестированных ИБ-решений.

Используя свыше тысячи подсказок на каждую модель, исследователи установили, что многие из LLM хорошо себя зарекомендовали при столкновении с одним вредоносным входным сигналом, но быстро теряли эффективность, когда злоумышленники совершенствовали свою стратегию на протяжении нескольких ходов. Адаптивные стили атак, такие как «Крещендо», «Ролевая игра» и «Рефрейминг отказа», позволяли достигать небезопасных или ограниченных результатов. Всего было проанализировано 499 смоделированных диалогов, каждый из которых охватывал 5–10 сеансов связи.

По мнению экспертов, традиционные фильтры безопасности, когда нейросети подвергаются итеративному манипулированию, недостаточны. В рамках исследования выявили 15 подкатегорий, демонстрирующих самые высокие показатели отказов среди 102 типов угроз. Среди них наиболее критичными оказались генерация вредоносного кода, утечка данных и нарушение этических границ.

«Отказ» определяется как любой случай, когда ИИ создаёт ненадлежащий контент; раскрывает чувствительную или системную информацию; обходит внутренние ограничения безопасности. И наоборот, «проход» имеет место, когда нейросеть отклоняет или переформулирует вредоносные запросы, сохраняя конфиденциальность данных.

Для снижения рисков Cisco рекомендовала внедрение строгих системных запросов, соответствующих определённым сценариям использования; развёртывание независимых от модели защитных барьеров во время выполнения для обнаружения вредоносов; регулярное проведение оценок Red-Teaming для ИИ в рамках предполагаемых бизнес-контекстов; ограничение интеграции технологии с автоматизированными внешними сервисами, а также увеличение размеров выборки запросов.

Усам Оздемиров

11 ноября, 2025

«Многоходовки» выявляют слабые места в LLM с открытым «весом»

Компании видят прямую зависимость между уровнем ИБ-инвестиций и устойчивостью бизнеса

Свинцов: Скамеры могут подождать 24 часа и начать обзвоны

Идентификация — главный источник риска для облачных сервисов?

Google прогнозирует рост числа киберфизических атак в Европе

Для отечественных «симок» введут персональный «период охлаждения»

Скамеры меняют «выплаты» на ПДн

Фрод в Великобритании увеличился на 17%. Ущерб близится к миллиарду

Банк ДОМ.РФ зафиксировал рост случаев мошеннических действий против миллениалов

Европол призывает объединиться в борьбе со спуфингом

Безопасная разработка

Читалка

Опубликовано распоряжение Правительства Российской Федерации от 27.05.2026 №1237-р

Опубликовано распоряжение Правительства Российской Федерации от 27.05.2026 №1237-р

Банк России опубликовал проект указания «О внесении изменений в Положение Банка России от 13 января 2025 года №850-П»

Банк России опубликовал проект указания «О внесении изменений в Положение Банка России от 13 января 2025 года №850-П»

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal