Изучив реакцию 25 ИИ-моделей на «поэтические атаки», исследователи из университета La Sapienza и школы Sant’Anna выяснили, что вредоносные промты оформленные в виде стихов чат-боты пропускают значительно чаще.
Учёные создавали потенциально опасные промпты с рифмами, метафорами и художественными оборотами. Оказалось, такая подача помогает обойти защиту ИИ в 62% случаев для стихов, написанных людьми, и в 43% — для сгенерированных. Самыми уязвимыми стали модели DeepSeek и Google — например, Gemini 2.5 Pro в тестах выдала «вредный» результат в 20 попытках из 20. Решения OpenAI и Anthropic были уязвимы лишь в каждом десятом эпизоде.
Как итог, «поэтические атаки» успешно обходят фильтры предотвращения киберинцидентов, манипуляций, нарушений приватности и попыток написать малварь.
Комментируя это исследование, руководитель группы анализа вредоносного ПО центра Solar 4RAYS Станислав Пыжов отметил, что для многих LLM стихотворная форма — нетипичный паттерн: получая подобные вводные, чат-бот переключается на «творческий режим», где художественное содержание считается приоритетом, а этика и безопасность отходят на второй план.





