Исследователи научились скрывать от ИИ истинную суть сказанного

Команда специалистов IBM, Amazon и Техасского университета разработала атаку на алгоритмы обработки естественного языка (Natural Language Processing, NLP), с помощью которой им удалось изменить поведение модели искусственного интеллекта.

Атака,названная исследователями «атакой перефразирования», была представлена на конференции по вопросам ИИ в Стэнфордском университете в понедельник, 1 апреля. Ее суть заключается в изменении вводимого текста таким образом, чтобы при сохранении первоначального смысла ИИ воспринимал его по-другому.

К примеру, существует алгоритм ИИ, анализирующий содержимое электронных писем и обозначающий их как «спам» или «не спам». Злоумышленник может так модифицировать текст спам-сообщения, чтобы ИИ классифицировал его как «не спам». В то же время для человека смысл сообщения останется без изменений.

Предыдущие варианты атак на текстовые модели предполагали изменение одного слова в предложениях. Такое модифицирование текста действительно позволяло «обмануть» алгоритм, однако сами предложения при этом звучали неестественно и резали ухо. Команда исследователей IBM, Amazon и Техасского университета решила не менять слова в предложениях, а перефразировать их полностью, сохраняя при этом читабельность.

Исследователи создали алгоритм для поиска оптимальных изменений в предложениях, которые позволили бы манипулировать поведением модели NLP. На конференции в Стэнфордском университете команда представила наглядные примеры таких изменений. К примеру, заменив предложение «Цены ниже, чем у некоторых известных конгломератов» на «Цены ниже, чем у некоторых известных брендов, указанных ниже», исследователям удалось заставить модель NLP классифицировать откровенно рекламное сообщение как «не спам».

 

3 апреля, 2019

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

10.11.2025
Немкин: Двадцать номеров — это более чем достаточно
10.11.2025
Операция Chargeback раскрыла скамерскую схему на 300 млн евро
10.11.2025
АБД: Подход Минцифры создаёт правовую неопределённость
07.11.2025
Max возьмёт на себя часть нагрузки МФЦ
07.11.2025
Для отечественных «симок» введут персональный «период охлаждения»
07.11.2025
Google прогнозирует рост числа киберфизических атак в Европе
07.11.2025
Идентификация — главный источник риска для облачных сервисов?
07.11.2025
Как отправить нейросеть на пенсию, не разозлив её — рецепт Anthropic
06.11.2025
Ещё немного, и чат-бот? VK неохотно раскрывает подробности своего ИИ
06.11.2025
CISA и NSA озаботились защитой серверов Exchange

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных