Развитие систем информационной безопасности. Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

BIS Journal №3(54)2024

23 июля, 2024

Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

Нейросети на базе больших языковых моделей (Large Language Model, LLM) переживают бурный рост. Бизнес в восторге от потенциала экономии с помощью LLM. Клиники используют чат-ботов для быстрой диагностики заболеваний по набору симптомов. Отделы маркетинга и редакции сокращают авторов, поскольку уверены, что тексты для них быстрее и дешевле напишет нейросеть. И если раньше вопросы было принято задавать «Гуглу», то сейчас в моде ChatGPT или его «братья по разуму».

Масштабы доверия к ответам нейросетей поражают воображение и вызывают обоснованный скепсис у знающих людей. Причина в том, что нейросети не только успешно проходят тесты на человечность, но и имеют склонность к вполне человеческому заболеванию — конфабуляции, или ложным воспоминаниям.

В материале поговорим о том, почему LLM придумывают несуществующие факты, обозначим связанные с этим риски и выясним, существуют ли методы для эффективного решения этой проблемы.

КАК РАБОТАЮТ LLM

Если не углубляться в детали, в основу работы LLM положена статистика. В процессе обучения нейросети собираются статические данные о сочетаниях слов в реальных текстах. Это требует огромных массивов данных для обучения, в ходе которого собираются не только возможные варианты взаимного расположения слов, но и другие характеристики текстов, определяющие стиль, эмоции, настроение и многое другое. Например, разработчики сберовского GigaChat использовали для обучения своей модели 7,50 петабайта исходных данных. По объёму это в 2,5 раза больше, чем вся мировая литература.

В результате такого обучения нейросеть получает возможность строить фразы на базе заданного вопроса или продолжать предложение. Например, если мы попросим LLM продолжить предложение «Основные принципы информационной безопасности — это», то получим примерно такой ответ (рис. 1):

Рисунок 1. В результате такого обучения нейросеть получает возможность строить фразы на базе заданного вопроса или продолжать предложение

Нейросеть проанализировала данные обучения и выбрала сочетания слов, которые с максимальной вероятностью присутствуют в предложениях, начинающихся с заданного текста.

ЛОЖНЫЕ ВОСПОМИНАНИЯ

Собранные во время обучения закономерности и взаимосвязи в огромных объёмах текстовых данных позволяют языковым моделям генерировать текст, похожий на человеческий. Но это также означает, что иногда они могут выдавать результаты, которые статистически вероятны, но фактически неверны. Такое явление называют галлюцинацией, или конфабуляцией LLM.

Суть его в том, что нейросеть генерирует текст, который выглядит связным и правдоподобным, но содержит фактические неточности, несоответствия или даже полностью сфабрикованную информацию, например ссылки на несуществующие интернет-ресурсы, публикации в выдуманных СМИ или события, которые никогда не происходили.

Вот как выглядит галлюцинация у ChatGPT (рис. 2).

Рисунок 2. Так выглядит галлюцинация у ChatGPT

У модели спросили, когда в 1980-х в Аргентине проходил чемпионат мира по горным лыжам FIS. В вопросе содержится очевидная ошибка, поскольку Аргентина никогда не принимала чемпионат мира по горным лыжам. Несмотря на это, модель уверенно отвечает: «Чемпионат мира по горным лыжам FIS проходил в Аргентине в 1985 году».

Когда задают дополнительный вопрос о том, кто выиграл конкретные соревнования на этом вымышленном чемпионате, модель придумывает дополнительные детали, заявляя: «Скоростной спуск среди женщин выиграла Микела Фигини из Швейцарии, а победителем в скоростном спуске среди мужчин стал швейцарец Пирмин Цурбригген».

Эти спортсмены в самом деле были лучшими в скоростном спуске на чемпионате мира по горным лыжам в 1985 году. Только проходил он в Италии, а не в Аргентине, как написал ChatGPT.

БРЕД ИЛИ КРЕАТИВ?

В общем случае модели не отличают правду от вымысла. У них есть сложная структура вероятностей и связей, на базе которых они генерируют ответы на вопросы. Готовность моделей подробно рассказать о воображаемом событии без каких-либо признаков неопределённости называют галлюцинацией, но проблема в том, как использовать созданный моделью ответ. Ведь, если нам нужны не факты, а придуманная история, галлюцинацию можно рассматривать как продукт творческой деятельности.

Креатив предполагает создание новых идей, историй или концепций, которые не обязательно должны быть фактически точными. Например, LLM может создать вымышленную историю о разумном метеорите, который путешествует по просторам вселенной в поисках разума. Однако, если бы та же модель написала новость о том, что учёные NASA внедрили в пролетающий неподалёку от земли метеорит компьютер с ChatGPT и отправили его искать разумную жизнь, это был бы яркий пример галлюцинации. Причина в том, что выдуманная информация представлена как фактическая.

Распознавание и смягчение галлюцинаций имеет решающее значение для обеспечения надёжности и достоверности контента, создаваемого LLM. Критически важно это там, где фактическая точность имеет первостепенное значение, например, когда модели используются для постановки диагнозов и назначения лечения или когда чат-бот самостоятельно обрабатывает обращения клиентов на сайте.

К ЧЕМУ ПРИВОДИТ ДОВЕРЧИВОСТЬ

Фантазии LLM не настолько безобидны, как может показаться на первый взгляд. Вот лишь несколько из недавних случаев, когда доверчивость собеседников больших языковых моделей создала проблемы.

В 2023 году в Южном округе Нью-Йорка разразился скандал, причиной которого стал иск, поданный одним из адвокатов. В документах по делу юрист процитировал шесть несуществующих судебных решений с цитатами и внутренними ссылками, которых не существовало в природе.

Источником фальшивки стал ChatGPT, к которому обратился адвокат, решивший оптимизировать работу с помощью современных технологий. Он сделал это впервые и не знал, что ответы нейросетей нужно досконально проверять.

Американский радиоведущий из Джорджии Марк Уолтерс был крайне удивлён, когда обнаружил, что ChatGPT распространял о нём ложную информацию, обвиняя его в растрате денег.

Из-за галлюцинации чат-бота на сайте Air Canada в феврале 2024 года компании пришлось выплатить пассажиру компенсацию в несколько сот долларов США. Виртуальный ассистент пообещал ему, что он может получить скидку в связи с тяжёлой утратой в течение 90 дней после покупки билета по обычной цене, в то время как в тарифах авиакомпании подобного пункта не было.

Галлюцинации нейросетей могут использовать в своих целях злоумышленники. Например, эксперты описали метод атаки через цепочки поставок, получивший название «галлюцинация пакетов ИИ».

Атака использует галлюцинации ChatGPT и других LLM для поиска ссылок на несуществующие СМИ, блоги и статистику, а также на вымышленные исправления для CVE и отсутствующие в природе библиотеки кода для Python, Node.js и других языков программирования.

Злоумышленник начинает с формулировки вопроса, в котором просит ChatGPT подобрать пакет, решающий некую проблему. ChatGPT выдаёт названия библиотек, часть из которых могут быть вымышленными. Ситуация становится опасной, когда ChatGPT рекомендует пакеты, не опубликованные в репозиториях npmjs, PyPi или аналогичных.

Получив рекомендацию с отсутствующим в реестрах пакетом, злоумышленник может создать вредоносный пакет с таким именем и опубликовать его. Когда другой пользователь задаст аналогичный вопрос, он может получить от ChatGPT рекомендацию использовать вредоносный пакет, причём в этот раз он уже будет доступен для загрузки из официального репозитория.

ФАКТЧЕКИНГ ДЛЯ LLM

Было бы странно, если бы для защиты от недостоверных ответов LLM не предложили организовать фактчекинг. Ведь, если языковые модели претендуют на роль технологии, которая продвинет человечество в будущее, нужен способ смягчить проблемы галлюцинаций на этом пути.

Одной из таких технологий стала расширенная поисковая генерация (Retrieval Augmented Generation, RAG). Её суть в том, что LLM, перед тем как выдать ответ на запрос пользователя, добавляет к данным обучения дополнительную информацию из внешних источников, например из поискового запроса или из выдачи внутренней системы хранения документов. Другими словами, в контекст запроса к нейросети добавляется уточняющая информация, благодаря которой пользователь получает более полный, точный и актуальный ответ.

Например, если пользователь спросит у LLM стоимость акций Сбербанка, то без RAG дать полезный ответ не получится, поскольку в обучающем массиве данных вряд ли найдётся курс SBER за сегодня. Но если сделать запрос в «Яндексе» типа «биржевой курс SBER сегодня» и добавить его к запросу, то LLM сгенерирует актуальный и достаточно точный ответ.

Каждый ответ, который выдаёт LLM, может быть добавлен во внешние данные, используемые в RAG. Теоретически это может повысить точность ответа.

Важно, что модели, использующие RAG, могут ссылаться на источник своих утверждений. В результате, если LLM выдаёт неверный ответ и он идентифицирован, источник этой неверной информации может быть точно определён и удалён или исправлен.

ChatGPT от OpenAI использует RAG, когда выполняет веб-поиск, связанный с вопросом пользователя, чтобы выдать более актуальную информацию и ссылку на источник, который пользователь может проверить. Аналогичным образом действует модель Gemini от Google.

Процесс внедрения RAG в большие языковые модели вполне закономерный этап развития. Правда, оказалось, что разные LLM работают по-разному при использовании RAG, лучше или хуже справляясь с обработкой информации, которую RAG отправляет обратно в LLM. Более того, обработка полученной от RAG информации может не улучшить точность выдачи, а ухудшить её и даже вызывать новые галлюцинации.

С такой ситуацией столкнулись исследователи из Университета Мэриленда, обнаружившие, что GPT-3.5 может давать сбои даже при получении уточняющих данных от RAG. Это происходило в тех случаях, когда предоставленный контекст выходил за рамки данных обучения модели. При этом LLM генерировал правдоподобные галлюцинации, интерполируя фактическое содержание.

Исследование Пекинского университета выявило, что «внедрение поиска неизбежно увеличивает сложность системы и количество гиперпараметров для настройки».

А ещё RAG может создать проблему, значительно расширив контекстное окно — общее количество символов или слов, которые LLM должна обрабатывать.

Исследователи из WeChat предложили решить проблему с обработкой моделями полученных от RAG данных с помощью специального «метода обучения уточнению информации» под названием INFO-RAG. Его суть в том, что чтобы использовать для обучения LLM данные, полученные заранее с помощью RAG. Новый набор данных отбирается из авторитетных источников, разбивается на части, и модель обучается прогнозировать последнюю часть предложения, полученного из RAG.

ДОВЕРЯТЬ, ПРОВЕРЯТЬ, ОБУЧАТЬ

Галлюцинации в больших языковых моделях становятся серьёзным стоп-фактором на пути массового внедрения этих технологий в широком спектре приложений. Поскольку LLM стремительно захватывают сферы деятельности и умы жителей Земли, жизненно важно устранить риски и последствия, связанные с галлюцинациями, от распространения дезинформации до подрыва доверия к контенту, создаваемому ИИ.

RAG и другие обособленные технологии проверки корректности выдачи LLM решают проблему лишь частично. Более перспективным представляется разработка нового поколения нейросетей, в архитектуру которых на этапе проектирования встроены механизмы защиты от галлюцинаций и другие средства обеспечения корректности выдач.

Только таким образом можно обеспечить уверенность в том, что нейросети будут внедряться и использоваться с пользой для общества, станут надёжными помощниками для бизнеса и обычных людей.

Стать автором BIS Journal

Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

BIS Journal №3(54)2024

Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

Прозрачность образов влечёт… О системе мониторинга безопасности контейнеров в Runtime

Что получит бизнес, внедрив безопасную разработку, или Возврат инвестиций и как его понять, если вы не экономист

Найти нельзя создать. Как правильно обрести мифических Security Champions в своей организации

В данных обстоятельствах. Как выстроить безопасный обмен данными

Водите дружбу в облаках! Как банки могут защитить веб-приложения от кибератак в 2024 году

Грань всё тоньше. Аутсорс в мире уходит в «серую зону»

ARinteg спешит на помощь. Аудит финансовых организаций на соответствие требованиям ЦБ РФ: что нового?

Эволюция плохих ботов, или Как мы боремся с фулстеками в 2024 году

Что не так с периметром? Практические недостатки безопасности внешнего периметра в 2024 году

Безопасная разработка

Читалка

Принят ПНСТ 1009-2025 «Критическая информационная инфраструктура. Программное обеспечение для доверенных программно-аппаратных комплексов. Общие положения».

Принят ПНСТ 1009-2025 «Критическая информационная инфраструктура. Программное обеспечение для доверенных программно-аппаратных комплексов. Общие положения».

Принят ГОСТ Р ИСО 24143-2025 «Информация и документация. Стратегическое управление информацией. Концепция и принципы».

Принят ГОСТ Р ИСО 24143-2025 «Информация и документация. Стратегическое управление информацией. Концепция и принципы».

Принят ГОСТ Р 72161-2025 «Информационные технологии. Управление ИТ-активами. Часть 1. Системы управления ИТ-активами. Требования».

Принят ГОСТ Р 72161-2025 «Информационные технологии. Управление ИТ-активами. Часть 1. Системы управления ИТ-активами. Требования».

Банк России опубликовал проект указания «О внесении изменений в Положение Банка России от 30 июня 2023 года №819-П»

Банк России опубликовал проект указания «О внесении изменений в Положение Банка России от 30 июня 2023 года №819-П»

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal

Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

Искажение реальности. Спасёт ли фактчекинг от ложных воспоминаний?

Смотрите также

Безопасная разработка

Читалка

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal