Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

22.04.2026
«Тем, кто делает это платно, надо просто предусмотреть возможные риски»
22.04.2026
Банк России ввёл механизм дополнительной проверки на фрод
22.04.2026
ЕК оспаривает доминирование Google и требует поделиться данными
22.04.2026
Российский телеком пока не готов к сбору VPN-налога
22.04.2026
Российский ИТ-рынок значительно просел в темпах роста, но нарастил объёмы
21.04.2026
ВТБ — о том, как собирать биометрию, не напрягая(сь)
21.04.2026
Банки грозят расторжением договоров с теми, кто слаб в кибербезе
21.04.2026
По пять сотен с ноутбука на поддержку радиоэлектронной промышленности!
21.04.2026
Forescout: Скрытым уязвимостям не ускользнуть от нейросетей
21.04.2026
Европол отключает электричество DDoS-фрилансерам

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных