Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

23.09.2025
Цифровой финансовый паспорт как оберег от просрочки
23.09.2025
«Изменения позволят разработчикам плавно адаптировать свои продукты к новым требованиям»
23.09.2025
Минцифры Амурской области и «Перспективный мониторинг» подписали соглашение о сотрудничестве
23.09.2025
OpenAI учит ИИ вести себя хорошо
23.09.2025
Россияне устанавливают Max, но пока используют его ограниченно
22.09.2025
CISA обвинили в пустой трате федеральных средств
22.09.2025
Минцифры готовит QR-код на замену паспорту. Пока эпизодически
22.09.2025
Банкиры рассказали о блокировке почти трети звонков клиентам из-за новых антиспам-мер
22.09.2025
КСБ-Софт провёл вторую ежегодную конференцию по ИБ в Чебоксарах
22.09.2025
Хакеры объявили об «уходе на пенсию», но им не поверили

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных