Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

23.12.2025
Rusprofile: ИТ-компании продолжают открываться и банкротиться
23.12.2025
Хакеры атаковали британский МИД, но масштаб ущерба не оглашается
23.12.2025
F6: Mamont — одна из главных угроз будущего года
23.12.2025
Банк России изложил своё видение крипторынка
23.12.2025
Техгиганты столкнулись с проблемами в визовых вопросах
22.12.2025
Итоги Окружного этапа Всероссийского конкурса «СтудRussia» в МГЛУ
22.12.2025
Аксаков: Использование цифрового рубля снизит риски хищения бюджетных средств
22.12.2025
WhatsApp в России замедлился на 70-80%
22.12.2025
«Внедрение такой услуги будет означать внедрение сервиса мультибанкинга»
22.12.2025
Иностранные банкиры усилили проверки российских клиентов

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных