Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

07.11.2025
Max возьмёт на себя часть нагрузки МФЦ
07.11.2025
Для отечественных «симок» введут персональный «период охлаждения»
07.11.2025
Google прогнозирует рост числа киберфизических атак в Европе
07.11.2025
Идентификация — главный источник риска для облачных сервисов?
07.11.2025
Как отправить нейросеть на пенсию, не разозлив её — рецепт Anthropic
06.11.2025
Ещё немного, и чат-бот? VK неохотно раскрывает подробности своего ИИ
06.11.2025
CISA и NSA озаботились защитой серверов Exchange
06.11.2025
Бот Банка России поможет разобраться с деталями договора
06.11.2025
Шадаев: Новая каспийская ВОЛС ускорит цифровизацию всех стран региона
06.11.2025
ARinteg укрепляет свои позиции на рынке промышленной безопасности России

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных