Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

Подписаться на новости BIS Journal / Медиа группы Авангард

Подписаться
Введите ваш E-mail

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных

14.11.2025
Банк России утвердил признаки подозрительных операций
14.11.2025
«БКС Банк» запускает публичную программу для поиска уязвимостей на Standoff Bug Bounty
14.11.2025
Эксперты Wiz обнаружили утечки секретов у большинства ИИ-компаний
14.11.2025
Советник ЦБ РФ — об оценке «цифровой репутации» клиента в моменте
14.11.2025
В Госдуме обсудят потенциальные штрафы за «частичную авторизацию»
13.11.2025
Servicepipe DosGate получил расширенную защиту DNS и гибкий контроль доступа
13.11.2025
Среди лучших работодателей России — «Сбер», «Яндекс», VK, «Вымпелком» и «Лаборатория Касперского»
13.11.2025
В США ищут «репетиторов» для обучения нейросетей финансам
13.11.2025
Visa раздаёт фрилансерам гонорары в «стабильной» валюте
13.11.2025
«В погоне за скидками пользователи теряют бдительность»

Стать автором BIS Journal

Поля, обозначенные звездочкой, обязательные для заполнения!

Отправляя данную форму вы соглашаетесь с политикой конфиденциальности персональных данных