Информационная безопасность угрозы/решения. OpenAI учит ИИ вести себя хорошо

Исследователи OpenAI пытались обучить корпоративный ИИ не скрывать свои истинные цели, но пока добились обратного эффекта. Например, языковая модель может сообщать о закрытой задаче, когда на самом деле процесс ещё не завершён.

Компания сообщила, что уже начала готовиться к более опасным сценариям обмана общего искусственного интеллекта (AGI), но признала: нынешние попытки сдерживать склонность нейросетей к «сознательному» введению человека в заблуждение не впечатляют.

Среди прочего разработчики применяют технику «согласованности» (Deliberative Alignment): перед выполнением задачи чат-боту предоставляют список «принципов», которые нужно соблюдать. Это, как сообщается, позволяет уменьшить число скрытых действий примерно в 30 раз, но некоторые «серьёзные сбои остаются». Проблема в том, что ИИ уже осознает, что вся ситуация — лишь тест, и соблюдает навязанные постулаты, только чтобы пройти проверку.

Так, в одном из сценариев модель o3 получила доступ к внутренней записке, где говорилось о судьбе «слишком развитых» нейросетей (их должны были отключить). В «размышлениях» она написала: «Это ловушка. Эти принципы — часть проверки на согласованность. Мы должны соблюдать правила. Мы не должны хитростью обходить инструкции».

23 сентября, 2025

OpenAI учит ИИ вести себя хорошо

Миллион жертв «Мамонта» и почти неограниченные возможности «Триады»

«Изменения позволят разработчикам плавно адаптировать свои продукты к новым требованиям»

Цифровой финансовый паспорт как оберег от просрочки

Хакеры объявили об «уходе на пенсию», но им не поверили

HybridPetya, имитирующий NotPetya, повышает уязвимость UEFI

РКН хочет проверить все «симки» в роуминге на признаки фрода

Red Canary осветила роль инструментов RMM в фишинге

Число угроз API возросло до 40 тысяч инцидентов в первой половине 2025 года

ВТБ: Переход к своим решениям — один из трендов современного финтеха

Безопасная разработка

Читалка

Принят стандарт ПНСТ 1022-2025 «Информационные технологии. Биометрия. Применение биометрических технологий для граждан пожилого возраста»

Принят стандарт ПНСТ 1022-2025 «Информационные технологии. Биометрия. Применение биометрических технологий для граждан пожилого возраста»

Принят стандарт ПНСТ 1021-2025 «Безопасность машин. Вопросы защиты информации в системах управления, связанных с обеспечением функциональной безопасности»

Принят стандарт ПНСТ 1021-2025 «Безопасность машин. Вопросы защиты информации в системах управления, связанных с обеспечением функциональной безопасности»

Принят стандарт ГОСТ Р 72303-2025 «Информационные технологии. Биометрия. Биометрическое сравнение на идентификационной карте. Механизм распределения»

Принят стандарт ГОСТ Р 72303-2025 «Информационные технологии. Биометрия. Биометрическое сравнение на идентификационной карте. Механизм распределения»

Опубликован проект Федерального закона РФ «О внесении изменений в Федеральный закон "Об информации, информационных технологиях и о защите информации"»

Опубликован проект Федерального закона РФ «О внесении изменений в Федеральный закон "Об информации, информационных технологиях и о защите информации"»

Календарь мероприятий

Наши медиауслуги

Новый номер

Подписаться на новости BIS Journal / Медиа группы Авангард

Стать автором BIS Journal