Новейшие передовые LLM от Anthropic — Claude Mythos 5 и Claude Fable 5 — снова доступны, но с дополнительными ограничениями безопасности. 30 июня правительство США ввело экспортный контроль в отношении обеих моделей, вынудивший компанию приостановить их глобальное распространение. Всего через 19 дней это решение было отменено.
На следующий же день лаборатория ИИ объявила о повторном развёртывании нейросетей. Однако теперь данные продукты будут иметь дополнительные ограничения, направленные на решение проблем безопасности, отмеченных чиновниками.
Fable 5 опять на всех платформах по всему миру: Claude Platform, Claude.ai, Claude Code и Claude Cowork. Для пользователей премиум-класса, оформивших подписку на тарифные планы Pro, Max, Team и некоторые планы Enterprise, она будет иметь ограничение до 50% от еженедельных лимитов до 7 июля, после чего станет доступна в виде кредитов на использование.
Компания подтвердила, что ознакомилась с отчётом Amazon, который послужил поводом для директивы об экспортном контроле. В нём говорилось о джейлбрейке — методе, позволяющем Fable 5 выявлять уязвимости софта и, в одном случае, предоставлять эксплойт, обходя встроенные средства защиты модели.
Хотя Anthropic заявила, что описанная методика «не выявила каких-либо уникальных кибервозможностей уровня Mythos», вендор выпускает новую версию Fable 5, оснащённую «улучшенным классификатором безопасности, который нацелен на выявление и блокировку поведения, описанного в отчёте».
Речь идёт о небольшой автоматизированной системе ИИ, определяющей во время взаимодействия с LLM, когда от бота требуется выполнить потенциально опасную задачу или получить подобного рода результаты, и блокирует его ответы на запросы. Сообщается, что новый классификатор нивелирует обнаруженный исследователями Amazon взлом «более чем в 99% случаев».
По информации от Anthropic, исследователи из Центра стандартов и инноваций в области ИИ Министерства торговли США (CAISI) протестировали новые меры защиты и охарактеризовали их как «чрезвычайно надёжные». Компания намерена и дальше их совершенствовать, чтобы лучше отличать подлинные злоупотребления от законных запросов и уменьшить количество ложных срабатываний.
Усам Оздемиров





