Cisco выпустила Model Provenance Kit — написанный на Python набор инструментов с открытым исходным кодом, предназначенный для отслеживания происхождения нейросетей и сравнения их функционала.
Решение с интерфейсом командной строки определяет метаданные и «веса» для создания «отпечатка» LLM, пояснили разработчики: «Представьте Model Provenance Kit как ДНК-тест для моделей ИИ. Подобно тому, как ДНК-тест выявляет биологическое происхождение, Model Provenance Kit анализирует как метаданные, так и фактические параметры модели, прошедшие обучение (подобно уникальному геному, из которого состоит модель), чтобы оценить, имеют ли модели общее происхождение, и выявить признаки модификации».
Новинка призвана устранить пробелы в прозрачности цепочки поставок ИИ-сервисов — сегодня многие организации используют нейросети с открытым исходным кодом из репозиториев вроде HuggingFace, где LLM потенциально могут быть загружены с неполной или вводящей в заблуждение документацией.
Model Provenance Kit имеет два разных режима: сравнение и сканирование. Первый позволяет выбрать две позиции и получить разбивку оценок сходства по метрикам, включая метаданные, структуру токенизатора и сигналы уровня весов, а также итоговую сводную оценку (если последняя превысит определённый порог, ИИ-модели считаются связанными). Во втором режиме одна нейросеть может быть сравнена с базой данных известных отпечатков для примерно 150 различных базовых ботов из более чем 45 семейств от 20 вендоров, включая Google, Microsoft, DeepSeek и OpenAI.
Также новый набор работает в два этапа: сначала он выполняет «архитектурный скрининг» на основе структурных метаданных и конфигураций обеих позиций (что позволяет быстро определить, имеют ли те идентичную архитектуру), а после проводит анализ на уровне весов, рассматривая пять конкретных сигналов — сходство якорных вложений (EAS), распределение норм вложений (END), отпечаток слоя норм (NLF), энергетический профиль слоя (LEP) и косинус значения веса (WVC). Второй этап — как заявляется — гарантировано покажет, обучались ли отдельно архитектурно схожие модели или нет.
«Поскольку модели постоянно совершенствуются, перерабатываются, объединяются и переупаковываются, файлы моделей перестали быть статическими активами. Отслеживать происхождение становится сложнее, а скрывать его становится легче, и ответ на вопрос "каково происхождение этой модели?" требует более тонких подходов», — заключили в Cisco.





.png)