Источники «Ведомостей» рассказали, что подготавливаемый экспертами Минцифры профильный ИИ-законопроект может предполагать обязанность российских разработчиков LLM раскрывать сведения о наборах данных, использованных для обучения и тестирования моделей.
Речь идёт о названии датасета, дате его создания, назначении, формате, объёме и происхождении, однако, пока не решено, где будет агрегироваться эта информация (предположительно, появится тематический реестр). Ранее в Минцифры говорили о планах создать реестр доверенного ИИ для объектов КИИ, но на сегодняшний день такового не существует.
Разрабатываемый законопроект призван определить критерии «отечественной» нейросети и правила маркировки ИИ-контента, а также прояснить вопросы авторского права и ответственности за использование технологий этого класса (возможно, обозначить использование LLM при совершении преступлений как отягчающее обстоятельство). При этом участники обсуждения до сих пор не договорились, что именно следует считать «национальным» и «доверенным» ИИ.
В Альянсе в сфере искусственного интеллекта считают, что полное описание датасетов в формате реестра может потребовать несоразмерных ресурсов или свестись к формальному перечислению без практической ценности. Отраслевые эксперты же уверены: раскрытие данных потенциально повысит доверие к моделям и сформирует единые стандарты отчётности, но рискует создать дополнительную нагрузку на вендоров, а это, в свою очередь, замедлит обновление их продуктов. Также есть мнение, что если требования нового закона распространят на зарубежные ИИ-компании, то те вряд ли будут их соблюдать.
Плюс, раскрытие источников, вероятно, поспособствует формированию коммерческого рынка данных. Сейчас разработчики чат-ботов нередко используют открытые источники бесплатно и без разрешения владельцев, создавая риск утечки ПДн и нарушения авторских прав.





.png)