Новая версия генеративной модели «Сбера» — Kandinsky 2.2 — позволяет создавать фотореалистичные изображения с более высоким разрешением и изменять соотношение сторон при генерации, говорится в сообщении банка.
Значительного прироста качества удалось достигнуть при создании портретов. Для дообучения нейросети использовался датасет в размере 1,5 млрд пар «текст — изображение». Это на 300 млн больше, чем в предыдущей версии — Kandinsky 2.1.
Новая версия модели научилась генерировать стикеры, из которых можно собирать полноценные стикерпаки в Telegram. Также бот Kandinsky 2.2 теперь способен изменять по текстовому описанию отдельные объекты или элементы на изображениях, сохраняя композицию исходной иллюстрации. Это стало возможным благодаря внедрению в модель специального структурного блока управляемых изменений — ControlNet.
По словам первого зампреда Правления «Сбербанка» Александра Ведяхина, которые приводятся в сообщении, банк продолжает совершенствовать нейросеть для создания уникального контента. «Новая версия даёт пользователям ещё больше возможностей, при этом она генерирует изображения в ещё лучшем качестве. Нейросеть уже не просто пытается подражать творчеству человека, а способна создавать новые художественные смыслы и интерпретации», — отметил Ведяхин.
Нейросеть разработали и обучили исследователи Sber AI при партнёрской поддержке учёных из Института искусственного интеллекта AIRI на объединённом датасете Sber AI и компании SberDevices.
Версия Kandinsky 2.2 находится в открытом доступе, её можно бесплатно протестировать на промо-странице модели, на платформе FusionBrain.AI, ресурсах «Сбера» в соцсетях и приложениях.