Ученые Университета МИСИС и НИУ ВШЭ представили новую архитектуру нейронной сети LAPUSKA (LaPlacian UpScale Knowledge Alignment), способную значительно улучшить качество изображений.
Новый подход позволяет обрабатывать фотографии в два раза быстрее по сравнению с выбранными аналогами. В будущем разработка исследователей поможет распознавать лица и точнее обрабатывать изображения.
Анализ и интерпретация изображений или видео с помощью машинного зрения, уже применяется в медицине, сельском хозяйстве, транспорте, индустрии развлечений и многих других областях. Перспективным направлением компьютерного зрения является супер-разрешение изображений, которое не просто увеличивает размер изображения, но и улучшает его качество. Это позволяет увидеть больше информации и деталей, которые были недоступны для человеческого зрения при низком разрешении фотографии.
Технология получения изображений со сверхвысоким разрешением помогает преодолеть ограничения, присущие устройствам фото- и видеосъемки и может быть полезно в различных практических приложениях. Например, в области безопасности супер-разрешение изображений помогает увеличивать качество снимков с камер видеонаблюдения для распознавания лиц или номеров автомобилей, в области цифровой обработки изображений — помогает восстановить старые или поврежденные фотографии, а также улучшить качество фотографий, снятых в сложных условиях освещения или на большом расстоянии.
Существующие модели для получения изображений со сверхвысоким разрешением имеют значительные недостатки, например наиболее популярные нейронные модели SRGAN и LapSRN требуют больших вычислительных затрат и значительного объема компьютерной памяти, что влияет на доступность их использования и время, необходимое для получения результата. LapSRN как правило, позволяет получить более сглаженные изображения, что приводит к потере некоторых мелких деталей, в то время как на изображениях, обработанных при помощи SRGAN, остается много цифрового шума.
Новая архитектура нейронной сети LAPUSKA для сверхвысокого разрешения изображений сочетает лучшие свойства существующих моделей SRGAN и LapSRN и устраняет их недостатки. Предлагаемая модель имеет качество, аналогичное LapSRN, но она более чем в два раза быстрее по времени обработки.
«Архитектура предлагаемой нами нейронной сети состоит из нескольких сверхточных слоев с разной структурой. В основе структуры сети лежит структура SRGAN, которая показала наилучшие результаты во время обучения, и использует стратегию пост-апсемплинга, при которой признаки извлекаются непосредственно из входных данных LR набором остаточных блоков, а изображение масштабируется в конце распространения. Важным моментом в процессе обучения реализованных моделей являются обучающие данные. В данной работе было решено использовать датасет DIV2K, поскольку он содержит 800 обучающих цветных изображений RGB HR с соответствующими уменьшенными изображениями LR с различными коэффициентами», — говорит соавтор исследования Илья Макаров, директор центра искусственного интеллекта НИТУ МИСИС, руководитель группы «ИИ в промышленности» Института AIRI.
Исследование проводилось в рамках стратегического проекта Университета МИСИС «Цифровой бизнес» по программе Минобрнауки России «Приоритет 2030».