Задача
Гармонизация — это задача компьютерного зрения, ставящая целью превратить негармоничную картинку в гармоничную. Негармоничное фото характеризуется тем, что передний план и задний фон не являются визуально согласованными, т. е. как будто взяты из разных фотографий. Решение этой задачи позволяет естественно переносить объекты от одной фотографии к другой, избегая визуального разобщения
Модели
PHNet — модель для решения задачи гармонизации. Есть веса как для портретной гармонизации, так и для классической (обученной на датасете iHarmony4). Код и веса моделей можно найти в репозитории на github.
Ключевые особенности
- Портретная гармонизация сложнее классической в силу меньшей площади фона
- PHNet — это Unet с добавленным SE-блоком в bottleneck-элементе. Модель имеет 2 ключевых модуля: Patch-based normalization и Patch-based feature extraction
- Архитектура имеет 39,9 миллионов параметров и весит 153 МБ. Время обучения ~ 1.5 дня
- FPS на Intel H470 CPU в одном потоке — 1.01. На NVIDIA Tesla V100 — 34.49
- FFHQH — крупномасштабный набор данных из 70000 образцов для портретной гармонизации. Датасет отнаследован от FFHQ, который содержит фотографии портретной съёмки людей. Датасет выкладываем в open source
- Каждый образец FFHQH — это триплет, в который кроме портрета FFHQ входят бинарная маска портрета (переднего плана) и негармоничная фотография. Последняя представляет собой копию портретной фотографии, в которой передний план имеет другое цветовое распределение, отличное от фона