PHNet и FFHQH

Датасет и нейронные сети для обычной и портретной гармонизаций

Задача

Гармонизация — это задача компьютерного зрения, ставящая целью превратить негармоничную картинку в гармоничную. Негармоничное фото характеризуется тем, что передний план и задний фон не являются визуально согласованными, т. е. как будто взяты из разных фотографий. Решение этой задачи позволяет естественно переносить объекты от одной фотографии к другой, избегая визуального разобщения

Модели

PHNet — модель для решения задачи гармонизации. Есть веса как для портретной гармонизации, так и для классической (обученной на датасете iHarmony4). Код и веса моделей можно найти в репозитории на github.

Ключевые особенности

  • Портретная гармонизация сложнее классической в силу меньшей площади фона
  • PHNet — это Unet с добавленным SE-блоком в bottleneck-элементе. Модель имеет 2 ключевых модуля: Patch-based normalization и Patch-based feature extraction
  • Архитектура имеет 39,9 миллионов параметров и весит 153 МБ. Время обучения ~ 1.5 дня
  • FPS на Intel H470 CPU в одном потоке — 1.01. На NVIDIA Tesla V100 — 34.49
  • FFHQH — крупномасштабный набор данных из 70000 образцов для портретной гармонизации. Датасет отнаследован от FFHQ, который содержит фотографии портретной съёмки людей. Датасет выкладываем в open source
  • Каждый образец FFHQH — это триплет, в который кроме портрета FFHQ входят бинарная маска портрета (переднего плана) и негармоничная фотография. Последняя представляет собой копию портретной фотографии, в которой передний план имеет другое цветовое распределение, отличное от фона
PHNet и FFHQH
Узнайте больше о датасете, изучите подробную инструкцию по использованию и документацию в проекте на GitHub
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.