Сбер представил Kandinsky — модель генерации изображений по текстовому описанию

Самая большая модель генерации картинок по текстовому описанию работает на русском языке и основана на похожей нейросети ruDALL-E. Kandinsky получилась после дообучения ruDALL-E на 179 млн изображений, снабжённых текстовыми описаниями.

Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может повышать разрешение сгенерированных картинок. В результате получаются реалистичные изображения с качественной передачей текстуры, тени и отражения.

Создание картинки происходит в три этапа. Сначала Kandinsky генерирует подходящие изображения, затем модель ruCLIP Large выбирает самые удачные, а после ещё одна модель — Real-ESRGAN — увеличивает разрешение результата. На выходе получается качественное детальное изображения, которое можно использовать и адаптировать под любые цели, в том числе коммерческие.

Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника» и в маркетплейсе AI Service платформы SberCloud ML Space.

Источник: SBER PRESS

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.