Самая большая модель генерации картинок по текстовому описанию работает на русском языке и основана на похожей нейросети ruDALL-E. Kandinsky получилась после дообучения ruDALL-E на 179 млн изображений, снабжённых текстовыми описаниями.
Дообученная модель Kandinsky умеет генерировать изображения с произвольным соотношением сторон, а также может повышать разрешение сгенерированных картинок. В результате получаются реалистичные изображения с качественной передачей текстуры, тени и отражения.
Создание картинки происходит в три этапа. Сначала Kandinsky генерирует подходящие изображения, затем модель ruCLIP Large выбирает самые удачные, а после ещё одна модель — Real-ESRGAN — увеличивает разрешение результата. На выходе получается качественное детальное изображения, которое можно использовать и адаптировать под любые цели, в том числе коммерческие.
Модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника» и в маркетплейсе AI Service платформы SberCloud ML Space.
Источник: SBER PRESS