Команды R&D SberDevices и Sber AI дообучили для русского языка модель CLIP, выложенную OpenAI. CLIP состоит из двух нейронных сетей для кодирования изображения и текста: Image Encoder и Text Encoder. При дообучении в качестве Image Encoder команда взяла модель VIT-32 — самую большую из опубликованных, а в качестве Text Encoder — RuGPT3Small. Собранные командой датасеты содержат около 3 млн уникальных пар изображение — текст.
Принцип работы: авторы модели собирают набор данных из пар изображение — текст. Каждая пара подается на вход нейронной сети. CLIP предобучает Image Encoder и Text Encoder, чтобы предсказывать какие изображения и тексты действительно связаны в пары. Все классы набора данных преобразуются в описания, которые подаются на вход Text Encoder. Эмбеддинги описания сопоставляются с эмбеддингами изображения, полученными с помощью Image Encoder. Выбирается то описание, эмбеддинг которого наиболее близок к эмбеддингу изображения. CLIP оценивает лучшие пары с данным изображением.
Подробнее об ML-сервисах читайте в разделе Инструменты и технологии.
Модель ruCLIP доступна для использования в репозитории на GitHub.
Полная статья в блоге SberDevices на Habr.