24 июня 2021

Модель ruCLIP обучилась русскому языку

Команды R&D SberDevices и Sber AI дообучили для русского языка модель CLIP, выложенную OpenAI. CLIP состоит из двух нейронных сетей для кодирования изображения и текста: Image Encoder и Text Encoder. При дообучении в качестве Image Encoder команда взяла модель VIT-32 — самую большую из опубликованных, а в качестве Text Encoder — RuGPT3Small. Собранные командой датасеты содержат около 3 млн уникальных пар изображение — текст.

Принцип работы: авторы модели собирают набор данных из пар изображение — текст. Каждая пара подается на вход нейронной сети. CLIP предобучает Image Encoder и Text Encoder, чтобы предсказывать какие изображения и тексты действительно связаны в пары. Все классы набора данных преобразуются в описания, которые подаются на вход Text Encoder. Эмбеддинги описания сопоставляются с эмбеддингами изображения, полученными с помощью Image Encoder. Выбирается то описание, эмбеддинг которого наиболее близок к эмбеддингу изображения. CLIP оценивает лучшие пары с данным изображением.

Подробнее об ML-сервисах читайте в разделе Инструменты и технологии.

Модель ruCLIP доступна для использования в репозитории на GitHub.

Полная статья в блоге SberDevices на Habr.