Продукты из этой статьи:
Нейросети умеют распознавать образы на фото. Например, если отдать модели на вход фотографии разных людей, она сможет найти соответствия фотографиям в базе, если обучить модель распознавать мебель, то она отличит стол от шкафа.
У Сбера есть собственная система распознавания Layer, которая умеет работать с изображениями и видео. Платформа может распознать, например, какая одежда на человеке, и найти похожую в каталоге партнёров. Посмотрим, как это работает и какие возможности даёт программа.
Нейросети, которые работают с распознаванием образов с картинки, сравнивают данные с базой изображений и ищут соответствия. Работа сервиса распознавания объектов базируется на уникальном алгоритме на основе технологий AI и Computer Vision.
Перед тем как что-то распознать, это что-то нужно найти на изображении или видео. Для этого используется нейросеть-детектор. Представьте себе сцену из фильма: кроме героев, на экране показаны предметы мебели, здания. Чтобы понять, что конкретно мы видим на изображении, нужен детектор, который разбивает общую картину на отдельные образы.
После того как все объекты найдены через графический распознаватель, этим предметам присваивается какой-то класс. Например, модель может различить одежду, мебель на видео — это разные классы объектов.
Дальше нейросети будут искать в своей базе похожие объекты в зависимости от класса. Определить, какой актёр перед нами или что за предмет мебели в кадре, — задачи для разных нейросетей. В рамках Layer используется также база партнерских товаров, по которой система ищет похожие на распознанные на видео, чтобы обогатить стоп-кадр торговым предложением.
При этом программ-детекторов может быть несколько, каждая берёт на себя какую-то конкретную задачу по поиску образов. В конечном счёте цель — получить как можно больше распознанных объектов с правильно определённым типом.
Здесь мы говорим только про видео, когда система должна находить объекты на меняющихся кадрах. Отслеживание нужно, чтобы не приходилось распознавать объект снова и снова: это экономит много ресурсов программы по распознаванию. Решение позволяет «помнить», что перед нами всё ещё тот же самый предмет.
Для отслеживания уже обнаруженного графического элемента используются специальные нейронные сети, которые присваивают объекту идентификатор и «следят» за ним между кадрами.
После того как программа нашла объект и начала отслеживание, информация о нём передаётся в нейросеть-энкодер, которая распознаёт изображение и ищет в базе аналоги. Так, в рамках Layer возможно распознавание одежды того же цвета и фасона по товарам от партнеров.
Важно упомянуть, что сеть, которая находит похожие образы в базе, работает не с самими изображениями, а с их эмбеддингами. Эмбеддинг — это картинка, преобразованная в ряд чисел по определённому правилу. Сравнивая эти ряды чисел между собой, модель понимает степень похожести изображений — распознаваемого и из базы. Поэтому платье героини сначала превращается в числовой код, и только потом отдаётся в базу данных для поиска аналогичных платьев.
Сбер развил идею определения графических объектов, чтобы её можно было использовать в медиапространстве. Так появился сервис Layer, которые позволяет обогащать контент дополнительными данными.
Основная идея в том, чтобы из любого видео — неважно, фильм это, сериал или клип — можно было «вытащить» предметы, которые участвуют в съёмках. Впечатляет? Это уже работает в некоторых видеосервисах. Но обо всех возможностях по порядку.
Технология Layer будет полезна в e-commerce — для построения рекомендаций к товарам на сайте на основе подбора визуально похожих предложений. С помощью AI система проанализирует каталог и подберёт для пользователя релевантные рекомендации.
Кроме рекомендаций, система может быть использована при модерации изображений — чтобы определить, относится ли заданное изображение к определённому классу.
Если вы продавец, то можете стать партнёром системы, чтобы предлагать свои товары в рамках поиска похожих предложений — это дополнительный способ монетизации. Дальше расскажем, какие товары можно предложить.
Первая возможность, которую даёт приложение для распознавания графических объектов, — это поиск вещей. Вот несколько идей, что именно можно находить:
Важно понимать, что распознавание ограничивается базой исходных образцов. В частности, в приложение от Сбера включён перечень товаров от компаний-партнёров, на сайте которых можно купить понравившиеся вещи.
В связи с ограниченностью исходной базы, скорее всего, будут найдены не те же товары, но максимально похожие по цвету, форме и другим признакам. Кроме одежды и мебели, Layer от Сбера может распознавать и искать похожую еду. Как насчёт того, чтобы заказать блюдо, которое ест героиня любимого сериала?
В дальнейшем планируется расширять перечень категорий товаров, которые могут распознаваться. Для этого нужно обучать нейронную сеть на новых исходных изображениях, создавать новый класс объектов для определения приложением.
Ещё одна возможность определения графических объектов — это поиск мест. Можно найти локации из кадра и даже купить туда билеты. А ещё можно определить, в каком городе на самом деле велась съёмка: не всегда кинематографический Париж — это настоящая Франция.
Распознавание образов помогает определить, что за актёр сейчас в кадре. Такая функция используется во многих видеосервисах в стоп-кадрах.
В этом сценарии перед нейронной сетью стоит интересная задача: узнать человека с гримом, который может быть не совсем похож на себя в жизни. Здесь задействуется примерно тот же механизм, что и в программах контроля и наблюдения — по ключевым точкам лица определить, что это за актёр.
Распознавание образа в фильме может быть осложнено не только из-за грима, но и из за очков, причёски, бейсболки и так далее. Бывает, что в стоп-кадре актёр стоит вполоборота или его лицо искажено, так как отражает ту или иную эмоцию. Нейронная сеть должна находить соответствия, несмотря на эти помехи.
Решение для распознавания графических образов от Сбера выполняет несколько задач:
В основе алгоритма лежит собственная масштабная разработка, которая рассчитана на выполнение определённых задач. Мощная AI-разработка позволяет работать с разными типами распознаваемых объектов.
В качестве хранилища объектов Сбер использует товарные каталоги от компаний-партнёров, которые регулярно обновляются и актуализируются. Чем больше новых партнёров, тем шире будут возможности поиска объектов.
Партнёры, которые предоставляют свои товары для программы распознавания, могут смотреть аналитику по переходам на их сайты, чтобы понимать эффективность такого необычного канала. Такой же аналитический дашборд есть и для тех, кто размещает контент.
Выше мы рассмотрели примеры распознавания образов в фильмах или сериалах — это возможность дополнительной монетизации для всех платформ, которые поставляют видеоконтент. Но, кроме них, есть и другие возможности, например:
Layer может использоваться в любых форматах контента, где возможна связка с товарами брендов. Работает технология по API, она может быть встроена в приложение или веб-сервис с помощью интеграции.
Продукты из этой статьи: