ym88659208ym87991671
9 минут на чтение
22 февраля 2024

Распознавание объектов на фото и видео

Продукты из этой статьи:

Нейросети умеют распознавать образы на фото. Например, если отдать модели на вход фотографии разных людей, она сможет найти соответствия фотографиям в базе, если обучить модель распознавать мебель, то она отличит стол от шкафа.

У Сбера есть собственная система распознавания Layer, которая умеет работать с изображениями и видео. Платформа может распознать, например, какая одежда на человеке, и найти похожую в каталоге партнёров. Посмотрим, как это работает и какие возможности даёт программа.

Видеозвонки в SberJazz
Общайтесь с друзьями и близкими везде, где есть Интернет

Как работает технология распознавания образов

Нейросети, которые работают с распознаванием образов с картинки, сравнивают данные с базой изображений и ищут соответствия. Работа сервиса распознавания объектов базируется на уникальном алгоритме на основе технологий AI и Computer Vision.

Обнаружение объектов

Перед тем как что-то распознать, это что-то нужно найти на изображении или видео. Для этого используется нейросеть-детектор. Представьте себе сцену из фильма: кроме героев, на экране показаны предметы мебели, здания. Чтобы понять, что конкретно мы видим на изображении, нужен детектор, который разбивает общую картину на отдельные образы.

После того как все объекты найдены через графический распознаватель, этим предметам присваивается какой-то класс. Например, модель может различить одежду, мебель на видео — это разные классы объектов.

Понравился классный столик в кадре? Можно распознать и купить его

Дальше нейросети будут искать в своей базе похожие объекты в зависимости от класса. Определить, какой актёр перед нами или что за предмет мебели в кадре, — задачи для разных нейросетей. В рамках Layer используется также база партнерских товаров, по которой система ищет похожие на распознанные на видео, чтобы обогатить стоп-кадр торговым предложением.

При этом программ-детекторов может быть несколько, каждая берёт на себя какую-то конкретную задачу по поиску образов. В конечном счёте цель — получить как можно больше распознанных объектов с правильно определённым типом.

Отслеживание между кадрами

Здесь мы говорим только про видео, когда система должна находить объекты на меняющихся кадрах. Отслеживание нужно, чтобы не приходилось распознавать объект снова и снова: это экономит много ресурсов программы по распознаванию. Решение позволяет «помнить», что перед нами всё ещё тот же самый предмет.

Для отслеживания уже обнаруженного графического элемента используются специальные нейронные сети, которые присваивают объекту идентификатор и «следят» за ним между кадрами.

Распознавание объекта

После того как программа нашла объект и начала отслеживание, информация о нём передаётся в нейросеть-энкодер, которая распознаёт изображение и ищет в базе аналоги. Так, в рамках Layer возможно распознавание одежды того же цвета и фасона по товарам от партнеров.

Важно упомянуть, что сеть, которая находит похожие образы в базе, работает не с самими изображениями, а с их эмбеддингами. Эмбеддинг — это картинка, преобразованная в ряд чисел по определённому правилу. Сравнивая эти ряды чисел между собой, модель понимает степень похожести изображений — распознаваемого и из базы. Поэтому платье героини сначала превращается в числовой код, и только потом отдаётся в базу данных для поиска аналогичных платьев.

Возможности применения сервиса для бизнеса

Сбер развил идею определения графических объектов, чтобы её можно было использовать в медиапространстве. Так появился сервис Layer, которые позволяет обогащать контент дополнительными данными.

Основная идея в том, чтобы из любого видео — неважно, фильм это, сериал или клип — можно было «вытащить» предметы, которые участвуют в съёмках. Впечатляет? Это уже работает в некоторых видеосервисах. Но обо всех возможностях по порядку.

Layer для e-commerce

Технология Layer будет полезна в e-commerce — для построения рекомендаций к товарам на сайте на основе подбора визуально похожих предложений. С помощью AI система проанализирует каталог и подберёт для пользователя релевантные рекомендации.

Кроме рекомендаций, система может быть использована при модерации изображений — чтобы определить, относится ли заданное изображение к определённому классу.

Если вы продавец, то можете стать партнёром системы, чтобы предлагать свои товары в рамках поиска похожих предложений — это дополнительный способ монетизации. Дальше расскажем, какие товары можно предложить.

Layer для поиска вещи на видео

Первая возможность, которую даёт приложение для распознавания графических объектов, — это поиск вещей. Вот несколько идей, что именно можно находить:

  • Одежда на актёрах. Если понравилась юбка или рубашка на актёре, можно нажать на паузу и посмотреть, что это за вещь и где её можно купить. Нейронная сеть найдёт максимально похожие образцы из магазинов партнёров.
  • Мебель. Предметы интерьера тоже могут быть товаром, который захочет купить зритель. С помощью программы анализа изображений получится найти такой же диван (ну или очень похожий).
  • Аксессуары и декор. Постер, картина, какой-то домашний декор тоже могут быть распознаны, чтобы найти похожее.

Важно понимать, что распознавание ограничивается базой исходных образцов. В частности, в приложение от Сбера включён перечень товаров от компаний-партнёров, на сайте которых можно купить понравившиеся вещи.

В связи с ограниченностью исходной базы, скорее всего, будут найдены не те же товары, но максимально похожие по цвету, форме и другим признакам. Кроме одежды и мебели, Layer от Сбера может распознавать и искать похожую еду. Как насчёт того, чтобы заказать блюдо, которое ест героиня любимого сериала?

В дальнейшем планируется расширять перечень категорий товаров, которые могут распознаваться. Для этого нужно обучать нейронную сеть на новых исходных изображениях, создавать новый класс объектов для определения приложением.

Layer – Image&Video recognition platform
Платформа для распознавания изображений и видео

Распознать место

Ещё одна возможность определения графических объектов — это поиск мест. Можно найти локации из кадра и даже купить туда билеты. А ещё можно определить, в каком городе на самом деле велась съёмка: не всегда кинематографический Париж — это настоящая Франция.

Узнать актёра

Распознавание образов помогает определить, что за актёр сейчас в кадре. Такая функция используется во многих видеосервисах в стоп-кадрах.

В этом сценарии перед нейронной сетью стоит интересная задача: узнать человека с гримом, который может быть не совсем похож на себя в жизни. Здесь задействуется примерно тот же механизм, что и в программах контроля и наблюдения — по ключевым точкам лица определить, что это за актёр.

Технология поиска лиц в кадре поможет узнать актёров в кадре

Распознавание образа в фильме может быть осложнено не только из-за грима, но и из за очков, причёски, бейсболки и так далее. Бывает, что в стоп-кадре актёр стоит вполоборота или его лицо искажено, так как отражает ту или иную эмоцию. Нейронная сеть должна находить соответствия, несмотря на эти помехи.

Преимущества Layer от Сбера

Решение для распознавания графических образов от Сбера выполняет несколько задач:

  • Для того, кто смотрит контент, это лёгкий и нативный поиск понравившихся товаров.
  • Для производителей и поставщиков контента это возможность обогатить его дополнительной информацией и пользой для зрителя.
  • Для бизнеса это новый формат продвижения своих товаров в медиапространстве.

В основе алгоритма лежит собственная масштабная разработка, которая рассчитана на выполнение определённых задач. Мощная AI-разработка позволяет работать с разными типами распознаваемых объектов.

В качестве хранилища объектов Сбер использует товарные каталоги от компаний-партнёров, которые регулярно обновляются и актуализируются. Чем больше новых партнёров, тем шире будут возможности поиска объектов.

Кстати, если при производстве контента предусмотрена интеграция с конкретным брендом, можно сделать ручную привязку товара к кадру.

Партнёры, которые предоставляют свои товары для программы распознавания, могут смотреть аналитику по переходам на их сайты, чтобы понимать эффективность такого необычного канала. Такой же аналитический дашборд есть и для тех, кто размещает контент.

Где может использоваться технология

Выше мы рассмотрели примеры распознавания образов в фильмах или сериалах — это возможность дополнительной монетизации для всех платформ, которые поставляют видеоконтент. Но, кроме них, есть и другие возможности, например:

  • Любые web-сервисы, где есть фото- или видеоконтент (необязательно фильмы или сериалы), могут также обогащать его данными по партнёрским продуктам и зарабатывать на продажах через этот контент.
  • Интернет-магазины могут задействовать приложение для поиска похожих товаров с помощью технологии Visual Search. Можно задействовать как свою базу товаров, так и предложения от партнёров — и также получать дополнительную выручку с реферальных продаж.

Layer может использоваться в любых форматах контента, где возможна связка с товарами брендов. Работает технология по API, она может быть встроена в приложение или веб-сервис с помощью интеграции.

Продукты из этой статьи:

Автор
Редакция developers.sber.ru
Создавайте онлайн-встречи без регистрации
Нужен дополнительный контроль над конференцией? Попробуйте корпоративную версию сервиса с двумя тарифами
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.
ИИ для оптимизации рутинных задач в вашем бизнесе
Используйте возможности нейросетевой модели с помощью GigaChat API