6 минут на чтение

13 февраля 2024

13 ноября 2024

Технологии распознавания жестов

Продукты из этой статьи:

Искусственный интеллект, машинное обучение, накопленный опыт работы с Big Data и облачными хранилищами стали толчком к развитию Computer Vision (CV). В последние 10—15 лет компьютеры научились не только видеть различные объекты и людей, но и различать сигналы человеческого тела, которые несут информационную нагрузку, передают смысл и конкретные побуждения к действию.

Что такое распознавание жестов и как это работает

Жесты — это разновидность видеообразов, которые способен видеть компьютер благодаря моделям машинного обучения. Для зрения компьютера руки — сложный объект, они активно жестикулируют, могут перекрывать друг друга, менять форму от раскрытой ладони до кулака, скрещивать пальцы. На руках нет активных точек, как, например, глаза и рот на лице, что мешает естественному восприятию языка движений.

Компьютерная система распознает лицо женщины

Научить машины видеть перемещения в пространстве оказалось непросто. Для начала необходима детекция объекта в кадре. ML-модель выделяет нужный объект на основании специальных критериев и параметров, которые нейросеть получила в процессе обучения.

Технология распознавания жестов работает в режиме реального времени в рамках видеосвязи с умным девайсом через камеру. Чтобы система могла увидеть движущуюся ладонь, она должна находиться на заданном расстоянии от устройства. Так алгоритм отсеивает с изображения объекты, которые не нужно анализировать.

Чтобы распознать пальцы и ладони, машина должна изучить несколько точек в трёхмерной проекции. Она оценивает глубину, высоту и длину каждой из них, сопоставляет их положение. По точкам определяется позиция каждого пальца, формируется их векторное представление. На основе полученных данных нейросеть классифицирует выявленные закономерности, сравнивает наблюдаемый жест со своими внутренними представлениями различных жестов и делает вывод.

Если обработка и анализ информации происходят непосредственно в камере, она называется смарт-камерой. Обычная камера передаёт сигнал на компьютер, где происходят вычислительные действия.

Этапы работы решения:

Система видит картинку через камеру, считывает её и получает цифровое матричное изображение.
Компьютер начинает обработку полученной информации — запускаются различные вычислительные процессы, которые позволяют получить необходимые для анализа данные.
Нейросети приступают к анализу — выделяют объект для обработки и в зависимости от выбранного принципа анализа модель выделяет пиксели, контуры, обнаруживает ключевые точки, сравнивает объекты с шаблонами. После этого модель классифицирует и сегментирует полученные данные.

Существующие принципы обработки и анализа изображений:

Сегментация — компьютер видит изображение как сетку пикселей, каждый из которых имеет различные оттенки. Во время анализа алгоритм сегментирует их для выделения объектов, границ, линий. Каждый пиксель получает свою метку, по которой относится к определённой категории.
Контурный анализ — нейросеть распознаёт графические объекты по их контурам. Метод подходит для поиска объектов заданной формы, но не позволяет анализировать содержимое — внутренние точки, дающие представление о глубине, цвете и других параметрах.
Template matching — принцип поиска на изображении участков, которые соответствуют заданному шаблону.
Feature Detection and Matching — концепция создания абстракции изображения и сравнения её с оригиналом по ключевым точкам для выявления общих черт.

Поиск по шаблонам — наиболее применяемый метод в CV в целом. Он основан на математической интерпретации попиксельного совпадения изображений. Методы, работающие на основе нейросетей, используют миллионы признаков и семантических смыслов, которые сеть запомнила при обучении и непрерывно дополняет. Обучение многослойных нейросетей приведёт к тому, что компьютерное зрение сможет решать сложные задачи, видеть и точно анализировать даже незнакомые объекты.

Видеозвонки в SaluteJazz

Общайтесь с друзьями и близкими везде, где есть Интернет

Типы систем распознавания жестов

Существует две группы систем, распознающих движение ладоней и пальцев. Первая из них включает системы распознавания жестов, основанные на анализе изображения:

Маркерный. Камера распознаёт размещённые на руке маркеры. В зависимости от типа маркеров такие системы бывают магнитные, акустические и оптические.
С одной оптической камерой. Такая система передаёт данные для анализа компьютеру, может иметь датчик скорости, который позволяет видеть быстрые движения. Но угол обзора камеры ограничен.
Стерео- и 3D-камеры. Две и более оптические камеры для получения многомерной картинки. Возможны трудности калибровки.
Сенсоры глубины. Монодатчик глубины устраняет проблемы калибровки и плохого освещения. К таким датчикам относятся, например, ToF-камера или ИК-датчик Microsoft Kinect.

Вторая группа не связана с изображением и получает информацию другими способами:

перчатки;
браслеты;
бесконтактные устройства, работающие по принципу радара.

Компьютерное зрение в целом бывает трёх основных типов:

Двумерное. Это линейное CV, представленное в виде одной камеры. Позволяет определить размеры, цвет объектов, посчитать их количество. Может распознать характер движений и их направление.
Трёхмерное. Реализуется двумя камерами, где картинка оценивается в двух проекциях, которые затем накладываются друг на друга. Регулировка расстояния между двумя записывающими устройствами меняет глубину охвата всей экспозиции. Таким же образом работают человеческие глаза.
Многомерное. У нейросети нет ограничений на размерность пространства, как у человека, и она может анализировать даже десятимерное пространство.

Отдельная категория — панорамные и сферические системы. Панорамные, или «рыбий глаз», применяются, например, в беспилотных автомобилях для охвата большего пространства. Классический пример сферического CV — трансляция местности в онлайн-картах.

Виртуальные ассистенты Салют от Сбер созданы на базе технологий искусственного интеллекта и ML-моделей. Они умеют анализировать изображения, записанные через умную камеру в девайсах. Распознавание с помощью умной камеры доступно на устройствах Sber — SberPortal и SberBox Top. Инструменты от Sber, среди прочих возможностей компьютерного зрения, позволяют внедрить опцию жестового управления в приложения Native App.

Создайте своего чат-бота в Telegram

Простая настройка чат-бота в личном кабинете Цифровой витрины

Использование технологии

Ещё в конце прошлого столетия компьютерное зрение было доступно только исследовательским центрам и крупным корпорациям. Оборудование для распознавания стоило десятки тысяч долларов и применялось ограниченным кругом компаний.

Развитие IT-сферы вывело CV в категорию доступных инструментов для государства, бизнеса, простых пользователей. Камеры на дорогах следят за нарушением скоростного режима, сервис «Умный город» помогает быстро разыскивать преступников. А умными устройствами теперь можно управлять с помощью жестов.

Жестовое управление интерфейсами помогло решить сразу несколько задач:

повысить лояльность и интерес пользователей;
оптимизировать и сделать удобнее взаимодействие с различными устройствами;
увеличить полезную зону экрана, убрав кнопки управления.

Распознавание жестов руки используют в работе виртуальных ассистентов, для сурдоперевода, в приложениях с дополненной реальностью, развлекательных сервисах. Все возможности трёхмерного CV применяют в 3D-фильмах, в AR и VR-играх, в программах определения лиц, на крупных производствах для контроля процессов.

Sber предлагает разработчикам приложений для ассистентов Салют внедрить в свои продукты жестовое управление и другие функции компьютерного зрения. Computer Vision API — это библиотека, которая открывает доступ к сервису распознавания образов.

Предоставляет опции:

трекинг лица и тела;
распознавание лица по 5 точкам — глазам, носу и уголкам губ;
17 точек для определения позы и положения тела;
отделение тела от фона;
набор жестов.

С инструментами библиотеки интерфейсы нативных приложений, которые работают на SberPortal и SberBox Top, смогут управляться жестовыми движениями:

символ V пальцами для активации ассистента;
ладонь в кадре — знак «стоп»;
оценка «лайком» или «дизлайком» музыки и видео в стриминговых сервисах;
палец у рта — знак «тихо», выключает звук;
«OK» пальцами — команда ввода.

Кроме того, библиотека позволяет использовать:

трекинг передвижений спикера в кадре во время видеозвонков;
разграничение доступа к настройкам и контенту для различных членов семьи и сотрудников через распознавание лиц;
компьютерное видение движений человека, который повторяет танец с экрана, для танцевальных AR-игр.

Пользователи умных девайсов могут оценить не только удобство, но и пользу компьютерного зрения. Например, с набором Kidsar SberPortal становится полноценной развивающей платформой для детей. Специальное зеркало меняет угол обзора камеры — она видит расположенные на столе карточки с заданиями и действия ребёнка.

Программа контролирует правильность выполнения заданий, оживляет на экране созданные поделки. А ребёнок, который ещё не умеет читать, сможет управлять приложениями голосом или жестами.

Компьютерное зрение охватывает всё больше сфер. В сельском хозяйстве дроны следят за полями, в промышленности роботы контролируют производство, в крупных торговых сетях камеры отслеживают наличие товаров на полках. Решение применяют даже экоактивисты: например, с помощью умных устройств отслеживают популяцию амурских тигров. Закономерно, что компьютерное зрение нашло спрос и среди обычных пользователей, поэтому распознавание жестов — логичное и перспективное направление развития CV.

Продукты из этой статьи:

Computer Vision Api

Автор

Редакция developers.sber.ru

Оцените статью

Создавайте онлайн-встречи без регистрации

Нужен дополнительный контроль над конференцией? Попробуйте корпоративную версию сервиса с двумя тарифами

Ещё по теме

AR и VR

Что такое AR и VR

Сходства и различия виртуальной и дополненной реальности

AR и VR

Игры и приложения с AR

Как привлекать клиентов при помощи AR

Что такое распознавание жестов и как это работает
Типы систем распознавания жестов
Использование технологии

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.