Продукты из этой статьи:
Искусственный интеллект, машинное обучение, накопленный опыт работы с Big Data и облачными хранилищами стали толчком к развитию Computer Vision (CV). В последние 10—15 лет компьютеры научились не только видеть различные объекты и людей, но и различать сигналы человеческого тела, которые несут информационную нагрузку, передают смысл и конкретные побуждения к действию.
Жесты — это разновидность видеообразов, которые способен видеть компьютер благодаря моделям машинного обучения. Для зрения компьютера руки — сложный объект, они активно жестикулируют, могут перекрывать друг друга, менять форму от раскрытой ладони до кулака, скрещивать пальцы. На руках нет активных точек, как, например, глаза и рот на лице, что мешает естественному восприятию языка движений.
Научить машины видеть перемещения в пространстве оказалось непросто. Для начала необходима детекция объекта в кадре. ML-модель выделяет нужный объект на основании специальных критериев и параметров, которые нейросеть получила в процессе обучения.
Технология распознавания жестов работает в режиме реального времени в рамках видеосвязи с умным девайсом через камеру. Чтобы система могла увидеть движущуюся ладонь, она должна находиться на заданном расстоянии от устройства. Так алгоритм отсеивает с изображения объекты, которые не нужно анализировать.
Чтобы распознать пальцы и ладони, машина должна изучить несколько точек в трёхмерной проекции. Она оценивает глубину, высоту и длину каждой из них, сопоставляет их положение. По точкам определяется позиция каждого пальца, формируется их векторное представление. На основе полученных данных нейросеть классифицирует выявленные закономерности, сравнивает наблюдаемый жест со своими внутренними представлениями различных жестов и делает вывод.
Если обработка и анализ информации происходят непосредственно в камере, она называется смарт-камерой. Обычная камера передаёт сигнал на компьютер, где происходят вычислительные действия.
Этапы работы решения:
Существующие принципы обработки и анализа изображений:
Поиск по шаблонам — наиболее применяемый метод в CV в целом. Он основан на математической интерпретации попиксельного совпадения изображений. Методы, работающие на основе нейросетей, используют миллионы признаков и семантических смыслов, которые сеть запомнила при обучении и непрерывно дополняет. Обучение многослойных нейросетей приведёт к тому, что компьютерное зрение сможет решать сложные задачи, видеть и точно анализировать даже незнакомые объекты.
Существует две группы систем, распознающих движение ладоней и пальцев. Первая из них включает системы распознавания жестов, основанные на анализе изображения:
Вторая группа не связана с изображением и получает информацию другими способами:
Компьютерное зрение в целом бывает трёх основных типов:
Отдельная категория — панорамные и сферические системы. Панорамные, или «рыбий глаз», применяются, например, в беспилотных автомобилях для охвата большего пространства. Классический пример сферического CV — трансляция местности в онлайн-картах.
Виртуальные ассистенты Салют от Сбер созданы на базе технологий искусственного интеллекта и ML-моделей. Они умеют анализировать изображения, записанные через умную камеру в девайсах. Распознавание с помощью умной камеры доступно на устройствах Sber — SberPortal и SberBox Top. Инструменты от Sber, среди прочих возможностей компьютерного зрения, позволяют внедрить опцию жестового управления в приложения Native App.
Ещё в конце прошлого столетия компьютерное зрение было доступно только исследовательским центрам и крупным корпорациям. Оборудование для распознавания стоило десятки тысяч долларов и применялось ограниченным кругом компаний.
Развитие IT-сферы вывело CV в категорию доступных инструментов для государства, бизнеса, простых пользователей. Камеры на дорогах следят за нарушением скоростного режима, сервис «Умный город» помогает быстро разыскивать преступников. А умными устройствами теперь можно управлять с помощью жестов.
Жестовое управление интерфейсами помогло решить сразу несколько задач:
Распознавание жестов руки используют в работе виртуальных ассистентов, для сурдоперевода, в приложениях с дополненной реальностью, развлекательных сервисах. Все возможности трёхмерного CV применяют в 3D-фильмах, в AR и VR-играх, в программах определения лиц, на крупных производствах для контроля процессов.
Sber предлагает разработчикам приложений для ассистентов Салют внедрить в свои продукты жестовое управление и другие функции компьютерного зрения. Computer Vision API — это библиотека, которая открывает доступ к сервису распознавания образов.
Предоставляет опции:
С инструментами библиотеки интерфейсы нативных приложений, которые работают на SberPortal и SberBox Top, смогут управляться жестовыми движениями:
Кроме того, библиотека позволяет использовать:
Пользователи умных девайсов могут оценить не только удобство, но и пользу компьютерного зрения. Например, с набором Kidsar SberPortal становится полноценной развивающей платформой для детей. Специальное зеркало меняет угол обзора камеры — она видит расположенные на столе карточки с заданиями и действия ребёнка.
Программа контролирует правильность выполнения заданий, оживляет на экране созданные поделки. А ребёнок, который ещё не умеет читать, сможет управлять приложениями голосом или жестами.
Компьютерное зрение охватывает всё больше сфер. В сельском хозяйстве дроны следят за полями, в промышленности роботы контролируют производство, в крупных торговых сетях камеры отслеживают наличие товаров на полках. Решение применяют даже экоактивисты: например, с помощью умных устройств отслеживают популяцию амурских тигров. Закономерно, что компьютерное зрение нашло спрос и среди обычных пользователей, поэтому распознавание жестов — логичное и перспективное направление развития CV.
Продукты из этой статьи: