HaGRID

Самый большой в мире датасет для распознавания жестов

Датасет

HaGRID предназначен для обучения нейросетевых моделей, которые затем можно внедрять в систему распознавания жестов. Датасет уже используют такие компании как Intel (IceVision) и Google (Mediapipe) в задачах распознавания, а разработчикам Sber с помощью него удалось улучшить качество генерации рук в Kandinsky.
Набор данных HaGRID состоит из 554 800 изображений разделённых на 18 классов жестов. Каждый жест выполняет определённую функцию специфичную для управления системой распознавания жестов. Например, жест CALL может активировать вызов, а жестами LIKE и DISLIKE можно оценивать ролик на Youtube. Датасет содержит изображения от 37 583 уникальных пользователей из разных стран, что делает его очень разнородным относительно характеристик сцен и самих пользователей.

Модели

Вместе с публикацией набора данных, в свободном доступе находятся обученные на HaGRID модели нейронных сетей — для решения задачи детекции кистей рук и отдельно для решения задачи классификации.

Чем полезен датасет

Подходит для создания системы распознавания жестов, которая может быть использована в сервисах видеоконференций, для управления устройствами умного дома или мультимедийными возможностями автомобиля.
Создание виртуальных помощников для пользователей с дефектами речи или использующих язык жестов.
Несмотря на то, что все 18 жестов в наборе данных статичны, с помощью некоторых из них можно спроектировать динамические жесты, что позволит обученной модели распознавать такие манипулятивные жесты как свайп и жест захвата.
HaGRID
Узнайте больше о датасете, изучите подробную инструкцию по использованию и документацию в проекте на GitHub
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.