Датасет
Для создания системы распознавания жестового языка требуются большое количество данных. Учитывая специфику задачи, данные могут иметь только один вид — видео в высоком качестве.
SberDevices первыми в России публикует в открытый доступ самый большой набор данных Slovo для распознавания Русского Жестового Языка. Датасет состоит из 20400 FullHD видео, разделён на 1000 уникальных классов, включая дактильную азбуку (буквы) и записан с помощью 194 носителей и экспертов РЖЯ. Данные собирались и валидировались с помощью двух разных краудсорсинговых платформ, разными группами экспертов, для избежания самопроверки и повышения качества финального набора.
Модели
SignFlow — семейство моделей для распознавания жестового языка
Вместе с публикацией датасета, SberDevices представляет семейство моделей SignFlow, которое включает в себя модели Русского и Американского жестовых языков. Это первые в России модели для решения задачи перевода отдельных жестов в слова в режиме реального времени.
Видеословарь для изучения русского жестового языка — signflow.ru
Социально-образовательный некоммерческий проект Сбера и АНО ДПО «Центр образования и исследования жестового языка»
- Около 400 жестов в словаре, регулярное расширение носителями РЖЯ
- Видео в высоком качестве и с двух ракурсов
Достижения
Не одним русским жестовым языком ограничены. Нейросетевая модель SignFlow-A, предобученная на датасете Slovo, заняла первое место на бенчмарке задачи распознавания американского жестового языка WLASL-2000 с качеством 63,3% по метрике точности.
В 2023 году в рамках AI Journey Contest было проведено соревнование Equal AI, где участники, создавая лучшие модели и подходы для задачи распознавания жестового языка, боролись за призовой фонд в 2 000 000 рублей.