Основа ассистентов Салют — это качественные технологии распознавания и синтеза речи. Драйвером развития этих технологий является доступность данных для обучения новых моделей.
SberDevices делает вклад в развитие речевых технологий и публикует в открытом доступе набор размеченных аудиоданных. Это 1240 часов или более одного миллиона коротких записей речи на русском языке и их транскрипций. Аудиофайлы записаны с помощью краудсорсинговой платформы и специальной студии. Каждая обезличенная запись прослушана и размечена вручную.
Помимо данных SberDevices публикует обученную на них модель распознавания речи, которая показывает точность сравнимую с человеческой. Обучения проводились на 16 видеокартах Nvidia V100 в течение 8 дней. Для улучшения распознавания речи мы подготовили языковую модель, построенную на открытых текстах, собранных из Рунета.
SberDevices предоставляет данные по лицензии, допускающей их использование в исследовательских и коммерческих целях