Golos

Модель распознавания русской речи и набор речевых данных

Набор аудиоданных

Основа ассистентов Салют — это качественные технологии распознавания и синтеза речи. Драйвером развития этих технологий является доступность данных для обучения новых моделей.

SberDevices делает вклад в развитие речевых технологий и публикует в открытом доступе набор размеченных аудиоданных. Это 1240 часов или более одного миллиона коротких записей речи на русском языке и их транскрипций. Аудиофайлы записаны с помощью краудсорсинговой платформы и специальной студии. Каждая обезличенная запись прослушана и размечена вручную.

Модель распознавания речи

Помимо данных SberDevices публикует обученную на них модель распознавания речи, которая показывает точность сравнимую с человеческой. Обучения проводились на 16 видеокартах Nvidia V100 в течение 8 дней. Для улучшения распознавания речи мы подготовили языковую модель, построенную на открытых текстах, собранных из Рунета.

SberDevices предоставляет данные по лицензии, допускающей их использование в исследовательских и коммерческих целях

Преимущества

Качественная ручная разметка данных

Каждая запись размечена несколькими людьми

Данные можно использовать для распознавания и синтеза речи

Свободное использование в исследовательских и коммерческих целях

Распространяется по лицензии ShareAlike

Golos

Модель распознавания русской речи и набор речевых данных