Датасет Golos от Сбера — модель распознавания русской речи и набор речевых данных

Набор аудиоданных

Основа ассистентов Салют — это качественные технологии распознавания и синтеза речи. Драйвером развития этих технологий является доступность данных для обучения новых моделей.

SberDevices делает вклад в развитие речевых технологий и публикует в открытом доступе набор размеченных аудиоданных. Это 1240 часов или более одного миллиона коротких записей речи на русском языке и их транскрипций. Аудиофайлы записаны с помощью краудсорсинговой платформы и специальной студии. Каждая обезличенная запись прослушана и размечена вручную.

Модель распознавания речи

Помимо данных SberDevices публикует обученную на них модель распознавания речи, которая показывает точность сравнимую с человеческой. Обучения проводились на 16 видеокартах Nvidia V100 в течение 8 дней. Для улучшения распознавания речи мы подготовили языковую модель, построенную на открытых текстах, собранных из Рунета.

SberDevices предоставляет данные по лицензии, допускающей их использование в исследовательских и коммерческих целях

Преимущества

Качественная ручная разметка данных

Каждая запись размечена несколькими людьми

Данные можно использовать для распознавания и синтеза речи

Свободное использование в исследовательских и коммерческих целях

Распространяется по лицензии ShareAlike

Вопросы и ответы

Для чего можно использовать набор аудиоданных?

Golos — это 1240 часов или более одного миллиона коротких записей речи на русском языке и их транскрипций. Их можно использовать для синтеза и распознавания речи в некоммерческих проектах и для бизнеса.

Как проверялись данные?

Каждую запись размечали несколько человек, это помогло максимально избежать ошибок.

Как использовать языковую модель Golos?

Развернуть и обучить модель можно на инфраструктуре SberCloud в ML Space — платформе разработки полного цикла машинного обучения для совместной работы DS-teams на базе Christofari.

С этим продуктом смотрят

Попробуйте SaluteJazz

Общайтесь с друзьями и коллегами без ограничений по времени

SaluteSpeech

Озвучка текста и распознавание речи

Чат‑бот SaluteBot

Усовершенствуйте общение с клиентами с помощью чат‑ботов

Golos

Модель распознавания русской речи и набор речевых данных