ym88659208ym87991671
Открытые данные | Документация для разработчиков
Skip to main content

Открытые данные

Обновлено 12 сентября 2022

Golos — это датасет для распознавания речи на русском языке. Он состоит из аудиозаписей речи и транскрипций, полученных с помощью ручной разметки на краудсорсинговой платформе. Общая длительность записей составляет примерно 1240 часов. Все данные и обученные на них акустические модели распознавания речи бесплатны и открыты для скачивания. Также доступны триграммные модели KenLM, подготовленные при помощи русских текстов из открытого корпуса Common Crawl.

Структура датасета

В датасете есть следующие домены:

  1. Crowd

Обучающих записей — 979 796 шт. общей длительностью 9 994 часов.

Тестовых записей — 9 994 шт. общей длительностью 11,2 часов.

  1. Farfield

Обучающих записей — 124 003 шт. общей длительностью 132,4 часов.

Тестовых записей — 1 916 шт. общей длительностью 1,4 часов.

Скачать

Аудиофайлы в формате opus

Вы можете скачать аудиофайлы в формате opus в виде архива размером 20,5 Gb.

Аудиофайлы в формате wav

Файл с транскрипциями записей всего обучающего подмножества доступен в архиве train_crowd9.tar размером 8,08 Gb.

Прочие аудиофайлы в формате wav:

Акустические и языковые модели

Акустическая модель на основе архитектуры QuartzNet15x5 обучена с использованием NeMo toolkit.

Три n-грамные языковые модели (LM) подготовлены с использованием KenLM Language Model Toolkit.

  • LM на русских текстах корпуса Common Crawl.
  • LM на текстах транскрипций обучающей подвыборки Golos.
  • LM на русских текстах Common Crawl и транскрипциях Golos вместе (50/50).
АрхивыРазмер
QuartzNet15x5_golos.nemo68 MB
KenLMs.tar4.8 Gb

Все данные и модели Golos также доступны в хранилище DataHub ML Space. Там распологаются предобученные модели, датасеты и Docker-образы.

Оценка качества

Процент ошибки распознавания WER (Word Error Rate) для разных тестовых данных.

Декодер / Тестовые данныеCrowd testFarfield testMCV devMCV test
Greedy decoder4,389%14,949%9,314%11,278%
Beam Search + Common Crawl LM4,709%12,503%6,341%7,976%
Beam Search + Golos training LM3,548%12,384%
Beam Search + Common Crawl and Golos LM3,318%11,488%6,4%8,06%
note

MCV — Mozilla Common Voice — проект компании Mozilla по сбору данных для автоматического распознавания речи.

Полезные ссылки

Лицензия

Вы можете ознакомиться с Публичной лицензией.

Авторы

  • Александр Денисенко.
  • Ангелина Коваленко.
  • Николай Карпов.
  • Федор Минькин.

Контакты

По всем вопросам пишите на электронную почту SmartSpeech@sberbank.ru.

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней