Open Source Datasets
Настройте собственный сервис синтеза и распознавания речи с помощью открытых датасетов на русском языке. Все данные и обученные на них акустические модели распознавания речи бесплатны и открыты для скачивания.
Golos
Датасет для распознавания речи на русском языке. Он состоит из аудиозаписей речи и транскрипций, полученных с помощью ручной разметки на краудсорсинговой платформе. Общая длительность записей составляет примерно 1240 часов.
Также доступны триграммные модели KenLM, подготовленные на базе русских текстов из открытого корпуса Common Crawl.
Датасет доступен по ссылке.
Dusha
Бимодальный датасет для распознавания эмоций в речи. В нем около 300 000 аудиозаписей, их расшифровки и метки эмоций. Общая длительность записей составляет примерно 350 часов.
Мы выбрали четыре основные эмоции, которые обычно появляются в диалоге с виртуальным помощником: счастье (позитив), печаль, гнев и нейтральная эмоция.
Датасет доступен по ссылке.