ym88659208ym87991671
Использование открытых датасетов на русском языке для настройки собственного сервиса синтеза и распознавания речи | Документация для разработчиков

Open Source Datasets

Обновлено 30 августа 2023

Настройте собственный сервис синтеза и распознавания речи с помощью открытых датасетов на русском языке. Все данные и обученные на них акустические модели распознавания речи бесплатны и открыты для скачивания.

  • Golos — датасет для распознавания речи.
  • Dusha — датасет для распознавания эмоций.

Golos

Датасет для распознавания речи на русском языке. Он состоит из аудиозаписей речи и транскрипций, полученных с помощью ручной разметки на краудсорсинговой платформе. Общая длительность записей составляет примерно 1240 часов.

Также доступны триграммные модели KenLM, подготовленные на базе русских текстов из открытого корпуса Common Crawl.

Датасет доступен по ссылке.

Dusha

Бимодальный датасет для распознавания эмоций в речи. В нем около 300 000 аудиозаписей, их расшифровки и метки эмоций. Общая длительность записей составляет примерно 350 часов.

Мы выбрали четыре основные эмоции, которые обычно появляются в диалоге с виртуальным помощником: счастье (позитив), печаль, гнев и нейтральная эмоция.

Датасет доступен по ссылке.

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.