О датасете
Dusha подходит для распознавания эмоций в устной речи на русском языке. Набор данных состоит из более 300 000 аудиозаписей с расшифровками и эмоциональными метками. Длительность составляет около 350 часов аудио. Команда выбрала четыре основных эмоции, которые обычно появляются в диалоге с голосыми помощником: радость, грусть, злость и нейтральную эмоцию.
Dusha подойдет как для серьёзных научных исследований, так и при написании курсовых работ или реализации небольших авторских проектов.
Также технология распознавания эмоций используется на платформе SaluteSpeech и в сервисе SaluteSpeech Insights.
Данные в архивах:
- Неагрегированная разметка и аудиосемплы.
- Предпосчитанные Mel-filterbank признаки для всех аудиосемплов.
- Агрегированная разметка, разбитая на train и test.
Код и Docker-образ:
- Чтобы воспроизвести предложенную агрегацию разметки или попробовать свою.
- Чтобы обучить базовую модель или работать над собственной.