Сбер представил датасет для распознавания эмоций в устной речи Dusha

Один из главных трендов речевых технологий сейчас — это развитие эмпатии. Люди хотят говорить с людьми, поэтому чем больше голосовой помощник или робот похож на человека, чем лучше он понимает эмоции собеседника — тем лучше.

При работе с задачами по распознаванию эмоций в устной речи команда SberDevices столкнулась с нехваткой открытых данных на русском языке. Решением стала сборка своего датасета на 320к семплов и 350 часов аудио для исследований и обучения моделей. Dusha помогает определять четыре эмоции: счастье, печаль, гнев и нейтральная эмоция. Сейчас датасет, сырые данные разметки до агрегации и код для обучения бейзлайнов опубликованы в открытом доступе на GitHub и любой желающий может воспользоваться нашими разработками для решения своих задач.

Dusha будет полезен для исследований и построения систем в области распознавания эмоций на русском языке. Он поможет обучить голосовых ассистентов и ботов понимать эмоции собеседника и сделает их более человечными.

Посмотреть репозиторий и воспользоваться наработками можно на GitHub.

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.