Клиент
Forbes Russia — одно из ведущих деловых изданий России о бизнесе, предпринимательстве и финансах. Редакция Forbes Russia публикует статьи, рейтинги, ведёт рубрики, а также выпускает подкасты и видеоинтервью.
Задача
Перед редакцией подкастов Forbes Russia стояла задача найти решение, которое позволит в рамках подготовки новых выпусков: сэкономить на актёрах озвучки, упростить работу режиссёра и сократить время на производство материалов. Команда хотела проверить гипотезу, что решить эти задачи помогут речевые технологии. Нужно было только найти сервис, который позволит автоматически озвучивать голоса героев подкаста и при этом сохранит высокое качество звучания не только шаблонных и информационных текстов, но и реальных высказываний и прямой речи. Кроме того, для реализации идеи требовалось качественное распознавание, чтобы транскрибировать записи интервью и выделять цитаты.
Возможности
- Качественное распознавание речи.
- Синтез голоса с гибкой разметкой для естественного звучания.
- Библиотека из семи общедоступных женских и мужских голосов на русском и английском языках.
- Интеграция с нейросетевой моделью GigaChat API для упрощения процесса работы с контентом.
Результат
SaluteSpeech помог оптимизировать затраты и сократить время производства подкастов Forbes Russia
Благодаря приложению SaluteSpeech App редакции удалось регулярно выпускать новые серии для своей аудитории и во многих случаях обходится без привлечения актёров озвучивания. Их заменили голоса синтезированных дикторов, которые стали полноценными персонажами и органично вписались в новые выпуски.
Что для этого сделали
Рассказ от команды SaluteSpeech
Осенью 2023 года в Forbes Russia начали использовать приложение SaluteSpeech App для создания подкастов. Простой и понятный интерфейс приложения позволил редакции быстро начать использовать все возможности приложения для создания художественных и документальных проектов. Технология синтеза и голоса из библиотеки YourVoice использовались для маленьких ролей, где привлечение диктора для озвучивания небольшого фрагмента было бы нецелесообразным и дорогим.
В процессе работы режиссёр пытался найти баланс: какое соотношение живых и синтезированных обеспечит плавное и качественное общее звучание. Так, в одном из выпусков все роли озвучила нейросеть. Методом проб и ошибок стало понятно, что лучший баланс — это соотношение примерно 50/50. Причём часто результат зависел даже не от того текста, который нужно было синтезировать, а от самой персоны. Например, Борис Березовский у приложения получился достаточно похожим на оригинал. А вот некоторые роли не удавались совсем, потому что нейросеть, к сожалению, пока не способна точечно интонационно передавать настроение каких-то отдельных слов, которые задают смысл всей фразы. Однако в Forbes Russia отмечают, что гибкая разметка SSML (Speech Synthesis Markup Language) позволила получать более предсказуемый результат, отвечающий изначальному запросу и повысить скорость озвучивания материалов.
Глеб Силко
Продюсер подкастов Forbes Russia
Я синтезирую голоса с помощью приложения SaluteSpeech App уже почти три месяца — и некоторые синтезированные дикторы, стали для меня очень человечными. Выражение «синтезированный Константин» значит для меня не просто некий синтезированный голос, а я знаю, что это мой Константин. Вот именно мой, ведь я ему указываю, что и как делать. И я знаю, что у Константина есть определённые повадки, что некоторые слова даются ему хуже других — ну, такой уж он, дружище! И из бездушных синтезированных героев они стали моими полноценными персонажами.
Планы на будущее
Редакция подкастов Forbes Russia планирует продолжить сотрудничество с командой SberDevices, экспериментировать и наблюдать как всё новые и новые возможности речевых технологий будут менять и совершенствовать их рабочие процессы.
А сейчас предлагаем сделать паузу и помедитировать вместе с заботливой Агатой, которая помогла озвучить в подкасте об осознанности практику из книги Хансона и Мендиуса «Мозг Будды: нейропсихология счастья, любви и мудрости».