Продукты из этой статьи:
Современные IT-решения уже давно способны преобразовывать устную речь в текст. Но часто бизнес нуждается в противоположном — переводе текстовой записи в аудио.
В статье мы расскажем, какие технологии позволяют воспроизводить текст голосом и как они могут облегчить работу бизнеса.
Синтез — это объединение различных элементов в единое целое, создание чего-то нового на основе уже существующего. Основными компонентами таких систем являются синтезаторы речи. Они используют алгоритмы обработки сигналов для преобразования текстовой информации в аудиосигнал, воспроизводящий речь.
Синтезаторы речи применяются во многих устройствах, от смартфонов до систем навигации и воспроизводят текст с помощью сгенерированного голоса, имитирующего человеческий.
Синтез речи — это технология, которая помогает озвучивать текст. Иногда вместо термина «синтез речи» используют аббревиатуру TTS, которая расшифровывается как Text-to-Speech.
Есть множество методов синтеза речи, но наибольшее значение имеют две группы технологий: конкатенация и синтез по параметрам с использованием глубоких нейронных сетей.
При конкатенации синтезатор голоса использует предварительно записанные звуки, слова и фразы. Это огромный массив записей, ведь звучание каждого фрагмента зависит от фонетического окружения. Синтезированная речь получается довольно качественной, хотя и с некоторыми недостатками: монотонностью и артефактами на стыке фрагментов.
Синтез на основе глубокого обучения стал активно развиваться примерно с 2016 года. Сегодня созданная этим методом речь практически не отличается от натуральной.
Что нужно, чтобы воспроизведение текста голосом стало возможным? Расскажем, как устроен синтез речи.
Чтобы подготовить TTS-систему, нужен датасет для обучения нейросети. Сначала создаются аудиозаписи с разными голосами и темами, дальше они обрабатываются разметчиками и превращаются в датасет, на котором сеть и обучается.
Печатный текст состоит из букв, слов, а аудиозапись можно разобрать на мелкие фрагменты, каждый из которых имеет свой «рисунок» на дорожке аудиозаписи — спектрограмме. Задача нейросети в том, чтобы сначала научиться устанавливать соответствие «рисунка» аудиозаписи тексту, а потом научиться воспроизводить текст по этим примерам самостоятельно.
Чтобы синтезированная речь не была роботоподобной, к обучению подключаются дополнительные модели: например, модель, которая обучается предсказанию, где по тексту нужно сделать смысловую паузу, или модель, которая работает над интонацией (создаёт в нужных местах повышение-понижение тона и громкости).
Для более человекоподобной речи также важно, чтобы алгоритм синтеза включал в себя понимание контекста. В этом случае конечная интонация исходит не только из знаков препинания и пауз, а ещё и из смысла текста.
Если робот говорит механически, без эмоций, с ошибками произношения, он будет вызывать настороженность, а то и неприятие со стороны тех, кто его слушает. Чтобы синтезированный голос звучал натурально, нужно учесть тонкости языка и подключить к обработке нейросети.
Выполнить все эти действия невозможно, если искусственный интеллект не понимает контекста. Для этого в SberDevices используют языковую модель BERT, предварительно обученную русскому языку на большом количестве текстов. Технологии Сбера, включающие синтезаторы голоса, реализованы с помощью нейросети Tacotron 2 от Google и вокодера LPCNet, который озвучивает предсказанные сетью спектрограммы.
Речевые технологии Text-to-Speech (TTS) можно применять в самых разных областях.
Технологии с синтезатором речи можно использовать, чтобы озвучивать тексты разного формата и объёма без специального оборудования. Это пригодится для чтения лекций и создания аудиокниг — не придётся платить профессиональным дикторам.
С помощью технологии, которая включает в себя синтезатор речи, можно озвучить навигационные элементы на сайтах — онлайн-чаты, описания товаров или инструкции. Это особенно удобно для слабовидящих людей. Также можно озвучивать приложения и сервисы.
В чём плюс? Вы сможете повысить лояльность потребителей и привлечь новую аудиторию. Например, родителей с маленькими детьми, которые используют обучающие приложения, или водителей, или просто всех тех, кто привык воспринимать информацию на слух.
Наличием автоответчика сейчас никого не удивишь, но одно дело, когда вам отвечает шаблонный безэмоциональный робот, другое — уникальные голоса реальных людей. Подключив технологию с синтезатором речи, вы сможете выбрать любое озвучивание из библиотеки.
Вы сможете оптимизировать работу менеджеров, повысить их производительность, избежать необходимости увеличить штат. Технологии SaluteSpeech способны распознавать речь в телефонии.
Благодаря этому голосовые помощники смогут не только рассказать об ассортименте компании или спецпредложениях, но и ответить на вопросы в зависимости от ситуации. Это помогает решить проблему звонящего без участия оператора.
Благодаря технологии Text to speech (TTS) можно смотреть зарубежные фильмы и видео на языке оригинала. Подключите сервис распознавания текста и смотрите кино, лекции и другой видеоконтент с автоматическим голосовым переводом.
Вы сможете создать голосового помощника и внедрить его в своё приложение. Виртуальный ассистент упрощает рутинные действия и отвечает на вопросы пользователей. Это повысит лояльность клиентов, так как они смогут мгновенно получить ответ и не ждать оператора.
Cовременные технологии Text to speech (TTS) делают голосовых помощников «человечнее», помогают им разговаривать более эмоционально и естественно.
Эти технологии часто используют в голосовых системах навигации.
SaluteSpeech — это российская платформа от Сбера, позволяющая распознавать (ASR) и синтезировать речь (TTS). Ниже её главные особенности.
Благодаря GPU-based системе, разработанной Сбером, речь распознаётся уникальным декодером, акустической и речевой моделями. В результате достигается точность распознавания слов, близкая к человеческой.
Используемые в синтезе голоса модели постоянно обучаются, поэтому с каждым новым обновлением становится меньше фонетических ошибок. Технологии сервиса SaluteSpeech способны правильно расставлять ударения в словах, определять интонацию, паузы, букву «ё», а также озвучивать цифры, адреса и названия.
С помощью сервиса SaluteSpeech вы сможете выбрать готовый голос из каталога или создать собственный, уникальный, который станет голосом вашего бренда.
Например, в каталоге готовых голосов вы можете найти следующие варианты:
Чтобы подготовить уникальный голос для вашего бренда, нужна трёхчасовая запись речи диктора и месяц на создание синтеза. Диктором может быть любой человек, с которым вы хотите ассоциировать компанию, — популярная личность, один из сотрудников или генеральный директор. С синтезом вы сможете озвучивать тексты любой сложности, снижая финансовые и временные затраты на новые сценарии. С помощью технологии TTS можно озвучить выбранным или созданным голосом любой текст. Это позволяет экономить бизнесу время, финансовые и другие ресурсы, необходимые для синтеза и озвучивания контента.
Технологии SaluteSpeech включают не только синтезатор для преобразования текста в аудио, но и, наоборот, решение для распознавания английской и русской речи. Оно называется ASR — Automatic Speech Recognition. Технология умеет игнорировать фоновый шум, определять знаки препинания и паузы и даже распознавать эмоции пользователя.
Помимо технологий распознавания, в Сбере работают и над шумоподавлением. Протестировать эту функцию можно с помощью бота-денойзера в Телеграме. Вы заходите в чат с @salute_voice_bot, записываете голосовое сообщение, бот автоматически за считанные секунды очищает его от всех посторонних шумов, убирает лишние паузы и возвращает вам пригодным для отправки коллегам. Вам остается переслать готовое голосовое сообщение в рабочий или личный чат.
Например, нейросеть отделит вашу фразу от шума телевизора на фоне. Также робот не перебивает пользователей и дослушивает предложение до конца. А ещё можно сократить время ожидания ответа голосового помощника, если вам необходим короткий ответ.
Расскажем, в каких областях можно применять технологию.
Можно расшифровывать лекции и протоколы совещаний, добавлять в видеозапись субтитры, обрабатывать тысячи телефонных звонков и многое другое.
С помощью SaluteSpeech можно проанализировать общение персонала с клиентами в офисах обслуживания и по телефону. Технология возвращает более 300 речевых характеристик диалогов (скорость речи, эмоции, тишину и т. д.) и оценивает удовлетворённость клиентов (CSI, Customer Satisfaction Index) для 100% телефонных разговоров. Это позволяет решать разные задачи — от повышения качества обслуживания и роста лояльности целевой аудитории до снижения оттока и прогнозирования выгорания операторов.
Вы сможете без специального оборудования внедрить голосовое управление в работу кол-центра. Технологии платформы SaluteSpeech — одни из самых быстрых на рынке. Поэтому они справляются с распознаванием потокового аудио. С помощью дополнительной платформы процессинга языка SmartNLP сервис умеет распознавать контекст и определять потребности пользователя, а вот как на этот запрос ответить, определяет решение, позволяющее строить диалоговые сценарии. Благодаря этому виртуальные ассистенты Салют умеют переводить деньги, сообщать баланс карты или адрес ближайшего банкомата и многое другое.
Запустите личного виртуального помощника с технологиями ASR и TTS с уникальным голосом вашего бренда. Он сможет отвечать клиентам в режиме 24/7 и оперативно решать их проблемы.
Чтобы подключить сервис SaluteSpeech, необходимо следующее:
Чтобы получить доступ к SaluteSpeech API, нужно авторизоваться в личном кабинете Цифровой витрины. После прохождения верификации вы сможете создать проект в корпоративном пространстве.
Подробнее можно прочитать в разделе «Подключение».
Для аутентификации в сервисе необходимо получить токен (access_token).
Чтобы подключить API:
Получите Client ID.
Сгенерируйте Client Secret.
Добавьте access token в сервис для вызова API.
Отправляйте запросы в сервис SaluteSpeech, используя access token.
Подробную инструкцию можно найти в разделе "Аутентификация".
Голосовые помощники с синтезаторами речи могут оптимизировать работу практически любого бизнеса — взять на себя большую часть рутинных задач операторов кол-центров, улучшить обслуживание клиентов, снизить расходы на дикторов и транскрибаторов и т. д. Поэтому рекомендуем как можно скорее внедрить технологии Text to speech в вашу работу.
Продукты из этой статьи: