Что такое синтез речи

7 минут на чтение

13 февраля 2024

23 сентября 2025

Что такое синтез речи

Продукты из этой статьи:

SaluteSpeech

SaluteSpeech YourVoice

Golos

Современные IT-решения уже давно способны преобразовывать устную речь в текст. Но часто бизнес нуждается в противоположном — переводе текстовой записи в аудио.

В статье мы расскажем, какие технологии позволяют воспроизводить текст голосом и как они могут облегчить работу бизнеса.

Распознавание и синтез речи

Что такое TTS и синтез речи

Синтез — это объединение различных элементов в единое целое, создание чего-то нового на основе уже существующего. Основными компонентами таких систем являются синтезаторы речи. Они используют алгоритмы обработки сигналов для преобразования текстовой информации в аудиосигнал, воспроизводящий речь.

Синтезаторы речи применяются во многих устройствах, от смартфонов до систем навигации и воспроизводят текст с помощью сгенерированного голоса, имитирующего человеческий.

Синтез речи — это технология, которая помогает озвучивать текст. Иногда вместо термина «синтез речи» используют аббревиатуру TTS, которая расшифровывается как Text-to-Speech.

Есть множество методов синтеза речи, но наибольшее значение имеют две группы технологий: конкатенация и синтез по параметрам с использованием глубоких нейронных сетей.

При конкатенации синтезатор голоса использует предварительно записанные звуки, слова и фразы. Это огромный массив записей, ведь звучание каждого фрагмента зависит от фонетического окружения. Синтезированная речь получается довольно качественной, хотя и с некоторыми недостатками: монотонностью и артефактами на стыке фрагментов.

Синтез на основе глубокого обучения стал активно развиваться примерно с 2016 года. Сегодня созданная этим методом речь практически не отличается от натуральной.

Как работают технологии преобразования текста в аудио

Что нужно, чтобы воспроизведение текста голосом стало возможным? Расскажем, как устроен синтез речи.

Чтобы подготовить TTS-систему, нужен датасет для обучения нейросети. Сначала создаются аудиозаписи с разными голосами и темами, дальше они обрабатываются разметчиками и превращаются в датасет, на котором сеть и обучается.

Печатный текст состоит из букв, слов, а аудиозапись можно разобрать на мелкие фрагменты, каждый из которых имеет свой «рисунок» на дорожке аудиозаписи — спектрограмме. Задача нейросети в том, чтобы сначала научиться устанавливать соответствие «рисунка» аудиозаписи тексту, а потом научиться воспроизводить текст по этим примерам самостоятельно.

Чтобы синтезированная речь не была роботоподобной, к обучению подключаются дополнительные модели: например, модель, которая обучается предсказанию, где по тексту нужно сделать смысловую паузу, или модель, которая работает над интонацией (создаёт в нужных местах повышение-понижение тона и громкости).

Для более человекоподобной речи также важно, чтобы алгоритм синтеза включал в себя понимание контекста. В этом случае конечная интонация исходит не только из знаков препинания и пауз, а ещё и из смысла текста.

Как сделать, чтобы синтезированный голос звучал натурально

Если робот говорит механически, без эмоций, с ошибками произношения, он будет вызывать настороженность, а то и неприятие со стороны тех, кто его слушает. Чтобы синтезированный голос звучал натурально, нужно учесть тонкости языка и подключить к обработке нейросети.

Первый этап — нормализация текста. Это разворачивание сокращений, добавление буквы «ё», преобразование чисел и дат в текстовый формат.
Затем нейросеть должна разобраться с омографами — словами, которые пишутся одинаково, а произносятся по-разному. Например, исходя из контекста, нужно определить, о каком замке идёт речь: о дверном замке́ или за́мке на холме.
После этого в словах расставляются ударения по словарю.
Далее сеть разбивает текст на цельные смысловые и интонационные куски — их называют синтагмами — и расставляет паузы.
Чтобы голос звучал по-человечески, очень важно выбрать нужный тон звучания — высоту, темп, тип интонации: вопрос, восклицание, сарказм, сомнение. Должны быть правильно расставлены смысловые ударения.
Важно не забыть про аллофоны — реализацию фонем, зависящую от фонетического окружения. Ведь в естественной речи фонемы произносятся по-разному в зависимости от соседних звуков и скорости произношения.
Можно добавить фоновые шумы, которые придадут диалогу реалистичности, например звук печати на клавиатуре: так клиенту будет казаться, будто он разговаривает с оператором контакт-центра. Это вызовет больше доверия.

Выполнить все эти действия невозможно, если искусственный интеллект не понимает контекста. Для этого в SberDevices используют языковую модель BERT, предварительно обученную русскому языку на большом количестве текстов. Технологии Сбера, включающие синтезаторы голоса, реализованы с помощью нейросети Tacotron 2 от Google и вокодера LPCNet, который озвучивает предсказанные сетью спектрограммы.

Для каких задач пригодится синтез речи

Речевые технологии Text-to-Speech (TTS) можно применять в самых разных областях.

Озвучка контента

Технологии с синтезатором речи можно использовать, чтобы озвучивать тексты разного формата и объёма без специального оборудования. Это пригодится для чтения лекций и создания аудиокниг — не придётся платить профессиональным дикторам.

Озвучка интерфейсов

С помощью технологии, которая включает в себя синтезатор речи, можно озвучить навигационные элементы на сайтах — онлайн-чаты, описания товаров или инструкции. Это особенно удобно для слабовидящих людей. Также можно озвучивать приложения и сервисы.

В чём плюс? Вы сможете повысить лояльность потребителей и привлечь новую аудиторию. Например, родителей с маленькими детьми, которые используют обучающие приложения, или водителей, или просто всех тех, кто привык воспринимать информацию на слух.

Подключение автоответчика

Наличием автоответчика сейчас никого не удивишь, но одно дело, когда вам отвечает шаблонный безэмоциональный робот, другое — уникальные голоса реальных людей. Подключив технологию с синтезатором речи, вы сможете выбрать любое озвучивание из библиотеки.

Автоматизация работы отделов по работе с клиентами

Вы сможете оптимизировать работу менеджеров, повысить их производительность, избежать необходимости увеличить штат. Технологии SaluteSpeech способны распознавать речь в телефонии.

Благодаря этому голосовые помощники смогут не только рассказать об ассортименте компании или спецпредложениях, но и ответить на вопросы в зависимости от ситуации. Это помогает решить проблему звонящего без участия оператора.

Озвучка субтитров

Благодаря технологии Text to speech (TTS) можно смотреть зарубежные фильмы и видео на языке оригинала. Подключите сервис распознавания текста и смотрите кино, лекции и другой видеоконтент с автоматическим голосовым переводом.

Работа виртуальных ассистентов

Вы сможете создать голосового помощника и внедрить его в своё приложение. Виртуальный ассистент упрощает рутинные действия и отвечает на вопросы пользователей. Это повысит лояльность клиентов, так как они смогут мгновенно получить ответ и не ждать оператора.

Cовременные технологии Text to speech (TTS) делают голосовых помощников «человечнее», помогают им разговаривать более эмоционально и естественно.

Помощь автомобилистам

Эти технологии часто используют в голосовых системах навигации.

Особенности платформы речевых сервисов SaluteSpeech

SaluteSpeech — это российская платформа от Сбера, позволяющая распознавать (ASR) и синтезировать речь (TTS). Ниже её главные особенности.

Качественное распознавание речи

Благодаря GPU-based системе, разработанной Сбером, речь распознаётся уникальным декодером, акустической и речевой моделями. В результате достигается точность распознавания слов, близкая к человеческой.

Генерация естественной речи

Используемые в синтезе голоса модели постоянно обучаются, поэтому с каждым новым обновлением становится меньше фонетических ошибок. Технологии сервиса SaluteSpeech способны правильно расставлять ударения в словах, определять интонацию, паузы, букву «ё», а также озвучивать цифры, адреса и названия.

Примеры голосов для озвучки от Сбера

С помощью сервиса SaluteSpeech вы сможете выбрать готовый голос из каталога или создать собственный, уникальный, который станет голосом вашего бренда.

Например, в каталоге готовых голосов вы можете найти следующие варианты:

Властная Зинаида
Решительный Станислав
Заботливая Агата
Игривый Бастиан
Суровый Антон
Мягкая Мария
Мечтательная Алина

Чтобы подготовить уникальный голос для вашего бренда, нужна трёхчасовая запись речи диктора и месяц на создание синтеза. Диктором может быть любой человек, с которым вы хотите ассоциировать компанию, — популярная личность, один из сотрудников или генеральный директор. С синтезом вы сможете озвучивать тексты любой сложности, снижая финансовые и временные затраты на новые сценарии. С помощью технологии TTS можно озвучить выбранным или созданным голосом любой текст. Это позволяет экономить бизнесу время, финансовые и другие ресурсы, необходимые для синтеза и озвучивания контента.

Другие возможности SaluteSpeech

Технологии SaluteSpeech включают не только синтезатор для преобразования текста в аудио, но и, наоборот, решение для распознавания английской и русской речи. Оно называется ASR — Automatic Speech Recognition. Технология умеет игнорировать фоновый шум, определять знаки препинания и паузы и даже распознавать эмоции пользователя.

Помимо технологий распознавания, в Сбере работают и над шумоподавлением. Протестировать эту функцию можно с помощью бота-денойзера в Телеграме. Вы заходите в чат с @salute_voice_bot, записываете голосовое сообщение, бот автоматически за считанные секунды очищает его от всех посторонних шумов, убирает лишние паузы и возвращает вам пригодным для отправки коллегам. Вам остается переслать готовое голосовое сообщение в рабочий или личный чат.

Например, нейросеть отделит вашу фразу от шума телевизора на фоне. Также робот не перебивает пользователей и дослушивает предложение до конца. А ещё можно сократить время ожидания ответа голосового помощника, если вам необходим короткий ответ.

Расскажем, в каких областях можно применять технологию.

Транскрибация

Можно расшифровывать лекции и протоколы совещаний, добавлять в видеозапись субтитры, обрабатывать тысячи телефонных звонков и многое другое.

С помощью SaluteSpeech можно проанализировать общение персонала с клиентами в офисах обслуживания и по телефону. Технология возвращает более 300 речевых характеристик диалогов (скорость речи, эмоции, тишину и т. д.) и оценивает удовлетворённость клиентов (CSI, Customer Satisfaction Index) для 100% телефонных разговоров. Это позволяет решать разные задачи — от повышения качества обслуживания и роста лояльности целевой аудитории до снижения оттока и прогнозирования выгорания операторов.

Голосовое управление

Вы сможете без специального оборудования внедрить голосовое управление в работу кол-центра. Технологии платформы SaluteSpeech — одни из самых быстрых на рынке. Поэтому они справляются с распознаванием потокового аудио. С помощью дополнительной платформы процессинга языка SmartNLP сервис умеет распознавать контекст и определять потребности пользователя, а вот как на этот запрос ответить, определяет решение, позволяющее строить диалоговые сценарии. Благодаря этому виртуальные ассистенты Салют умеют переводить деньги, сообщать баланс карты или адрес ближайшего банкомата и многое другое.

Создание собственного голосового помощника

Запустите личного виртуального помощника с технологиями ASR и TTS с уникальным голосом вашего бренда. Он сможет отвечать клиентам в режиме 24/7 и оперативно решать их проблемы.

Как подключить SaluteSpeech

Чтобы подключить сервис SaluteSpeech, необходимо следующее:

Вы должны стать пользователем сервиса, зарегистрировавшись как ИП или юридическое лицо.
Ваш проект должен пройти модерацию.

Чтобы получить доступ к SaluteSpeech API, нужно авторизоваться в личном кабинете Цифровой витрины. После прохождения верификации вы сможете создать проект в корпоративном пространстве.

Подробнее можно прочитать в разделе «Подключение».

Аутентификация в сервисе SaluteSpeech

Для аутентификации в сервисе необходимо получить токен (access_token).

Чтобы подключить API:

Получите Client ID.
Сгенерируйте Client Secret.
Добавьте access token в сервис для вызова API.
Отправляйте запросы в сервис SaluteSpeech, используя access token.

Подробную инструкцию можно найти в разделе "Аутентификация".

Голосовые помощники с синтезаторами речи могут оптимизировать работу практически любого бизнеса — взять на себя большую часть рутинных задач операторов кол-центров, улучшить обслуживание клиентов, снизить расходы на дикторов и транскрибаторов и т. д. Поэтому рекомендуем как можно скорее внедрить технологии Text to speech в вашу работу.

Продукты из этой статьи:

SaluteSpeech

SaluteSpeech YourVoice

Golos

Автор

Редакция developers.sber.ru

Оцените статью

Создайте уникальный голос бренда

Подберем голос под персональный запрос. Не тратьте время на записи для каждой ситуации и большие бюджеты на дикторов

Ещё по теме

Синтез и распознавание речи

Голосовой бот

Как создать и что учесть в сценариях

Синтез и распознавание речи

Общие вопросы и ответы

Частозадаваемые вопросы о SaluteSpeech

Синтез и распознавание речи

Преобразование аудио в текст

Как работает транскрибация речи

Синтез и распознавание речи

Распознавание речи

Как работает и используется в бизнесе

Что такое TTS и синтез речи
Как работают технологии преобразования текста в аудио
Как сделать, чтобы синтезированный голос звучал натурально
Для каких задач пригодится синтез речи
Озвучка контента
Озвучка интерфейсов
Подключение автоответчика
Автоматизация работы отделов по работе с клиентами
Озвучка субтитров
Работа виртуальных ассистентов
Помощь автомобилистам
Особенности платформы речевых сервисов SaluteSpeech
Качественное распознавание речи
Генерация естественной речи
Примеры голосов для озвучки от Сбера
Другие возможности SaluteSpeech
Транскрибация
Голосовое управление
Создание собственного голосового помощника
Как подключить SaluteSpeech
Аутентификация в сервисе SaluteSpeech

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.