ym88659208ym87991671
4 минуты на чтение
15 июля 2024

Технология преобразования голоса

Продукты из этой статьи:

Речь состоит из многих компонентов, а наименьшая её единица — звук. Звуки плавно перетекают друг в друга, при этом каждый из них может звучать по-разному в зависимости от артикуляционных движений говорящего. Профессиональные дикторы и актёры способны специально менять тональность и тембр голоса, придавать ему мультипликационное звучание или переходить на низкий устрашающий звук, а остальным это удаётся редко.

Что делать, если по общей концепции компании отвечать на звонки должен робот с приятным мелодичным звучанием, а в штате нет сотрудников с такими голосовыми данными? Речевые сервисы и механизмы преобразования речи позволяют изменить голос человека онлайн, сделать из мужского женский и наоборот.

Попробуйте распознавание и синтез речи в личном кабинете Цифровой витрины
Зарегистрируйтесь, пройдите модерацию и используйте SaluteSpeech для своего проекта

Преобразование голоса в речевых сервисах

Технология преобразования голоса меняет форму речевой волны. Изменению подвергается нелингвистическая информация, при этом содержание остаётся неизменным. После преобразования сохраняется смысл, последовательность мыслей, словоформы, но меняется характер звучания.

Звуковая волна

Среди услуг экосистемы Sber — SaluteSpeech YourVoice, созданная с помощью инструментов платформы речевых сервисов SaluteSpeech. Она позволяет озвучивать тексты голосами разных персонажей.

Протестировать звучание можно в пробной онлайн-версии платформы на сайте сервиса, где доступны четыре женских и три мужских тембра. После подписки пользователи получают доступ к большой библиотеке голосов, которая регулярно пополняется.

Персонажи различаются между собой, и можно выбрать:

  • деловой или свободный тон;
  • молодой или более зрелый образ;
  • активный или спокойный темп речи;
  • высокую убедительность или равномерную подачу информации.

В основе синтеза речи технология Text-to-Speech. Она генерирует речь, которая звучит так, будто говорит реальный человек. Благодаря алгоритмам система правильно ставит ударение, помнит о букве Ё. Виртуальный диктор справится с географическими наименованиями, сложными цифрами, профессиональными терминами.

YourVoice позволяет создать уникальный голос бренда, права на который будут принадлежать только компании-владельцу. Мужские, женские голоса, речь вымышленных персонажей, профессиональных дикторов, тембры известных личностей и даже сотрудников организации могут создать фирменный тон общения с аудиторией.

Сервис позволяет подобрать звучание под персональный запрос. Не придётся тратить время на длительные записи голосовых сообщений для каждой ситуации и большие бюджеты на дикторов.

Как работает преобразование

При самостоятельной работе в платформе SaluteSpeech пользователи загружают текст онлайн, выбирают понравившегося диктора из обширной библиотеки и нажимают кнопку «Синтезировать». Обученная нейросеть анализирует текстовую информацию и переводит её в голосовые единицы. Затем алгоритм объединяет их в единую звуковую дорожку, которая нормализуется под привычное восприятие — корректируются ударение, интонация, фонетическая тональность, произношение сложных звуков.

Глубокое обучение нейронных сетей и технология синтеза речи TTS позволили генерировать естественную речь в режиме реального времени. Для расширения возможностей преобразования можно использовать дополнительные AI-модели.

Микрофон

Так, модель Golos открывает доступ к набору речевых данных. Размеченные вручную аудиозаписи можно использовать для обучения собственных моделей и воспроизведения речи с человеческой точностью.

ML-модели, представленные в SaluteSpeech, могут применяться в любых сервисах. Встроить преобразование речи можно с помощью API. На базе платформы работают виртуальные ассистенты Салют от Сбера.

Язык разметки SSML позволяет разработчикам настраивать преобразование во время синтеза с помощью тегов. Например, можно вставить фоновый звук или различные эффекты. Также можно разбавить речь предзаписанными междометиями из библиотеки платформы.

SaluteSpeech YourVoice — способ за месяц создать персонализированный голос по индивидуальной заявке. В дальнейшем компания сможет озвучивать созданным тембром любой контент и использовать его для взаимодействия с клиентами. Также можно выкупить понравившийся вариант из каталога.

Чтобы обучить нейросеть, нужны четыре часа голосовой записи. Если компания решит, что аудитория должна слышать директора, он должен будет надиктовать различные тексты. На основе этого материала система выстроит алгоритмы озвучивания любой информации. В дальнейшем не понадобится дозаписывать или дополнительно приглашать диктора — YourVoice быстро решит вопрос.

Где применяют алгоритм

В рекламе существуют стереотипы, которые влияют на выбор женского или мужского звучания диктора. Считается, что мужской низкий тембр убедительнее, поэтому его часто используют для агрессивного маркетинга или чтобы подчеркнуть престижность продукта.

Женская речь мелодичнее, эмоциональнее. По диапазонам звучания она действительно напоминает музыку и вызывает соответствующую реакцию. Тембры женщин сложнее, универсальнее. Это видно по преимущественно женским образам виртуальных ассистентов.

Выбор звучания зависит от:

  • продукта;
  • целевой аудитории;
  • общей концепции рекламной кампании;
  • настроения рекламы.

В библиотеке SaluteSpeech есть много разных голосовых персонажей, поэтому маркетологи смогут подобрать нужный тон. Одну и ту же рекламу можно запускать с разной озвучкой для разных целевых аудиторий.

Изменение голосовых данных — универсальный сервис с широкими возможностями применения.

Пользователи меняют звучание:

  • для необычного вокального наполнения музыкальных композиций;
  • розыгрышей и развлечения;
  • конфиденциальных разговоров;
  • озвучивания игр.

Иногда виртуальные мужские или женские тембры используют нестандартно — чтобы скрыть дефекты речи или волнение во время публичных выступлений онлайн.

Как технология используется в бизнесе

Современный бизнес идёт по пути цифровизации. Оптимизируется производство, корпоративное взаимодействие, общение с клиентами.

Сервисы синтеза мужских и женских голосов помогают изменить подход к работе в нескольких направлениях:

  • Многие компании выстраивают концепцию Tone of Voice, когда бренд общается с аудиторией в едином стиле. Голос бренда — одна из составляющих концепции.
  • Крупные корпорации создают собственных виртуальных ассистентов с уникальной манерой общения и тембром. Решение доступно с API SaluteSpeech.
  • Для удобства пользователей можно озвучивать интерфейсы сайтов и приложений, создавать голосовые чаты. Это позволит взаимодействовать онлайн с разными категориями людей. Робот расскажет о продукте, графике работы, навигации по меню и других функциях.
  • Синтезировать различную естественную речь можно для озвучивания аудиокниг, учебных материалов, лекций и другого полезного контента.
  • Перед публикацией коротких рекламных роликов в социальных сетях или на сайте их можно озвучить приятным мужским или женским голосом из каталога речевой платформы.
  • IVR-меню — современная форма телефонии. Звонки принимает виртуальный помощник, который поприветствует клиента, выслушает вопрос, поможет найти нужного сотрудника. Наполнение и уровни меню зависят от настроек, а озвучить можно любой объём текста.
  • Разгрузить call-центр поможет автоматизированный телемаркетинг. Голосовой робот может обзванивать клиентскую базу, сообщать онлайн об акциях, специальных предложениях, привлекать новых клиентов и записывать их на первичный приём.

Фирменное звучание актуально для интернет-магазинов, медицинских центров, ретейла, сферы услуг. В едином стиле может отвечать служба поддержки. SaluteSpeech YourVoice повысит узнаваемость и ценность бренда, защитит от мошенников. Если от имени компании клиенту позвонит недоброжелатель, он по незнакомому тембру заподозрит обман.

Синтез голоса — это инструмент, который дополняет работу человека, но не заменяет её: мужское или женское звучание живых дикторов невозможно повторить. Искусственный интеллект умеет многое, но не способен чувствовать и передавать эмоции. Поэтому преобразование речи служит для автоматизации процессов, разгрузки от рутины, быстрой обработки информации.

Продукты из этой статьи:

Автор
Редакция developers.sber.ru
Создайте уникальный голос бренда
Подберем голос под персональный запрос. Не тратьте время на записи для каждой ситуации и большие бюджеты на дикторов
\
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.