ym88659208ym87991671
7 минут на чтение
19 ноября 2024

Как работает распознавание речи

Продукты из этой статьи:

Технология распознавания речи помогает улучшить пользовательский опыт: например, вместо введения адреса в навигатор можно просто произнести его.

В статье рассмотрим, как бизнес использует распознавание голоса в своих продуктах и сервисах, и разберём, как вообще устроена технология на основе искусственного интеллекта.

Распознавание и синтез речи

Что такое распознавание речи

Технология Speech-to-Text отвечает за перевод голоса в текст с помощью нейросети. В основе лежит многоуровневый процесс обработки и анализа аудиосодержимого. Речь с помощью искусственного интеллекта преобразуется в буквы, слова, фразы и предложения, и на выходе получается текстовая версия аудио.

Вы имеете дело с технологией распознавания речи каждый раз, когда используете голосовой поиск, вводите маршрут в навигатор голосом, взаимодействуете с голосовыми помощниками. В этих случаях реакция на голосовую команду нужна сразу же — и обработка речи занимает меньше секунды.

Есть и другие кейсы применения технологии распознавания с использованием искусственного интеллекта — мы рассмотрим их далее в статье.

Как работает Speech-to-Text

В основе работы технологии STT — нейросети, которые обрабатывают речь и возвращают распознанный текст. Рассмотрим подробнее, что происходит в процессе.

Речь состоит из звуков, а текст состоит из букв. Основная задача нейросети — распознать, какой букве соответствовует рисунок на спектрограмме аудиозаписи, затем преобразовать отдельные буквы в слова, а слова — в полноценные предложения.

Чтобы научиться распознавать среди звуков буквы, инженеры обучают нейросеть на подготовленном датасете. Датасет состоит из аудиозаписей с голосом, которые сопровождаются размеченным текстом. Таким образом, на вход нейросети подаётся пара аудио-текст, из которой она должна найти соответствие «рисунку» аудиодорожки определенных букв и слов.

Голосовой помощник в навигаторе

В процессе обучения искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. При этом в процессе предсказания нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква.

Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. Для этого есть контекст — или, проще говоря, словарь, — с которым нейросеть проводит сравнение вероятных букв. В результате получается набор распознанных слов.

Слова, в свою очередь, искусственный интеллект складывает в предложения. Финальный этап — это смысловая обработка. Кроме непосредственно распознавания, важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания).

Связность и осмысленность в технологии распознавания речи обеспечивается, в том числе, объёмом текстов, которые нейросеть обработала на этапе обучения. Например, если в момент распознавания близки вероятности слов «еду» и «иду», то при построении полной фразы «я еду на машине» нейросеть выберет верный вариант, потому что слова «еду» и «машина» ближе по контексту, чем «иду» и «машина».

От чего зависит качество распознавания речи

В первую очередь — от качества данных для обучения нейросети. Чем больше записей голоса обработает искусственный интеллект — с разными интонациями и эмоциями, дикторами, смысловым наполнением (сказки и новости сильно различаются по контексту и тональности), — тем качественнее будет предсказание.

Интересно, что пол и возраст диктора не влияет на качество обучения, а вот разница в произношении слов или артикуляционные особенности могут научить нейросеть справляться с разными кейсами.

Как нейросеть справляется с разными языками

Если нейросеть обучалась на одном языке, она не сможет распознать речь на другом. Дело в том, что у неё в основе будет лежать другой алфавит и контекст.

Точнее, она распознаёт речь, но на выходе, скорее всего, получится бессмысленный набор слов, которые нейросеть попытается подобрать по словарю. Если искусственный интеллект переобучить на датасете с другим языком, с новым алфавитом и словарём, то он сможет работать корректно.

Буквы и цифры на деревянных кубиках

Как распознавание речи используется в бизнесе

Выше мы приводили примеры с использованием голосового поиска в навигаторе. Однако это лишь один из множества возможных способов применения технологии распознавания голоса. Рассмотрим, как технологии расшифровки голоса могут быть задействованы в телефонном общении с клиентами.

  • Голосовые меню (IVR). Это когда вы звоните в компанию, но не сразу соединяетесь с оператором, а сначала проходите по голосовому меню выбора. Чтобы определить, какой вопрос у клиента, робот может просто последовательно перечислить пункты и ожидать, пока клиент нажмёт нужную цифру. Но с технологией распознавания речи IVR может работать с запросом от клиента голосом. Например, робот задаёт клиенту вопрос «Что вас интересует?», затем фиксирует ответ клиента, распознаёт его и ищет в базе, по ключевым словам, максимально подходящий ответ. Если ответ найти не удалось, робот может попросить сформулировать запрос иначе или переключить на оператора.
  • Проведение опросов и исследований. Когда нужно собрать ответы через телефонные звонки, каждому человеку задаются одни и те же вопросы. С помощью распознавания голоса можно проводить обзвон автоматически: робот задаст вопросы, запишет ответы без участия живого человека.
  • Анализ телефонных разговоров с клиентами. Есть отдельная специальность — супервизор. Это специалист, который проверяет, насколько качественно операторы общаются по телефону с клиентами. Он работает с перечнем обязательных пунктов — приветствие, представление, цель звонка, в некоторых случаях — проведение допродажи. Здесь нейросеть с помощью распознавания может автоматически обработать текст и определить, прошёл ли оператор все пункты или нет. Также текстовые данные о звонках могут быть источником информации о точках роста для скриптов продаж.
  • Автоматизация работы с CRM. В процессе общения с клиентом оператор или робот могут собирать его данные — имя, телефон, адрес. Если использовать технологию распознавания речи, то она может заносить данные в CRM автоматически.
  • Персонализация предложений. Например, если компания проводит автоматические обзвоны, она может использовать идентификацию голоса клиента при ответе на звонок, чтобы определить пол и в зависимости от этого рассказать о том или ином предложении.

Если говорить про сервисы, то технологии распознавания голоса STT используются так или иначе каждый день:

  • для использования функции голосового поиска в сервисах — картах, такси, навигаторе;
  • для общения с виртуальными голосовыми помощниками. Например, в Сбербанк Онлайн используются виртуальные ассистенты «Салют», которые помогают найти информацию, узнать данные о счёте, быстро сделать перевод. С их помощью можно выполнить команды «Пополни мой мобильный на 150 рублей», «Переведи маме тысячу» или узнать ответ на вопрос «Сколько у меня денег?»;
  • для управления системой «Умный дом». Для управления Умным домом Sber, например, задействуются голосовые ассистенты «Салют» — с их помощью можно управлять светом, техникой;
  • для голосового ввода в заметках, мессенджерах и так далее: системы становятся все более умными, могут писать текст со знаками препинания и разделять его на предложения.
Рука человека и рука робота тянутся друг к другу

Кроме этого, распознавание голоса может быть полезно для текстового сопровождения аудиоматериалов. В этом случае распознавание может происходить по сохранённым файлам, которые будут обрабатываться в фоновом режиме.

Примеры:

  • подготовка субтитров к видео;
  • создание текстовой версии записи курса;
  • распознавание интервью (вот тут есть пример, как целая статья была написана с помощью технологии);
  • генерация текстовых материалов по результатам конференций.

Иногда такие тексты требуют дополнительной обработки — проверки на ошибки, форматирования. С этим справится редактор, а вот функции транскрибатора на себя полностью возьмёт автоматическая технология.

Как связаны распознавание голоса и синтез речи

В основе технологии распознавания Automatic Speech Recognition — определение с помощью искусственного интеллекта, как соотносятся звук и слова. Этот же принцип, только наоборот, использует сервис синтеза речи SaluteSpeech.

Чтобы научить нейросеть «говорить», нужно, чтобы она поняла, как правильно перевести текст в аудио. Для этого проводится обучение модели: она учится тому, как произносится тот или иной текст, и пробует воспроизводить похожие звуковые конструкции самостоятельно.

Синтез речи как технология немного сложнее из-за того, что разработчики пытаются добиться человекоподобного звучания от робота. Это значит, что нужно не только правильно прочитать буквы, но и работать с паузами в речи, с интонациями, правильно обрабатывать знаки препинания.

Распознавание и синтез речи работают в паре, когда речь идёт о голосовых помощниках, которые распознают речь и сразу же отвечают на запрос: обмен запросами в таком сценарии идёт почти мгновенно, чтобы диалог действительно выглядел живым.

В процессе общения с голосовым помощником сервис должен:

  1. Передать аудио с голосом человека на сервер.

  2. В режиме реального времени распознать речь.

  3. Понять, в чём именно состоит запрос клиента.

  4. Подобрать подходящий ответ на его реплику.

  5. Сгенерировать ответ.

  6. Синтезировать сообщение для пользователя.

Поэтому всё, что связано с голосовыми сервисами, — это высоконагруженные системы с минимальным сроком ответа.

Продукты из этой статьи:

Автор
Редакция developers.sber.ru
Создайте уникальный голос бренда
Подберем голос под персональный запрос. Не тратьте время на записи для каждой ситуации и большие бюджеты на дикторов
Ещё по теме
Синтез и распознавание речи
Голосовой бот

Как создать и что учесть в сценариях
Синтез и распознавание речи
Общие вопросы и ответы

Частозадаваемые вопросы о SaluteSpeech
Синтез и распознавание речи
Преобра­зование аудио в текст

Как работает транскрибация речи
Синтез и распознавание речи
Преобра­зование текста в аудио

Какие задачи можно решить с помощью SaluteSpeech
\
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.
Виртуальный ассистент поможет с рутинными задачами
GigaChat API упростит поиск информации и выделит главное в рабочем обсуждении