Как работает распознавание речи

7 минут на чтение

13 февраля 2024

29 августа 2025

Как работает распознавание речи

Продукты из этой статьи:

Технология распознавания речи помогает улучшить пользовательский опыт: например, вместо введения адреса в навигатор можно просто произнести его.

Распознавание и синтез речи

В статье рассмотрим, как бизнес использует распознавание голоса в своих продуктах и сервисах, и разберём, как вообще устроена технология на основе искусственного интеллекта.

Что такое распознавание речи

Технология Speech-to-Text отвечает за перевод голоса в текст с помощью нейросети. В основе лежит многоуровневый процесс обработки и анализа аудиосодержимого. Речь с помощью искусственного интеллекта преобразуется в буквы, слова, фразы и предложения, и на выходе получается текстовая версия аудио.

Вы имеете дело с технологией распознавания речи каждый раз, когда используете голосовой поиск, вводите маршрут в навигатор голосом, взаимодействуете с голосовыми помощниками. В этих случаях реакция на голосовую команду нужна сразу же — и обработка речи занимает меньше секунды.

Есть и другие кейсы применения технологии распознавания с использованием искусственного интеллекта — мы рассмотрим их далее в статье.

Как работает Speech-to-Text

В основе работы технологии расшифровки аудио в текст (STT) — нейросети, которые обрабатывают речь и возвращают распознанный текст. Рассмотрим подробнее, что происходит в процессе.

Речь состоит из звуков, а текст состоит из букв. Основная задача нейросети — распознать, какой букве соответствовует рисунок на спектрограмме аудиозаписи, затем преобразовать отдельные буквы в слова, а слова — в полноценные предложения.

Чтобы научиться распознавать среди звуков буквы, инженеры обучают нейросеть на подготовленном датасете. Датасет состоит из аудиозаписей с голосом, которые сопровождаются размеченным текстом. Таким образом, на вход нейросети подаётся пара аудио-текст, из которой она должна найти соответствие «рисунку» аудиодорожки определенных букв и слов.

В процессе обучения искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. При этом в процессе предсказания нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква.

Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. Для этого есть контекст — или, проще говоря, словарь, — с которым нейросеть проводит сравнение вероятных букв. В результате получается набор распознанных слов.

Слова, в свою очередь, искусственный интеллект складывает в предложения. Финальный этап — это смысловая обработка. Кроме непосредственно распознавания, важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания).

Связность и осмысленность в технологии распознавания речи обеспечивается, в том числе, объёмом текстов, которые нейросеть обработала на этапе обучения. Например, если в момент распознавания близки вероятности слов «еду» и «иду», то при построении полной фразы «я еду на машине» нейросеть выберет верный вариант, потому что слова «еду» и «машина» ближе по контексту, чем «иду» и «машина».

От чего зависит качество распознавания речи

В первую очередь — от качества данных для обучения нейросети. Чем больше записей голоса обработает искусственный интеллект — с разными интонациями и эмоциями, дикторами, смысловым наполнением (сказки и новости сильно различаются по контексту и тональности), — тем качественнее будет распознавание голоса в текст.

Интересно, что пол и возраст диктора не влияет на качество обучения, а вот разница в произношении слов или артикуляционные особенности могут научить нейросеть справляться с разными кейсами.

Как нейросеть справляется с разными языками

Если нейросеть обучалась на одном языке, она не сможет распознать речь на другом. Дело в том, что у неё в основе будет лежать другой алфавит и контекст.

Точнее, она распознаёт речь, но на выходе, скорее всего, получится бессмысленный набор слов, которые нейросеть попытается подобрать по словарю. Если искусственный интеллект переобучить на датасете с другим языком, с новым алфавитом и словарём, то он сможет работать корректно.

Как распознавание речи используется в бизнесе

Выше мы приводили примеры с использованием голосового поиска в навигаторе. Однако это лишь один из множества возможных способов применения технологии распознавания голоса. Рассмотрим, как технологии расшифровки голоса могут быть задействованы в телефонном общении с клиентами.

Голосовые меню (IVR). Это когда вы звоните в компанию, но не сразу соединяетесь с оператором, а сначала проходите по голосовому меню выбора. Чтобы определить, какой вопрос у клиента, робот может просто последовательно перечислить пункты и ожидать, пока клиент нажмёт нужную цифру. Но с технологией распознавания речи IVR может работать с запросом от клиента голосом. Например, робот задаёт клиенту вопрос «Что вас интересует?», затем фиксирует ответ клиента, распознаёт его и ищет в базе, по ключевым словам, максимально подходящий ответ. Если ответ найти не удалось, робот может попросить сформулировать запрос иначе или переключить на оператора.
Проведение опросов и исследований. Когда нужно собрать ответы через телефонные звонки, каждому человеку задаются одни и те же вопросы. С помощью распознавания голоса можно проводить обзвон автоматически: робот задаст вопросы, запишет ответы без участия живого человека.
Анализ телефонных разговоров с клиентами. Есть отдельная специальность — супервизор. Это специалист, который проверяет, насколько качественно операторы общаются по телефону с клиентами. Он работает с перечнем обязательных пунктов — приветствие, представление, цель звонка, в некоторых случаях — проведение допродажи. Здесь нейросеть с помощью распознавания может автоматически обработать текст и определить, прошёл ли оператор все пункты или нет. Также текстовые данные о звонках могут быть источником информации о точках роста для скриптов продаж.
Автоматизация работы с CRM. В процессе общения с клиентом оператор или робот могут собирать его данные — имя, телефон, адрес. Если использовать технологию распознавания речи, то она может заносить данные в CRM автоматически.
Персонализация предложений. Например, если компания проводит автоматические обзвоны, она может использовать идентификацию голоса клиента при ответе на звонок, чтобы определить пол и в зависимости от этого рассказать о том или ином предложении.

Если говорить про сервисы, то технологии распознавания голоса STT используются так или иначе каждый день:

для использования функции голосового поиска в сервисах — картах, такси, навигаторе;
для общения с виртуальными голосовыми помощниками. Например, в Сбербанк Онлайн используются виртуальные ассистенты «Салют», которые помогают найти информацию, узнать данные о счёте, быстро сделать перевод. С их помощью можно выполнить команды «Пополни мой мобильный на 150 рублей», «Переведи маме тысячу» или узнать ответ на вопрос «Сколько у меня денег?»;
для управления системой «Умный дом». Для управления Умным домом Sber, например, задействуются голосовые ассистенты «Салют» — с их помощью можно управлять светом, техникой;
для голосового ввода в заметках, мессенджерах и так далее: системы становятся все более умными, могут писать текст со знаками препинания и разделять его на предложения.

Рука человека и рука робота тянутся друг к другу

Кроме этого, распознавание голоса может быть полезно для текстового сопровождения аудиоматериалов. В этом случае распознавание может происходить по сохранённым файлам, которые будут обрабатываться в фоновом режиме.

Примеры:

подготовка субтитров к видео;
создание текстовой версии записи курса;
распознавание интервью (вот тут есть пример, как целая статья была написана с помощью технологии);
генерация текстовых материалов по результатам конференций.

Иногда такие тексты требуют дополнительной обработки — проверки на ошибки, форматирования. С этим справится редактор, а вот функции транскрибатора на себя полностью возьмёт автоматическая технология.

Как связаны распознавание голоса и синтез речи

В основе технологии распознавания Automatic Speech Recognition — определение с помощью искусственного интеллекта, как соотносятся звук и слова. Этот же принцип, только наоборот, использует сервис синтеза речи SaluteSpeech.

Чтобы научить нейросеть «говорить», нужно, чтобы она поняла, как правильно перевести текст в аудио. Для этого проводится обучение модели: она учится тому, как произносится тот или иной текст, и пробует воспроизводить похожие звуковые конструкции самостоятельно.

Синтез речи как технология немного сложнее из-за того, что разработчики пытаются добиться человекоподобного звучания от робота. Это значит, что нужно не только правильно прочитать буквы, но и работать с паузами в речи, с интонациями, правильно обрабатывать знаки препинания.

Распознавание и синтез речи работают в паре, когда речь идёт о голосовых помощниках, которые распознают речь и сразу же отвечают на запрос: обмен запросами в таком сценарии идёт почти мгновенно, чтобы диалог действительно выглядел живым.

В процессе общения с голосовым помощником сервис должен:

Передать аудио с голосом человека на сервер.
В режиме реального времени распознать речь.
Понять, в чём именно состоит запрос клиента.
Подобрать подходящий ответ на его реплику.
Сгенерировать ответ.
Синтезировать сообщение для пользователя.

Поэтому всё, что связано с голосовыми сервисами, — это высоконагруженные системы с минимальным сроком ответа.

Продукты из этой статьи:

SaluteSpeech

Автор

Редакция developers.sber.ru

Оцените статью

Создайте уникальный голос бренда

Подберем голос под персональный запрос. Не тратьте время на записи для каждой ситуации и большие бюджеты на дикторов

Ещё по теме

Синтез и распознавание речи

Голосовой бот

Как создать и что учесть в сценариях

Синтез и распознавание речи

Общие вопросы и ответы

Частозадаваемые вопросы о SaluteSpeech

Синтез и распознавание речи

Преобразование аудио в текст

Как работает транскрибация речи

Синтез и распознавание речи

Преобразование текста в аудио

Какие задачи можно решить с помощью SaluteSpeech

Что такое распознавание речи
Как работает Speech-to-Text
От чего зависит качество распознавания речи
Как нейросеть справляется с разными языками
Как распознавание речи используется в бизнесе
Как связаны распознавание голоса и синтез речи

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.

Виртуальный ассистент поможет с рутинными задачами

GigaChat API упростит поиск информации и выделит главное в рабочем обсуждении