Как работает распознавание речи
Продукты из этой статьи:
Технология распознавания речи помогает улучшить пользовательский опыт: например, вместо введения адреса в навигатор можно просто произнести его.
В статье рассмотрим, как бизнес использует распознавание в своих продуктах и сервисах, и разберём, как вообще устроена технология на основе искусственного интеллекта.
Что такое распознавание речи
Технология Speech-to-Text отвечает за перевод голоса в текст с помощью нейросети. В основе лежит многоуровневый процесс обработки и анализа аудиосодержимого. Речь с помощью искусственного интеллекта преобразуется в буквы, слова, фразы и предложения, и на выходе получается текстовая версия аудио.
Вы имеете дело с технологией распознавания речи каждый раз, когда используете голосовой поиск, вводите маршрут в навигатор голосом, взаимодействуете с голосовыми помощниками. В этих случаях реакция на голосовую команду нужна сразу же — и обработка речи занимает меньше секунды.
Есть и другие кейсы применения технологии распознавания с использованием искусственного интеллекта — мы рассмотрим их далее в статье.
Как работает Speech-to-Text
В основе работы технологии STT — нейросети, которые обрабатывают речь и возвращают распознанный текст. Рассмотрим подробнее, что происходит в процессе.
Речь состоит из звуков, а текст состоит из букв. Основная задача нейросети — распознать, какой букве соответствовует рисунок на спектрограмме аудиозаписи, затем преобразовать отдельные буквы в слова, а слова — в полноценные предложения.
Чтобы научиться распознавать среди звуков буквы, инженеры обучают нейросеть на подготовленном датасете. Датасет состоит из аудиозаписей с голосом, которые сопровождаются размеченным текстом. Таким образом, на вход нейросети подаётся пара аудио-текст, из которой она должна найти соответствие «рисунку» аудиодорожки определенных букв и слов.

В процессе обучения искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. При этом в процессе предсказания нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква.
Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. Для этого есть контекст — или, проще говоря, словарь, — с которым нейросеть проводит сравнение вероятных букв. В результате получается набор распознанных слов.
Слова, в свою очередь, искусственный интеллект складывает в предложения. Финальный этап — это смысловая обработка. Кроме непосредственно распознавания, важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания).
Связность и осмысленность в технологии распознавания речи обеспечивается, в том числе, объёмом текстов, которые нейросеть обработала на этапе обучения. Например, если в момент распознавания близки вероятности слов «еду» и «иду», то при построении полной фразы «я еду на машине» нейросеть выберет верный вариант, потому что слова «еду» и «машина» ближе по контексту, чем «иду» и «машина».
От чего зависит качество распознавания речи
В первую очередь — от качества данных для обучения нейросети. Чем больше записей голоса обработает искусственный интеллект — с разными интонациями и эмоциями, дикторами, смысловым наполнением (сказки и новости сильно различаются по контексту и тональности), — тем качественнее будет предсказание.
Интересно, что пол и возраст диктора не влияет на качество обучения, а вот разница в произношении слов или артикуляционные особенности могут научить нейросеть справляться с разными кейсами.
Как нейросеть справляется с разными языками
Если нейросеть обучалась на одном языке, она не сможет распознать речь на другом. Дело в том, что у неё в основе будет лежать другой алфавит и контекст.
Точнее, она распознаёт речь, но на выходе, скорее всего, получится бессмысленный набор слов, которые нейросеть попытается подобрать по словарю. Если искусственный интеллект переобучить на датасете с другим языком, с новым алфавитом и словарём, то он сможет работать корректно.

Как распознавание речи используется в бизнесе
Выше мы приводили примеры с использованием голосового поиска в навигаторе. Однако это лишь один из множества возможных способов применения технологии распознавания голоса. Рассмотрим, как технологии расшифровки голоса могут быть задействованы в телефонном общении с клиентами.
- Голосовые меню (IVR). Это когда вы звоните в компанию, но не сразу соединяетесь с оператором, а сначала проходите по голосовому меню выбора. Чтобы определить, какой вопрос у клиента, робот может просто последовательно перечислить пункты и ожидать, пока клиент нажмёт нужную цифру. Но с технологией распознавания речи IVR может работать с запросом от клиента голосом. Например, робот задаёт клиенту вопрос «Что вас интересует?», затем фиксирует ответ клиента, распознаёт его и ищет в базе, по ключевым словам, максимально подходящий ответ. Если ответ найти не удалось, робот может попросить сформулировать запрос иначе или переключить на оператора.
- Проведение опросов и исследований. Когда нужно собрать ответы через телефонные звонки, каждому человеку задаются одни и те же вопросы. С помощью распознавания голоса можно проводить обзвон автоматически: робот задаст вопросы, запишет ответы без участия живого человека.
- Анализ телефонных разговоров с клиентами. Есть отдельная специальность — супервизор. Это специалист, который проверяет, насколько качественно операторы общаются по телефону с клиентами. Он работает с перечнем обязательных пунктов — приветствие, представление, цель звонка, в некоторых случаях — проведение допродажи. Здесь нейросеть с помощью распознавания может автоматически обработать текст и определить, прошёл ли оператор все пункты или нет. Также текстовые данные о звонках могут быть источником информации о точках роста для скриптов продаж.
- Автоматизация работы с CRM. В процессе общения с клиентом оператор или робот могут собирать его данные — имя, телефон, адрес. Если использовать технологию распознавания речи, то она может заносить данные в CRM автоматически.
- Персонализация предложений. Например, если компания проводит автоматические обзвоны, она может использовать идентификацию голоса клиента при ответе на звонок, чтобы определить пол и в зависимости от этого рассказать о том или ином предложении.
Если говорить про сервисы, то технологии распознавания голоса STT используются так или иначе каждый день:
- для использования функции голосового поиска в сервисах — картах, такси, навигаторе;
- для общения с виртуальными голосовыми помощниками. Например, в Сбербанк Онлайн используются виртуальные ассистенты «Салют», которые помогают найти информацию, узнать данные о счёте, быстро сделать перевод. С их помощью можно выполнить команды «Пополни мой мобильный на 150 рублей», «Переведи маме тысячу» или узнать ответ на вопрос «Сколько у меня денег?»;
- для управления системой «Умный дом». Для управления Умным домом Sber, например, задействуются голосовые ассистенты «Салют» — с их помощью можно управлять светом, техникой;
- для голосового ввода в заметках, мессенджерах и так далее: системы становятся все более умными, могут писать текст со знаками препинания и разделять его на предложения.

Кроме этого, распознавание голоса может быть полезно для текстового сопровождения аудиоматериалов. В этом случае распознавание может происходить по сохранённым файлам, которые будут обрабатываться в фоновом режиме.
Примеры:
- подготовка субтитров к видео;
- создание текстовой версии записи курса;
- распознавание интервью (вот тут есть пример, как целая статья была написана с помощью технологии);
- генерация текстовых материалов по результатам конференций.
Иногда такие тексты требуют дополнительной обработки — проверки на ошибки, форматирования. С этим справится редактор, а вот функции транскрибатора на себя полностью возьмёт автоматическая технология.
Как связаны распознавание голоса и синтез речи
В основе технологии распознавания Automatic Speech Recognition — определение с помощью искусственного интеллекта, как соотносятся звук и слова. Этот же принцип, только наоборот, использует сервис синтеза речи SaluteSpeech.
Чтобы научить нейросеть «говорить», нужно, чтобы она поняла, как правильно перевести текст в аудио. Для этого проводится обучение модели: она учится тому, как произносится тот или иной текст, и пробует воспроизводить похожие звуковые конструкции самостоятельно.
Синтез речи как технология немного сложнее из-за того, что разработчики пытаются добиться человекоподобного звучания от робота. Это значит, что нужно не только правильно прочитать буквы, но и работать с паузами в речи, с интонациями, правильно обрабатывать знаки препинания.
Распознавание и синтез речи работают в паре, когда речь идёт о голосовых помощниках, которые распознают речь и сразу же отвечают на запрос: обмен запросами в таком сценарии идёт почти мгновенно, чтобы диалог действительно выглядел живым.
В процессе общения с голосовым помощником сервис должен:
Передать аудио с голосом человека на сервер.
В режиме реального времени распознать речь.
Понять, в чём именно состоит запрос клиента.
Подобрать подходящий ответ на его реплику.
Сгенерировать ответ.
Синтезировать сообщение для пользователя.
Поэтому всё, что связано с голосовыми сервисами, — это высоконагруженные системы с минимальным сроком ответа.
Продукты из этой статьи: