Продукты из этой статьи:
Технология распознавания речи помогает улучшить пользовательский опыт: например, вместо введения адреса в навигатор можно просто произнести его.
В статье рассмотрим, как бизнес использует распознавание голоса в своих продуктах и сервисах, и разберём, как вообще устроена технология на основе искусственного интеллекта.
Технология Speech-to-Text отвечает за перевод голоса в текст с помощью нейросети. В основе лежит многоуровневый процесс обработки и анализа аудиосодержимого. Речь с помощью искусственного интеллекта преобразуется в буквы, слова, фразы и предложения, и на выходе получается текстовая версия аудио.
Вы имеете дело с технологией распознавания речи каждый раз, когда используете голосовой поиск, вводите маршрут в навигатор голосом, взаимодействуете с голосовыми помощниками. В этих случаях реакция на голосовую команду нужна сразу же — и обработка речи занимает меньше секунды.
Есть и другие кейсы применения технологии распознавания с использованием искусственного интеллекта — мы рассмотрим их далее в статье.
В основе работы технологии расшифровки аудио в текст (STT) — нейросети, которые обрабатывают речь и возвращают распознанный текст. Рассмотрим подробнее, что происходит в процессе.
Речь состоит из звуков, а текст состоит из букв. Основная задача нейросети — распознать, какой букве соответствовует рисунок на спектрограмме аудиозаписи, затем преобразовать отдельные буквы в слова, а слова — в полноценные предложения.
Чтобы научиться распознавать среди звуков буквы, инженеры обучают нейросеть на подготовленном датасете. Датасет состоит из аудиозаписей с голосом, которые сопровождаются размеченным текстом. Таким образом, на вход нейросети подаётся пара аудио-текст, из которой она должна найти соответствие «рисунку» аудиодорожки определенных букв и слов.
В процессе обучения искусственный интеллект разбивает запись с голосом на короткие отрезки и пытается предсказать по спектрограмме каждой из них, что это за буква. При этом в процессе предсказания нейросеть не выдаёт однозначный результат: она определяет, с какой вероятностью перед ней та или иная буква.
Когда вероятности по каждой букве в записи голоса вычислены, искусственный интеллект пытается понять, какое это слово. Для этого есть контекст — или, проще говоря, словарь, — с которым нейросеть проводит сравнение вероятных букв. В результате получается набор распознанных слов.
Слова, в свою очередь, искусственный интеллект складывает в предложения. Финальный этап — это смысловая обработка. Кроме непосредственно распознавания, важно, чтобы текст на выходе был связным, осмысленным и правильно оформленным (был поделён на предложения, имел знаки препинания).
Связность и осмысленность в технологии распознавания речи обеспечивается, в том числе, объёмом текстов, которые нейросеть обработала на этапе обучения. Например, если в момент распознавания близки вероятности слов «еду» и «иду», то при построении полной фразы «я еду на машине» нейросеть выберет верный вариант, потому что слова «еду» и «машина» ближе по контексту, чем «иду» и «машина».
В первую очередь — от качества данных для обучения нейросети. Чем больше записей голоса обработает искусственный интеллект — с разными интонациями и эмоциями, дикторами, смысловым наполнением (сказки и новости сильно различаются по контексту и тональности), — тем качественнее будет распознавание голоса в текст.
Интересно, что пол и возраст диктора не влияет на качество обучения, а вот разница в произношении слов или артикуляционные особенности могут научить нейросеть справляться с разными кейсами.
Если нейросеть обучалась на одном языке, она не сможет распознать речь на другом. Дело в том, что у неё в основе будет лежать другой алфавит и контекст.
Точнее, она распознаёт речь, но на выходе, скорее всего, получится бессмысленный набор слов, которые нейросеть попытается подобрать по словарю. Если искусственный интеллект переобучить на датасете с другим языком, с новым алфавитом и словарём, то он сможет работать корректно.
Выше мы приводили примеры с использованием голосового поиска в навигаторе. Однако это лишь один из множества возможных способов применения технологии распознавания голоса. Рассмотрим, как технологии расшифровки голоса могут быть задействованы в телефонном общении с клиентами.
Если говорить про сервисы, то технологии распознавания голоса STT используются так или иначе каждый день:
Кроме этого, распознавание голоса может быть полезно для текстового сопровождения аудиоматериалов. В этом случае распознавание может происходить по сохранённым файлам, которые будут обрабатываться в фоновом режиме.
Примеры:
Иногда такие тексты требуют дополнительной обработки — проверки на ошибки, форматирования. С этим справится редактор, а вот функции транскрибатора на себя полностью возьмёт автоматическая технология.
В основе технологии распознавания Automatic Speech Recognition — определение с помощью искусственного интеллекта, как соотносятся звук и слова. Этот же принцип, только наоборот, использует сервис синтеза речи SaluteSpeech.
Чтобы научить нейросеть «говорить», нужно, чтобы она поняла, как правильно перевести текст в аудио. Для этого проводится обучение модели: она учится тому, как произносится тот или иной текст, и пробует воспроизводить похожие звуковые конструкции самостоятельно.
Синтез речи как технология немного сложнее из-за того, что разработчики пытаются добиться человекоподобного звучания от робота. Это значит, что нужно не только правильно прочитать буквы, но и работать с паузами в речи, с интонациями, правильно обрабатывать знаки препинания.
Распознавание и синтез речи работают в паре, когда речь идёт о голосовых помощниках, которые распознают речь и сразу же отвечают на запрос: обмен запросами в таком сценарии идёт почти мгновенно, чтобы диалог действительно выглядел живым.
В процессе общения с голосовым помощником сервис должен:
Передать аудио с голосом человека на сервер.
В режиме реального времени распознать речь.
Понять, в чём именно состоит запрос клиента.
Подобрать подходящий ответ на его реплику.
Сгенерировать ответ.
Синтезировать сообщение для пользователя.
Поэтому всё, что связано с голосовыми сервисами, — это высоконагруженные системы с минимальным сроком ответа.
Продукты из этой статьи: