Продукты из этой статьи:
В статье рассмотрим, как работает технология распознавания аудио, как сделать и для чего нужна транскрибация, какие инструменты для перевода с аудио в текст онлайн есть у Сбера.
Транскрибация аудио — это перевод речи в текст. Простыми словами, например, у вас есть запись конференции или интервью, по которым нужно написать статью или краткую выжимку мероприятия. В этом случае вам поможет автоматическая транскрибация из голоса в текст онлайн.
Расшифровку аудио в текст можно также делегировать специалисту по транскрибации аудио в текст: для этого ему понадобится слушать запись и печатать то, что он слышит. С учётом пауз, нужных, чтобы записать услышанное, аудио или видео транскрибируется может занять в несколько раз больше времени, чем длина записи. Есть и другие минусы: человек может ошибиться в том, как правильно транскрибировать текст. Такую работу нужно оплатить, не всю информацию можно передавать в руки третьих лиц — иногда важно сохранить коммерческую тайну.
С помощью онлайн-технологий распознавания голоса можно расшифровать аудио- или видеозапись и автоматически преобразовать её в текстовую версию — быстро и с минимальными ошибками. Также существуют сервисы, которые переводят текст в аудио онлайн.
Звук — это цифровой поток, который может быть обработан нейросетями. Они учатся распознавать голосовые данные так же, как находить объекты на картинках — с помощью датасетов (в которых есть аудио и размеченная текстовая расшифровка).
С помощью тренировок на датасетах система учится устанавливать соответствие определённой спектрограммы аудиозаписи символам. В процессе распознавания файл (аудио или видео) с записью разбивается на очень короткие отрезки, каждый из которых представляет собой графический «рисунок». Нейросеть рассчитывает вероятность, что этому формату отрезка соответствует конкретный текст, например на русском языке.
После распознавания система может получить несколько возможных вариантов слова. Чтобы выбрать правильный, используется декодер, у которого есть некоторый контекст (список слов). Он выбирает среди вероятностей распознанных символов те, из которых получаются релевантные контексту слова.
Декодер может использовать персональный контекст. Например, если у пользователя в телефоне есть контакт «Стас», это слово попадёт в контекст декодера, чтобы пользователь мог воспользоваться голосовой командой «Переведи 1000 рублей Стасу» в мобильном банке.
Голосовые модели могут обучаться на разных языках, поменяется только набор символов и контекст (словарь) у декодера.
С помощью перевода звука в текст можно транскрибировать выступления на конференциях, записи вебинаров, уроков и других материалов, которые могут быть интересны в текстовом виде.
Главный недостаток машинного распознавания — это «нечеловечность». Даже хорошо обученные переводу голоса в текст онлайн нейросети могут допускать ошибки и транскрибировать не то слово, которое было в оригинале. Чаще это происходит, если в речи использованы нестандартные обороты, искажения языка или выдуманные слова, которым будут найдены максимально близкие известные аналоги.
Если в распознавании текста из аудио важна не столько скорость, сколько качество, материал потом будет размещен на сайте или напечатан, лучше подключить к работе по транскрибации текста человека для постобработки готового материала. Так можно сэкономить время, получить качественный выверенный редактором материал, который невозможно создать только автоматическими способами преобразования текста по аудио.
Что влияет на точность текста после расшифровки:
Поддержка аудиоконтента. Некоторые люди предпочитают читать, а не слушать, текстовая расшифровка презентации, вебинара, онлайн-курсов, аудиокниг и других материалов для них будет полезна. А ещё расшифровка из голоса в текст может быть дополнительным материалом для закрепления знаний или подарком для участников мероприятия.
Автоматическая запись голоса на встречах. Компании, где принято вести протоколы встреч, могут распознавать аудиофайлы, чтобы сохранить все обсуждения и договорённости без участия секретаря.
Голосовое управление в сервисах и на сайтах. Иногда печатать долго и неудобно, в этом случае пригодится функция голосового ввода. Ей очень удобно пользоваться, например, в приложениях с картами: вместо того чтобы печатать адрес, его можно быстро проговорить. В браузере, способном переводить речь в текст, можно надиктовать любой поисковый запрос, не нажимая на кнопки клавиатуры.
Оптимизация IVR. В интерактивном голосовом меню, когда вы звоните и общаетесь с роботом, чтобы получить нужную информацию или связаться с оператором, есть простой сценарий — «если... то». Клиенту нужно прослушать все варианты, чтобы выбрать нужный. Если добавить в IVR распознавание вопроса, который интересует клиента, то он намного быстрее попадёт в нужный раздел.
Создание голосовых помощников. Эти сервисы помогают пользователям решать вопросы голосом — как чат-боты, но с живым диалогом. Вы можете загрузить в ассистента основные повторяющиеся бизнес-сценарии, и он снимет значительную часть нагрузки с поддержки. Встроить голосового помощника на сайт или в приложение можно с технологией SaluteSpeech, написав свой сценарий работы с пользовательскими запросами.
Процесс работы с голосовыми помощниками выглядит так: они получают аудио, переводят его в текст, обрабатывают информацию, находят подходящий ответ на запрос в базе, а затем переводят текст ответа в аудио, синтезируя речь.
Инструмент SaluteSpeech от Сбера поможет с переводом голоса в текстовый формат и озвучиванием текста (синтезированием речи). Его можно использовать во многих бизнес-задачах:
Специалисты Сбера разработали программу для распознавания голоса, которая качественно и точно обрабатывает русский и английский языки. В ней предусмотрен бесплатный тариф для физических лиц.
Технология Automatic Speech Recognition (ASR) распознаёт тексты разной сложности, проводит постобработку — определяет предложения, расставляет знаки препинания.
Преимущества модели:
Что она умеет: Правильно считывает знаки препинания, расставляет ударения в словах и акценты в предложении, благодаря чему лучше удаётся достичь естественного звучания речи на русском и английском языках.
Даёт возможность выбрать пол, тон, тембр голоса, который будет озвучивать текст. Вы можете создать голос бренда, например, пригласив озвучить голосовое меню, интерфейсы сотрудника компании или медийное лицо.
Тарификация за синтез речи — 186 рублей за каждый миллион символов. Предусмотрена скидка за первые 30 дней использования.
Продукты из этой статьи: