Продукты из этой статьи:
В статье рассмотрим, как работает технология распознавания аудио, в каких задачах она может быть полезна, какие инструменты для перевода аудио в текст онлайн есть у Сбера.
Транскрибация — это перевод речи в текст. Например, у вас есть запись конференции или интервью, по которым нужно написать статью или краткую выжимку мероприятия. В этом случае вам поможет автоматическая транскрибация.
Расшифровку аудио можно также делегировать специалисту по транскрибации: для этого ему понадобится слушать запись и печатать то, что он слышит. С учётом пауз, нужных, чтобы записать услышанное, расшифровка может занять в несколько раз больше времени, чем длина записи. Есть и другие минусы: человек может ошибиться, такую работу нужно оплатить, не всю информацию можно передавать в руки третьих лиц — иногда важно сохранить коммерческую тайну.
С помощью онлайн-технологий распознавания голоса можно расшифровать аудио- или видеозапись и автоматически преобразовать её в текстовую версию — быстро и с минимальными ошибками.
Звук — это цифровой поток, который может быть обработан нейросетями. Они учатся распознавать голосовые данные так же, как находить объекты на картинках — с помощью датасетов (в которых есть аудио и размеченная текстовая расшифровка).
С помощью тренировок на датасетах система учится устанавливать соответствие определённой спектрограммы аудиозаписи символам.
В процессе распознавания файл (аудио или видео) с записью разбивается на очень короткие отрезки, каждый из которых представляет собой графический «рисунок». Нейросеть рассчитывает вероятность, что этому формату отрезка соответствует конкретный текст, например на русском языке.
После распознавания система может получить несколько возможных вариантов слова. Чтобы выбрать правильный, используется декодер, у которого есть некоторый контекст (список слов). Он выбирает среди вероятностей распознанных символов те, из которых получаются релевантные контексту слова.
Декодер может использовать персональный контекст. Например, если у пользователя в телефоне есть контакт «Стас», это слово попадёт в контекст декодера, чтобы пользователь мог воспользоваться голосовой командой «Переведи 1000 рублей Стасу» в мобильном банке.
Голосовые модели могут обучаться на разных языках, поменяется только набор символов и контекст (словарь) у декодера.
С помощью перевода звуковых файлов в текст можно транскрибировать выступления на конференциях, записи вебинаров, уроков и других материалов, которые могут быть интересны в текстовом виде.
Главный недостаток машинного распознавания — это «нечеловечность». Даже хорошо обученные переводу речи в текст нейросети могут допускать ошибки и транскрибировать не то слово, которое было в оригинале. Чаще это происходит, если в речи использованы нестандартные обороты, искажения языка или выдуманные слова, которым будут найдены максимально близкие известные аналоги.
Если в распознавании важна не столько скорость, сколько качество, тексты потом будут размещены на сайте или напечатаны, лучше подключить к транскрибации человека для постобработки готового материала. Так можно сэкономить время, получить качественный выверенный редактором материал, который невозможно создать только автоматическими способами.
Что влияет на точность текста после расшифровки:
Процесс работы с голосовыми помощниками выглядит так: они получают аудио, переводят его в текст, обрабатывают информацию, находят подходящий ответ на запрос в базе, а затем переводят текст ответа в аудио, синтезируя речь.
Инструмент SaluteSpeech от Сбера поможет с переводом голоса в текстовый формат и озвучиванием текста (синтезированием речи).
Его можно использовать во многих бизнес-задачах:
Специалисты Сбера разработали программу для распознавания голоса, которая качественно и точно обрабатывает русский и английский языки. В ней предусмотрен бесплатный тариф для физических лиц.
Технология Automatic Speech Recognition (ASR) распознаёт тексты разной сложности, проводит постобработку — определяет предложения,расставляет знаки препинания.
Преимущества модели:
Бесплатно попробовать синтез речи можно прямо на сайте Сбера. Выбирайте любой из семи мужских и женских голосов — они озвучат текст, который вы загрузили, как только нажмёте кнопку «Синтезировать».
Полная функциональность транскрибирования с простым интерфейсом доступна в Studio. Интегрируется с платформами Android и iOS, улучшает работу других приложений.
SaluteSpeech не только даёт возможности переводить аудио в текст, но и предусматривает синтез речи, если нужно автоматически озвучить текст. За это отвечает технология Text to speech (TTS).
Что она умеет:
Тарификация за синтез речи — 186 рублей за каждый миллион символов. Предусмотрена скидка за первые 30 дней использования.
Продукты из этой статьи: