Транскрибация: конвертация аудио в текст

6 минут на чтение

13 февраля 2024

27 ноября 2024

Транскрибация: конвертация аудио в текст

Продукты из этой статьи:

SaluteSpeech

SaluteSpeech YourVoice

В статье рассмотрим, как работает технология распознавания аудио, как сделать и для чего нужна транскрибация, какие инструменты для перевода с аудио в текст онлайн есть у Сбера.

Распознавание и синтез речи

Что такое транскрибация

Транскрибация аудио — это перевод речи в текст. Простыми словами, например, у вас есть запись конференции или интервью, по которым нужно написать статью или краткую выжимку мероприятия. В этом случае вам поможет автоматическая транскрибация из голоса в текст онлайн.

Расшифровку аудио в текст можно также делегировать специалисту по транскрибации аудио в текст: для этого ему понадобится слушать запись и печатать то, что он слышит. С учётом пауз, нужных, чтобы записать услышанное, аудио или видео транскрибируется в несколько раз больше времени, чем длина записи. Есть и другие минусы: человек может ошибиться в том, как правильно транскрибировать текст. Такую работу нужно оплатить, не всю информацию можно передавать в руки третьих лиц — иногда важно сохранить коммерческую тайну.

Транскрибирование — это возможность сэкономить время и деньги

С помощью онлайн-технологий распознавания голоса можно расшифровать аудио- или видеозапись и автоматически преобразовать её в текстовую версию — быстро и с минимальными ошибками. Также существуют сервисы, которые переводят текст в аудио онлайн. Перевод аудиозаписи в текст ускоряет работу в разных сферах деятельности:

Бизнес может внедрить транскрибатор для протоколирования встреч, голосового управления продуктом и оперативной работы с обращениями клиентов.
В образовании технологию применяют для получения текстовой расшифровки лекций, вебинаров или конференций, которую можно использовать для создания конспектов и учебных пособий.
Журналисты используют технологию, чтобы быстро расшифровать аудио и видеоматериалы и адаптировать их под текстовый формат.

Как устроен перевод аудио в текст

Звук — это цифровой поток, который может быть обработан нейросетями. Они учатся распознавать голосовые данные так же, как находить объекты на картинках — с помощью датасетов (в которых есть аудио и размеченная текстовая расшифровка).

С помощью тренировок на датасетах система учится устанавливать соответствие определённой спектрограммы аудиозаписи символам. В процессе распознавания файл (аудио или видео) с записью разбивается на очень короткие отрезки, каждый из которых представляет собой графический «рисунок». Нейросеть рассчитывает вероятность, что этому формату отрезка соответствует конкретный текст, например на русском языке.

После распознавания система может получить несколько возможных вариантов слова. Чтобы выбрать правильный, используется декодер, у которого есть некоторый контекст (список слов). Он выбирает среди вероятностей распознанных символов те, из которых получаются релевантные контексту слова.

Декодер может использовать персональный контекст. Например, если у пользователя в телефоне есть контакт «Стас», это слово попадёт в контекст декодера, чтобы пользователь мог воспользоваться голосовой командой «Переведи 1000 рублей Стасу» в мобильном банке.

Голосовые модели могут обучаться на разных языках, поменяется только набор символов и контекст (словарь) у декодера.

Преимущества использования программного распознавания

Скорость распознавания. Чтобы перевести аудио в текст, нейросети понадобится несколько секунд.
Возможность распознавать данные из аудио в текст онлайн. Такую функцию применяют некоторые сервисы, создавая автоматические субтитры к видео для пользователей.
Любые объёмы. Нейросети, переводящие звук в текст, могут работать как с потоковыми данными, так и с записями любой длины. От продолжительности зависит скорость распознавания, но это процесс, который не требует участия человека, и время получения результата сокращается.
Интеграция по API. Взаимодействие вашего программного продукта с сервисом распознавания речи возможно разными способами: синхронное (если ответ нужен быстро); потоковое (если речь идёт о телефонии или записи аудио на мобильных устройствах) асинхронное (если речь идёт об отложенной обработке файлов).
Иногда нейросети «слышат» лучше человека: распознают текст из аудио с шумным фоном или несколькими источниками.

С помощью онлайн-транскрибирования аудио в текст можно расшифровать выступления на конференциях, записи вебинаров, уроков и других материалов, которые могут быть интересны в текстовом виде.

Распознавание и синтез речи

Недостатки автоматического перевода речи в текст

Главный недостаток машинного распознавания — это «нечеловечность». Даже хорошо обученные переводу голоса в текст онлайн нейросети могут допускать ошибки и транскрибировать не то слово, которое было в оригинале. Чаще это происходит, если в речи использованы нестандартные обороты, искажения языка или выдуманные слова, которым будут найдены максимально близкие известные аналоги.

Если в распознавании текста из аудио важна не столько скорость, сколько качество, материал потом будет размещён на сайте или напечатан, лучше подключить к работе по транскрибации текста человека для постобработки готового материала. Так можно сэкономить время, получить качественный выверенный редактором материал, который невозможно создать только автоматическими способами преобразования текста по аудио.

Хорошее качество записи — залог корректного транскрипта аудио в текст. Вот, что ещё влияет на точность текста после расшифровки:

качество микрофона — важно, чтобы громкость голоса была как можно более ровной и не было помех;
качество кодирования файлов аудио или видео;
темп речи, чёткость произношения;
какие формулировки использовались: сложные термины и конструкции или простой русский язык; наличие сторонних голосов, которые звучат фоном.

Какие задачи поможет решить перевод голоса в текст

Поддержка аудиоконтента. Некоторые люди предпочитают читать, а не слушать, текстовая расшифровка презентации, вебинара, онлайн-курсов, аудиокниг и других материалов для них будет полезна. А ещё расшифровка из голоса в текст может быть дополнительным материалом для закрепления знаний или подарком для участников мероприятия.

Автоматическая запись голоса на встречах. Компании, где принято вести протоколы встреч, могут распознавать аудиофайлы, чтобы сохранить все обсуждения и договорённости без участия секретаря.

Голосовое управление в сервисах и на сайтах. Иногда печатать долго и неудобно, в этом случае пригодится функция голосового ввода. Ей очень удобно пользоваться, например, в приложениях с картами: вместо того чтобы печатать адрес, его можно быстро проговорить. В браузере, способном переводить речь в текст, можно надиктовать любой поисковый запрос, не нажимая на кнопки клавиатуры.

Оптимизация IVR. В интерактивном голосовом меню, когда вы звоните и общаетесь с роботом, чтобы получить нужную информацию или связаться с оператором, есть простой сценарий — «если… то». Клиенту нужно прослушать все варианты, чтобы выбрать нужный. Если добавить в IVR распознавание вопроса, который интересует клиента, то он намного быстрее попадёт в нужный раздел.

Создание голосовых помощников. Эти сервисы помогают пользователям решать вопросы голосом — как чат-боты, но с живым диалогом. Вы можете загрузить в ассистента основные повторяющиеся бизнес-сценарии, и он снимет значительную часть нагрузки с поддержки. Встроить голосового помощника на сайт или в приложение можно с технологией SaluteSpeech, написав свой сценарий работы с пользовательскими запросами.

Процесс работы с голосовыми помощниками выглядит так: они получают аудио, переводят его в текст, обрабатывают информацию, находят подходящий ответ на запрос в базе, а затем переводят текст ответа в аудио, синтезируя речь.

Что умеет SaluteSpeech от Сбера

Инструмент SaluteSpeech от Сбера поможет с переводом голоса в текстовый формат и озвучиванием текста (синтезированием речи). Его можно использовать во многих бизнес-задачах:

автоматизировать работу кол-центра;
озвучивать голосовое меню (IVR);
создавать голосового ассистента;
внедрять голосовое управление в сервисе или на сайте;
анализировать работу персонала и повышать качество обслуживания;
обрабатывать отдельные файлы (создать текстовое сопровождение для старого аудио- или видеоконтента).

Специалисты Сбера разработали программу для распознавания голоса. Она качественно обрабатывает английскую и русскую речь, а преобразование в текст происходит за несколько секунд. В ней предусмотрен бесплатный тариф для физических лиц.

Технология Automatic Speech Recognition (ASR) распознаёт тексты разной сложности, проводит постобработку — определяет предложения, расставляет знаки препинания.

Преимущества модели:

Высокая скорость перевода звука в текст. Благодаря этому ASR можно использовать в нагруженных сервисах, где нужно быстро отдать пользователю ответ.
Минимальный процент ошибок. Благодаря постоянному дообучению на новых данных модель допускает минимум ошибок при расшифровке, и на выходе получается качественный текст.
Возможность встраивания в пользовательские сценарии с голосовыми помощниками. С применением SaluteSpeech можно самостоятельно написать голосовой помощник, который дополнит или заменит собой чат-бот.
Стоимость распознавания напрямую зависит от объёмов — тарификация для бизнес-аккаунтов строится на количестве распознанных секунд из файла или потокового источника без дополнительных платежей.
Полная функциональность транскрибирования текста с простым интерфейсом доступна в Studio. Интегрируется с платформами Android и iOS, улучшает работу других приложений.

Дополнительная польза от нейросети: аудио в текст и обратно

SaluteSpeech не только даёт возможность аудио перевести в текст, но и предусматривает синтез речи, если нужно автоматически озвучить текст. За это отвечает технология Text to speech (TTS).

Бесплатно попробовать синтез речи можно прямо на сайте Сбера. Выбирайте любой из семи мужских и женских голосов — они озвучат текст, который вы загрузили, как только нажмёте кнопку «Синтезировать».

Преимущества сервиса:

Общается человеческим языком

Правильно считывает знаки препинания, расставляет ударения в словах и акценты в предложении, благодаря чему лучше удаётся достичь естественного звучания речи на русском и английском языках.

А ещё нейросеть не перебивает собеседника и отвечает только после того, как тот закончил говорить.

Настраивается под ваши требования

Даёт возможность выбрать пол, тон, тембр голоса, который будет озвучивать текст. Вы можете создать голос бренда, например, пригласив озвучить голосовое меню, интерфейсы сотрудника компании или медийное лицо.

Собирает данные для аналитики

Модель распознаёт эмоции клиента и помогает проанализировать удовлетворённость сервисом или продуктом.

Тарификация за синтез речи — 186 рублей за каждый миллион символов. Предусмотрена скидка за первые 30 дней использования.

Продукты из этой статьи:

SaluteSpeech

SaluteSpeech YourVoice

Автор

Редакция developers.sber.ru

Оцените статью

Ещё по теме

Синтез и распознавание речи

Голосовой бот

Как создать и что учесть в сценариях

Синтез и распознавание речи

Общие вопросы и ответы

Частозадаваемые вопросы о SaluteSpeech

Синтез и распознавание речи

Распознавание речи

Как работает и используется в бизнесе

Синтез и распознавание речи

Преобразование текста в аудио

Какие задачи можно решить с помощью SaluteSpeech

Что такое транскрибация
Транскрибирование — это возможность сэкономить время и деньги
Как устроен перевод аудио в текст
Преимущества использования программного распознавания
Недостатки автоматического перевода речи в текст
Какие задачи поможет решить перевод голоса в текст
Что умеет SaluteSpeech от Сбера
Дополнительная польза от нейросети: аудио в текст и обратно
Преимущества сервиса:
Общается человеческим языком
Настраивается под ваши требования
Собирает данные для аналитики

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.