ym88659208ym87991671
SaluteSpeech
6 минут на чтение
22 февраля 2024

Транскрибация: конвертация аудио в текст

Продукты из этой статьи:

В статье рассмотрим, как работает технология распознавания аудио, в каких задачах она может быть полезна, какие инструменты для перевода аудио в текст онлайн есть у Сбера.

Попробуйте распознавание и синтез речи в личном кабинете Цифровой витрины
Зарегистрируйтесь, пройдите модерацию и используйте SaluteSpeech для своего проекта

Что такое транскрибация

Транскрибация — это перевод речи в текст. Например, у вас есть запись конференции или интервью, по которым нужно написать статью или краткую выжимку мероприятия. В этом случае вам поможет автоматическая транскрибация.

Расшифровку аудио можно также делегировать специалисту по транскрибации: для этого ему понадобится слушать запись и печатать то, что он слышит. С учётом пауз, нужных, чтобы записать услышанное, расшифровка может занять в несколько раз больше времени, чем длина записи. Есть и другие минусы: человек может ошибиться, такую работу нужно оплатить, не всю информацию можно передавать в руки третьих лиц — иногда важно сохранить коммерческую тайну.

С помощью онлайн-технологий распознавания голоса можно расшифровать аудио- или видеозапись и автоматически преобразовать её в текстовую версию — быстро и с минимальными ошибками.

Как устроен перевод аудио в текст

Звук — это цифровой поток, который может быть обработан нейросетями. Они учатся распознавать голосовые данные так же, как находить объекты на картинках — с помощью датасетов (в которых есть аудио и размеченная текстовая расшифровка).

С помощью тренировок на датасетах система учится устанавливать соответствие определённой спектрограммы аудиозаписи символам.

В процессе распознавания файл (аудио или видео) с записью разбивается на очень короткие отрезки, каждый из которых представляет собой графический «рисунок». Нейросеть рассчитывает вероятность, что этому формату отрезка соответствует конкретный текст, например на русском языке.

После распознавания система может получить несколько возможных вариантов слова. Чтобы выбрать правильный, используется декодер, у которого есть некоторый контекст (список слов). Он выбирает среди вероятностей распознанных символов те, из которых получаются релевантные контексту слова.

Декодер может использовать персональный контекст. Например, если у пользователя в телефоне есть контакт «Стас», это слово попадёт в контекст декодера, чтобы пользователь мог воспользоваться голосовой командой «Переведи 1000 рублей Стасу» в мобильном банке.

Голосовые модели могут обучаться на разных языках, поменяется только набор символов и контекст (словарь) у декодера.

Преимущества использования программного распознавания

  • Скорость распознавания. На обработку коротких аудио или видео в синхронном режиме понадобится доля секунды.
  • Возможность распознавать аудио в режиме онлайн. Такую функцию применяют некоторые сервисы, создавая автоматические субтитры к видео для пользователей.
  • Любые объёмы. Сервисы, которые переводят запись в текст, могут работать как с потоковыми данными, так и с записями любой длины. От продолжительности зависит скорость распознавания, но это процесс, который не требует участия человека, и время получения результата сокращается.
  • Интеграция по API. Взаимодействие вашего программного продукта с сервисом распознавания речи возможно разными способами: синхронное (если ответ нужен быстро); потоковое (если речь идёт о телефонии или записи аудио на мобильных устройствах) ассинхронное (если речь идёт об отложенной обработке файлов).
  • Иногда нейросети «слышат» лучше человека: в записи с шумным фоном или несколькими источниками звуков они могут уловить речь без помех.

С помощью перевода звуковых файлов в текст можно транскрибировать выступления на конференциях, записи вебинаров, уроков и других материалов, которые могут быть интересны в текстовом виде.

Попробуйте преобразование аудио в текст
Запишите голос и SaluteSpeech преобразует его в текст

Недостатки автоматического перевода речи в текст

Главный недостаток машинного распознавания — это «нечеловечность». Даже хорошо обученные переводу речи в текст нейросети могут допускать ошибки и транскрибировать не то слово, которое было в оригинале. Чаще это происходит, если в речи использованы нестандартные обороты, искажения языка или выдуманные слова, которым будут найдены максимально близкие известные аналоги.

Если в распознавании важна не столько скорость, сколько качество, тексты потом будут размещены на сайте или напечатаны, лучше подключить к транскрибации человека для постобработки готового материала. Так можно сэкономить время, получить качественный выверенный редактором материал, который невозможно создать только автоматическими способами.

Что влияет на точность текста после расшифровки:

  • качество микрофона и конечного звука — важно, чтобы громкость голоса была как можно более ровной и не было помех;
  • качество кодирования файлов аудио или видео;
  • темп речи, чёткость произношения;
  • какие формулировки использовались: сложные термины и конструкции или простой русский язык; наличие сторонних голосов, которые звучат фоном.

Какие задачи поможет решить перевод голоса в текст

  • Поддержка аудиоконтента. Некоторые люди предпочитают читать, а не слушать, текстовая расшифровка презентации, вебинара, онлайн-курсов, аудиокниг и других материалов для них будет полезна. А ещё расшифровка может быть дополнительным материалом для закрепления знаний или подарком для участников мероприятия.
  • Автоматическая запись голоса на встречах. Компании, где принято вести протоколы встреч, могут распознавать аудиофайлы, чтобы сохранить все обсуждения и договорённости без участия секретаря.
  • Голосовое управление в сервисах и на сайтах. Иногда печатать долго и неудобно, в этом случае пригодится функция голосового ввода. Ей очень удобно пользоваться, например, в приложениях с картами: вместо того чтобы печатать адрес, его можно быстро проговорить. В браузере, способном переводить речь в текст, можно надиктовать любой поисковый запрос, не нажимая на кнопки клавиатуры.
  • Оптимизация IVR. В интерактивном голосовом меню, когда вы звоните и общаетесь с роботом, чтобы получить нужную информацию или связаться с оператором, есть простой сценарий «если... то». Клиенту нужно прослушать все варианты, чтобы выбрать нужный. Если добавить в IVR распознавание вопроса, который интересует клиента, то он намного быстрее попадёт в нужный раздел.
  • Создание голосовых помощников. Эти сервисы помогают пользователям решать вопросы голосом — как чат-боты, но с живым диалогом. Вы можете загрузить в ассистента основные повторяющиеся бизнес-сценарии, и он снимет значительную часть нагрузки с поддержки. Встроить голосового помощника на сайт или в приложение можно с технологией SaluteSpeech, написав свой сценарий работы с пользовательскими запросами.

Процесс работы с голосовыми помощниками выглядит так: они получают аудио, переводят его в текст, обрабатывают информацию, находят подходящий ответ на запрос в базе, а затем переводят текст ответа в аудио, синтезируя речь.

Видеозвонки в SaluteJazz
Общайтесь с друзьями и близкими везде, где есть Интернет

Что умеет SaluteSpeech от Сбера

Инструмент SaluteSpeech от Сбера поможет с переводом голоса в текстовый формат и озвучиванием текста (синтезированием речи).

Его можно использовать во многих бизнес-задачах:

  • автоматизировать работу кол-центра;
  • озвучивать голосовое меню (IVR);
  • создавать голосового ассистента;
  • внедрять голосовое управление в сервисе или на сайте;
  • анализировать работу персонала и повышать качество обслуживания;
  • обрабатывать отдельные файлы (создать текстовое сопровождение для старого аудио- или видеоконтента).

Специалисты Сбера разработали программу для распознавания голоса, которая качественно и точно обрабатывает русский и английский языки. В ней предусмотрен бесплатный тариф для физических лиц.

Технология Automatic Speech Recognition (ASR) распознаёт тексты разной сложности, проводит постобработку — определяет предложения,расставляет знаки препинания.

Преимущества модели:

  • Высокая скорость перевода звука в текст. Благодаря этому ASR можно использовать в нагруженных сервисах, где нужно быстро отдать пользователю ответ.
  • Минимальный процент ошибок. Благодаря постоянному дообучению на новых данных модель допускает минимум ошибок при расшифровке, и на выходе получается качественный текст.
  • Возможность встраивания в пользовательские сценарии с голосовыми помощниками. С применением SaluteSpeech можно самостоятельно написать голосовой помощник, который дополнит или заменит собой чат-бот.
  • Стоимость распознавания напрямую зависит от объёмов — тарификация для бизнес-аккаунтов строится на количестве распознанных секунд из файла или потокового источника без дополнительных платежей.

Бесплатно попробовать синтез речи можно прямо на сайте Сбера. Выбирайте любой из семи мужских и женских голосов — они озвучат текст, который вы загрузили, как только нажмёте кнопку «Синтезировать».

Полная функциональность транскрибирования с простым интерфейсом доступна в Studio. Интегрируется с платформами Android и iOS, улучшает работу других приложений.

SaluteSpeech не только даёт возможности переводить аудио в текст, но и предусматривает синтез речи, если нужно автоматически озвучить текст. За это отвечает технология Text to speech (TTS).

Что она умеет:

  • Правильно считывает знаки препинания, расставляет ударения в словах и акценты в предложении, благодаря чему лучше удаётся достичь естественного звучания речи на русском и английском языках.
  • Даёт возможность выбрать пол, тон, тембр голоса, который будет озвучивать текст. Вы можете создать голос бренда, например, пригласив озвучить голосовое меню, интерфейсы сотрудника компании или медийное лицо.

Тарификация за синтез речи — 186 рублей за каждый миллион символов. Предусмотрена скидка за первые 30 дней использования.

Продукты из этой статьи:

Автор
Редакция developers.sber.ru
Ещё по теме
Синтез и распознавание речи
Голосовой бот

Как создать и что учесть в сценариях
Синтез и распознавание речи
Общие вопросы и ответы

Частозадаваемые вопросы о SaluteSpeech
Синтез и распознавание речи
Распо­знавание речи

Как работает и используется в бизнесе
Синтез и распознавание речи
Преобра­зование текста в аудио

Какие задачи можно решить с помощью SaluteSpeech
ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.