ym88659208ym87991671
Пользовательское приложение SaluteSpeech App | Документация для разработчиков

Пользовательское приложение SaluteSpeech App

Обновлено 19 апреля 2024

Даже если у вас нет навыков программирования, вы можете синтезировать и распознавать речь, а также генерировать текст с помощью приложения SaluteSpeech App для Windows и MacOS.

Стоимость использования приложения зависит от сервиса:

Скачиваем приложение

Для начала скачайте приложение SaluteSpeech App версии 2.3.1 и установите его на компьютер:

Что поменялось в версии 2.3.1:

  • Можно распознавать новые форматы аудио и видео: M4A, MPGA, MPEG, MP4, WEBM и т. д.
  • Результаты распознавания отображаются в потоковом режиме.
  • Отображается статус распознавания.
  • В результатах распознавания отображается имя файла.
  • Можно кнопками перемещаться к началу и к концу распознавания.

Чтобы работать в приложении, вам нужно получить токен. Для синтеза и распознавания речи — токен SaluteSpeech API, а для генерации текста — токен GigaChat API.

Получаем токен

Токен SaluteSpeech API

Чтобы сгенерировать токен SaluteSpeech:

  1. Подключите SaluteSpeech. Подробнее — в разделе Подключаем сервис.

  2. В созданном проекте SaluteSpeech скопируйте авторизационные данные.

  3. Запустите приложение SaluteSpeech App на вашем компьютере.

  4. Нажмите иконку профиля в правом верхнем углу и выберите SaluteSpeech. Откроется окно генерации токена:

    Получения токена
  5. В открывшемся окне выберите тип использования:

    • Физическое лицо — если проект SaluteSpeech создан в личном пространстве и в поле Scope указано значение SALUTE_SPEECH_PERS.
    • Юридическое лицо — если проект SaluteSpeech создан в корпоративном пространстве и в поле Scope указано значение SALUTE_SPEECH_CORP.
    • Legacy — если проект SaluteSpeech создан в корпоративном пространстве и в поле Scope указано значение SBER_SPEECH.
  6. Вставьте скопированные ранее авторизационные данные.

  7. Нажмите Сгенерировать токен.

Теперь вы можете распознавать и синтезировать речь в приложении SaluteSpeech App.

Токен GigaChat API

Чтобы сгенерировать токен GigaChat:

  1. Подключите GigaChat. Подробнее — в разделе Начало работы в GigaChat.

  2. В созданном проекте GigaChat скопируйте авторизационные данные.

  3. Запустите приложение SaluteSpeech App на вашем компьютере.

  4. Нажмите иконку профиля в правом верхнем углу и выберите GigaChat. Откроется окно генерации токена:

    Получения токена
  5. В открывшемся окне выберите тип использования:

    • Физическое лицо — если проект GigaChat создан в личном пространстве.
    • Юридическое лицо — если проект GigaChat создан в корпоративном пространстве.
  6. Вставьте скопированные ранее авторизационные данные.

  7. Нажмите Сгенерировать токен.

Теперь вы можете генерировать тексты в приложении SaluteSpeech App.

Распознаем речь

Чтобы распознать речь на русском языке в приложении SaluteSpeech App:

  1. Получите токен SaluteSpeech.
  2. Перейдите на вкладку Распознавание.
  3. Нажмите Выберите файл и загрузите нужный файл.

Вам отобразится распознанный текст. Его можно изменить с помощью модели GigaChat в этом же приложении.

Распознавать можно аудио-файлы следующих форматов:

  • PCM.
  • OPUS.
  • MP3.
  • FLAC.
  • ALAW.
  • MULAW.

Подробнее — в разделе Доступные форматы аудио.

Синтезируем речь

Чтобы озвучить текст в приложении SaluteSpeech App:

  1. Получите токен SaluteSpeech.
  2. Перейдите на вкладку Синтез.
  3. Выберите голос, которым хотите озвучить текст. Kira — голос для озвучивания на английском языке, остальные голоса — для русского языка.
  4. Если некоторые фразы надо произнести другим голосом, выберите дополнительный голос.
  5. Введите текст, который нужно озвучить.
  6. Если нужно, оформите текст SSML-тегами с помощью соответствующих кнопок:
    1. Изменить ударение.
    2. Сделать акцент.
    3. Добавить паузу.
    4. Произнести часть фразы дополнительным голосом.
    5. Изменить интонацию
  7. Нажмите Синтезировать.

Генерируем текст

Чтобы сгенерировать или отформатировать текст в приложении SaluteSpeech App:

  1. Получите токен GigaChat.
  2. Перейдите на вкладку Генерация.
  3. Введите в поле запрос к модели GigaChat.
  4. Нажмите Сгенерировать.

Далее вы можете озвучить полученный текст, нажав Использовать в синтезе.

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.