ym88659208ym87991671
Приложение SaluteSpeech App | Документация для разработчиков

Приложение SaluteSpeech App

Обновлено 10 декабря 2024

SaluteSpeech App — это приложение для Windows и MacOS, которое позволяет синтезировать и распознавать речь, а также генерировать текст.

Для использования SaluteSpeech App:

  1. Скачайте и установите приложение
  2. Выберите тариф
  3. Получите авторизационные данные
  4. Получите токен

Шаг 1: скачайте и установите приложение

Скачайте приложение SaluteSpeech App и установите его на компьютер:

Шаг 2: выберите тариф

Вы можете бесплатно использовать сервис SaluteSpeech для распознавания и синтеза речи в рамках тарифа Freemium.

Количество токенов в пакете Freemium ограничено.

Тариф Freemium доступен только для физических лиц. Для юридических лиц действует пакетная тарификация с предоплатой, а также тариф с оплатой по факту потребления.

Вы можете приобрести дополнительные пакеты, чтобы получить больше возможностей.

Подробнее о платных тарифах:

Шаг 3: получите авторизационные данные

Авторизационные данные — строка, полученная в результате кодирования в Base64 клиентского идентификатора (Client ID) и версии API (Scope). Вы можете использовать готовые данные из личного кабинета или самостоятельно закодировать идентификатор и ключ.

Авторизационные данные нужны для получения токена доступа с помощью запроса POST /api/v2/oauth.

Как получить авторизационные данные — читайте в разделе Получаем доступ к API.

Шаг 4: получите токен

Для работы в приложении вам нужно получить токен (Access Token).

Access Token — токен доступа, который разрешает временный доступ к API.

Токен действителен в течение 30 минут.

Токен SaluteSpeech API

Токен SaluteSpeech API необходим для синтеза и распознавания речи.

Чтобы сгенерировать токен SaluteSpeech:

  1. Подключите проект SaluteSpeech в личном кабинете Studio. Подробнее — в разделе Подключаем сервис.
  2. В созданном проекте SaluteSpeech скопируйте авторизационные данные.
  3. Запустите приложение SaluteSpeech App на вашем компьютере.
  4. Нажмите иконку профиля в правом верхнем углу и выберите SaluteSpeech.

Откроется окно авторизации в SaluteSpeech App.

Получение токена
  1. Выберите тип использования (Scope):
  • PERS — физическое лицо, проект SaluteSpeech создан в личном пространстве;
  • CORP — юридическое лицо, проект SaluteSpeech создан в корпоративном пространстве на условиях постоплаты;
  • B2B — юридическое лицо, проект SaluteSpeech создан в корпоративном пространстве на условиях предоплаты;
  • SPEECH — юридическое лицо, проект SaluteSpeech создан в корпоративном пространстве (устаревшее значение).

Узнать свой тип использования можно на главной странице проекта SaluteSpeech в личном кабинете Studio.

  1. Вставьте скопированные ранее авторизационные данные и нажмите Сгенерировать токен.
    Готово! Теперь вы можете распознавать и синтезировать речь в приложении SaluteSpeech App.

Токен GigaChat API

Токен GigaChat API необходим для генерации текста.

Чтобы сгенерировать токен GigaChat:

  1. Подключите проект GigaChat в личном кабинете Studio. Подробнее — в разделах Быстрый старт для физлиц и Быстрый старт для ИП и юрлиц документации GigaChat API.
  2. В созданном проекте GigaChat скопируйте авторизационные данные. Подробнее о получении токена GigaChat API — в разделе Начало работы с API.
  3. Запустите приложение SaluteSpeech App на вашем компьютере.
  4. Нажмите иконку профиля в правом верхнем углу и выберите GigaChat.

Откроется окно авторизации в GigaChat:

Получение токена физическими лицами
  1. В открывшемся окне выберите тип использования (Scope):
  • PERS — физическое лицо, проект SaluteSpeech создан в личном пространстве;
  • CORP — юридическое лицо, проект SaluteSpeech создан в корпоративном пространстве на условиях постоплаты;
  • B2B — юридическое лицо, проект SaluteSpeech создан в корпоративном пространстве на условиях предоплаты;
  1. Вставьте скопированные ранее авторизационные данные и нажмите Сгенерировать токен.
    Готово! Теперь вы можете генерировать тексты в приложении SaluteSpeech App.

Возможности SaluteSpeech App

Авторизовавшись в системе и получив токен доступа, вы можете начать пользоваться приложением SaluteSpeech App.

Распознаем речь

Чтобы распознать речь на русском языке в приложении SaluteSpeech App:

  1. Перейдите на вкладку Распознавание.
  2. Нажмите Выберите файл и загрузите нужный файл.

Вам отобразится распознанный текст. Его можно изменить с помощью модели GigaChat в этом же приложении.

Поддерживается распознавание аудиофайлов любых форматов.

Синтезируем речь

Чтобы озвучить текст в приложении SaluteSpeech App:

  1. Перейдите на вкладку Синтез.
  2. Выберите голос, которым хотите озвучить текст.

Kira — голос для озвучивания на английском языке, остальные голоса — для русского языка.

  1. Если некоторые фразы надо произнести другим голосом, выберите дополнительный голос.
  2. Введите текст, который нужно озвучить.
  3. Если нужно, оформите текст SSML-тегами с помощью соответствующих кнопок:
    1. Изменить ударение.
    2. Сделать акцент.
    3. Добавить паузу.
    4. Произнести часть фразы дополнительным голосом.
    5. Изменить интонацию
  4. Нажмите Синтезировать.

Генерируем текст

Чтобы сгенерировать или отформатировать текст в приложении SaluteSpeech App:

  1. Перейдите на вкладку Генерация.
  2. Введите в поле запрос к модели GigaChat.
  3. Нажмите Сгенерировать.

Далее вы можете озвучить полученный текст, нажав Использовать в синтезе.

Вопросы и ответы

Зачем нужен токен?

Получить токен SaluteSpeech API и GigaChat API необходимо для авторизации в системе. Генерация текста, а также синтез и распознавание речи недоступны для неавторизованных пользователей.

Что доступно в бесплатном тарифе?

В рамках тарифа Freemium вы получаете:

  • SaluteSpeech API: 200 000 символов на синтез речи, 100 минут на распознавание речи, 3 потока одновременных запросов;
  • GigaChat API: 1 000 000 токенов для генерации текста (950 000 GigaChat Lite, 50 000 GigaChat Pro), 1 поток одновременных запросов.
Какое количество потоков поддерживается единовременно?

Для физических лиц доступно:

  • 3 потока одновременных запросов в SaluteSpeech API;
  • 1 поток одновременных запросов в GigaChat API.

Чтобы получить больше потоков, зарегистрируйтесь как юридическое лицо.

Что поменялось в версии 3.2.0?
  1. В разделе Синтез добавлены новые голоса:
  • женский казахский «Асем (kz)»;
  • женский русский «Асем (ru)»;
  1. Небольшие исправления интерфейса.
Можно ли установить SaluteSpeech App на смартфон?

Приложение SaluteSpeech App доступно только для ПК на Windows и MacOS.

ПАО Сбербанк использует cookie для персонализации сервисов и удобства пользователей.
Вы можете запретить сохранение cookie в настройках своего браузера.