ym88659208ym87991671
function tokenize(text) для смартапов | Документация для разработчиков
Skip to main content

function tokenize(text)

Обновлено 09 августа 2022

Разбивает текст на слова (токены). Возвращает массив строк.

Поддерживаемые типы токенизаторов:

  • regexp — простой токенизатор на регулярных выражениях.
  • srx — конфигурируемый токенизатор на базе настраиваемых правил сегментации. При указании данного токенизатора требуется указать файл грамматики в параметре srxPath.
  • default — способ сегментации по умолчанию. Является предпочтительной опцией при совместном использовании паттернов и классификатора.

Тип токенизатора и его параметры указываются в файле chatbot.yaml:

nlp:
tokenizer: default
morphology: pyMorphy
costStrategy: weighted
contextHistoryDepth: 1
nbest: 1
vocabulary: sys/dictionaries/opencorpora/opcorpora-vocab.json
synonyms: sys/dictionaries/opencorpora/weighted-synonyms-pmiIdf.json

Примеры значений

 state: TestTokenize
q!: tokenize
script:
$temp.m = $nlp.tokenize("Добрый день, помогите с заказом. Спасибо. С наступающим.");
a: morph: {{$temp.m[0]}}

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней