function tokenize(text)

Разбивает текст на слова (токены). Возвращает массив строк.

Поддерживаемые типы токенизаторов:

  • regexp — простой токенизатор на регулярных выражениях.
  • srx — конфигурируемый токенизатор на базе настраиваемых правил сегментации. При указании данного токенизатора требуется указать файл грамматики в параметре srxPath.
  • myStem — сегментация посредством утилиты myStem. Является предпочтительной опцией при совместном использовании паттернов и классификатора.

Тип токенизатора и его параметры указываются в файле chatbot.yaml:

 nlp:
  tokenizer: myStem
  morphology: pyMorphy
  costStrategy: weighted
  contextHistoryDepth: 1
  nbest: 1
  vocabulary: sys/dictionaries/opencorpora/opcorpora-vocab.json
  synonyms: sys/dictionaries/opencorpora/weighted-synonyms-pmiIdf.json

Примеры значений

 state: TestTokenize
        q!: tokenize
        script:
            $temp.m = $nlp.tokenize("Добрый день, помогите с заказом. Спасибо. С наступающим.");
        a: morph: {{$temp.m[0]}}

Заметили ошибку?

Выделите текст и нажмите Ctrl + Enter, чтобы сообщить нам о ней