SAF Vectorizers — это плагин для SmartApp Framework, который используется для векторизации текстов с помощью различных моделей:
- SBERT (SentenceBERT) — предобученная русскоязычная Open Source модель от SberDevices.
- USE (Universal Sentence Encoder) — предобученная мультиязыковая модель. Модель распространяется под лицензией Apache 2.0 и используется в оригинальном виде без изменений.
- Word2Vec — предобученная русскоязычная модель. Распространяется на условиях лицензии Creative Commons Attribution (CC-BY) . Модель доступна на официальном сайте NLPL word embeddings repository и используется в оригинальном виде без изменений. Авторы модели — Language Technology Group at the University of Oslo .
- FastText — предобученная русскоязычная модель. Распространяется на условиях лицензии Creative Commons Attribution-Share-Alike License 3.0 . Модель доступна на официальном сайте FastText и используется в оригинальном виде без изменений. Авторы модели:
@inproceedings{grave2018learning,
title={Learning Word Vectors for 157 Languages},
author={Grave, Edouard and Bojanowski, Piotr and Gupta, Prakhar and Joulin, Armand and Mikolov, Tomas},
booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC 2018)},
year={2018}
}
Установка плагина
Перед установкой плагина скачайте предобученные модели векторизаторов с их официальных сайтов.
Скрипт на скачивание моделей по умолчанию запускается в setup.py
, но вы можете запустить его отдельно, чтобы видеть статус загрузки в логах. Выдайте скрипту права на исполнение и отключите VPN, если используете.
В качестве аргументов скрипт принимает названия моделей векторизаторов, которые вы хотите скачать. Чтобы скачать все модели, используйте аргумент all
. Чтобы скачать определенную модель, укажите ее название в аргументе: sbert
,use
, fasttext
или word2vec
. Если нужно скачать несколько моделей, укажите их названия через пробел: use fasttext
.
Команда запуска скрипта на скачивание моделей:
chmod u+r+x download_models.sh
./download_models.sh all