В открытом доступе опубликована библиотека PyTorch-LifeStream, которая содержит алгоритмы построения эмбеддингов событийных данных.
Эмбеддинг — это результат преобразования сложно-структурированных данных (например, слов, текстов, событий, их последовательностей и атрибутов) в числовой вектор, который может прочитать компьютер.
Библиотеку PyTorch-LifeStream можно использовать для подготовки датасетов — массивов обезличенных данных, которые нужны для развития ML-моделей и создания новых продуктов и сервисов с применением искусственного интеллекта.
Событийные данные могут представлять собой самые разные последовательности, например, истории посещений сайтов, истории покупок, событий в онлайн-играх и т. п. Эмбеддинг такой последовательности, сгенерированный с помощью алгоритмов PyTorch-LifeStream, не будет содержать персональных данных.
В библиотеке реализован уникальный алгоритм применения нейросетевого контрастного обучения к событийным данным, созданный и запатентованный в Лаборатории по искусственному интеллекту Сбера. Кроме того, в библиотеке реализованы методы на основе сторонних научных публикаций, но адаптированные инженерами Сбера к событийным данным.
Источник: SBER PRESS