Биологи классифицируют животных по видам и отрядам. Специалисты по маркетингу сортируют ключевые слова по частотности. Трейдеры группируют биржевые активы по ценам, доходности, волатильности. Между этими процессами есть кое-что общее: подход к работе с информацией.
Кластерный анализ — это метод обработки данных путём кластеризации, то есть разделения большой группы объектов на малые группы-кластеры на основе схожести. Каждый объект должен быть максимально похож на другие объекты в своём кластере и отличаться от объектов в других кластерах.
Термин произошёл от английского cluster analysis и впервые появился в научной литературе в 1939 году в монографии американского психолога Роберта Трайона. Сегодня кластерные модели применяются не только в психологии, но и в других областях:
В бизнесе кластерный анализ используют при финансовом прогнозировании, исследованиях рынка, составлении стратегии продаж. Широкое применение метод получил и в маркетинге.
Метод подходит для обработки любых массивов данных. Примеры:
В маркетинге кластерный анализ в основном применяют к клиентской базе. Все покупатели группируются по определённым признакам, например:
В результате получаются кластеры — сегменты аудитории. У всех клиентов, входящих в один кластер, есть хотя бы одна общая черта. Далее можно адресно работать с каждым сегментом:
Таким образом, кластеризация позволяет найти подход к каждой группе клиентов, что делает маркетинг более эффективным.
Принципы разделения на группы могут быть любыми. Кластерный анализ является многомерным, то есть в исследовании участвует несколько факторов.
Например, вы сегментируете клиентскую базу одновременно по трём признакам:
Вы заранее не знаете, сколько кластеров получите после сегментации. Это зависит от характеристик ваших клиентов и меры сходства по каждому признаку.
Мера межпредметного сходства в кластерном анализе — это разброс значений в рамках одного кластера. Рамки нужно определить заранее.
По некоторым критериям рамки очевидны. Например, при кластеризации по половому признаку понятно, к какой группе нужно отнести каждого клиента.
Алгоритм сегментации по семейному положению тоже не вызывает вопросов. Нужно распределить покупателей по заранее выбранным группам, например:
Сложности возникают при обработке возраста. Если одному клиенту 40 лет, а второму 44, их поместить в одну кластерную группу или разные? Как поступать, если разница в возрасте составляет несколько дней: например, первому 39 лет, а второму 40? Отнести таких клиентов в один кластер или разделить?
Чтобы ответить на эти вопросы, нужно задать точные возрастные группы, например:
Теперь правила деления клиентов по возрасту более понятны. При этом всё равно остаются спорные ситуации, когда клиент находится на границе двух кластеров. Например, на момент проведения анализа покупателю 39 лет, но через неделю исполнится 40. В этом случае выбор кластера может быть субъективным: вы принимаете решение сами исходя из опыта, стратегии маркетинга и внешних факторов, не участвующих в аналитике.
В зависимости от типа данных и выбранных принципов сегментации используются разные методы кластеризации:
Один из популярных алгоритмов в маркетинге — метод k-средних, который строит заданное число кластеров, максимально непохожих друг на друга. Как это работает:
В основе работы алгоритма — расчёты среднеквадратической ошибки разбиения по математической формуле. Как правило, для этого используются специальные программы.
Вручную можно провести простую кластеризацию: например, поделить клиентскую базу в Excel по полу, затем по возрасту и региону. Полученные кластеры можно делить далее на подкластеры: по сумме чека, товарам или другим критериям.
Из всего сказанного выше может показаться, что кластеризация — слишком сложный инструмент аналитики и применять её в маркетинге нецелесообразно. Однако на практике даже ручная сегментация позволяет систематизировать собранную информацию и заметить основные закономерности.
Пример: интернет-магазин рассортировал клиентов по среднему чеку и получил три условные группы:
Далее применяются ещё три критерия кластеризации:
Затем специалист по маркетингу сопоставляет результаты и смотрит пересечения кластеров по возрасту, полу и геолокации с группами по среднему чеку. Так можно увидеть связь между социально-демографическими характеристиками и покупательной способностью клиентов. Эти данные используются в таргетированной рекламе, email-рассылках и других инструментах продвижения.
Часто кластерный анализ выступает в роли подготовительного этапа для других методов исследования данных. А использование специальных аналитических систем делает процедуру кластеризации полностью автоматизированной. Маркетолог загружает данные, настраивает параметры оценки и получает готовые кластеры для дальнейшего исследования.
Алгоритм состоит из четырёх этапов:
Разберём действия на каждом этапе подробнее.
Выберите объект, то есть определите, что именно будете исследовать:
Определите, какие данные нужны для этого исследования, и при необходимости пополните базу.
Например, если анализируете клиентов, то посмотрите, какая статистика уже есть и какой информации не хватает. Затем используйте сервисы для быстрого сбора клиентских данных.
Один из способов быстро пополнить базу — провести опрос. Для этого можно запустить чат-бот, который задаёт вопросы вашим клиентам и отправляет данные в CRM или другое хранилище.
Собирать данные для кластерного анализа с помощью чат-бота можно по следующему алгоритму:
В результате вы решаете две задачи маркетинга:
Если ваша аудитория предпочитает общение по телефону, можно проводить голосовые опросы с помощью виртуальных ассистентов. Алгоритм сбора данных похож на работу с чат-ботом:
Если объект исследования — индекс удовлетворённости клиентов (CSI), то можно собирать данные без прямых опросов. Для этого нужно подключить систему аналитики звонков SaluteSpeech Insights. Технология распознавания речи позволяет отслеживать эмоции клиентов и операторов по более чем 340 речевым характеристикам. В результате система автоматически прогнозирует уровень CSI и классифицирует диалоги как негативные, нейтральные и позитивные.
SaluteSpeech Insights помогает выполнить несколько задач:
Определите, по каким параметрам нужно сегментировать данные. Пример: сеть магазинов применяет кластеризацию для составления ассортимента товаров в торговых точках. Объектами сегментации являются магазины, а критериями могут быть следующие параметры:
Такой анализ покажет связь между расположением магазина и спросом на разные товары. Можно увидеть, какие продукты больше покупают в магазинах за чертой города, а какие — у метро, в центре, спальных районах. Станет понятно, что и в каком объёме нужно поставлять в каждую торговую точку. Таким образом, кластеризация помогает разработать таргетированный ассортимент, оптимизировать логистику и вести более направленный маркетинг.
При работе с клиентской базой можно выбрать такие критерии:
После выбора критериев нужно определить степень похожести объектов, то есть меру межпредметного сходства. Задайте диапазон значений для каждого кластера.
Например, при сегментации аудитории по уровню дохода можно выделить три группы:
Суммы указаны для примера, конкретные значения нужно назначить исходя из особенностей бизнеса и целевой аудитории.
Переведите все объекты в скалярные величины:
Можно использовать аналитические системы с возможностями кластеризации. В маркетинге популярны сервисы Key Collector, Serpstat, Rush Analytics, в бизнес-аналитике — Tableau.
Для кластеризации небольшой базы по двум — трём параметрам подходят онлайн-таблицы или Excel. Для создания кастомизированных решений любой сложности используется программный метод. Например, для реализации алгоритма графов или квадратичной ошибки можно создать код на Python вручную или с помощью нейросети GigaChat.