RFM-анализ - часть #1. В основном теоретическая...

Юрий Мацегора
Follow me

Юрий Мацегора

Business analyst at Smart-Metrika
Бизнес - аналитик, а также автор и редактор на сайте, если у Вас есть вопросы о содержании и материалах статей пишите мне:)
Юрий Мацегора
Follow me

RFM (recency, frequency, monetary - недавность, частота, деньги) - инструмент для сегментации клиентской базы, а также идентификации покупателей, более склонных принять новое предложение. Чаще используется в прямом маркетинге.

  • - Недавность - главная переменная в определении клиентов. Купившие недавно более склонны покупать снова
  • - Частота - покупатели, чаще покупавшие в прошлом, более лояльны
  • - Деньги - те, кто потратил больше средства на Ваш товар, заинтересованы и в новых предложениях.

Результатом анализа будут как отдельные оценки каждого фактора, так и одна RFM оценка (в виде трехзначного числа, где первым будет недавность, следующим - частота и последним - деньги), которая и будет характеризовать "лучших клиентов".

Оценка выставляется без суммирования или умножения переменных, используется принцип кодирования:

RFM-оценка - это не просто рейтинговое значение клиентов, но и одновременно значение всех переменных (недавность = 4, частота = 3, деньги = 2) - подобное кодирование упрощает понимание анализа.

В классическом анализе используют оценку от 3 до 9. Чем больше интервалов, тем больше количество групп и точность анализа, но при этом сильно увеличивается сложность работы. В большинстве случаев используется 5-балльная оценка, как некий компромисс между количеством групп и точностью.

*Как правильно выбрать количество групп в зависимости от Ваших данных будет описано в последующих постах, так как тема выходит за пределы статьи.

Возможное количество комбинаций можно рассчитать простым умножением:

5 *5 * 5 =125

3 * 3 * 3 = 27

9 * 9 * 9 = 729

В последнем примере 729 комбинаций оценок, диапазон которых будет изменяться от 111, если все переменные получили оценки 1, до 999, если переменные получили по 9 (111,112,113,114,115,116,117,118,119,121,122,123,124 и т.д).

 

Группировка

 

В данном виде анализа, как и в любом другом, где клиентам присваивают ранги, существует два вида сегментации (группировки или разбиения на контейнеры).

 

Независимая сегментация

 

Значениям переменных назначаются "простые" ранги. Недавность, частота и деньги ранжируются независимо друг от друга. К примеру: оценка частоты (частота в анализе идет после недавности) в 5 баллов одного клиента = оценке частоты в 5 балов другого клиента, без учета оценок недавности. На практике это выглядит так:

Недостатки - отсутствие влияния оценок других факторов - нарушается иерархия, что приводит к менее гладкому распределению объединенных RFM-оценок.

Преимущества метода - простота и недвусмысленность интерпретации результатов.

 

Вложенная сегментация

 

Главной переменной недавности назначается простой ранг, после чего переменной частота тоже назначается ранг, но уже с учетом ранга недавности. Переменной деньги назначается ранг в зависимости от ранга переменной частоты. Создается иерархия.

Пример: при оценке одного клиента (недавность = 5, частота = 3) и другого клиента (недавность = 5, частота = 4) стоит учитывать то, что оценка частоты напрямую зависит от недавности.

Преимущества: более гладкое распределение и более точные результаты сегментации.

Недостатки: сложная интерпретация.

 

Кто списывал?

 

 

Что делать, если у большинства клиентов оценки совпадают? Правильно ли будет поместить их в один и тот же сегмент? Применяют два варианта:

  1.  - При совпадении оценок определять клиентов в одну группу. Популярный, простой и надежный, но не всегда точный способ.

*Если у нас 2000 клиентов, и 70% из них имеют одинаковые оценки, то смысл детальной сегментации теряется, потому как почти все будут в одном сегменте. Можно рассматривать как преимущество, так и недостаток, зависит от Вас - единого мнения нет.

  1.  - При совпадении оценок распределять клиентов случайным образом по соседним сегментам.Сложный, но не всегда правильный способ, основан на распределении данных.

*Используется намного реже, но более правильный с точки зрения статистической работы с данными.

 

Необходимые данные

 

Для проведения данного анализа необходимы такие данные:

  • - номер или другой идентификатор клиента
  • - информация о датах покупок
  • - информация о суммах покупок

*В большинстве случаев эту информацию можно без проблем выгрузить из CRM.

 

ВЫВОДЫ

 

 

Каждый столбец = число клиентов с оценкой. Здесь оценивают разброс значений при первом методе - "совпадающие значения в одной группе". Если слишком большие расхождения в группах - значит выбрана неправильная интервальная оценка.

 

В более темных областях сосредоточены клиенты, потратившее больше денег по сравнению с остальными.

 

Распределение относительно переменных недавности, частоты и денег. Чаще всего распределение гистограммы будет скошенным, а не нормальным.

 

Здесь показана взаимосвязь между переменными.

*при создании диаграмм использовались данные, доступные по ссылке

​ * * *

Это все, что нужно знать для понимания RFM-анализа, а также интерпретации его результатов. В следующей статье будет практический разбор с рабочим примером RFM в Power BI Desktop и Excel.


**При подготовке статьи использовалась информация по прямому маркетингу из статистического пакета IBM SPSS, официальная документация по Power BI, а также наработки компании Smart-Metrika.