3 минут чтения
21 августа 2021 г.
Моделирование LTV в SQL
У большинства игровых и мобильных компаний имеется кривая Retention, ранее мы писали о том, что такое Retention и как его посчитать. Вкратце – это метрика, которая позволяет понять насколько хорошо продукт вовлекает пользователей в ежедневное использование. А ещё при помощи Retention и ARPDAU можно посчитать LTV (Lifetime Value), пожизненный доход с одного пользователя. Зная средний доход с пользователя за день и кривую Retention мы можем смоделировать ее и спрогнозировать LTV.
Для материала были взяты данные из одного реального игрового проекта. Нулевой день не отображен для того, чтобы видеть динамику в деталях
В сегодняшнем материале мы подробно разберём, как смоделировать LTV для 180 дней при помощи SQL и просто линейной регрессии.
Как посчитать LTV?
В общем случае формула LTV выглядит как ARPDAU умноженное на Lifetime – время жизни пользователя в проекте.
Посмотрим на классический график Retention:
Lifetime – это площадь фигуры под Retention:
Откуда взялись интегралы и площади можно подробнее узнать в этом материале
Значит, чтобы посчитать Lifetime, нужно взять интеграл от функции удержания по времени. Формула приобретает следующий вид:
Для описания кривой Retention лучше всего подходит степенная функция a*x^b. Вот как она выглядит в сравнении с кривой Retention:
При этом x – номер дня, a и b – параметры функции, которую мы построим при помощи линейной регрессии. Регрессия появилась неслучайно – эту степенную функцию можно привести к виду линейной функции, логарифмируя:
ln(a) – intercept, b – slope. Остаётся найти эти параметры – в линейной регрессии для этого используют метод наименьших квадратов. Lifetime – кумулятивная сумма прогноза за 180 дней. Посчитав её, остаётся умножить Lifetime на ARPDAU и получим LTV за 180 дней.
Строим LTV
Перейдём к практике. Для всех расчётов мы использовали данные одной игровой компании и СУБД PostgreSQL – в ней уже реализованы функции поиска параметров для линейной регрессии. Начнём с построения Retention: соберём общее количество пользователей в период с 1 марта по 1 апреля 2021 года – мы изучаем активность за один месяц:
—общее количество юзеров в когорте
with cohort as (
select count(distinct id) as total_users_of_cohort
from users
where date(registration) between date ‘2021-03-01’ and date ‘2021-03-30’
),
Теперь посмотрим, как ведут себя эти пользователи в последующие 90 дней:
—количество активных юзеров на 1ый день, 2ой, 3ий и тд. из когорты
active_users as (
select date_part(‘day’, activity.date — users.registration) as activity_day,
count(distinct users.id) as active_users_of_day
from activity
join users on activity.user_id = users.id
where date(registration) between date ‘2021-03-01’ and date ‘2021-03-30’
group by 1
having date_part(‘day’, activity.date — users.registration) between 1 and 90 —берем только первые 90 дней, остальные дни предсказываем.
),
Кривая Retention – отношение количества активных пользователей к размеру когорты текущего дня. В нашем случае она выглядит так:
По данным кривой посчитаем параметры для линейной регрессии. regr_slope(x, y) – функция для вычисления наклона регрессии, regr_intercept(x, y) – функция для вычисления перехвата по оси Y. Эти функции являются стандартными агрегатными функциями в PostgreSQL и для известных X и Y по методу наименьших квадратов.
Вернёмся к нашей формуле – мы получили линейное уравнение, и хотим найти коэффициенты линейной регрессии. Перехват по оси Y и коэффициент наклона можем найти по дефолтным для PostgreSQL функциям. Получается:
Подробнее о том, как работают функции intercept(x, y) и slope(x, y) можно почитать в этом мануале
Из свойства натурального логарифма следует, что:
Наклон считаем аналогичным образом:
Эти же вычисления запишем в подзапрос для расчёта коэффициентов регрессии:
—рассчитываем коэффициенты регрессии
coef as (
select exp(regr_intercept(ln(activity), ln(activity_day))) as a,
regr_slope(ln(activity), ln(activity_day)) as b
from(
select activity_day,
active_users_of_day::real / total_users_of_cohort as activity
from active_users
cross join cohort order by activity_day
)
),
И получим прогноз на 180 дней, подставив параметры в степенную функцию, описанную ранее. Заодно посчитаем Lifetime – кумулятивную сумму спрогнозированных данных. В подзапросе coef мы получим только два числа – параметр наклона и перехвата. Чтобы эти параметры были доступны каждой строке подзапроса lt, делаем cross join к coef:
lt as(
select generate_series as activity_day,
active_users_of_day::real/total_users_of_cohort as real_data,
a*power(generate_series,b) as pred_data,
sum(a*power(generate_series,b)) over(order by generate_series) as cumulative_lt
from generate_series(1,180,1)
cross join coef
join active_users on generate_series = activity_day::int
),
Сравним прогноз на 180 дней с Retention:
Наконец, считаем сам LTV – Lifetime, умноженный на ARPDAU. В нашем случае ARPDAU равняется $83.7:
select cumulative_lt as LT,
cumulative_lt * 83.7 as LTV
from lt
Наконец, построим график LTV на 180 дней:
Весь запрос:
—общее количество юзеров в когорте
with cohort as (
select count(*) as total_users_of_cohort
from users
where date(registration) between date ‘2021-03-01’ and date ‘2021-03-30’
),
—количество активных юзеров на 1ый день, 2ой, 3ий и тд. из когорты
active_users as (
select date_part(‘day’, activity.date — users.registration) as activity_day,
count(distinct users.id) as active_users_of_day
from activity
join users on activity.user_id = users.id
where date(registration) between date ‘2021-03-01’ and date ‘2021-03-30’
group by 1
having date_part(‘day’, activity.date — users.registration) between 1 and 90 —берем только первые 90 дней, остальные дни предсказываем.
),
—рассчитываем коэффициенты регрессии
coef as (
select exp(regr_intercept(ln(activity), ln(activity_day))) as a,
regr_slope(ln(activity), ln(activity_day)) as b
from(
select activity_day,
active_users_of_day::real / total_users_of_cohort as activity
from active_users
cross join cohort order by activity_day
)
),
lt as(
select generate_series as activity_day,
active_users_of_day::real/total_users_of_cohort as real_data,
a*power(generate_series,b) as pred_data,
sum(a*power(generate_series,b)) over(order by generate_series) as cumulative_lt
from generate_series(1,180,1)
cross join coef
join active_users on generate_series = activity_day::int
),
select cumulative_lt as LT,
cumulative_lt * 83.7 as LTV
from lt
[ Рекомендации ]
Читайте также
[ Связаться ]
Давайте раскроем потенциал вашего бизнеса вместе
Заполните форму на бесплатную консультацию