2 заметки с тегом

лонгрид

Тексты песен: статистика и выводы

Время чтения текста – 19 минут

Разложить песни по нотам — а, точнее, словам — показалось нам весьма амбициозной и интригующей задачей. Не посчитать ли нам данные, которые можно почерпнуть из информации об исполнителях, альбомах, самих песнях, и не сопоставить ли нам эти данные, чтобы узнать немного больше о том, чем мы иногда, по нашему желанию или против нашей воли, кормим наши уши?

«Отличная мысль!» — подумали мы и приступили к сбору данных.

А что в плейлисте?

Наш анализ текстов проводился на основе набора данных, взятых с txtsong.ru, который включал в себя названия исполнителей, песен, альбомов, год выпуска, жанр, тексты и перевод песен (если они были написаны на иностранном языке).

C сайта эти данные собирались с помощью HTTP-запросов и парсинга HTML-кода страниц с использованием библиотеки BeautifulSoup. Весь набор мы сначала загрузили в Google Sheets, затем, с помощью библиотеки gspread, метода get, он был считан в DataFrame.

В результате исходный датасет в DataFrame состоял из 7 колонок: «Исполнитель», «Название песни», «Название альбома», «Год выпуска», «Жанр музыки», «Текст песни» и «Перевод текста песни», и 115 318 строк, каждая из которых — одна песня. В анализируемом наборе данных было представлено 25 265 уникальных российских и иностранных исполнителей, 80 473 уникальных названий песен, 102 жанра и 11 150 альбомов за последние 68 лет.

Самыми многочисленными по количеству песен оказались такие жанры, как «русский рэп» — 34 334 песни, «русская поп-музыка» — 21 980 песен, «русский рок» — 10 111 песен, «иностранный рэп и хип-хоп» — 8 591 песня и «русская эстрада» — 7 914.

Давайте миксовать!

Далее мы обработали тексты и переводы всех песен с помощью регулярных выражений и методов библиотеки Pandas: были удалены ненужные символы, знаки препинания, стоп-слова, лишние пробелы. Также мы перевели буквы в нижний регистр.

Анализ текстов песен мы провели по нескольким направлениям:

• по жанрам;
• по годам;
• по лексическому содержанию песен;
• по показателю repetitiveness.

Для каждой песни мы рассчитали показатель repetitiveness тремя способами. Первый заключался в том, что для текста каждой песни мы сформировали два списка: из уникальных строк и из всех строк текста. Затем мы рассчитали длины списков, и repetitiveness была найдена по следующей формуле (1):

Второй способ расчета — это подобие алгоритма Лемпеля—Зива. Он заключался в вычислении размера текста с уникальными строками и всего текста песни в байтах. Repetitiveness в данном случае рассчитывалась по следующей формуле (2):

Третий способ расчета repetitiveness заключался в составлении двух списков — списка с уникальными словами песни и списка со всеми словами песни. В этом случае, repetitiveness рассчитывалась по следующей формуле (3):

Анализ песен по жанрам

Итак, приступим! Здесь мы исследовали уникальность лексики в текстах песен разных жанров, выявили наиболее часто встречаемые слова в текстах, проанализировали частоты встречаемости матерных слов и имен собственных, провели кластерный анализ песен и сентимент-анализ текстов по жанрам.

Распределение числа уникальных слов в песнях по жанрам показало, что на общем фоне заметно выбиваются «рэп и хип-хоп», «русский рэп», «иностранный рэп и хип-хоп» и «регги». Для данных жанров размах количества уникальных слов в песнях более широкий, что может указывать на разнообразность песен.

Также стоит отметить, что медианное значение числа уникальных слов в песнях иностранного рэпа и хип-хопа значительно выше по сравнению с остальными жанрами музыки. У таких жанров, как русский рок, русская поп-музыка, русская эстрада, шансон, кавказская музыка, детская музыка, фолк-рок и металкор достаточно маленький размах уникальных слов и строк в песнях, что может говорить об однообразности и схожести песен между собой.

Любопытно, что среди русского рэпа песен с отсутствием матерных слов больше (51%), чем среди русской поп-музыки (49%), хотя в песнях русского рэпа матерные слова используются в большем количестве.

Далее: анализ использования имен собственных в песнях различных жанров показал следующее распределение наиболее популярных имен собственных в различных жанрах музыки:

Мы обнаружили, что в значительной части текстов песен, относящихся к жанру «рок», используется имя российского комика Александра Долгополова. Возможно, такой шквал популярности связан с его резкими высказываниями по поводу власти и отъездом за границу. Также, в целом, достаточно популярно использование имени «Саша» в песнях данного жанра.

Анализ по годам

Мы попытались выявить тенденции в текстах песен со всего мира на протяжении 2000—2022 на основании наиболее часто встречаемых слов в текстах, частоты употребляемости матерных слов, кластерного и сентимент-анализа текстов. Также мы посчитали, какие года были более продуктивными в музыкальной индустрии с точки зрения количества релизов песен.

При анализе наиболее часто встречающихся слов в русской музыке мы выявили, что по мере ухода от 2013 и приближения к 2022 году тексты песен из категории «русский рэп» становятся более мягкими, все чаще начинают звучать слова, касающиеся любви. В текстах песен русского рока сквозь все года за исследуемый период прослеживается тема небес, молитвы и веры во что-то неземное. Тексты песен 2020 года заметно меняют настрой на более позитивный, по сравнению с более ранним периодом.

Стоит также отметить, что с 2000 по 2022 гг. процент русских и иностранных песен, в которых используются матерные слова, постепенно растет с небольшими перепадами в сторону его уменьшения. Резкий скачок вниз наблюдается в 2003 и 2021 гг. Своего максимума данный показатель достиг в 2022 году и составил 26%:

Аналогично, сентимент-анализ песен по годам показал, что процент русских и иностранных песен с негативной эмоциональной окраской в 2019-2020 и 2022 гг. более высокий по сравнению со значениями данного показателя за остальные годы. Это может расцениваться как попытка авторов передать в песнях накал страстей, нарастающий в разных странах или же в отдельно взятом «лирическом герое».

В целом, такая заметная эмоциональная эмансипация в музыкальном творчестве и обширное прибегание к матерной лексике за последнее десятилетие могли иметь несколько причин, среди которых мы можем предположить:
• большую свободу, дозволенность в выражении негативных эмоций а также личного опыта в текстах песен нежели ранее (и отсутствие необходимости вуалировать определенные темы в текстах во благо несовершеннолетних слушателей);
• открытый социальный протест как реакцию на реалии жизни в современном мире;
• начало пандемии и карантина (2019-2020 гг.);
• обострение политической ситуации в России и мире (2022 г.).

Также мы можем отметить, что наибольшее количество песен было выпущено в последние 4 года, а рекордное количество песен увидело свет в 2021 году. В 2022 году количество выпускаемых песен резко сократилось по сравнению с 2021 годом. Хотя 2022 год еще не подошел к концу, мы можем предположить, что к концу года, показатель 2021 года достигнут уже не будет.

Анализ по лексическому содержанию песен

В рамках этого подхода, мы изучили схожесть и разнообразие лексического состава текстов песен, наиболее часто встречающиеся слова и, отдельно, частоты матерных слов. Также мы провели кластерный и сентимент-анализ текстов песен и сопоставили данные о лексическом содержании текстов песен отдельных исполнителей и конкретных альбомов, чтобы попытаться определить взаимосвязи между показателями в различных анализируемых категориях.

При выявлении наиболее схожих по текстам пар песен мы получили следующий результат: наиболее похожие песни были обнаружены в русской поп-музыке, поскольку их названия «кричат» о тематике любви — очень часто используются такие слова, как «любовь» и «сердце». Вряд ли эти данные можно было бы отнести к рэпу, инди, року или любому другому жанру музыки. В топ 5 пар схожих песен в категории «русская поп-музыка» вошли такие пары песен, как «Налетели вдруг дожди» и «Али ты», «Где же ты, где» и «Только ты», «Я тебя не люблю» и «Зелёный свет», «Смотрю на тебя» и «Не зарекайся», «Шатер из звезд» и «Ритмы людей». Об этом может свидетельствовать приведенная ниже тепловая карта (heatmap).

Если говорить наоборот о разнообразии лексического состава текстов песен, среди исполнителей, выпустивших более 150 альбомов, первое место по наибольшему медианному числу уникальных слов в песнях занимает Александр Розенбаум. Примерно на том же уровне по данному показателю находятся Владимир Высоцкий и ДДТ.

Остальные исполнители отстают по данному показателю. Наименьшее медианное число уникальных слов в песнях имеет Ленинград — всего 55 слов. Кстати, наибольший размах числа уникальных слов наблюдается в песнях Владимира Высоцкого, наименьший — у Ирины Алегровой, Ани Лорак и Стаса Михайлова:

В рамках сентимент-анализа песен мы установили, что в исследуемом наборе данных преобладают песни с негативной коннотацией (их примерно половина):

Также стоит отметить, что песни с позитивной коннотацией в основном несут в себе тематику светлой и доброй любви. Кстати, не только к противоположному полу, но и к родителям! Такие песни характеризуются почти полным отсутствием матерных слов и ругательств, использованием в достаточно малом количестве слов с негативной окраской и, наоборот, большим количеством позитивных и добрых слов, например «люблю», «бурно», «прикосновения», «счастье», «мечты», «целуй», «мама», «любимые», «вселенная» и пр.

Матерные слова в текстах таких песен, как правило, обыгрываются с позитивной окраской, например, в таком словосочетании, как «восхитительно ох*енная». Кроме того, названия таких песен несут в себе по большей части только позитивную лексику, например «Обняла. Люблю. Целую», «Восхитительно» или «Лучшая ночь».

А теперь разбавим лирику: при анализе по отдельным исполнителям, наиболее матерными песнями оказались «Fuck You» исполнителя Lil Butterfly («иностранный рэп и хип-хоп»), текст которой включает 132 матерных слова и песня Ноггано «Застрахуй» из категории «руский рэп», которая также включает в себя более 100 матерных слов.

Затем, на примере русского рэпа мы определили, для каких отдельных исполнителей и в каких конкретных альбомах наблюдается частое использование матерных слов: наибольшее число матерных слов использует Скриптонит и 104, наименьшее — 10AGE.

Отметим, что панк музыканты, даже больше, чем русские рэпперы и рокеры вместе взятые, употребляют матерные слова в своих песнях, особенно группы Мятная Фанта, кис-кис, Казенный Унитаз и Порнофильмы.

Анализ показателя Repetitiveness

Repetitiveness — «повторяемость»

Изучив данные, мы пришли к выводу, что среднее значение показателя repetitiveness в последние 3 года возросло на свой рекордный уровень и достигло 34%. Также в 2011 году наблюдалось резкое падение данного показателя до 25%. Кроме того, интересно заметить, что за период с 2015 по 2020 гг. наблюдался равномерный рост среднего значения repetitiveness на 1 п.п. в год. С 2000 по 2011 гг. среднее значение данного показателя было весьма нестабильно и колебалось в интервале от 25% до 33%.

Медианное значение repetitiveness, по сравнению со средним, в последние 2 года различается. Пик был достигнут в 2021 году, а в 2022 году значение данного показателя снизилось на 1 п.п. Так же, как и для среднего значения, медианное значение repetitiveness в 2011 году достигает своего минимума, но более низкого, нежели для среднего, и равного 23%.

Равномерный рост, который был справедлив для среднего значения repetitiveness с 2015 по 2020 гг., для медианного значения отсутствует. Он здесь наблюдается только с 2018 по 2021 гг.:

При анализе среднего значения repetitiveness по жанрам мы заметили, что для всех представленных жанров музыки наблюдается тенденция к росту repetitiveness.

Наибольшее среднее значение показателя было выявлено среди песен поп-музыки в 2002 году, оно равнялось 50%, но затем в последующие году снизилось и находилось преимущественно в интервале от 30% до 40%. Среднее значение же в этом жанре отличается своей стабильностью в течение 22 лет и находится около 40%.

Еще один примечательный факт: у песен, в текстах которых отсутствуют матерные слова, среднее значение repetitiveness всегда выше (по крайней мере с 2000 по 2022 гг.):

И на десерт: любопытно, что среди всех прочих исполнителей особое место занимает феномен Григория Лепса. В его дискографии присутствует как альбом с достаточно высоким средним значением repetitiveness, достигающим почти 50%, так и альбом с нулевым значением этого показателя:

 Нет комментариев    692   2022   лонгрид

Аналитические метрики здорового маркетолога

Время чтения текста – 29 минут

Введение

Сегодня у нас в выпуске лонгрид при поддержке телеграмм-канала Русский маркетинг на тему аналитических метрик в маркетинге. В рамках статьи обсудим для чего нужна маркетинговая аналитика, какими метриками следует оперировать при расчете эффективности маркетинга, как можно структурировать работу по построению маркетинговой отчетности. Коснемся ключевых верхнеуровневых KPI, обсудим популярный фреймворк и разберемся как считать важные аналитические показатели. Статья получилась довольно объемная и в ее содержании используется множество сокращений, поэтому не обошлось и без глоссария.

  • Глоссарий
    • Revenue / Income / Sales — выручка, доход (руб. / $ / евро)
    • GMV (Margin) — маржа (% / руб. )
    • MAU (monthly active users) — уникальное число активных пользователей за месяц (шт.)
    • WAU (weekly active users) — уникальное число активных пользователей за неделю (шт.)
    • DAU (daily active users) — уникальное число активных пользователей за день (шт.)
    • Requests — запросы (за рекламой) (шт.)
    • Impressions — показы (рекламы) (шт.)
    • Clicks — клики (на рекламу) (шт.)
    • FR (fill rate) — заполняемость ( =Impressions / Requests) (%)
    • CTR (click through rate) — кликабельность ( =Clicks / Impressions) (%)
    • С1 (conversion first purchase) — конверсия в первую покупку (%)
    • R, R1, R3, R7 (retention) — удержание (1го, 3го, 7го дня) (%)
    • RR (rolling retention) (%)
    • Churn — отток (%)
    • ARPU (average revenue per user) — средняя выручка на пользователя (руб. / $ / евро)
    • ARPPU (average revenue per paying user) — средняя выручка на платящего пользователя (руб. / $ / евро)
    • cARPU (cumulative average revenue per users) — накопленная средняя выручка на пользователя (руб. / $ / евро)
    • LTV (lifetime value) / CLV (customer lifetime value) — пожизненная ценность клиента
    • ROI (return of investment) — возврат инвестиций (%)
    • ROAS (return on advertising spend) — окупаемость расходов на рекламу (%)
    • ROMI (return of marketing investment) — возврат маркетинговых инвестиций (%)
    • CPA (cost per action) — стоимость действия (напр., покупка или установка приложения) (руб. / $ / евро)
    • CPC (cost per click) — стоимость клика (руб. / $ / евро)
    • CPO (cost per order) — стоимость заказа (руб. / $ / евро)
    • CPS (cost per sale) — стоимость продажи (руб. / $ / евро)
    • CPM (cost per mille) — стоимость тысячи рекламных показов (руб. / $ / евро)
    • CAC (customer acquisition cost) — стоимость привлечения клиента (руб. / $ / евро)
    • CARC (customer acquision and retention cost) — стоимость привлечения и удержания клиента (руб. / $ / евро)
    • ДРР — доля рекламных расходов (%)

Для чего нужна маркетинговая аналитика?

Чтобы разобраться с аналитическими метриками, для начала следует разобраться зачем вообще нужна маркетинговая аналитика и на какие вопросы она может дать ответ. В целом, маркетинговая аналитика — это изучение и измерение в количественных показателях маркетинговой деятельности. При этом чаще всего цель данных действий — оценить эффективность маркетинга, посчитать окупаемость маркетинговых инвестиций в компанию.
Маркетинговая аналитика помогает найти ответы на следующие вопросы:

  • Насколько эффективно расходуется маркетинговый бюджет?
  • Какой ROMI дают разные маркетинговые каналы?
  • Какая целевая аудитория наиболее эффективно конвертируется?
  • Какие каналы коммуникаций наиболее / наименее прибыльны?
  • Что является наибольшим источником дохода компании?

Маркетинговый анализ следует начинать с определения ключевых показателей бизнеса и связей между ними, об этом мы поговорим чуть позже. В целом, работа над построением маркетинговой аналитики больше похожа на создание системы правильных метрик, их планирования, замеров и реагирования на изменения метрик. Более подробно цикл PDCA описан в книжке У. Деминга "Выход из кризиса", рекомендую для ознакомления.

Ключевые принципы построения правильной аналитики в маркетинге

Имея системный подход к анализу данных, влияющих на маркетинговую деятельность, можно помочь маркетологам решить проблему, устранить боль, предоставить рекомендации для дальнейших маркетинговых стратегических шагов. Системный подход подразумевает соблюдение ряда ключевых принципов, без которых аналитика окажется неполноценной.

Компетентность
Задачей маркетингового анализа данных должен заниматься профессионал, разбирающийся в основах математической статистики, эконометрики, разумеется, умеющий считать, интерпретировать результаты и делать выводы актуальные для конкретного бизнеса (понимающий предметную область). Только в таком случае, аналитика сможет дать плоды, в противном случае некорректные выводы из данных могут только усугубить ситуацию, вследствие, чего проийзодет не оптимизация бюджета, а его разорение.

Объективность
Необходимо, решая задачу, рассматривать данные, которые влияют на проблему, с разных сторон. Разные показатели, разная агрегация данных позволит взглянуть на проблему объективно, желательно, чтобы один и тот же вывод из данных, повторялся как минимум дважды.

Актуальность
Изучая сегодняшние проблемы не следует оперировать устарелыми ретроспективными данными, мир очень быстро меняется, равно как и ситуация на рынке / в компании. Анализ, произведенный год назад, может дать сегодня совершенно иные результаты, поэтому необходимо регулярно освежать отчеты и данные, содержащиеся в них.

Интерпретируемость
Результаты анализа должны быть понятны человеку из бизнеса, не знакомому с техническими терминами. В идеале — каждый отчет помогает легко разобраться в проблеме и подталкивает читателя на очевидные выводы. Ситуация, при которой не аналитик вынужден копаться в огромной кучей графиков, непонятных диаграмм и страниц с цифрами без выводов недопустима.

Подобные принципы однозначно помогут нанять компетентных аналитиков для построения корректной отчетности.

Как структурировать показатели?

Систему метрик, помогающих оценивать эффективность маркетинга, можно построить исходя из нескольких соображений. Один из ключевых подходов к структуризации — жизненный цикл клиента. Постараемся разобраться в нем и поговорим об одном из интересных фреймворков для работы над такой системой метрик. В жизненном цикле клиента можно выделить основные этапы:
1) Охват аудитории — работа маркетолога начинается еще до того момента, как потенциальная аудитория становится клиентами компании
2) Вовлечение — этап конверсии зашедших пользователей на сайт / в мобильное приложение в зарегистрированных клиентов
3) Монетизация — этап формирования платящих пользователей (из зарегистрированных)
4) Удержание / Отток — мероприятия направленные на развитие и удержание привлеченной аудитории, снижение уровня оттока

Метод AARRR / Pirate Metrics

В 2007-ом году Дейвом МакКлюром был разработан и предложен метод AARRR — система метрик, помогающая стартапам разобраться в бизнес-показателях. Другое название метода, которое также можно встретить, — "пиратские метрики" из-за того, что название произносится на пиратский лад: "ааррр!".
Итак, разберемся в подходе и поговорим о метриках, соответствующих каждому этапу "воронки". Аббревиатура состоит из 5-ти ключевых маркетинговых этапов:

  • Аcquisition — привлечение (соответствует п. 1 выше)
  • Аctivation — активация (соответствует п. 2 выше)
  • Retention — удержание (соответствует п. 4 выше)
  • Revenue — доход / монетизация (соответствует п. 3 выше)
  • Referral — рекомендации (нововведенный этап)

На входе в воронку располагается целевая аудитория, которую мы хотим привлечь. Затем, всеми силами мы стараемся зарегистрировать потенциального покупателя и превратить его в зарегистрированного клиента (к этому моменту человек, зашедший к нам на сайт / в приложение должен осознавать ценность нашего продукта). После, клиент совершает покупки и возвращается к нам снова и снова. В конечном итоге, если ему очень нравится наш продукт, то он порекомендует его своим друзьям / знакомым.

AARRR-воронка, пиратские метрики (источник изображения)

На каждом уровне воронки необходимо выбрать метрики, описывающие переход из одного состояния в другое, которые мы можем подсчитать и проанализировать. Разберемся последовательно с каждым из этапов и соответствующим ему метриками. Будем изучать каждый этап на примере живых организаций, чтобы расчет показателей был максимально понятен в прикладном смысле.

Привлечение

Охват потенциальных покупателей — ключевой этап формирования новой аудитории. Изучим этот важный этап на примере мобильного приложения Grow Food и каналов привлечения трафика. Зачастую, аудитория попадают в приложение Grow Food из нескольких разных источников:

  1. Органический трафик: поиск в Google, Yandex, Bing, etc
  2. Органический мобильный трафик: поиск в Apple Store / Google Play
  3. Коммерческий трафик: реклама в Facebook / Instagram, контекстная реклама (Adwords), мобильные рекламные сети.

Обсудим на примере рекламы в Facebook. Каждое рекламное объявление таргетируется на потенциальную рекламную аудиторию, которая в терминах Facebook называется "Охват". При этом мы можем оптимизировать показы рекламного объявления по кликам / конверсиям / etc. Наша задача получить максимально эффективную аудиторию за минимальные деньги. Следовательно, нужно выбрать метрики, которые помогут нам оценить эффективность, изучим их:

  • Impressions — количество показов рекламного объявления, сам показатель мало о чем скажет и очень тесно связан с объемом потенциальной аудитории, однако потребуется нам для понимания остальных метрик.
  • Clicks — число кликов на рекламное объявление, в абсолютном выражении, опять же зависит от числа показов.
  • Installs — количество клиентов, установивших мобильное приложение
  • CTR — кликабельность, рассчитывается как отношение Clicks / Impressions и показывает насколько эффективно наше объявление с точки зрения заинтересованности аудитории, другими словами, какова кликабельность нашего объявления
  • CR (conversion rate) (= Installs / Clicks) — уровень конверсии, показывает какой процент пользователей установили приложение из тех, кто кликнул на рекламное объявление
  • Spend — число денег, которые мы потратили на данное рекламное объявление
  • CPC (= Spend / Clicks) — показывает нам стоимость одного клика, оперировать показателем следует в сравнении с другими объявлениями / рыночными бенчмарками
  • CPM (= Spend / Impressions * 1000 ) — показывает нам стоимость тысячи показов рекламного объявления, используется для сравненияи с другими объявлениями / бенчмарками
  • CPI (= Spend / Installs) — удельная стоимость одного инсталла
  • Revenue — итоговый доход, который мы получили с данного рекламного объявления / кампании (необходимо иметь инструменты для правильной атрибуции)
  • ROAS (= Revenue / Spend) — возврат инвестиций в рекламу, валовый доход с потраченного доллара, метрика показывает эффективность рекламной кампании с точки зрения вложенных в нее денег. К примеру, ROAS равный 300% говорит о том, что на каждый потраченный 1$ заработано 3$, а ROAS равный 30%, говорит о том, что на вложенный доллар заработано 30 центов.

Итого, мы уже имеем неплохую палитру метрик, с которыми можно работать — изучать их динамику, сравнивать объявления между собой, между разными источниками трафика. Например, простая табличка, содержащая эти показатели уже будет первым приближением к пониманию эффективности рекламы.

Facebook Campaign Efficiency

Advertisement Spend ($) Installs CPI Impressions CPM Clicks CTR CPC ROAS
Creative Grow Food-1 x x x x x x x x x
Creative Grow Food-2 x x x x x x x x x

Данную таблицу можно перестроить таким образом, чтобы по вертикали оказались даты, а кампания выбиралась из фильтра, тогда мы начнем понимать изменения в динамике ключевых показателей привлечения трафика.

Резюме: мы можем измерять CTR разных баннеров и понимать какой из них интереснее для аудитории. Этот показатель можно использовать при A/B тестировании одного и того же баннера, выбирая наиболее эффективный. При подсчете эффективности помимо CTR следует иметь в виду CPC для того, чтобы выбрать не только наиболее кликабельный баннер, но и не самый дорогой.

Ключевые KPI, показатели эффективности с точки зрения денег — CPI / ROAS, первый показывает насколько дешево / дорого мы покупаем трафик, а второй — насколько хорошо купленный трафик монетизируется.

Активация

Предположим, что мы разрабатываем мобильную игру. Подумаем о том, что может являться активацией пользователя в этом случае? Мы привлекли пользователей, которые установили игру себе на смартфон. Наша следующая задача — зарегистрировать пользователя (сделать его игроком), предложить вводный тур для прохождения.
На этом этапе две метрики можно считать ключевыми: конверсия в зарегистрированного пользователя (= Registrations / Installs), конверсия в прошедших обучение (=Tutorial Users / Installs).

Соответственно, эти две метрики покажут нам: не слишком ли многого мы требуем от пользователя на этапе регистрации или, наоборот, регистрация дается крайне легко? Вторая метрика покажет насколько понятно введение в игру, заинтересованы ли пользователи проходить вводный тур, достаточно ли действий мы требуем от пользователя.

Более того, последнюю метрику можно декомпозировать, если в рамках обучения пользователю необходимо осуществить несколько действий, мы можем изучить воронку конверсий в каждое из действий и понять проблемные места активации новых пользователей. После того как мы активировали аудиторию, нам необходимо удержать ее, чтобы впоследствии заработать денег.

Удержание

Любая организация хотела бы, чтобы у нее существовала активная база лояльных клиентов, которые регулярно делают повторные заказы. В этой связи, очень важно отслеживать несколько ключевых метрик: Retention rate (или Rolling retention), Churn. Подробно я разбирал построение retention и rolling retention отчетов в одном из прошлых выпусков блога.

Другой важной фундаментальной метрикой можно считать Sticky Factor — степень вовлеченности пользователей. Sticky Factor за неделю достаточно просто рассчитывается: DAU / WAU * 100%. Разберем, более подробно на прошлом примере. У нас как и прежде есть таблица — client_session, в которой по каждому user_id хранятся таймстемпы активности created_at. Тогда расчет Sticky-фактора довольно несложно выполняется следующим SQL-запросом:

SELECT daily.dau/weekly.wau*100 AS sticky
FROM
-- Считаем среднее DAU за неделю
( SELECT avg(dau) AS dau
FROM
(SELECT from_unixtime(cs.created_at, "yyyy-MM-dd") AS event_date,
ndv(cs.user_id) AS dau
FROM client_session cs
WHERE 1=1
AND from_unixtime(cs.created_at)>=date_add(now(), -7)
AND from_unixtime(cs.created_at)<=now()
GROUP BY 1) d) daily,
-- Считаем WAU за неделю
( SELECT ndv(cs.user_id) AS wau
FROM client_session cs
WHERE 1=1
AND from_unixtime(cs.created_at)>=date_add(now(), -7)
AND from_unixtime(cs.created_at)<=now() ) weekly

Вместе с фундаментальными метриками следует рассматривать метрики, связанные с инструментами удержания клиентской базы. Такими могут являться инструменты директ-маркетинга: sms, email, push-уведомления. У каждого из инструментов обычно бывают такие описательные метрики: число отправленных сообщений / число доставленных сообщений / количество вернувшихся пользователей. Они показывают эффективность каждого из инструментов.

Монетизация

Наконец, мы добрались до ключевой метрики, которая интересвует всех бизнес-пользователей — деньги. Доход, выручка — денежные средства, которые мы получаем от пользователей при покупке нашего продукта. В абсолютном выражении эта метрика (или результат деятельности компании) не очень показательна, хотя важна для понимания текущих трендов.

Чаще всего оперируют рядом относительных метрик, которые описывают поведение пользователей:
ARPU ( = Revenue / Users )— средняя выручка на одного пользователя
cARPU( = cumulative Revenue / Users ) — накопленная средняя выручка на одного пользователя
ARPPU ( = Revenue / Payers ) — средняя выручка на платящего пользователя
Avg Receipt (= Revenue / Purchases ) — средний чек
LTV / CLV — совокупный доход на одного пользователя (жизненная ценность клиента)

Вопросу LTV я планирую посвятить отдельный пост, поскольку это достаточно обширная тема. В данном посте разберем ARPU, накопленный ARPU и связь c LTV. Метрика ARPU покажет нам сколько мы в среднем зарабатываем с пользователя за какой-то период времени (обычно день или неделя). Это полезная информация, но ее может быть недостаточно. Задача эффективного маркетинга — привлекать таких пользователей, которые приносят компании больше денег, чем затрачивается на их привлечение. Таким образом, если мы модифицируем показатель ARPU и рассмотрим накопленный ARPU, например, за 30, 60, 90, 180 дней, то получим неплохое приближение к LTV пользователя. Еще лучше если мы построим кривую накопленного ARPU по дням.

Кривая накопленного ARPU

Добавив горизонтальной линией CPI, мы получим крайне полезный для понимания график. В точке пересечения двух линий мы получим день, начиная с которого доход от пользователя становится выше, чем затраты на его привлечение (привлечение пользователя становится эффективным). В рассматриваемом выше примере это 56-ой день жизни клиента. Решение этой задачи похоже на поиск точки безубыточности, однако надо помнить, что компания также несет и другие косвенные затраты, которые необходимо заложить, чтобы корректно посчитать точку безубыточности.

Рекомендации

Наилучшим сценарием взаимодействия с клиентами и высшей степенью награды для компании можно считать рекомендацию продуктов компании друзьям, родственникам, знакомым. С точки зрения метрик можно выделить: количество активированных приглашенных новых пользователей на одного клиента и NPS.

Количество активированных рекомендаций позволяет увеличить CAC / CPI. К примеру, мы привлекаем пользователя за $1 и хотим сохранить такую тенденцию. Мы разработали механику реферальных ссылок и выявили, что теперь после внедрения средний пользователь приглашает двух других. Получается, что в таком случае стоимость привлечения пользователя составит $1 / 3 = $0.33. Соответственно, мы можем позволить себе привлекать пользователей за $3, сохранив приемлемое для нас значение CAC.

NPS (Net Promote Score) — метрика, которая показывает уровень потребительской лояльности. Механика расчета подробна описана на Википедии, не будем на ней останавливаться. Скажем лишь о том, что рекомендуем регулярно замерять NPS, используя директ-маркетинговые каналы коммуникаций.

Иерархия метрик в организации

Мы достаточно подробно изучили важные метрики каждого этапа AARRR, осталось разобраться каким образом можно структурировать показатели, чтобы получить идеальный дашборд.

Для решения этой задачи имеет смысл декомпозировать цели компании и соответствующие им метрики на разные уровни. Зачастую каждый следующий уровень соответствует отделу компании и является KPI этого отдела. Упрощенно, мы можем представить главную верхнеуровневую цель компании — Прибыль и декомпозировать ее на составные части: Выручка, Расходы.

Иерархия метрик организации

Хороший пример — школа английского языка SkyEng, на видео можно ознакомиться с детально проработанной структурой метрик SkyEng.

Другой альтернативой может стать построение структуры дашборда на основании разобранного выше фреймворка AARRR. Схематично такой дашборд мог бы выглядеть таким образом:

Заключение

Сегодня мы разобрались с ключевыми маркетинговыми метриками, которые помогут отслеживать изменения на каждом этапе маркетинговой воронки, расскажут об эффективности каждого этапа и станут полезным инструментом деятельности маркетолога.

Ссылки по теме:

 2 комментария    2188   2019   Data Analytics   marketing   аналитика   лонгрид