1 минута чтения
24 октября 2022 г.
Тексты песен: статистика и выводы
Разложить песни по нотам — а, точнее, словам — показалось нам весьма амбициозной и интригующей задачей. Не посчитать ли нам данные, которые можно почерпнуть из информации об исполнителях, альбомах, самих песнях, и не сопоставить ли нам эти данные, чтобы узнать немного больше о том, чем мы иногда, по нашему желанию или против нашей воли, кормим наши уши?
«Отличная мысль!» — подумали мы и приступили к сбору данных.
А что в плейлисте?
Наш анализ текстов проводился на основе набора данных, взятых с txtsong.ru, который включал в себя названия исполнителей, песен, альбомов, год выпуска, жанр, тексты и перевод песен (если они были написаны на иностранном языке).
C сайта эти данные собирались с помощью HTTP-запросов и парсинга HTML-кода страниц с использованием библиотеки BeautifulSoup. Весь набор мы сначала загрузили в Google Sheets, затем, с помощью библиотеки gspread, метода get, он был считан в DataFrame.
В результате исходный датасет в DataFrame состоял из 7 колонок: «Исполнитель», «Название песни», «Название альбома», «Год выпуска», «Жанр музыки», «Текст песни» и «Перевод текста песни», и 115 318 строк, каждая из которых — одна песня. В анализируемом наборе данных было представлено 25 265 уникальных российских и иностранных исполнителей, 80 473 уникальных названий песен, 102 жанра и 11 150 альбомов за последние 68 лет.
Самыми многочисленными по количеству песен оказались такие жанры, как «русский рэп» — 34 334 песни, «русская поп-музыка» — 21 980 песен, «русский рок» — 10 111 песен, «иностранный рэп и хип-хоп» — 8 591 песня и «русская эстрада» — 7 914.
Давайте миксовать!
Далее мы обработали тексты и переводы всех песен с помощью регулярных выражений и методов библиотеки Pandas: были удалены ненужные символы, знаки препинания, стоп-слова, лишние пробелы. Также мы перевели буквы в нижний регистр.
Анализ текстов песен мы провели по нескольким направлениям:
- по жанрам;
- по годам;
- по лексическому содержанию песен;
- по показателю repetitiveness.
Для каждой песни мы рассчитали показатель repetitiveness тремя способами. Первый заключался в том, что для текста каждой песни мы сформировали два списка: из уникальных строк и из всех строк текста. Затем мы рассчитали длины списков, и repetitiveness была найдена по следующей формуле (1):
Второй способ расчета — это подобие алгоритма Лемпеля–Зива. Он заключался в вычислении размера текста с уникальными строками и всего текста песни в байтах. Repetitiveness в данном случае рассчитывалась по следующей формуле (2):
Третий способ расчета repetitiveness заключался в составлении двух списков — списка с уникальными словами песни и списка со всеми словами песни. В этом случае, repetitiveness рассчитывалась по следующей формуле (3):
Анализ песен по жанрам
Итак, приступим! Здесь мы исследовали уникальность лексики в текстах песен разных жанров, выявили наиболее часто встречаемые слова в текстах, проанализировали частоты встречаемости матерных слов и имен собственных, провели кластерный анализ песен и сентимент-анализ текстов по жанрам.
Распределение числа уникальных слов в песнях по жанрам показало, что на общем фоне заметно выбиваются «рэп и хип-хоп», «русский рэп», «иностранный рэп и хип-хоп» и «регги». Для данных жанров размах количества уникальных слов в песнях более широкий, что может указывать на разнообразность песен.
Также стоит отметить, что медианное значение числа уникальных слов в песнях иностранного рэпа и хип-хопа значительно выше по сравнению с остальными жанрами музыки. У таких жанров, как русский рок, русская поп-музыка, русская эстрада, шансон, кавказская музыка, детская музыка, фолк-рок и металкор достаточно маленький размах уникальных слов и строк в песнях, что может говорить об однообразности и схожести песен между собой.
Любопытно, что среди русского рэпа песен с отсутствием матерных слов больше (51%), чем среди русской поп-музыки (49%), хотя в песнях русского рэпа матерные слова используются в большем количестве.
Далее: анализ использования имен собственных в песнях различных жанров показал следующее распределение наиболее популярных имен собственных в различных жанрах музыки:
Мы обнаружили, что в значительной части текстов песен, относящихся к жанру «рок», используется имя российского комика Александра Долгополова. Возможно, такой шквал популярности связан с его резкими высказываниями по поводу власти и отъездом за границу. Также, в целом, достаточно популярно использование имени «Саша» в песнях данного жанра.
Анализ по годам
Мы попытались выявить тенденции в текстах песен со всего мира на протяжении 2000–2022 на основании наиболее часто встречаемых слов в текстах, частоты употребляемости матерных слов, кластерного и сентимент-анализа текстов. Также мы посчитали, какие года были более продуктивными в музыкальной индустрии с точки зрения количества релизов песен.
При анализе наиболее часто встречающихся слов в русской музыке мы выявили, что по мере ухода от 2013 и приближения к 2022 году тексты песен из категории «русский рэп» становятся более мягкими, все чаще начинают звучать слова, касающиеся любви. В текстах песен русского рока сквозь все года за исследуемый период прослеживается тема небес, молитвы и веры во что-то неземное. Тексты песен 2020 года заметно меняют настрой на более позитивный, по сравнению с более ранним периодом.
Стоит также отметить, что с 2000 по 2022 гг. процент русских и иностранных песен, в которых используются матерные слова, постепенно растет с небольшими перепадами в сторону его уменьшения. Резкий скачок вниз наблюдается в 2003 и 2021 гг. Своего максимума данный показатель достиг в 2022 году и составил 26%:
Аналогично, сентимент-анализ песен по годам показал, что процент русских и иностранных песен с негативной эмоциональной окраской в 2019-2020 и 2022 гг. более высокий по сравнению со значениями данного показателя за остальные годы. Это может расцениваться как попытка авторов передать в песнях накал страстей, нарастающий в разных странах или же в отдельно взятом «лирическом герое».
В целом, такая заметная эмоциональная эмансипация в музыкальном творчестве и обширное прибегание к матерной лексике за последнее десятилетие могли иметь несколько причин, среди которых мы можем предположить:
- большую свободу, дозволенность в выражении негативных эмоций а также личного опыта в текстах песен нежели ранее (и отсутствие необходимости вуалировать определенные темы в текстах во благо несовершеннолетних слушателей);
- открытый социальный протест как реакцию на реалии жизни в современном мире;
- начало пандемии и карантина (2019-2020 гг.);
- обострение политической ситуации в России и мире (2022 г.).
Также мы можем отметить, что наибольшее количество песен было выпущено в последние 4 года, а рекордное количество песен увидело свет в 2021 году. В 2022 году количество выпускаемых песен резко сократилось по сравнению с 2021 годом. Хотя 2022 год еще не подошел к концу, мы можем предположить, что к концу года, показатель 2021 года достигнут уже не будет.
Анализ по лексическому содержанию песен
В рамках этого подхода, мы изучили схожесть и разнообразие лексического состава текстов песен, наиболее часто встречающиеся слова и, отдельно, частоты матерных слов. Также мы провели кластерный и сентимент-анализ текстов песен и сопоставили данные о лексическом содержании текстов песен отдельных исполнителей и конкретных альбомов, чтобы попытаться определить взаимосвязи между показателями в различных анализируемых категориях.
При выявлении наиболее схожих по текстам пар песен мы получили следующий результат: наиболее похожие песни были обнаружены в русской поп-музыке, поскольку их названия «кричат» о тематике любви — очень часто используются такие слова, как «любовь» и «сердце». Вряд ли эти данные можно было бы отнести к рэпу, инди, року или любому другому жанру музыки. В топ 5 пар схожих песен в категории «русская поп-музыка» вошли такие пары песен, как «Налетели вдруг дожди» и «Али ты», «Где же ты, где» и «Только ты», «Я тебя не люблю» и «Зелёный свет», «Смотрю на тебя» и «Не зарекайся», «Шатер из звезд» и «Ритмы людей». Об этом может свидетельствовать приведенная ниже тепловая карта (heatmap).
Если говорить наоборот о разнообразии лексического состава текстов песен, среди исполнителей, выпустивших более 150 альбомов, первое место по наибольшему медианному числу уникальных слов в песнях занимает Александр Розенбаум. Примерно на том же уровне по данному показателю находятся Владимир Высоцкий и ДДТ.
Остальные исполнители отстают по данному показателю. Наименьшее медианное число уникальных слов в песнях имеет Ленинград — всего 55 слов. Кстати, наибольший размах числа уникальных слов наблюдается в песнях Владимира Высоцкого, наименьший — у Ирины Алегровой, Ани Лорак и Стаса Михайлова:
В рамках сентимент-анализа песен мы установили, что в исследуемом наборе данных преобладают песни с негативной коннотацией (их примерно половина):
Также стоит отметить, что песни с позитивной коннотацией в основном несут в себе тематику светлой и доброй любви. Кстати, не только к противоположному полу, но и к родителям! Такие песни характеризуются почти полным отсутствием матерных слов и ругательств, использованием в достаточно малом количестве слов с негативной окраской и, наоборот, большим количеством позитивных и добрых слов, например «люблю», «бурно», «прикосновения», «счастье», «мечты», «целуй», «мама», «любимые», «вселенная» и пр.
Матерные слова в текстах таких песен, как правило, обыгрываются с позитивной окраской, например, в таком словосочетании, как «восхитительно ох*енная». Кроме того, названия таких песен несут в себе по большей части только позитивную лексику, например «Обняла. Люблю. Целую», «Восхитительно» или «Лучшая ночь».
А теперь разбавим лирику: при анализе по отдельным исполнителям, наиболее матерными песнями оказались «Fuck You» исполнителя Lil Butterfly («иностранный рэп и хип-хоп»), текст которой включает 132 матерных слова и песня Ноггано «Застрахуй» из категории «руский рэп», которая также включает в себя более 100 матерных слов.
Затем, на примере русского рэпа мы определили, для каких отдельных исполнителей и в каких конкретных альбомах наблюдается частое использование матерных слов: наибольшее число матерных слов использует Скриптонит и 104, наименьшее — 10AGE.
Отметим, что панк музыканты, даже больше, чем русские рэпперы и рокеры вместе взятые, употребляют матерные слова в своих песнях, особенно группы Мятная Фанта, кис-кис, Казенный Унитаз и Порнофильмы.
Анализ показателя Repetitiveness
Изучив данные, мы пришли к выводу, что среднее значение показателя repetitiveness в последние 3 года возросло на свой рекордный уровень и достигло 34%. Также в 2011 году наблюдалось резкое падение данного показателя до 25%. Кроме того, интересно заметить, что за период с 2015 по 2020 гг. наблюдался равномерный рост среднего значения repetitiveness на 1 п.п. в год. С 2000 по 2011 гг. среднее значение данного показателя было весьма нестабильно и колебалось в интервале от 25% до 33%.
Медианное значение repetitiveness, по сравнению со средним, в последние 2 года различается. Пик был достигнут в 2021 году, а в 2022 году значение данного показателя снизилось на 1 п.п. Так же, как и для среднего значения, медианное значение repetitiveness в 2011 году достигает своего минимума, но более низкого, нежели для среднего, и равного 23%.
Равномерный рост, который был справедлив для среднего значения repetitiveness с 2015 по 2020 гг., для медианного значения отсутствует. Он здесь наблюдается только с 2018 по 2021 гг.:
При анализе среднего значения repetitiveness по жанрам мы заметили, что для всех представленных жанров музыки наблюдается тенденция к росту repetitiveness.
Наибольшее среднее значение показателя было выявлено среди песен поп-музыки в 2002 году, оно равнялось 50%, но затем в последующие году снизилось и находилось преимущественно в интервале от 30% до 40%. Среднее значение же в этом жанре отличается своей стабильностью в течение 22 лет и находится около 40%.
Еще один примечательный факт: у песен, в текстах которых отсутствуют матерные слова, среднее значение repetitiveness всегда выше (по крайней мере с 2000 по 2022 гг.):
И на десерт: любопытно, что среди всех прочих исполнителей особое место занимает феномен Григория Лепса. В его дискографии присутствует как альбом с достаточно высоким средним значением repetitiveness, достигающим почти 50%, так и альбом с нулевым значением этого показателя:
[ Рекомендации ]
Читайте также
[ Связаться ]
Давайте раскроем потенциал вашего бизнеса вместе
Заполните форму на бесплатную консультацию