Original size 1024x1536

KILLJOYS NEVER DIE | Анализ текстов MCR

PROTECT STATUS: not protected
The project is taking part in the competition

Я анализирую датасет MCRlyrics.csv с текстами песен My Chemical Romance. В таблице есть поля: Album, Title, Year, Lyrics.

Лирика — важная часть образа группы, и мне интересно посмотреть, как меняются тексты между альбомами: длина песен, разнообразие словаря, частотные слова и условные «темы».

Для проекта я использовала Python и различные библиотеки для обработки данных и визуализации.

Итоговые визуализации

Подготовка данных

Прочитала CSV через pandas.read_csv ().

Очистила тексты: привела к нижнему регистру, убрала пунктуацию/цифры с помощью re, разбила на слова (токены).

Убрала стоп-слова (служебные слова и часто встречающийся «шум»), чтобы топ-слова отражали смысл, вместо грамматики.

Стиль и оформление

Для симпатичной инфографики я настроила единый стиль Matplotlib через rcParams. Цвета взяла с одной из обложек альбома группы с помощью Adobe Color.

big
Original size 1419x298

Палитра проекта.

Одинаковая сетка, единые цвета, единые размеры шрифтов. Повышенное качество вывода (dpi), чтобы графики хорошо смотрелись в проекте.

Метрики, которые я посчитала

word_count — количество слов в песне unique_words — количество уникальных слов lexical_diversity = unique_words / word_count — простая оценка разнообразия словаря частота слов в целом и по альбомам (через Counter) частота слов-маркеров для тем (любовь/смерть/боль)

Статистические методы

Описательная статистика: среднее и медиана длины текста, сравнение между альбомами (groupby, mean, median). Частотный анализ: подсчёт частот токенов и топ-слов (Counter). Сравнение по группам: агрегация по альбомам и годам (groupby). Маркерный подход к темам: подсчёт заранее заданных слов-маркеров (например, love/heart/kiss… и death/dead/die…) и сравнение сумм по альбомам.

Итоговые визуализации

Original size 1581x859

Горизонтальная столбчатая диаграмма.

По сравнению средней длины текстов песен лидирует Danger Days: в среднем 141 слово на трек. Самые короткие тексты в этом датасете у Three Cheers — 108 слов. Bullets и The Black Parade ближе друг к другу по этому показателю (123 и 119 слов), поэтому общий сдвиг заметен именно в сторону более длинной лирики к Danger Days.

Original size 1579x619

Линейный график

График по годам описывает не реальную активность группы, а структуру выбранного набора данных: в нём 10 песен за 2002 год, 13 за 2004, 14 за 2006 и 15 за 2010. Различия между годами в проекте отражают то, как собран датасет, и этот контекст нужно учитывать при интерпретации результатов.

Original size 1743x747

Тепловая карта

Тепловая карта частот показывает, что альбомы отличаются не только набором слов, но и тем, какие слова становятся доминирующими. Для The Black Parade максимальная частота у слова down, а для Danger Days резко выделяется heart. У Three Cheers высокие значения у down и особенно у see, тогда как у Bullets распределение более ровное без экстремальных пиков. Это даёт характерные словарные профили для каждого альбома.

Original size 1739x939

Группированная столбчатая диаграмма

В тематическом сравнении по словам-маркерам любовь встречается чаще всего во всех альбомах, но доля смерти и боли заметно меняется. У Bullets и The Black Parade любовь почти на одном уровне, но The Black Parade даёт максимум по смерти и боли, что делает его самым тяжёлым по этой метрике. Danger Days, наоборот, показывает более низкие значения для смерти и боли при сохранении высокой частоты любви, поэтому он выглядит самым смещённым в сторону меньшей мрачности среди рассмотренных альбомов.

Используемые библиотеки

pandas, numpy, re, collections, textwrap, matplotlib
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more