Original size 1750x2480

Waterparks: статистика прослушивания

The project is taking part in the competition

Концепция

Waterparks — популярная американская поп-панк группа, активная с 2011 года. Их музыкальный стиль сильно менялся со временем, и прямо сейчас они находятся в новой переломной точке для своего творчества. Именно поэтому мне хочется проанализировать количество прослушиваний сквозь всю дискографию группы — мне было бы интересно соотнести получившиеся результаты с их новым релизом, когда он выйдет.

Для анализа я собрала датасет из треков, дат их выпуска, их отношения к альбому или эре, количеству прослушиваний на Spotify и других интересовавших меня параметров. Источники информации: Genius, Spotify, Kworb, страница Waterparks на Band Wiki и AZLyrics. Для форматирования данных я использовала ChatGPT:

Original size 1800x1033

Этапы работы

Для обработки данных я пользовалась ChatGPT. В промптах я указывала, какие данные из таблицы нужно проанализировать, к какому виду их привести и как оформить.

Original size 1800x178

В процессе я корректировала промпты, чтобы уточнять детали графиков, править визуализацию и расширять или сужать выборку информации.

Original size 1800x120

Стилизация

Original size 1800x900

Для стилизации графиков я использовала цвета с обложек альбомов Waterparks, а так же шрифт, вдохновлённый почерком вокалиста Остена Найта, кириллическую версию (= модификацию найденного в интернете латинского шрифта) которого я сделала сама.

Original size 1800x350

Графики

Первая диаграмма — линейная, чтобы быстро сравнить, какие релизы Waterparks набрали больше прослушиваний.

Original size 1216x542

Этот график сильно меня расстроил, потому что крайний альбом Waterparks — Intellectual Property — на мой взгляд, самый сильный, и поэтому заслуживает намного большего внимания.

Original size 1800x1099

Original size 1800x91

Порядок действий в коде выше (ChatGPT):

Загружаю таблицу из Google Sheets (скачиваю как .xlsx) и читаю лист Tracks через Pandas.
Оставляю нужные строки (только релизы Waterparks) и привожу колонку со стримами к числовому формату.
Группирую данные по релизу (альбом/EP) и считаю сумму стримов по всем трекам внутри каждого релиза.
Сортирую релизы по суммарным стримам (по убыванию), чтобы получить рейтинг.
Создаю горизонтальную столбчатую диаграмму: по оси Y — названия релизов, по оси X — сумма прослушиваний.
Назначаю каждому релизу свой цвет (заранее заданная палитра).
Настраиваю оформление: чёрный фон, белый текст, нужный шрифт, аккуратные вертикальные линии-сетки, убираю рамку.
Добавляю заголовок и подпись оси X («Всего прослушиваний») и показываю график.

В случае Waterparks с помощью этого графика можно отследить и количество прослушиваний с течением времени: название каждого нового их релиза начинается со следующей буквы английского алфавита, поэтому альбомы легко рассортировать по порядку выхода.

Вторая диаграмма — точечный график популярности треков по датам релиза. Несмотря на то, что предыдущий график тоже даёт эту информацию, мне хотелось наглядно это подтвердить.

Original size 1407x637

Original size 1800x675

Третий график — тепловая карта. График показывает, какие по счёту внутри альбома треки набрали наибольшее количество прослушиваний.

Original size 1155x557

Интересно, что сильнее всего здесь выделяются не самые популярные треки, а наименее популярный трек за всю дискографию группы — 7-й трек в альбоме FANDOM. Песня называется Group Chat и длится всего 14 секунд — в ней участники группы по очереди называют свои имена.

Original size 1723x743

Порядок действий в коде (ChatGPT):

Загружаю таблицу из Google Sheets и читаю лист Tracks через Pandas.
Оставляю только нужные релизы (альбомы) и привожу стримы к числам.
Определяю порядок треков: беру колонку с номером трека, а если её нет — создаю номер по порядку строк внутри каждого альбома.
Строю сводную таблицу (pivot): строки = альбомы, колонки = номер трека, значения = стримы.
Делаю шкалу удобной для сравнения: применяю log10(стримов), чтобы большой разброс не «сломал» цвета.
Рисую heatmap через imshow: каждая ячейка — один трек в альбоме, цвет показывает уровень прослушиваний.
Ставлю кастомную палитру: красный = низкие, жёлтый = средние, зелёный = высокие значения.
Выравниваю сетку: включаю линии по границам ячеек, чтобы квадраты были ровные и аккуратные.
Добавляю подписи осей («Номер трека», названия альбомов), цветовую шкалу справа и оформляю стиль (чёрный фон, белый текст, без рамки).

Четвёртый график — круговые диаграммы, показывающие долю топ-треков внутри альбомов.

Original size 1781x472

Несмотря на то, что Greatest Hits, Entertainment и Intellectual Property набрали почти одинаковое количество прослушиваний, процент топ-треков внутри них сильно различается. Самый заслушанный по количеству песен альбом Waterparks — Double Dare, хотя в общем чарте он занимает только второе место.

Original size 1723x1144

Пятая диаграмма показывает соотношение прослушиваний и доли нецензурной лексики в текстах песен. Мне показалось интересным проанализировать это, потому что со временем тексты группы сильно поменялись, и я хотела посмотреть, отпугнуло ли это аудиторию.

Original size 1357x607

Original size 1800x675

Порядок действий в коде (ChatGPT):

Загружаю таблицу из Google Sheets и читаю лист Tracks в Pandas.
Привожу к числам колонки со стримами, explicit word count и overall word count, убираю пустые строки.
Считаю для каждого трека долю нецензурной лексики: explicit% = explicit word count / overall word count × 100.
Строю scatter: по X — explicit%, по Y — прослушивания в Spotify.
Включаю логарифмическую шкалу по Y, чтобы треки с очень разными стримами читались на одном графике.
Рисую heatmap через imshow: каждая ячейка — один трек в альбоме, цвет показывает уровень прослушиваний.
При желании раскрашиваю точки по альбомам/эпохам (один цвет = один релиз).
Добавляю линию тренда (линейная регрессия/аппроксимация), чтобы визуально оценить направление связи.
Оформляю график в общем стиле: чёрный фон, белые подписи на русском, аккуратная сетка, без рамки.

Описание применения генеративной модели

В проекте я использовала ChatGPT 5.2 (https://chatgpt.com/) для структурирования данных и написания кода. Когда это было возможно с моим уровнем знания Питона, я правила форматирование кода самостоятельно. В других случаях я по нескольку раз переписывала промпты, чтобы получить более подходящий результат визуализации данных. Промпты я писала на английском языке, так как на нём у меня это получается успешнее. Примеры промптов приведены в проекте. Там, где нейросеть использовалась для генерации текста, я перепроверяла его на ошибки и делала сноски. Более подробно использование нейросети описано внутри проекта.

Материалы

Датасет

Блокнот с кодом

Источники изображений:

Renata Khasanova

data visualization

pop music

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...