Original size 768x1024

«Spotify» Анализ Датасет

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

В своём проекте мне захотелось исследовать тему, которая сопровождает меня в самых разных ситуациях — цифровую музыку и то, как мы её слушаем. Стриминговые сервисы давно стали главным способом потребления музыки, и мне стало интересно посмотреть на этот процесс более аналитически. В качестве основы я использовала датасет Spotify Global Music Dataset (2009–2025), опубликованный на платформе Kaggle.

В датасете собрана информация о треках и артистах Spotify за длительный период: годы релиза, популярность, формат выпуска, продолжительность, а также другие метрики, отражающие поведение музыкального рынка.

Мне было интересно разобраться, как вообще распределяется популярность треков, что считается «нормой» для Spotify, а что скорее исключением. От этого я логично перешла к сравнению жанров, затем — к анализу связи между длительностью трека и его успехом, и в конце попробовала посмотреть на картину шире, через корреляции разных факторов. Путь позволил постепенно углубляться в данные, двигаясь от общего к более частным наблюдениям.

Используемые визуализации

Для анализа данных я выбрала несколько типов графиков, каждый из которых помогает посмотреть на музыку под разным углом: 1. Гистограмма 2. Горизонтальная столбчатая диаграмма 3. Диаграмма рассеяния с линейной линией тренда 4. Корреляционная матрица

Обложка проекта

post

Для обложки проекта я решила создать несколько иллюстраций с помощью нейросети, предложив ей визуально интерпретировать саму музыку. Меня интересовало, как алгоритм может передать звук, ритм и настроение не через конкретные объекты, а через форму, свет и пространство. В этих изображениях музыка выглядит как абстрактная среда: потоки, импульсы и структуры, которые напоминают о цифровой природе стриминга.

recraft.ai Prompt Abstract visualization of music as data, flowing sound waves and rhythmic light patterns, dark background with neon green accents, digital atmosphere, sense of motion and energy, modern and minimalistic style. Spotify.

Иллюстрации

0

Цветовая палитра

Original size 1280x461

Цветовое решение проекта я строила, опираясь на визуальный стиль Spotify. В основе палитры — контраст тонов тёмного и яркого акцентного зелёного, который сразу ассоциируется с цифровой музыкой и стримингом. Для создания цветовой палитры я использовала Adobe Color

Основные цвета проекта: #121212 #1DB954 #212121 #353535 #B3B3B3

Для проекта я использовала шрифт Rubik, так как он выглядит современно и не отвлекает от содержания.

Original size 1600x2400

График 1

Первый график показывает распределение популярности треков. Это гистограмма с линией плотности, которая помогает увидеть, как именно значения популярности распределены внутри датасета. Хорошо заметно, что большая часть треков сосредоточена в среднем диапазоне — примерно от 40 до 80 баллов. При этом есть и заметное количество треков с очень низкой популярностью, что подчёркивает неравномерность музыкального рынка: далеко не каждый релиз находит свою аудиторию.

0

График 2

После общего обзора я решила посмотреть, какие жанры в среднем оказываются наиболее популярными. На горизонтальной столбчатой диаграмме показан топ-10 жанров по средней популярности треков. Здесь особенно интересно, что лидирующие позиции занимают достаточно нишевые направления, а не самые очевидные массовые жанры. Это показывает, что высокая средняя популярность не всегда связана с количеством треков, а скорее с вовлечённой аудиторией и спецификой жанра.

0

График 3

Далее я перешла к вопросу, который часто обсуждается в музыкальной среде: влияет ли длительность трека на его успех. Scatterplot отображает связь между продолжительностью трека (в минутах) и его популярностью. Точки распределены довольно хаотично, однако линия линейного тренда показывает слабую положительную зависимость. Это означает, что более длинные треки в среднем могут быть чуть популярнее, но эта связь не является сильной и однозначной — успешными могут быть треки самых разных форматов.

0

График 4

В завершение я рассмотрела корреляционную матрицу, которая позволяет оценить, какие факторы сильнее всего связаны с популярностью трека. Самая заметная связь наблюдается между популярностью трека и популярностью артиста, что выглядит логично: известные исполнители чаще получают высокий отклик. При этом длительность трека и наличие explicit-контента практически не коррелируют с популярностью, что подтверждает выводы предыдущих графиков — формат сам по себе не гарантирует успех.

0

Заключение

В ходе работы стало видно, что музыкальные данные могут рассказывать гораздо больше, чем кажется на первый взгляд. Анализ распределения популярности показал, насколько неравномерна музыкальная среда: большинство треков остаются в среднем диапазоне, тогда как по-настоящему успешные релизы составляют меньшинство. Сравнение жанров подчеркнуло, что высокая популярность не всегда связана с массовостью, а часто формируется за счёт устойчивой и вовлечённой аудитории. Исследование связи между длительностью трека и его популярностью подтвердило, что универсального «правильного» формата не существует — успех может быть у треков разной продолжительности. Корреляционный анализ, в свою очередь, показал, что наибольшее влияние на популярность оказывает фактор артиста, тогда как отдельные характеристики трека играют второстепенную роль.

Мой проект позволил взглянуть на Spotify как на отражение современных культурных и алгоритмических процессов. Для меня эта работа стала способом соединить личный интерес к музыке с анализом данных и увидеть, как за привычным пользовательским опытом скрываются чёткие, но при этом не всегда очевидные закономерности.

Использованные статистические методы

В ходе анализа данных о музыкальных треках были применены следующие статистические методы и аналитические подходы:

• Анализ распределений — использовался для исследования распределения популярности треков. Гистограмма позволила оценить форму распределения, разброс значений и наличие асимметрии, а также выявить концентрацию треков в определённых диапазонах популярности.

• Непараметрическая оценка плотности распределения (KDE) — применялась для сглаженной оценки вероятностного распределения популярности треков. Масштабирование функции плотности к числу наблюдений обеспечило корректное сопоставление KDE с гистограммой частот.

• Агрегационный анализ по категориям — использовался для расчёта средних значений популярности треков по музыкальным жанрам. Это позволило количественно сравнить жанры между собой и выделить направления с наибольшей средней популярностью.

• Регрессионный анализ — применялся для изучения зависимости популярности трека от его длительности. Линейная регрессионная модель позволила выявить направление и характер связи между продолжительностью композиции и уровнем её популярности.

• Корреляционный анализ — был проведён для оценки силы и направления связей между популярностью треков и характеристиками артистов и композиций (популярность артиста, число подписчиков, длительность трека, наличие explicit-контента). Коэффициенты корреляции позволили количественно оценить вклад каждого фактора.

• Визуальный анализ корреляций — реализован с помощью тепловой карты, что обеспечило наглядное сравнение интенсивности взаимосвязей между всеми рассматриваемыми переменными.

Описание применения генеративной модели и вспомогательных инструментов

1. Kaggle — Платформа была использована для поиска и загрузки датасета.

2. Google Colab — Весь процесс работы: обработка данных и визуализация.

3. Библиотеки Python kagglehub — для автоматического скачивания датасета matplotlib.font_manager — для подключения кастомного шрифта pandas — использовалась для загрузки датасета, очистки, преобразования и анализа табличных данных. matplotlib — основной инструмент для построения визуализаций в проекте. numpy — применялась для работы с числовыми данными и расчёта вспомогательных величин при построении графиков. scipy.stats.gaussian_kde — использовалась для оценки плотности распределения данных

4. Цветовая палитра (Adobe Color)

5. recraft.ai — Использовала для генерации обложки и иллюстраций.

6. ChatGPT — Нейросеть применялась для генерации и оптимизации кода, настройки визуального стиля графиков и корректировки функций анализа.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more