Original size 480x720

Анализ Spotify

PROTECT STATUS: not protected

Введение

В данном проекте проводится анализ датасета kaggle, содержащего информацию о музыкальных треках и артистах Spotify. Цель анализа — понять, какие факторы связаны с популярностью треков, а также выявить общие закономерности в данных.

Основные исследовательские вопросы:

Как распределяется популярность треков?

Связана ли популярность артиста с популярностью его треков?

Отличается ли длительность explicit и clean-треков?

Меняется ли средняя популярность треков со временем?

Описание данных

2.1 Состав датасета

Датасет содержит следующие ключевые признаки:

track_popularity — популярность трека (0–100)

artist_popularity — популярность артиста (0–100)

artist_followers — количество подписчиков артиста

track_duration_min — длительность трека в минутах

explicit — наличие нецензурного контента

album_release_date — дата релиза

artist_genres — жанры артиста

2.2 Подготовка данных

Перед анализом были выполнены следующие шаги предобработки:

приведение названий колонок к snake_case

преобразование типов данных

парсинг дат релиза и извлечение года

очистка и упрощение жанров

проверка и обработка пропусков df.isna ().mean ().sort_values (ascending=False).head (10)

Визуальный стиль проекта

Для всех графиков используется единый визуальный стиль, вдохновлённый айдентикой Spotify:

Основной цвет: #1DB954 (Spotify Green)

Фон: тёмный (#0b0f0e)

Сетка: пунктирная, нейтральная

Подписи: приглушённый серый цвет

Анализ данных и визуализация

График 1. Топ-12 артистов по числу подписчиков

Original size 2000x1200

Прикрепить карточку Тип графика: горизонтальная столбчатая диаграмма (barh)

Для анализа были выбраны артисты с наибольшим количеством подписчиков. Для каждого артиста оставлено одно максимальное значение (drop_duplicates).

top_artists = ( df.dropna (subset=[«artist_name»,"artist_followers»]) .sort_values («artist_followers», ascending=False) .drop_duplicates («artist_name») .head (12)

Интерпретация: График позволяет наглядно сравнить лидеров Spotify по количеству подписчиков и увидеть сильную концентрацию аудитории у топ-артистов.

Прикрепить карточку График 2. Распределение популярности треков

Original size 2000x1200

Прикрепить карточку Тип графика: гистограмма

pop = df[«track_popularity»].dropna ()

На графике отображается форма распределения популярности треков.

Интерпретация:

Распределение асимметрично

Большинство треков имеет среднюю популярность

Значения близкие к 100 встречаются значительно реже

Используются описательные статистики: среднее и медиана.

Original size 2000x1200

Прикрепить карточку Тип графика: scatter plot + линейная аппроксимация Метод: корреляция Пирсона

corr = s[«artist_popularity»].corr (s[«track_popularity»])

Интерпретация:

Наблюдается положительная линейная связь

Более популярные артисты в среднем выпускают более популярные треки

Однако разброс значений остаётся значительным

Важно: корреляция не означает причинно-следственную связь.

Original size 1700x1200

Прикрепить карточку Тип графика: scatter plot + линейная аппроксимация Метод: корреляция Пирсона

corr = s[«artist_popularity»].corr (s[«track_popularity»])

Интерпретация:

Наблюдается положительная линейная связь

Более популярные артисты в среднем выпускают более популярные треки

Однако разброс значений остаётся значительным

Важно: корреляция не означает причинно-следственную связь.

Original size 2000x1200

Прикрепить карточку Тип графика: линейный график Метод: groupby + mean

yearly = ( df.groupby («release_year»)[«track_popularity»] .mean () .sort_index () )

Интерпретация:

Видна динамика средней популярности треков

Можно наблюдать изменения музыкального рынка со временем

График отражает общие тренды, а не отдельные хиты

Прикрепить карточку Используемые статистические методы

Прикрепить карточку Описательная статистика: mean, median

Корреляция Пирсона: линейная связь между признаками

Сравнение распределений: boxplot (медиана + IQR)

Groupby-агрегации: средние значения по годам

Прикрепить карточку Общие выводы

Прикрепить карточку В результате анализа можно сделать следующие выводы:

Популярность треков имеет асимметричное распределение

Популярность артиста положительно связана с популярностью его треков

Explicit-контент связан с немного большей длительностью треков

Средняя популярность треков меняется со временем

Проект демонстрирует возможности exploratory data analysis и визуального анализа для изучения музыкальных данных.

Прикрепить карточку Возможные направления расширения

Прикрепить карточку Анализ жанров (primary_genre)

Сравнение популярности по жанрам

Нормализация популярности на длительность

Анализ по типам альбомов

Анализ Spotify
Project created at 16.01.2026
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more