
Введение
Для анализа были выбрали данные о треках и артистах Spotify, включая метрики популярности, энергичности, танцевальности, жанры и длительность треков. Данные были получены из открытых источников Spotify API и агрегированных датасетов на Kaggle, что позволило собрать репрезентативную выборку музыкальных треков за последние несколько лет.
Музыка — один из ключевых элементов повседневной жизни человека, и Spotify является крупнейшей платформой для её прослушивания. Изучение данных о треках позволяет понять:
· какие жанры и артисты наиболее популярны; · как музыкальные характеристики (энергичность, танцевальность, длительность) влияют на популярность треков; · распределение прослушиваний среди разных аудиторий.
Эти данные ценны, потому что они дают количественное представление о современной музыкальной культуре и предпочтениях слушателей.
Для визуализации данных были использованы несколько видов графиков:
· Гистограмма длительности треков — чтобы показать распределение треков по длине, включая логарифмическую шкалу для наглядности.
· Barplot по топ-10 жанрам — для оценки популярности жанров.
· Scatterplot (энергичность vs популярность) — чтобы увидеть зависимость между энергичностью треков и их популярностью.
· Boxplot танцевальности по жанрам — чтобы оценить распределение танцевальности внутри каждого жанра.
Такой набор графиков позволяет одновременно видеть общую картину (гистограммы и barplot) и детализированную информацию о музыкальных характеристиках (scatterplot и boxplot).
Этапы работы
1. Обработка данных:
Импорт библиотеки: pandas, numpy, matplotlib, seaborn. Загрузка датасета и проведение первичного осмотра (df.head (), df.info ()). Приведение столбцов к удобным единицам измерения (duration_ms → минуты). Фильтр данных по жанрам и топ-артистам
2. Стилизация графиков:
Вдохновение пришло от фирменной палитры Spotify: зелёные оттенки на темном фоне для контраста и узнаваемости бренда. Использованы градиенты для гистограмм и boxplot, чтобы сделать графики более динамичными и визуально привлекательными. Шрифт выбран аккуратный и современный (DejaVu Sans), чтобы подписи и заголовки были легко читаемыми.
4. Демонстрация и объяснение визуализации:
Гистограмма логарифмической шкалы показывает, что большинство треков имеют длительность около 3–5 минут, но есть и длинные композиции. Barplot с градиентом демонстрирует, что топ-10 жанров охватывают разнообразные стили, при этом наиболее популярными оказались pop и hip-hop. Scatterplot показывает слабую, но заметную положительную корреляцию между энергичностью и популярностью: энергичные треки чаще становятся популярными. Boxplot танцевальности по жанрам помогает выявить жанры с наиболее «танцевальными» треками — например, dance и pop имеют высокие медианы.
5. Статистические методы:
Среднее и медиана (mean (), median ()) для длительности треков. Распределение по жанрам и топ-артистам через value_counts (). Визуальный анализ зависимости через scatterplot и boxplot.
Итоговые графики
Гистограмма длительности треков (логарифмическая шкала). Показывает распределение треков по длине. Использован градиент зеленого Spotify на черном фоне. Линии среднего и медианы добавлены для наглядности.
Barplot топ-10 жанров. Градиентная заливка от темно-зеленого к светло-зеленому. Подписи и легенда выполнены в стиле Spotify.
Boxplot танцевальности по жанрам. Градиент зеленого по жанрам. Черный фон с зелеными подписью и заголовком. Помогает понять распределение танцевальности внутри жанров.
Scatterplot: энергичность vs популярность. Черные точки с зелёной окантовкой, фон светлый. Показана зависимость энергичности и популярности.
Выводы
1. Большинство треков на Spotify имеют длительность от 3 до 5 минут, что соответствует стандартной длине популярных песен. На гистограмме с логарифмической шкалой видно наличие как очень коротких, так и длинных композиций, что говорит о разнообразии музыкального контента. Среднее и медиана почти совпадают, что указывает на симметричное распределение длительности треков.
2. Топ-10 жанров по количеству треков демонстрирует, что платформой доминируют pop, hip-hop, dance и похожие массовые жанры. Менее популярные жанры встречаются реже, но присутствуют в выборке, что говорит о широкой жанровой доступности. Градиентный барплот наглядно выделяет различия между жанрами и позволяет быстро понять относительную популярность.
3. Scatterplot показал слабую положительную корреляцию: более энергичные треки имеют тенденцию к большей популярности. Это подтверждает гипотезу о том, что аудитории Spotify чаще слушают динамичные композиции. Однако есть и популярные спокойные треки, что указывает на существование разнообразных вкусов.
4. Boxplot выявил, что dance, pop и смежные жанры имеют высокую медиану танцевальности, тогда как rock и indie демонстрируют более широкий разброс. Это показывает различия в характере треков по жанрам и помогает понять, какие жанры создают более «танцевальную» атмосферу.
5. Пользователи Spotify предпочитают короткие и динамичные композиции, чаще всего в жанрах pop, hip-hop и dance. Несмотря на популярность определенных жанров, платформа поддерживает широкий спектр музыкальных предпочтений, включая менее массовые жанры.