
Описание
В данном проекте анализируется открытый датасет Spotify Tracks с платформы Kaggle. Он содержит информацию о треках, представленных в каталоге Spotify: год релиза, популярность, длительность, темп, а также вычисленные аудио-характеристики — valence (эмоциональная окраска), energy, danceability, acousticness, instrumentalness и др.
Для исследования была сформирована выборка треков, выпущенных в период 2000–2020 годов. Такой временной диапазон позволяет сфокусироваться на современной музыкальной эпохе — времени доминирования стриминговых сервисов и стабильных цифровых метрик.
импорт данных и первичная проверка
Музыка — редкий пример культурного феномена, который одновременно эмоционален и хорошо формализуем. Spotify предоставляет числовые метрики для треков, что позволяет рассматривать музыку как массив данных, а не только как художественный объект.
Этот датасет ценен тем, что:
- репрезентирует глобальную музыкальную среду, а не локальную выборку; - содержит объективные числовые характеристики, которые можно анализировать статистически; - позволяет изучать долгосрочные тренды — как изменяются эмоциональность, энергичность и структура музыки во времени.
Фактически речь идёт о попытке прочитать музыкальную историю двух десятилетий через данные.
В исследовании применяются несколько типов визуализаций, каждый из которых решает свою аналитическую задачу:
- Линейный график — анализ временных рядов (динамика средней эмоциональности valence по годам). - Гистограмма — исследование распределения длительности треков и выявление скрытых стандартов. - Диаграмма рассеяния — изучение связи между valence и popularity, а также между tempo и energy. - Boxplot — анализ распределения valence по десятилетиям и оценка вариативности эмоциональной палитры.
Такой набор позволяет сочетать изучающий формат (поиск паттернов) и объясняющий (иллюстрация уже сформулированных выводов).
Оформление графиков
В оформлении графиков я опиралась на визуальный язык ночной музыкальной сцены и неоновой эстетики начала 2000-х — культурного фона, в котором формировались ключевые жанры и технологические решения эпохи стриминга. Такой визуальный выбор не является декоративным: он выполняет аналитическую функцию и связывает абстрактные числовые параметры с их реальным культурным контекстом.
Неоновая палитра, построенная на глубоких синих и холодных светящихся оттенках, воспроизводит атмосферу клубного света, экранов ранних медиаплееров и цифровой эстетики 2000-х. Эти образы служат мостом между данными и средой, в которой эти данные возникают, — именно в клубах, студиях и цифровых платформах начала нулевых формировались звуковые решения, определяющие сегодняшнюю популярную музыку.
Кроме того, выбранная палитра подчёркивает аналитический характер работы: контрастные линии и светлые акцентные точки позволяют более чётко фиксировать изменения временных рядов, распределения и плотность облаков наблюдений. Благодаря этому визуализация выполняет двойную задачу — сохраняет академическую читаемость и одновременно резонирует с эстетикой анализируемой эпохи.
Стилизация была выполнена через код, а не постобработку: все цвета заданы программно через настройки matplotlib и seaborn.
код стилизации графиков
Этапы работы
Первый шаг обработки данных — формирование аналитической выборки, то есть выделение только тех признаков, которые непосредственно участвуют в исследовании. Изначальный датасет Spotify содержит множество служебных полей (например, URI, идентификаторы или описательные строки), не имеющих ценности для анализа музыкальных характеристик.
Выбор признаков отражает аналитическую стратегию проекта:
- valence, energy, danceability, tempo — ядро аудио-характеристик Spotify, позволяющее количественно моделировать эмоциональные и структурные свойства музыки; - popularity — социальная метрика, необходимая для проверки гипотез о связи между художественными параметрами и массовым успехом; - duration_ms → источник будущей метрики длительности в минутах; - acousticness, loudness, speechiness, instrumentalness — дополнительные параметры, позволяющие уточнять звуковую картину и учитывать вариативность продакшена.
На этом этапе происходит сепарация «данных для анализа» от шумовых столбцов, что является обязательным компонентом любой исследовательской методологии.
формирование аналитической выборки
Цель проекта — изучение музыкальных трендов 2000–2020 годов, то есть эпохи активного формирования цифровой музыкальной среды. Поэтому фильтрация по годам является не просто техническим действием, а концептуальным сужением исследовательского горизонта.
Выбор диапазона обусловлен:
- переходом индустрии к цифровым форматам и стримингу - стандартизацией аудио-метрик (именно в этот период появляются автоматические характеристики: valence, energy и др.) - возможностью исследовать целостный двадцатилетний цикл с достаточно большой выборкой
Удаление пропусков (dropna ()) — обязательный этап, необходимый для корректности всех дальнейших статистических операций: пропущенные значения искажают выборочные средние, корреляции и распределения.
Повторный вызов df.info () позволяет убедиться, что очищенная структура данных соответствует требованиям анализа.
фильтрация по годам и очистка пропусков
Этот шаг формирует вторичные признаки, которые невозможно получить напрямую из датасета, но которые играют ключевую роль в аналитике:
1. Преобразование длительности Длительность в миллисекундах — технический формат, неудобный для интерпретации.
Перевод в минуты: - делает данные максимально читабельными, - позволяет строить распределения, - помогает выявлять индустриальные стандарты.
Это важное исследовательское решение: теперь длительность трека — не машинная единица измерения, а интерпретируемый параметр, связанный с производственными и форматными практиками музыкальной индустрии.
2. Вычисление десятилетия
Признак десятилетия нужен для анализа долгосрочных структурных тенденций. На уровне отдельных лет данные могут колебаться, но на временном горизонте десятилетий можно увидеть:
- изменения эмоциональной палитры - изменение структуры темпа - вариативность энергичности - эволюцию композиционных стандартов
Создание decade переводит исследование с уровня локальных флуктуаций к уровню макротенденций, что важно для интерпретации результатов.
создание новых признаков
describe () формирует количественный профиль каждого признака:
- среднее значение (mean) показывает «типичное» состояние переменной - стандартное отклонение (std) отражает вариативность и внутреннюю неоднородность музыкального материала - квартильные значения (25%, 50%, 75%) позволяют увидеть распределение внутри выборки - минимумы и максимумы демонстрируют диапазоны художественных и технических параметров
Описательная статистика — это фундамент нижнего уровня, на котором строится всё дальнейшее исследование. Она позволяет:
- проверить корректность данных - увидеть outliers - определить, какие параметры имеют узкие, а какие — широкие распределения - понять, какие переменные потенциально коррелируют или влияют на популярность
Например: - высокая вариативность valence укажет на то, что эмоциональная палитра внутри эпохи разнообразна - низкая вариативность duration_min подтвердит индустриальную стандартизацию длительности треков - характер распределения tempo может указывать на музыкальные предпочтения эпохи
описательная статистика
Аналитические направления данных Spotify
Мне было важно понять, как распределены ключевые параметры треков в общей выборке — существует ли доминирующий тип звучания, или современные музыкальные практики формируют более разнородную звуковую среду. Такое распределение позволяет увидеть «ландшафт» музыки: её эмоциональные предпочтения, уровень энергичности и структуру темпа.
Это один из наиболее информативных графиков. Он отражает, как менялась средняя эмоциональная окраска (valence) музыки с 2000 по 2020 год. Такая динамика показывает не просто художественные изменения, но и возможные культурные сдвиги: тенденции к меланхолии, мрачности или, наоборот, к более светлым, оптимистичным звучаниям.
Через анализ временного ряда можно уловить ритм музыкальной эпохи — периоды стабильности, всплески, разрывы, точки перехода.
Параметры energy и danceability оказались более структурно сложными, чем кажется. Мне было важно увидеть, как они соотносятся между собой внутри выборки: формируют ли они единый тип «современного звучания», или музыкальная среда гораздо более многослойна.
Диаграмма рассеяния помогает увидеть скрытые кластеры — например, медленные, но насыщенные по энергии треки, или наоборот — быстрые, но «лёгкие» по интенсивности.
Анализ длительности выявляет негласные индустриальные стандарты: существуют ли устойчивые форматы, например, «трек на 3–4 минуты», или диапазон шире, чем принято думать.
Форма гистограммы здесь особенно важна: она визуально показывает, как устроены производственные рамки музыки и насколько они жёстко определяют структуру релизов.
Когда данные группируются по десятилетиям, меняется сам масштаб анализа. Такой подход позволяет отойти от локальных колебаний и увидеть долгосрочные тенденции — эволюцию эмоционального фона, динамику темпа, смещение энергетических характеристик.
Десятилетний разрез показывает не просто то, какая музыка выпускалась, а какой она становилась — куда двигалась индустрия, какие звуковые паттерны закреплялись и какие уходили.
Итоговые графики
График 1 Динамика эмоциональной окраски 2000–2020
Линейный график демонстрирует изменение средней эмоциональной окраски треков во времени. Плавные колебания значения valence отражают сдвиги в доминирующих настроениях массовой музыки. Локальные минимумы можно интерпретировать как периоды усиления интереса к более мрачным или напряжённым звучаниям.
Динамика эмоциональной окраски (valence) 2000–2020
График 2 Распределение длительности треков
Гистограмма длительности показывает, что основная масса треков укладывается в диапазон 3–4 минут. Это подтверждает существование негласного индустриального стандарта: музыка форматируется под ожидания стриминговых платформ и слушателей.
распределение длительности треков
График 3 Связь эмоциональности и популярности
Диаграмма рассеяния и значение коэффициента корреляции Пирсона показывают, что линейная связь между valence и popularity практически отсутствует. Популярные треки распределены по всей шкале valence, что означает: успех композиции не сводится к её «радостности» или «грусти».
Связь эмоциональности и популярности
График 4 Эмоциональная палитра по десятилетиям
Boxplot по десятилетиям позволяет оценить не только изменение среднего значения valence, но и разброс внутри временных интервалов. Рост ширины «ящика» и числа выбросов в поздний период указывает на расширение эмоционального диапазона: сосуществование крайне мрачных и очень светлых треков.
Эмоциональная палитра по десятилетиям
График 5 Темп и энергичность
Диаграмма рассеяния tempo–energy визуализирует «портрет» современного звучания. Большинство треков находится в области умеренного или повышенного темпа при высокой энергичности. Это соответствует представлению о современной поп- и электронной музыке как о насыщенной и динамичной.
Темп и энергичность
Заключение
Проведённый анализ аудио-характеристик треков, выпущенных в период 2000–2020 годов, позволил выявить несколько структурных тенденций, определяющих звучание современной музыкальной эпохи. Исследование показало, что эмоциональная палитра популярной музыки постепенно смещается в сторону более приглушённых и меланхоличных настроений: средние значения valence демонстрируют плавное снижение, а распределение внутри десятилетий становится всё более вариативным. Это указывает не только на изменение стилистических предпочтений, но и на усложнение эмоционального диапазона массовой музыки.
Получилось установить связи между ключевыми параметрами, представленными в Spotify Audio Features. Корреляционный анализ показал, что популярность трека практически не зависит от его эмоциональной окраски (valence), что опровергает распространённые бытовые представления о «весёлой музыке как более успешной». В то же время распределение tempo и energy демонстрирует устойчивое преобладание треков с умеренным темпом и высокой энергичностью — характерной особенностью продакшна 2000–2020 годов.
Не менее интересной оказалась структура длительности треков. Гистограмма показала выраженный пик в диапазоне 3–4 минут, что подтверждает существование стабильного индустриального стандарта, воспроизводимого вне зависимости от жанра и контекста. Длинные и короткие форматы присутствуют, но занимают маргинальное положение относительно основного массива данных.
В совокупности результаты исследования позволяют утверждать, что современная музыка сочетает в себе эмоциональное многообразие, высокую плотность звучания и строгую форматность длительности. Музыкальная индустрия оказалась одновременно гибкой в плане художественных решений и удивительно стабильной в структурных параметрах производства.
Таким образом, данное исследование демонстрирует, что цифровые метрики Spotify способны не только описывать трек, но и фиксировать культурные сдвиги, происходящие в музыкальной среде. Через данные видно то, что обычно слышится интуитивно: музыка становится более эмоционально сложной, более энергичной и при этом по-прежнему подчинённой форматной логике стриминговой эпохи.
Описание применения генеративных моделей
Применялась как текстовая нейросеть для консультаций и поддержки аналитической части проекта.
С её помощью были получены: - инструкции по обработке данных и корректной имплементации функций - рекомендации по выбору библиотек и структурированию кода - аналитические комментарии, помогающие интерпретировать результаты визуализаций.
Модель использовалась исключительно как вспомогательный инструмент для повышения точности и прозрачности вычислительных процедур
Служила для получения и уточнения цветовой палитры проекта. На основе загруженного изображения была сформирована палитра, отражающая визуальный язык исследования, после чего оттенки были вручную скорректированы для использования в графиках.
Использовалась для генерации обложки.
Промпт: «Create a cover for a data analysis project about Spotify music trends from 2000 to 2020. Visual style inspired by early-2000s digital culture, night-time music scenes, and the iridescent glow of stacked CDs. Show abstract reflections, bluish holographic highlights, and scattered discs forming a dynamic composition. Add minimalistic data-viz elements (thin grid lines, waveform silhouettes) subtly blended into the background. The mood is analytical, futuristic, nostalgic, and clean. No text. Ultra-detailed, cinematic lighting, soft gradients, high resolution»