Original size 1140x1600

Звук двух десятилетий

PROTECT STATUS: not protected
The project is taking part in the competition

Описание

Какие данные я выбрала и где их нашла

В данном проекте анализируется открытый датасет Spotify Tracks с платформы Kaggle. Он содержит информацию о треках, представленных в каталоге Spotify: год релиза, популярность, длительность, темп, а также вычисленные аудио-характеристики — valence (эмоциональная окраска), energy, danceability, acousticness, instrumentalness и др.

Для исследования была сформирована выборка треков, выпущенных в период 2000–2020 годов. Такой временной диапазон позволяет сфокусироваться на современной музыкальной эпохе — времени доминирования стриминговых сервисов и стабильных цифровых метрик.

0

импорт данных и первичная проверка

Почему именно эти данные

Музыка — редкий пример культурного феномена, который одновременно эмоционален и хорошо формализуем. Spotify предоставляет числовые метрики для треков, что позволяет рассматривать музыку как массив данных, а не только как художественный объект.

Этот датасет ценен тем, что:

- репрезентирует глобальную музыкальную среду, а не локальную выборку; - содержит объективные числовые характеристики, которые можно анализировать статистически; - позволяет изучать долгосрочные тренды — как изменяются эмоциональность, энергичность и структура музыки во времени.

Фактически речь идёт о попытке прочитать музыкальную историю двух десятилетий через данные.

Какие виды графиков я использую и зачем

В исследовании применяются несколько типов визуализаций, каждый из которых решает свою аналитическую задачу:

- Линейный график — анализ временных рядов (динамика средней эмоциональности valence по годам). - Гистограмма — исследование распределения длительности треков и выявление скрытых стандартов. - Диаграмма рассеяния — изучение связи между valence и popularity, а также между tempo и energy. - Boxplot — анализ распределения valence по десятилетиям и оценка вариативности эмоциональной палитры.

Такой набор позволяет сочетать изучающий формат (поиск паттернов) и объясняющий (иллюстрация уже сформулированных выводов).

Оформление графиков

В оформлении графиков я опиралась на визуальный язык ночной музыкальной сцены и неоновой эстетики начала 2000-х — культурного фона, в котором формировались ключевые жанры и технологические решения эпохи стриминга. Такой визуальный выбор не является декоративным: он выполняет аналитическую функцию и связывает абстрактные числовые параметры с их реальным культурным контекстом.

Неоновая палитра, построенная на глубоких синих и холодных светящихся оттенках, воспроизводит атмосферу клубного света, экранов ранних медиаплееров и цифровой эстетики 2000-х. Эти образы служат мостом между данными и средой, в которой эти данные возникают, — именно в клубах, студиях и цифровых платформах начала нулевых формировались звуковые решения, определяющие сегодняшнюю популярную музыку.

Original size 1920x1080

Кроме того, выбранная палитра подчёркивает аналитический характер работы: контрастные линии и светлые акцентные точки позволяют более чётко фиксировать изменения временных рядов, распределения и плотность облаков наблюдений. Благодаря этому визуализация выполняет двойную задачу — сохраняет академическую читаемость и одновременно резонирует с эстетикой анализируемой эпохи.

Стилизация была выполнена через код, а не постобработку: все цвета заданы программно через настройки matplotlib и seaborn.

Original size 1920x842

код стилизации графиков

Этапы работы

Отбор релевантных признаков

Первый шаг обработки данных — формирование аналитической выборки, то есть выделение только тех признаков, которые непосредственно участвуют в исследовании. Изначальный датасет Spotify содержит множество служебных полей (например, URI, идентификаторы или описательные строки), не имеющих ценности для анализа музыкальных характеристик.

Выбор признаков отражает аналитическую стратегию проекта:

- valence, energy, danceability, tempo — ядро аудио-характеристик Spotify, позволяющее количественно моделировать эмоциональные и структурные свойства музыки; - popularity — социальная метрика, необходимая для проверки гипотез о связи между художественными параметрами и массовым успехом; - duration_ms → источник будущей метрики длительности в минутах; - acousticness, loudness, speechiness, instrumentalness — дополнительные параметры, позволяющие уточнять звуковую картину и учитывать вариативность продакшена.

На этом этапе происходит сепарация «данных для анализа» от шумовых столбцов, что является обязательным компонентом любой исследовательской методологии.

Original size 1920x842

формирование аналитической выборки

Фильтрация по годам и очистка пропусков

Цель проекта — изучение музыкальных трендов 2000–2020 годов, то есть эпохи активного формирования цифровой музыкальной среды. Поэтому фильтрация по годам является не просто техническим действием, а концептуальным сужением исследовательского горизонта.

Выбор диапазона обусловлен:

- переходом индустрии к цифровым форматам и стримингу - стандартизацией аудио-метрик (именно в этот период появляются автоматические характеристики: valence, energy и др.) - возможностью исследовать целостный двадцатилетний цикл с достаточно большой выборкой

Удаление пропусков (dropna ()) — обязательный этап, необходимый для корректности всех дальнейших статистических операций: пропущенные значения искажают выборочные средние, корреляции и распределения.

Повторный вызов df.info () позволяет убедиться, что очищенная структура данных соответствует требованиям анализа.

Original size 1920x842

фильтрация по годам и очистка пропусков

Создание новых признаков

Этот шаг формирует вторичные признаки, которые невозможно получить напрямую из датасета, но которые играют ключевую роль в аналитике:

1. Преобразование длительности Длительность в миллисекундах — технический формат, неудобный для интерпретации.

Перевод в минуты: - делает данные максимально читабельными, - позволяет строить распределения, - помогает выявлять индустриальные стандарты.

Это важное исследовательское решение: теперь длительность трека — не машинная единица измерения, а интерпретируемый параметр, связанный с производственными и форматными практиками музыкальной индустрии.

2. Вычисление десятилетия

Признак десятилетия нужен для анализа долгосрочных структурных тенденций. На уровне отдельных лет данные могут колебаться, но на временном горизонте десятилетий можно увидеть:

- изменения эмоциональной палитры - изменение структуры темпа - вариативность энергичности - эволюцию композиционных стандартов

Создание decade переводит исследование с уровня локальных флуктуаций к уровню макротенденций, что важно для интерпретации результатов.

Original size 1920x842

создание новых признаков

Описательная статистика

describe () формирует количественный профиль каждого признака:

- среднее значение (mean) показывает «типичное» состояние переменной - стандартное отклонение (std) отражает вариативность и внутреннюю неоднородность музыкального материала - квартильные значения (25%, 50%, 75%) позволяют увидеть распределение внутри выборки - минимумы и максимумы демонстрируют диапазоны художественных и технических параметров

Описательная статистика — это фундамент нижнего уровня, на котором строится всё дальнейшее исследование. Она позволяет:

- проверить корректность данных - увидеть outliers - определить, какие параметры имеют узкие, а какие — широкие распределения - понять, какие переменные потенциально коррелируют или влияют на популярность

Например: - высокая вариативность valence укажет на то, что эмоциональная палитра внутри эпохи разнообразна - низкая вариативность duration_min подтвердит индустриальную стандартизацию длительности треков - характер распределения tempo может указывать на музыкальные предпочтения эпохи

Original size 1920x842

описательная статистика

Аналитические направления данных Spotify

Распределение аудио-характеристик (valence, energy, tempo)

Мне было важно понять, как распределены ключевые параметры треков в общей выборке — существует ли доминирующий тип звучания, или современные музыкальные практики формируют более разнородную звуковую среду. Такое распределение позволяет увидеть «ландшафт» музыки: её эмоциональные предпочтения, уровень энергичности и структуру темпа.

Динамика эмоциональности музыки по годам

Это один из наиболее информативных графиков. Он отражает, как менялась средняя эмоциональная окраска (valence) музыки с 2000 по 2020 год. Такая динамика показывает не просто художественные изменения, но и возможные культурные сдвиги: тенденции к меланхолии, мрачности или, наоборот, к более светлым, оптимистичным звучаниям.

Через анализ временного ряда можно уловить ритм музыкальной эпохи — периоды стабильности, всплески, разрывы, точки перехода.

Энергичность и танцевальность музыки

Параметры energy и danceability оказались более структурно сложными, чем кажется. Мне было важно увидеть, как они соотносятся между собой внутри выборки: формируют ли они единый тип «современного звучания», или музыкальная среда гораздо более многослойна.

Диаграмма рассеяния помогает увидеть скрытые кластеры — например, медленные, но насыщенные по энергии треки, или наоборот — быстрые, но «лёгкие» по интенсивности.

Длительность треков

Анализ длительности выявляет негласные индустриальные стандарты: существуют ли устойчивые форматы, например, «трек на 3–4 минуты», или диапазон шире, чем принято думать.

Форма гистограммы здесь особенно важна: она визуально показывает, как устроены производственные рамки музыки и насколько они жёстко определяют структуру релизов.

Структура звучания по десятилетиям

Когда данные группируются по десятилетиям, меняется сам масштаб анализа. Такой подход позволяет отойти от локальных колебаний и увидеть долгосрочные тенденции — эволюцию эмоционального фона, динамику темпа, смещение энергетических характеристик.

Десятилетний разрез показывает не просто то, какая музыка выпускалась, а какой она становилась — куда двигалась индустрия, какие звуковые паттерны закреплялись и какие уходили.

Итоговые графики

График 1 Динамика эмоциональной окраски 2000–2020

Линейный график демонстрирует изменение средней эмоциональной окраски треков во времени. Плавные колебания значения valence отражают сдвиги в доминирующих настроениях массовой музыки. Локальные минимумы можно интерпретировать как периоды усиления интереса к более мрачным или напряжённым звучаниям.

0

Динамика эмоциональной окраски (valence) 2000–2020

График 2 Распределение длительности треков

Гистограмма длительности показывает, что основная масса треков укладывается в диапазон 3–4 минут. Это подтверждает существование негласного индустриального стандарта: музыка форматируется под ожидания стриминговых платформ и слушателей.

0

распределение длительности треков

График 3 Связь эмоциональности и популярности

Диаграмма рассеяния и значение коэффициента корреляции Пирсона показывают, что линейная связь между valence и popularity практически отсутствует. Популярные треки распределены по всей шкале valence, что означает: успех композиции не сводится к её «радостности» или «грусти».

0

Связь эмоциональности и популярности

График 4 Эмоциональная палитра по десятилетиям

Boxplot по десятилетиям позволяет оценить не только изменение среднего значения valence, но и разброс внутри временных интервалов. Рост ширины «ящика» и числа выбросов в поздний период указывает на расширение эмоционального диапазона: сосуществование крайне мрачных и очень светлых треков.

0

Эмоциональная палитра по десятилетиям

График 5 Темп и энергичность

Диаграмма рассеяния tempo–energy визуализирует «портрет» современного звучания. Большинство треков находится в области умеренного или повышенного темпа при высокой энергичности. Это соответствует представлению о современной поп- и электронной музыке как о насыщенной и динамичной.

0

Темп и энергичность

Заключение

Проведённый анализ аудио-характеристик треков, выпущенных в период 2000–2020 годов, позволил выявить несколько структурных тенденций, определяющих звучание современной музыкальной эпохи. Исследование показало, что эмоциональная палитра популярной музыки постепенно смещается в сторону более приглушённых и меланхоличных настроений: средние значения valence демонстрируют плавное снижение, а распределение внутри десятилетий становится всё более вариативным. Это указывает не только на изменение стилистических предпочтений, но и на усложнение эмоционального диапазона массовой музыки.

Получилось установить связи между ключевыми параметрами, представленными в Spotify Audio Features. Корреляционный анализ показал, что популярность трека практически не зависит от его эмоциональной окраски (valence), что опровергает распространённые бытовые представления о «весёлой музыке как более успешной». В то же время распределение tempo и energy демонстрирует устойчивое преобладание треков с умеренным темпом и высокой энергичностью — характерной особенностью продакшна 2000–2020 годов.

Не менее интересной оказалась структура длительности треков. Гистограмма показала выраженный пик в диапазоне 3–4 минут, что подтверждает существование стабильного индустриального стандарта, воспроизводимого вне зависимости от жанра и контекста. Длинные и короткие форматы присутствуют, но занимают маргинальное положение относительно основного массива данных.

В совокупности результаты исследования позволяют утверждать, что современная музыка сочетает в себе эмоциональное многообразие, высокую плотность звучания и строгую форматность длительности. Музыкальная индустрия оказалась одновременно гибкой в плане художественных решений и удивительно стабильной в структурных параметрах производства.

Таким образом, данное исследование демонстрирует, что цифровые метрики Spotify способны не только описывать трек, но и фиксировать культурные сдвиги, происходящие в музыкальной среде. Через данные видно то, что обычно слышится интуитивно: музыка становится более эмоционально сложной, более энергичной и при этом по-прежнему подчинённой форматной логике стриминговой эпохи.

Описание применения генеративных моделей

ChatGPT

Применялась как текстовая нейросеть для консультаций и поддержки аналитической части проекта.

С её помощью были получены: - инструкции по обработке данных и корректной имплементации функций - рекомендации по выбору библиотек и структурированию кода - аналитические комментарии, помогающие интерпретировать результаты визуализаций.

Модель использовалась исключительно как вспомогательный инструмент для повышения точности и прозрачности вычислительных процедур

Adobe Color

Служила для получения и уточнения цветовой палитры проекта. На основе загруженного изображения была сформирована палитра, отражающая визуальный язык исследования, после чего оттенки были вручную скорректированы для использования в графиках.

Krea

Использовалась для генерации обложки.

Промпт: «Create a cover for a data analysis project about Spotify music trends from 2000 to 2020. Visual style inspired by early-2000s digital culture, night-time music scenes, and the iridescent glow of stacked CDs. Show abstract reflections, bluish holographic highlights, and scattered discs forming a dynamic composition. Add minimalistic data-viz elements (thin grid lines, waveform silhouettes) subtly blended into the background. The mood is analytical, futuristic, nostalgic, and clean. No text. Ultra-detailed, cinematic lighting, soft gradients, high resolution»

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more