Original size 1140x1600

Что мы смотрим? Визуализация датасета о 2000 самых рейтинговых телешоу

The project is taking part in the competition

Original size 2416x408

Выбирая тему для проекта, мне было важно работать с чем-то знакомым и понятным, но при этом таким, где можно увидеть интересные закономерности в данных. Сериалы стали форматом, с которым многие сталкиваются регулярно: мы выбираем их по настроению, жанру или рейтингам, часто ориентируясь на мнение других зрителей. За каждым популярным сериалом стоит не только история, но и реакция аудитории, которую можно проанализировать с помощью данных.

Интерес к этой теме возник у меня из желания понять, как именно пользовательские оценки отражают восприятие сериалов. Мне стало интересно посмотреть, какие проекты оказываются в числе самых высоко оценённых и насколько сильно они отличаются друг от друга по рейтингу. Также было любопытно увидеть, есть ли среди лидеров явные фавориты или оценки распределяются достаточно равномерно.

Original size 498x280

Для исследования я использовала датасет с платформы Kaggle, посвящённый популярным сериалам и их пользовательским рейтингам. В нём собрана информация о названиях сериалов и их оценках, что позволяет наглядно сравнить проекты между собой и выделить лидеров.

Используемые типы визуализаций: 1. Горизонтальная столбчатая диаграмма 2. Гистограмма с наложенной сглаженной кривой плотности (KDE) 3. Линейный график 4. Тепловая карта корреляций

Цветовая палитра

Цвета для проекта я подбирала с учётом тематики сериалов и формата визуализации данных. Внимание уделялось тонам, чтобы цвета выглядели сдержанно и современно, не отвлекали от анализа, но при этом помогали визуально выделять ключевые элементы графиков. Палитра должна была ассоциироваться с экранной эстетикой, атмосферой вечернего просмотра и цифровой средой стриминговых платформ.

Для подбора и систематизации цветовой палитры я использовала сервис Adobe Color. Для цветового оформления кода использовался Carbon.

Основные используемые цвета: #000000 #027C7D #E6006A #7FD1C7

Шрифт для проекта — ScienceGothic.

Original size 1600x1200

Original size 1023x575

Топ сериалов

Original size 1280x815

На графике показаны десять сериалов с самыми высокими пользовательскими рейтингами. Лидером является Breaking Bad, который заметно выделяется среди остальных. Остальные сериалы имеют близкие значения рейтингов, что говорит о высокой конкуренции и примерно одинаковом уровне зрительского признания.

Original size 1920x1080

Этот код создаёт горизонтальную столбчатую диаграмму для отображения топ-10 сериалов по рейтингу из датасета сериалов. Горизонтальная диаграмма использована, так как удобна для длинных названий сериалов и наглядной демонстрации сходств и различий оценок. Сначала выбираются 10 сериалов с наивысшим рейтингом, затем они сортируются по возрастанию для отображения сверху вниз от самого высокого к самому низкому.

Распределение рейтингов

Original size 1280x815

График показывает, как распределяются пользовательские рейтинги среди всех сериалов в датасете. Большинство оценок сосредоточено в диапазоне от примерно 7.5 до 8.3, что указывает на преобладание достаточно высоко оценённого контента и редкость как очень низких, так и максимально высоких рейтингов.

Original size 1920x1120

Original size 1920x1080

Гистограмма с кривой — это классический способ показать распределение непрерывной величины (рейтинга). Этот код создаёт гистограмму с полиномиальной аппроксимацией по 15 интервалам (bins=15) для визуализации распределения рейтингов сериалов в датасете с показателями «Рейтинг» по оси X, и «Количество сериалов» по оси Y. Затем создается полиномиальная кривая (np.polyfit (), np.poly1d ()), начиная с очистки данных (.dropna ()), затем строится график (plt.figure ()) с гистограммой и сглаженной линией (ax.plot ()), после чего настраиваются визуальные элементы.

Премьеры сериалов в разные годы

Original size 1280x815

На графике отображено количество премьер культовых сериалов в разные годы. Видно, что до 1990-х годов количество таких проектов было небольшим, а резкий рост начинается после 2000 года. Пик приходится на последние десятилетия, что отражает активное развитие индустрии сериалов и стриминговых платформ.

Original size 1920x1238

Original size 1920x1199

Этот код создаёт линейный график с точками для визуализации динамики премьер культовых сериалов по годам. Линейный график (ax.plot), где точки показывают фактические значения, а линия наглядно демонстрирует тенденцию, на мой взгляд идеально подходит для отображения временного ряда, так как показывает тренд и изменения количества премьер во времени. Сначала код извлекает год премьеры из даты (pd.to_datetime ().dt.year), группирует данные по годам и подсчитывает количество сериалов (.value_counts ().sort_index ()), затем строит график (plt.figure ()) с зелёной линией тренда (ax.plot ()) и розовыми маркерами в каждой точке данных (ax.scatter ()), после чего добавляет заголовок, подписи осей и прочие визуальные элементы в уже заданном стиле

Взаимосвязь качества и популярности

Original size 1280x815

Тепловая карта показывает связь между рейтингом, количеством голосов, популярностью и годом премьеры. Наиболее заметная корреляция наблюдается между популярностью и количеством голосов, тогда как связь рейтинга с годом выхода выражена слабо. Это говорит о том, что качество сериала не зависит напрямую от времени его выпуска.

Original size 1920x1258

Original size 1920x1151

Original size 1920x887

Этот код создаёт тепловую карту корреляций (heatmap) для визуализации взаимосвязей между ключевыми показателями сериалов: рейтингом, количеством голосов, популярностью и годом премьеры. Начинается код с подготовки данных — выделения колонок и преобразования даты премьеры в год (pd.to_datetime ().dt.year), затем вычисления корреляций (.corr ()), создания пользовательской цветовой палитры (LinearSegmentedColormap), построения тепловой карты с помощью ax.imshow () с настройкой осей и подписей, добавления числовых значений корреляций в каждую ячейку (двойной цикл for с ax.text ()), отображения цветовой шкалы (colorbar), и завершения оформлением графика.

Использованные статистические методы

Original size 2416x496

В ходе анализа данных о рейтингах и популярности сериалов были применены следующие статистические методы и приёмы анализа:

• Ранжирование и отбор экстремальных значений — использовались для выделения топ-10 сериалов с наивысшими рейтингами. Сортировка и визуальное сравнение позволили определить лидеров по качественной оценке.

• Описательный анализ распределений — применялся для изучения распределения рейтингов сериалов. Гистограмма позволила оценить форму распределения, концентрацию значений и наличие смещения в сторону высоких или низких рейтингов.

• Сглаживание эмпирических распределений — использовалось для выявления общей тенденции в распределении рейтингов с помощью аппроксимирующей кривой, что упростило интерпретацию структуры данных.

• Анализ временных рядов — применялся для исследования динамики количества премьер культовых сериалов по годам. Линейный график позволил выявить периоды роста и спада активности выпуска сериалов.

• Корреляционный анализ — использовался для оценки взаимосвязей между рейтингом, числом голосов, популярностью и годом премьеры. Расчёт коэффициентов корреляции позволил определить силу и направление статистических связей между показателями.

• Визуальный анализ взаимосвязей — реализован с помощью тепловой карты корреляций и сравнительных графиков, что обеспечило наглядное представление комплексных зависимостей между ключевыми характеристиками сериалов.

Вывод

Original size 2416x442

В ходе анализа данных о сериалах удалось увидеть несколько важных закономерностей. Высокие пользовательские рейтинги характерны для ограниченного круга проектов, при этом разница между лидерами минимальна, что говорит о высоком общем уровне качества популярных сериалов. Большинство оценок сосредоточено в верхнем диапазоне, что подтверждает тенденцию к преобладанию хорошо принятого зрителями контента. Анализ динамики премьер показал устойчивый рост количества культовых сериалов в последние десятилетия, особенно после 2000 года, что связано с развитием индустрии сериалов и появлением стриминговых платформ. При этом корреляционный анализ показал, что популярность сериала чаще связана с количеством зрительских голосов, а не напрямую с его рейтингом или годом выхода.

Результаты анализа подтверждают, что успех сериала формируется не только за счёт высокого качества, но и за счёт широкой аудитории и внимания зрителей, а современные сериалы становятся всё более значимой частью массовой культуры.

В качестве дополнительной части проекта мне захотелось дополнить анализ данных творческой составляющей. Проект сопровождался оформительными илюстрациями — абстрактрыми сценами с использованием выбранных цыетов и атмосферы вечернего просмотра сериала, сгенерированными в Chat GPT. Одна из иллюстраций стала обложкой проекта.

Описание применения генеративной модели и вспомогательных инструментов

1. Kaggle — Платформа была использована для поиска и загрузки датасета.

2. Google Colab — Весь процесс работы: обработка данных и визуализация.

3. Библиотеки Python kagglehub — для автоматического скачивания датасета matplotlib.font_manager — для подключения кастомного шрифта pandas — использовалась для загрузки датасета, очистки, преобразования и анализа табличных данных. matplotlib — основной инструмент для построения визуализаций в проекте. numpy — применялась для работы с числовыми данными и расчёта вспомогательных величин при построении графиков.

4. Adobe Color — Цветовая палитра

5. ChatGPT — Нейросеть применялась для помощи в генерации и оптимизации кода, настройки визуального стиля графиков и корректировки функций анализа, а также для генерации иллюстраций-разделителей и обложки.

6. Tenor — Использовался для выбора GIF

Ссылка на диск

Original size 498x281

Rina Jan

data visualization

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...