

Выбирая тему для проекта, мне было важно работать с чем-то знакомым и понятным, но при этом таким, где можно увидеть интересные закономерности в данных. Сериалы стали форматом, с которым многие сталкиваются регулярно: мы выбираем их по настроению, жанру или рейтингам, часто ориентируясь на мнение других зрителей. За каждым популярным сериалом стоит не только история, но и реакция аудитории, которую можно проанализировать с помощью данных.
Интерес к этой теме возник у меня из желания понять, как именно пользовательские оценки отражают восприятие сериалов. Мне стало интересно посмотреть, какие проекты оказываются в числе самых высоко оценённых и насколько сильно они отличаются друг от друга по рейтингу. Также было любопытно увидеть, есть ли среди лидеров явные фавориты или оценки распределяются достаточно равномерно.

Для исследования я использовала датасет с платформы Kaggle, посвящённый популярным сериалам и их пользовательским рейтингам. В нём собрана информация о названиях сериалов и их оценках, что позволяет наглядно сравнить проекты между собой и выделить лидеров.
Используемые типы визуализаций: 1. Горизонтальная столбчатая диаграмма 2. Гистограмма с наложенной сглаженной кривой плотности (KDE) 3. Линейный график 4. Тепловая карта корреляций
Цветовая палитра
Цвета для проекта я подбирала с учётом тематики сериалов и формата визуализации данных. Внимание уделялось тонам, чтобы цвета выглядели сдержанно и современно, не отвлекали от анализа, но при этом помогали визуально выделять ключевые элементы графиков. Палитра должна была ассоциироваться с экранной эстетикой, атмосферой вечернего просмотра и цифровой средой стриминговых платформ.
Для подбора и систематизации цветовой палитры я использовала сервис Adobe Color. Для цветового оформления кода использовался Carbon.
Основные используемые цвета: #000000 #027C7D #E6006A #7FD1C7
Шрифт для проекта — ScienceGothic.
Топ сериалов
На графике показаны десять сериалов с самыми высокими пользовательскими рейтингами. Лидером является Breaking Bad, который заметно выделяется среди остальных. Остальные сериалы имеют близкие значения рейтингов, что говорит о высокой конкуренции и примерно одинаковом уровне зрительского признания.
Этот код создаёт горизонтальную столбчатую диаграмму для отображения топ-10 сериалов по рейтингу из датасета сериалов. Горизонтальная диаграмма использована, так как удобна для длинных названий сериалов и наглядной демонстрации сходств и различий оценок. Сначала выбираются 10 сериалов с наивысшим рейтингом, затем они сортируются по возрастанию для отображения сверху вниз от самого высокого к самому низкому.
Распределение рейтингов
График показывает, как распределяются пользовательские рейтинги среди всех сериалов в датасете. Большинство оценок сосредоточено в диапазоне от примерно 7.5 до 8.3, что указывает на преобладание достаточно высоко оценённого контента и редкость как очень низких, так и максимально высоких рейтингов.
Гистограмма с кривой — это классический способ показать распределение непрерывной величины (рейтинга). Этот код создаёт гистограмму с полиномиальной аппроксимацией по 15 интервалам (bins=15) для визуализации распределения рейтингов сериалов в датасете с показателями «Рейтинг» по оси X, и «Количество сериалов» по оси Y. Затем создается полиномиальная кривая (np.polyfit (), np.poly1d ()), начиная с очистки данных (.dropna ()), затем строится график (plt.figure ()) с гистограммой и сглаженной линией (ax.plot ()), после чего настраиваются визуальные элементы.
Премьеры сериалов в разные годы
На графике отображено количество премьер культовых сериалов в разные годы. Видно, что до 1990-х годов количество таких проектов было небольшим, а резкий рост начинается после 2000 года. Пик приходится на последние десятилетия, что отражает активное развитие индустрии сериалов и стриминговых платформ.
Этот код создаёт линейный график с точками для визуализации динамики премьер культовых сериалов по годам. Линейный график (ax.plot), где точки показывают фактические значения, а линия наглядно демонстрирует тенденцию, на мой взгляд идеально подходит для отображения временного ряда, так как показывает тренд и изменения количества премьер во времени. Сначала код извлекает год премьеры из даты (pd.to_datetime ().dt.year), группирует данные по годам и подсчитывает количество сериалов (.value_counts ().sort_index ()), затем строит график (plt.figure ()) с зелёной линией тренда (ax.plot ()) и розовыми маркерами в каждой точке данных (ax.scatter ()), после чего добавляет заголовок, подписи осей и прочие визуальные элементы в уже заданном стиле
Взаимосвязь качества и популярности
Тепловая карта показывает связь между рейтингом, количеством голосов, популярностью и годом премьеры. Наиболее заметная корреляция наблюдается между популярностью и количеством голосов, тогда как связь рейтинга с годом выхода выражена слабо. Это говорит о том, что качество сериала не зависит напрямую от времени его выпуска.
Этот код создаёт тепловую карту корреляций (heatmap) для визуализации взаимосвязей между ключевыми показателями сериалов: рейтингом, количеством голосов, популярностью и годом премьеры. Начинается код с подготовки данных — выделения колонок и преобразования даты премьеры в год (pd.to_datetime ().dt.year), затем вычисления корреляций (.corr ()), создания пользовательской цветовой палитры (LinearSegmentedColormap), построения тепловой карты с помощью ax.imshow () с настройкой осей и подписей, добавления числовых значений корреляций в каждую ячейку (двойной цикл for с ax.text ()), отображения цветовой шкалы (colorbar), и завершения оформлением графика.
Использованные статистические методы
В ходе анализа данных о рейтингах и популярности сериалов были применены следующие статистические методы и приёмы анализа:
• Ранжирование и отбор экстремальных значений — использовались для выделения топ-10 сериалов с наивысшими рейтингами. Сортировка и визуальное сравнение позволили определить лидеров по качественной оценке.
• Описательный анализ распределений — применялся для изучения распределения рейтингов сериалов. Гистограмма позволила оценить форму распределения, концентрацию значений и наличие смещения в сторону высоких или низких рейтингов.
• Сглаживание эмпирических распределений — использовалось для выявления общей тенденции в распределении рейтингов с помощью аппроксимирующей кривой, что упростило интерпретацию структуры данных.
• Анализ временных рядов — применялся для исследования динамики количества премьер культовых сериалов по годам. Линейный график позволил выявить периоды роста и спада активности выпуска сериалов.
• Корреляционный анализ — использовался для оценки взаимосвязей между рейтингом, числом голосов, популярностью и годом премьеры. Расчёт коэффициентов корреляции позволил определить силу и направление статистических связей между показателями.
• Визуальный анализ взаимосвязей — реализован с помощью тепловой карты корреляций и сравнительных графиков, что обеспечило наглядное представление комплексных зависимостей между ключевыми характеристиками сериалов.
Вывод
В ходе анализа данных о сериалах удалось увидеть несколько важных закономерностей. Высокие пользовательские рейтинги характерны для ограниченного круга проектов, при этом разница между лидерами минимальна, что говорит о высоком общем уровне качества популярных сериалов. Большинство оценок сосредоточено в верхнем диапазоне, что подтверждает тенденцию к преобладанию хорошо принятого зрителями контента. Анализ динамики премьер показал устойчивый рост количества культовых сериалов в последние десятилетия, особенно после 2000 года, что связано с развитием индустрии сериалов и появлением стриминговых платформ. При этом корреляционный анализ показал, что популярность сериала чаще связана с количеством зрительских голосов, а не напрямую с его рейтингом или годом выхода.
Результаты анализа подтверждают, что успех сериала формируется не только за счёт высокого качества, но и за счёт широкой аудитории и внимания зрителей, а современные сериалы становятся всё более значимой частью массовой культуры.
В качестве дополнительной части проекта мне захотелось дополнить анализ данных творческой составляющей. Проект сопровождался оформительными илюстрациями — абстрактрыми сценами с использованием выбранных цыетов и атмосферы вечернего просмотра сериала, сгенерированными в Chat GPT. Одна из иллюстраций стала обложкой проекта.
Описание применения генеративной модели и вспомогательных инструментов
1. Kaggle — Платформа была использована для поиска и загрузки датасета.
2. Google Colab — Весь процесс работы: обработка данных и визуализация.
3. Библиотеки Python kagglehub — для автоматического скачивания датасета matplotlib.font_manager — для подключения кастомного шрифта pandas — использовалась для загрузки датасета, очистки, преобразования и анализа табличных данных. matplotlib — основной инструмент для построения визуализаций в проекте. numpy — применялась для работы с числовыми данными и расчёта вспомогательных величин при построении графиков.
4. Adobe Color — Цветовая палитра
5. ChatGPT — Нейросеть применялась для помощи в генерации и оптимизации кода, настройки визуального стиля графиков и корректировки функций анализа, а также для генерации иллюстраций-разделителей и обложки.
6. Tenor — Использовался для выбора GIF