
Описание
Для данного проекта был выбран датасет, содержащий информацию об эпизодах анимационного сериала «Губка Боб Квадратные Штаны». Среди данных представлены номера сезонов и эпизодов, названия серий и даты их выхода, количество зрителей в США, действующие персонажи, а также авторы и приглашённые личности.
Выбранные данные позволяют анализировать структуру сериала, темп выпуска, распределение эпизодов по сезонам и то, как соотносится количество зрителей с персонажами, ведущими авторами или длиной эпизода.
Интерес к данному датасету связан с тем, что «Губка Боб Квадратные штаны» с момента появления на экране и до сегодняшнего дня является одним из самых популярных анимационных сериалов. На мультсериале выросло не одно поколение зрителей, и сериал по сей день смотрят не только дети, но и взрослые, поэтому весьма интересным становится анализ самих эпизодов и их выхода.
Для анализа датасета я выбрала разные типы визуализаций, каждая из которых решает свою аналитическую задачу. Столбчатая диаграмма показывает количество эпизодов по сезонам, чтобы наглядно увидеть структуру сериала и различия между сезонами по объёму контента.
Линейный график отражает динамику числа зрителей в США, что помогает отследить изменение интереса аудитории к сериалу, а также выявить общие тенденции популярности.
Также в анализе используется гистограмма распределения длительности эпизода, а также точечная диаграмма, позволяющая проанализировать связь между длительностью эпизода и количеством зрителей, проверяя, влияет ли формат серии на интерес аудитории.
Помимо этого в проекте используется круговая диаграмма, отображающая распределение появлений основных персонажей, что помогает дать представление о роли главных и/или второстепенных героев в структуре сериала.
Этапы работы
Для начала в блокноте подключаются основные библиотеки, такие, как pandas и numpy для работы с датасетом, а также matplotlib и seaborn для настройки визуального оформления самих графиков. Библиотеки подключаются с помощью функции import.
Также в блокнот монтируется Google Drive (с помощью drive.mount, чтобы импортировать датасет и подключить шрифт, так как оба этих файла лежат на диске рядом с блокнотом.
Импорт библиотек и датасета
Далее необходимо было подготовить данные. При помощи df.columns.str.replace были очищены названия столбцов и текстовых значений от возможных лишних пробелов или переносов.
Также символ №, часто встречающийся в датасете, был заменен на No, чтобы избежать проблем при обращении к столбцам в коде.
Подготовка данных
Следующим этапом стала настройка визуального оформления визуализаций. Во-первых, с помощью matplotlib.font_manager был подключён шрифт SomeTimeLater, вдохновлённый эстетикой надписей непосредственно в мультсериале.
Во-вторых, был настроен единый стиль визуализаций. Всем графикам был задан единый фон и цвет подписей, а также с помощью clean_axes были отключены рамки и сетка, а функция set_title задаёт всем визуализациям заголовок в выбранном шрифте.
Настройка визуального оформления графиков
Дополнительно списком была создана единая палитра цветов, которая будет использоваться во всех графиках, чтобы держать единую визуальную систему.
Создание палитры цветов
Работа с датасетом начиналась с рассмотрения его структуры и состава. Разные типы графиков использовались для того, чтобы сравнить сезоны между собой, а также выявить повторяющиеся элементы в структуре эпизодов и составе участников. Также графики используются для наглядного отображения уже выявленных тенденций.
В рамках проекта применяются методы описательной статистики. Используется подсчёт частот и агрегация данных, например, количество эпизодов по сезонам, число появлений персонажей и авторов или распределение эпизодов по временным периодам. Такие методы позволяют наглядно показать, как устроен сериал на уровне отдельных эпизодов.
Итоговые визуализации данных
Столбчатая диаграмма, показывающая распределение эпизодов по сезонам
Первый график задаёт общий контекст для всего проекта, поскольку он показывает, как распределяются эпизоды по сезонам, и есть ли какие-то заметные различия в их объёме.
Анализируя эту столбчатую диаграмму, можно заметить, что количество эпизодов в разных сезонах сериала распределено неравномерно. Ранние сезоны содержат меньше серий, тогда как в последующих сезонах объём эпизодов увеличивается, что может быть связано с ростом популярности сериала и стабилизацией производственного процесса.
Линейная диаграмма, которая показывает, как менялось количество зрителей в зависимости от сезона
Для анализа динамики интереса зрителей данные были предварительно приведены к числовому виду, после чего значения агрегировались по сезонам. На основе этих данных был построен линейный график, который даёт возможность наглядно проследить, как менялась популярность сериала и интерпретировать траекторию интереса аудитории.
Точечная диаграмма, показывающая взаимосвязь длительности эпизода и количества зрителей
На графике видно, что наибольшее количество эпизодов сосредоточено в районе стандартной длительности (около 10–11 минут). И именно в этой точке формируется самая плотная полоса отметок. Однако количество зрителей внутри этого диапазона сильно варьируются, так как у эпизодов одинаковой продолжительности аудитория может отличаться в несколько раз. Исходя из этого фактора, можно сделать вывод, что сама по себе длительность серии не является ключевым фактором, определяющим интерес зрителей.
Более длинные эпизоды встречаются гораздо реже и демонстрируют разброс по числу зрителей. Чёткой линейной зависимости между увеличением длительности эпизода и ростом аудитории не прослеживается.
Круговая диаграмма, показывающая частоту появления персонажей
Также была построена круговая диаграмма, чтобы показать доли появлений ключевых персонажей и выявить баланс между основными героями.
Построенная диаграмма показывает, что структура сериала во многом строится вокруг ограниченного круга главных персонажей. Основные герои занимают наибольшую долю появлений, и они появляются в схожей степени. Тем не менее, помимо главных персонажей есть и фоновые (Incidental), и среди них есть наиболее часто встречающийся персонаж — Incidental 41, жёлто-коричневая рыба со светло-лавандовыми губами и тёмно-лавандовым спинным плавником.
Финальный вывод
Анализ структуры эпизодов анимационного сериала «Губка Боб Квадратные Штаны» с использованием визуализации данных позволил выявить устойчивые форматы выпуска и ключевые фигуры, влияющие на развитие сериала на протяжении времени. Анализ также показал, что формат серии не является определяющим фактором интереса аудитории.
Таким образом, результаты подтверждают, что внимание зрителей в большей степени связано с содержанием и сюжетными решениями, чем с формальными параметрами эпизода.
Использованные нейросети и промпты
1. ChatGPT использовался для уточнения вопросов и исправления ошибок в коде 2. Сервис codeimg.io для стилизации кода 3. Google Gemini использовался для создания изображения обложки
ChatGPT. Промпты
Мне нужно построить диаграмму, которая основывается на колонке characters. Но там данные через запятую в каждой строке прописаны. Как мне их привести к чистому виду? В этом случае нужно парсить?
Почему не находит df? Она ведь в начале ещё объявлена, а тут при создании графика выдаёт ошибку, как будто переменная не объявлена
У меня ошибка KeyError: 'runtime_minutes'. Почему она возникла и как её пофиксить?
Можно как-то сразу все цвета для графиков обозначить? Чтобы на всех графиках одни и те же цвета использовались
Google Gemini. Промпт для генерации обложки
A vertical cinematic illustration of Bikini Bottom, clearly showing the city layout from an elevated wide view. The central area features clustered iconic underwater houses with pipes and chimneys, arranged like a small town. Sandy seabed with winding paths between buildings, coral formations framing the scene on the sides. Bright but slightly softened cartoon colors: warm sand yellows, turquoise water, pastel blues and purples. Classic SpongeBob-style background art, clean and detailed, recognizable city silhouette. Calm, nostalgic atmosphere, no characters present. Subtle underwater light rays from above. Clean composition with visible city center and open space near the top for title text. Hand-painted cartoon background style inspired by original SpongeBob establishing shots. 9:16 aspect ratio.