Original size 1140x1600

Анализ фильмов и сериалов Netflix

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Я выбрала для анализа датасет Netflix Movies and TV Shows, так как всегда любила смотреть сериалы и фильмы на Netflix. Мне интересно, какие жанры самые популярные, как меняются тренды во времени, и какие страны производят больше всего контента. Исследование этих данных позволяет лучше понять глобальные тенденции в индустрии развлечений и выявить закономерности, которые не всегда заметны на первый взгляд.

big
Original size 3168x1344

Датасет был взят с платформы Kaggle и содержит информацию о более чем 8 000 фильмах и сериалах Netflix. Он включает такие характеристики, как названия, жанры, страны производства, даты релиза и добавления на платформу, продолжительность, возрастной рейтинг и ключевых актёров.

big
Original size 3168x1344

Для визуализации данных я выбрала различные виды графиков, которые помогают наглядно отразить структуру и тенденции контента Netflix:

Круговая диаграмма — показывает соотношение фильмов и сериалов на платформе; Гистограмма — демонстрирует распределение контента по годам выпуска; Точечная диаграмма — отражает зависимость длительности фильмов от года выпуска; Тепловая карта — подчеркивает популярность жанров по десятилетиям; Облако слов — показывает актёров, наиболее часто встречающихся в контенте Netflix; Диаграмма размаха — позволяет сравнить распределение длительности фильмов по возрастному рейтингу; Линейные графики — демонстрируют среднее количество сезонов сериалов по годам.

Использование этих визуализаций позволяет одновременно показать динамику изменений во времени, выявить популярные жанры и страны-производители, а также понять, как развивался контент Netflix на протяжении последних десятилетий.

Original size 3168x1344

Загрузка и обработка данных

Original size 3500x848

установка и импорт библиотек и файла

Для начала я импортировала необходимые библиотеки: pandas и numpy для работы с таблицами и числовыми данными, matplotlib.pyplot для визуализации и wordcloud для создания облака слов. После чего считала CSV-файл с данными Netflix Movies and TV Shows.

После загрузки данных я провела первичный анализ: проверила типы данных и количество пропусков в каждой колонке. Это помогло понять, какие колонки нуждаются в обработке, а какие можно использовать сразу для визуализации.

Original size 3500x217

первичный анализ данных

Далее я обработала дату добавления контента на платформу. Колонка date_added была преобразована в формат datetime, а на её основе созданы отдельные колонки с годом и месяцем добавления. Эти данные пригодятся для анализа динамики появления новых фильмов и сериалов.

Original size 3500x285

обработка дат

Следующим шагом я обработала колонку duration, которая содержит информацию о продолжительности фильмов (в минутах) или сезонов сериалов. Для этого написала функцию parse_duration, которая разделяет числовое значение и единицу измерения.

Original size 3500x521

обработка длительности контента

Чтобы анализировать тренды по времени, я создала колонку decade, отражающую десятилетие выпуска контента. Также было необходимо преобразовать колонки, содержащие несколько значений через запятую — такие как country, listed_in (жанры) и cast (актеры). Для этого я использовала функцию explode_column, которая разбивает такие строки на отдельные элементы.

Original size 3500x702

десятилетия и разбиение колонок

Для удобства анализа я перевела названия стран и жанров на русский язык с помощью словарей country_translation и genre_translation. Также создала колонку genre_ru с русскими названиями жанров. Это необходимо для того, чтобы визуализации были понятны русскоязычной аудитории.

Original size 3500x2064

перевод стран и жанров

Наконец, я подготовила отдельные датасеты для фильмов и сериалов. Для фильмов создала колонку с русским возрастным рейтингом (rating_ru) и сохранила топ рейтингов. Для сериалов извлекла количество сезонов и рассчитала среднее количество сезонов по годам, включая скользящее среднее для сглаживания тренда.

Original size 3500x1379

подготовка данных для фильмов и рейтингов

Original size 3500x255

обработка данных для сериалов

Original size 3168x1344

Стилизация

Для того чтобы визуализации выглядели аккуратно и были единообразными, я настроила стиль графиков в matplotlib. Основная цель — сделать графики читаемыми и приятными для восприятия, с контрастной цветовой схемой, подходящей под тему Netflix.

Original size 3500x1460

В качестве шрифта я подключила Onest, чтобы тексты на графиках выглядели современно и гармонировали с общей стилистикой проекта. Кроме того, была установлена тёмная тема для фона графиков и белый цвет текста, что делает визуализации контрастабельными и лёгкими для восприятия.

Также я определила фирменные цвета Netflix: NETFLIX_RED — основной красный цвет, использованный для акцентов и ключевых элементов; NETFLIX_GRAY — серый цвет для второстепенных элементов.

Original size 3500x1302

Визуализация данных

0

круговая диаграмма соотношение фильмов и сериалов на Netflix

Круговая диаграмма показывает, что на платформе Netflix количество фильмов и сериалов имеет значительную разницу, фильмов в два раза больше. Такой график позволяет сразу визуально оценить структуру контента и понять, на что больше ориентирована платформа в данный момент.

0

горизонтальная столбчатая диаграмма топ-15 стран по количеству контента

Столбчатая диаграмма наглядно показывает, какие страны производят больше всего фильмов и сериалов для Netflix. Лидерами являются США и Индия, что отражает глобальные тренды в индустрии развлечений и ориентацию платформы на аудиторию этих стран.

0

гистограмма распределение контента по годам выпуска

Гистограмма демонстрирует динамику выпуска фильмов и сериалов. Видно, что с течением времени количество контента постепенно увеличивается, особенно после 2000-х годов, что связано с ростом популярности потокового видео и экспансией Netflix на новые рынки.

0

точечная диаграмма зависимость длительности фильмов от года выпуска

Диаграмма показывает, что длительность фильмов сильно варьируется. В среднем, фильмы последних лет имеют тенденцию к большей длительности, а также наблюдается широкое распределение продолжительности в 1980–2000-х годах. Этот график помогает увидеть, как менялись стандарты длительности фильмов во времени.

0

тепловая карта популярность жанров по десятилетиям

Карта демонстрирует, какие жанры были наиболее популярны в разные десятилетия. Например, драмы и комедии стабильно занимают лидирующие позиции, а международные фильмы и аниме стали набирать популярность в последние десятилетия. График позволяет увидеть исторические тренды и смену предпочтений аудитории.

0

облако слов актёры, наиболее часто встречающиеся в контенте Netflix

Облако слов наглядно показывает, какие актёры чаще всего появляются в фильмах и сериалах Netflix. Чем крупнее имя, тем больше контента с участием данного актёра. Такой график позволяет быстро определить «звёзд» платформы.

0

диаграмма размаха длительность фильмов по возрастному рейтингу

Диаграмма помогает сравнить распределение длительности фильмов в разных возрастных категориях. Например, фильмы для всех возрастов обычно короче, а фильмы с рейтингом 16+ или 18+ имеют большую вариативность и в среднем более длинные.

0

линейный график среднее количество сезонов сериалов по годам

Линейный график показывает, как изменялось среднее количество сезонов сериалов с течением времени. Скользящее среднее позволяет видеть долгосрочные тенденции и сглаживает резкие колебания. Например, видно, что количество сезонов медленно увеличивается, что отражает очередное изменение трендов формата сериалов на Netflix. Конечно, это ещё меньше чем количество сезонов в 90-х, но определённая тенденция есть.

Вывод

Проведённый анализ показывает, как индустрия развлечений эволюционировала под влиянием глобальных тенденций, технологий и предпочтений аудитории. Netflix постепенно расширяла свой каталог, увеличивая количество сериалов и фильмов, а также разнообразие жанров и стран-производителей.

Жанры не просто сменяют друг друга с течением времени — они адаптируются к интересам зрителей и культурным трендам. Например, драмы и комедии остаются базовыми, но появляются международные фильмы, аниме и документальные проекты, отражающие глобализацию и мультикультурность контента. Возрастные категории также влияют на длительность и формат контента: фильмы для взрослых обычно длиннее, а детские и семейные — короче и динамичнее.

Особое внимание зрителей привлекают ключевые актёры и популярные сериалы, что делает контент узнаваемым и создает устойчивую аудиторию. Среднее количество сезонов сериалов постепенно растёт, что отражает изменение формата сериалов и тренд на более глубокое раскрытие сюжетов.

Original size 3168x1344

В целом, анализ подчёркивает, что Netflix не просто предоставляет контент — платформа адаптируется к запросам аудитории, экспериментирует с жанрами и форматами, создавая уникальный глобальный каталог, который удовлетворяет интересы зрителей разных возрастов и культур. Именно эта постоянная трансформация делает платформу такой популярной и объясняет, почему мы продолжаем следить за новыми релизами и сериалами год за годом.

Описание применения генеративных моделей

ChatGPT В качестве основного помощника для работы с данными я выбрала ChatGPT версии 5.2. Использование ChatGPT позволило ускорить процесс анализа, сделать код более читаемым, повысить наглядность визуализаций и разработать промпты для Nano Banana Pro.

Higgsfield Nano Banana Pro Для создания визуального оформления проекта и обложек я использовала генеративную модель Higgsfield Nano Banana Pro. С её помощью были сгенерированы атмосферные изображения, вдохновлённые процессом просмотра фильмов и сериалов.

Посмотреть использованные промпты можно по ссылке: https://docs.google.com/document/d/17XvO8SmhCtJDZS5BIu9ePWOhBCNfJemPTuPWG4wS328/edit?usp=sharing

Original size 3168x1344
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more