Original size 832x1248

Анализ данных Netflix

PROTECT STATUS: not protected

Netflix — это американский стриминговый сервис, предоставляющий доступ к фильмам, сериалам и документальным программам

big
Original size 1024x277

Для своего проекта я выбрала данные о контенте Netflix из датасета Netflix Movies and TV Shows. Нашла я его на Kaggle, где собрано много разных открытых датасетов для анализа. Я выбрала Netflix, потому что сама обожаю этот сервис и постоянно что-то там смотрю. Мне было интересно узнать, какой на самом деле контент преобладает на платформе, и сделать эти данные наглядными.

В датасете есть много классной информации — там и названия всех шоу и фильмов, и режиссеры, и актеры, и даты добавления на платформу, и страны производства, и даже возрастные рейтинги. Мне кажется, это супер интересные данные, потому что Netflix сейчас такой популярный, и многие мои друзья тоже им пользуются. Хотелось понять, как развивалась платформа и какой контент там преобладает.

Для визуализации я решила сделать несколько разных графиков:

Круговую диаграмму для показа соотношения фильмов и сериалов — это самый наглядный способ сравнить две основные категории.

Линейный график для показа тренда добавления контента по годам — тут интересно увидеть динамику роста платформы и когда был самый большой скачок.

Столбчатые диаграммы для стран-производителей и возрастных рейтингов — они хорошо подходят, когда нужно сравнить много категорий между собой.

Гистограмму для распределения длительности фильмов — она классно показывает, сколько фильмов попадает в каждый временной диапазон.

Этапы работы с данными и процесс создания визуализаций

Когда я получила датасет, я сначала хотела просто понять, что в нем вообще есть. Для работы с данными я использовала Python и три главные библиотеки:

Pandas — для анализа, Matplotlib и Seaborn — для графиков.

Сначала я импортировала все нужные библиотеки и настроила основной стиль для графиков:

Original size 1050x530

код (1)

Потом загрузила CSV-файл и посмотрела, что вообще там есть:

Original size 1065x738

код (2)

Сначала я импортировала все нужные библиотеки и настроила основной стиль для графиков.

Оказалось, что в датасете целых 8807 записей и 12 столбцов! Я была в шоке от количества информации. Там есть не только базовые данные о названиях и типах шоу, но и подробная информация о жанрах (столбец listed_in) и даже описания (description).

Когда я проверила данные на пропуски, то обнаружила большую проблему с режиссерами — в столбце director аж 2634 пропуска! Также много пропусков в столбцах:

cast (825), country (831), а также небольшие пробелы в date_added, rating и duration.

Поскольку в данных было так много пропусков, я решила сначала с ними разобраться. С заполнением пропусков было немного сложно, особенно для продолжительности, потому что там нужно было разделять фильмы и сериалы. У фильмов продолжительность в минутах, а у сериалов — в сезонах. Но мне всё-таки удалось это сделать!

Original size 1463x1300

код (3)

Сравнение фильмов и сериалов

Дальше я перешла к анализу типов контента. Я была в шоке, когда увидела, что фильмов почти 70%, а сериалов только около 30%! Мне всегда казалось, что сериалов на Netflix больше, потому что о них чаще говорят.

0

график (1)

Анализ трендов добавления контента по годам

Потом мне стало интересно, как Netflix рос со временем. Мне было нелегко разобраться с обработкой дат, но когда все получилось, результат меня впечатлил! Оказалось, что с 2015 по 2019 годы платформа супер быстро росла, а потом в 2020-м произошел спад. Наверное, из-за пандемии меньше контента снимали.

0

график (2)

Анализ стран-производителей

Дальше было сложнее, потому что в столбце со странами могло быть несколько стран через запятую. Пришлось их разделять. И вот тут меня ждал еще один сюрприз — США впереди с огромным отрывом! Хотя я и ожидала, что они будут на первом месте, но не думала, что разрыв будет настолько большим. Индия на втором месте, что тоже интересно.

0

график (3)

Возрастные рейтинги

Потом я решила посмотреть, для какой аудитории больше всего контента. Оказалось, что больше всего контента с рейтингом TV-MA, то есть для взрослых. Это логично, учитывая популярность таких шоу как «Игра в кальмара» или «Очень странные дела».

0

график (4)

Стилизация графиков

post

Для стилизации графиков я вдохновилась интерфейсом самого Netflix. Вот что я использовала:

Темный фон — это классическая черная тема Netflix через plt.style.use ('dark_background') Фирменный красный цвет (#E50914) — я нашла точный код цвета на сайте Netflix Brand Assets Контрастные подписи — белый текст на черном фоне для лучшей читаемости Вот пример заставки Netflix, которая вдохновила меня на этот стиль:

Original size 940x529

Для последнего штриха я сделала общий дашборд, где собрала все графики вместе:

Original size 1984x1472

Описание применения генеративной модели

На некоторых этапах я консультировалась с ChatGPT. Например, когда не могла понять, как правильно обработать даты и как сделать красивые подписи на графиках. Я просила его примерно так:

«Как в matplotlib добавить значения над столбцами гистограммы?» «Как извлечь год из столбца с датами в pandas?»

Еще он помог мне с разбором стран, где в одной ячейке было несколько значений через запятую, и особенно с заполнением пропущенных значений. Так же я использовала ideogram.ai для генерации обложки проекта.

Анализ данных Netflix
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more