
Источник данных
Для анализа я использовала набор данных «Netflix Movies and TV Shows», который находится в открытом доступе на платформе Kaggle
Почему именно эти данные?
Анализ этого набора представляет особую ценность по нескольким причинам: 1. Стратегия контента Netflix: Данные позволяют раскрыть, как Netflix балансирует между фильмами и сериалами, в каких странах производится больше всего контента, и как менялась его библиотека с течением времени. Это даёт понимание бизнес-модели и глобальной стратегии платформы. 2. Тренды в индустрии развлечений: Анализ жанров, рейтингов и динамики выпуска контента по годам показывает, на что делает ставку крупнейший стриминговый сервис, и отражает общие зрительские предпочтения в мире. 3. Доступность и наглядность: Датасет достаточно чистый и структурированный, что позволяет сосредоточиться на анализе, а не только на подготовке данных.
Визуализация данных
Палитра для граффиков

Круговая диаграмма: Распределение контента
Столбчатая диаграмма: Топ 10 стран по выпуску контента
Столбчатая диаграмма: Распределение рейтингов
Горизонтальная диаграмма: Количество сериалов по годам выпуска
Используемые статистические методы
1. Описательная статистика Цель: Подсчет частоты уникальных значений в категориальных переменных. Применение: — Анализ распределения типов контента (Movie/TV Show). — Определение топ-10 стран по производству контента. — Анализ распределения рейтингов.
2. Визуализация распределений Круговая диаграмма: — Визуализирует пропорции типов контента (фильмы vs. сериалы). — Использует проценты для количественной интерпретации. Столбчатые диаграммы: — Отображение абсолютных частот для: — Топ-10 стран по выпуску контента с разделением по типам. — Распределения рейтингов. — Количества релизов по годам.
3. Сортировка данных — df.sort_values ('release_year'): Упорядочивание данных по году выпуска для корректного отображения трендов на графике.