Original size 832x1248

Анализ и визуализация данных Horror Movies IMDb

PROTECT STATUS: not protected

Выбор базы данных

Хоррор-фильмы — один из моих самых любимых жанров: я смотрю их на протяжении многих лет и часто ловлю себя на ощущении, что уже пересмотрела практически всё значимое в этом направлении.

Именно поэтому мне стало интересно взглянуть на жанр не как на зритель, а как на объект анализа данных. Датасет IMDb с информацией о хоррор-фильмах позволяет исследовать жанр системно: проследить его развитие во времени, понять, какие поджанры и форматы оказываются наиболее востребованными, и увидеть, какие факторы могут влиять на зрительское восприятие.

Для меня этот проект стал способом совместить личный интерес к хоррору с аналитическим и визуальным исследованием.

Визуализация

Для анализа данных были использованы несколько типов визуализаций, каждый из которых отвечает на отдельный исследовательский вопрос.

- Линейный график показывает, как менялось количество хоррор-фильмов по годам, и помогает проследить динамику развития жанра во времени.

- Гистограмма используется для анализа распределения рейтингов IMDb и позволяет понять, какие оценки являются типичными для хоррор-фильмов.

- Столбчатая диаграмма отражает наиболее распространённые поджанры хоррора и даёт представление о жанровых предпочтениях индустрии.

- Точечный график визуализирует связь между длительностью фильма и его рейтингом, помогая оценить наличие или отсутствие зависимости между этими параметрами.

Все графики выполнены в едином визуальном стиле с тёмной цветовой палитрой и красными акцентами, отсылающими к эстетике хоррор-жанра и создающими цельное визуальное повествование.

Стилистика визуализации

Визуальная стилистика проекта основана на эстетике хоррор-жанра. Визуальная палитра проекта вдохновлена световыми решениями в хоррор-фильмах: холодные сине-бирюзовые оттенки используются для аналитических и временных графиков, тогда как красные цвета акцентируют внимание на эмоциональных аспектах жанра. Такое цветовое разделение помогает структурировать информацию и усиливает атмосферу визуального повествования.

черный = «#0b0b0b» темно-красный = «#7a0c0c» кровавый = «#b11226» темно-голубой = «#14213d» глубокий синий = «#1f3a5f» бирюзовый = «#0fa3b1» голубой = «#20c997» белый = «#ffffff»

Original size 2160x1620

референс цветов

Начало работы с данными

Original size 607x149

В начале работы я импортировала библиотеку pandas для анализа данных и библиотеку matplotlib для построения визуализаций. После этого я загрузила датасет с информацией о хоррор-фильмах из CSV-файла в среду Google Colab.

Original size 511x71

Далее, чтобы убедиться, что данные были загружены корректно, я вывела первые строки таблицы и изучила её структуру. Это позволило увидеть названия столбцов, типы данных и наличие пропущенных значений.

Original size 688x107

Подготовка и очистка данных. Перед построением визуализаций я выполнила базовую очистку данных. Я удалила строки без рейтинга и года выхода фильма, а также привела ключевые столбцы к числовому формату.

Original size 723x350

Перед созданием графиков я задала единый визуальный стиль проекта. Были определены основные цвета, вдохновлённые эстетикой хоррор-фильмов, а также настроены фон, цвета текста и осей, чтобы все визуализации выглядели единообразно.

График № 1

Original size 419x44

Для начала я выбираю столбец Movie Year, так как он содержит информацию о годе выхода фильма и позволяет анализировать данные во временной динамике. Анализ изменений во времени является важной частью исследования эволюции жанра хоррор.

Я группирую все фильмы по году выхода и считаю количество фильмов в каждом году. Это позволяет перейти от списка отдельных фильмов к точным данным, удобным для анализа тенденций.

Original size 637x130

В результате группировки получается серия, где индексом является год, а значениями — количество фильмов. Эти данные напрямую используются для построения графика.

Для визуализации я выбираю линейный график, так как он лучше всего подходит для отображения непрерывных изменений во времени и позволяет наглядно увидеть рост или спад.

Я строю линейный график, задавая цвет линии и толщину, чтобы график был хорошо различим на тёмном фоне.

Original size 478x108

Я добавляю заголовок графика и подписи осей, чтобы зрителю было понятно, что именно отображается и какие данные используются.

Получившийся график позволяет сделать вывод о том, что количество хоррор-фильмов со временем увеличивается, особенно в последние десятилетия.

Original size 842x547

График № 2

Original size 557x118

Для данного графика я использую столбец Rating, так как он отражает среднюю зрительскую оценку фильма и позволяет проанализировать общее восприятие жанра.

Гистограмма является наиболее подходящим способом визуализации распределения числовых данных, так как она показывает, какие значения встречаются чаще всего.

Я разбиваю значения рейтингов на равные интервалы (bins), чтобы увидеть форму распределения.

Original size 742x103

Я задаю цвет столбцов и цвет границ, чтобы значения были чётко различимы на тёмном фоне и соответствовали общей стилистике проекта.

Добавляю заголовок и подписи осей для пояснения содержания графика.

Original size 851x546

Гистограмма показывает, что большинство хоррор-фильмов имеют средние значения рейтинга, в то время как высокие оценки встречаются значительно реже.

График № 3

Original size 797x21

Для анализа жанровой структуры я использую столбец Genre, который содержит информацию о поджанре каждого фильма.

Я считаю, сколько раз каждый поджанр встречается в датасете. Это позволяет определить наиболее популярные категории.

Original size 897x101

Я выбираю только 10 самых распространённых поджанров, чтобы визуализация оставалась читаемой и не перегруженной.

Для сравнения категорий между собой я использую столбчатую диаграмму, так как она наглядно показывает различия в количестве.

Строю столбцы для каждого поджанра и задаю цвет, соответствующий визуальной стилистике проекта.

Original size 1106x141

Поворачиваю подписи по оси X, чтобы длинные названия поджанров не перекрывали друг друга. Добавляю заголовок и подписи осей.

Original size 864x666

Диаграмма позволяет сделать вывод о том, какие поджанры доминируют в хоррор-кинематографе.

График № 4

Original size 1155x118

Для анализа я выбираю два числовых столбца: Runtime (длительность фильма) и Rating (рейтинг IMDb). Точечный график лучше всего подходит для анализа взаимосвязи между двумя числовыми переменными и позволяет выявить возможные зависимости. Каждая точка на графике соответствует одному фильму.

Original size 1144x99

Я добавляю параметр alpha, чтобы точки не перекрывали друг друга и было видно плотность распределения данных.

Original size 833x547

Значение коэффициента корреляции близко к нулю, что подтверждает отсутствие сильной линейной зависимости.

Выводы

В ходе анализа данных IMDb о хоррор-фильмах удалось проследить динамику развития жанра во времени. Линейный график показал устойчивый рост количества хоррор-фильмов, особенно заметный в последние десятилетия. Это может свидетельствовать о возросшем интересе аудитории к жанру, а также о расширении возможностей производства и распространения фильмов, в том числе за счёт стриминговых платформ. Анализ жанровой структуры показал, что хоррор представлен большим количеством поджанров, однако некоторые из них доминируют, формируя основной визуальный и сюжетный язык современного хоррор-кинематографа.

Распределение рейтингов IMDb продемонстрировало, что большинство хоррор-фильмов получают средние оценки, в то время как фильмы с очень высокими рейтингами встречаются значительно реже. Это подчёркивает противоречивость жанра: хоррор часто вызывает сильную эмоциональную реакцию, но не всегда получает высокое одобрение широкой аудитории. Анализ точечного графика и корреляции между длительностью фильма и рейтингом показал отсутствие выраженной зависимости, что позволяет сделать вывод о том, что продолжительность фильма не является ключевым фактором его зрительского успеха.

В целом проделанная работа позволила не только выявить количественные закономерности в развитии хоррор-фильмов, но и продемонстрировать возможности анализа и визуализации данных с использованием Pandas и Python. Проект сочетает аналитический и объясняющий подход, а единая визуальная стилистика, вдохновлённая эстетикой хоррор-жанра, усиливает восприятие информации и делает графики частью целостного визуального повествования. Таким образом, анализ данных становится не просто инструментом исследования, но и способом выразить тему через форму визуализации.

Для обложки использовала нейросеть Ideogram

Промпт: Мрачные коллажи в стиле хоррор. Множество старых телевизоров, каждый из которых показывает разное пугающее изображение или сцену из фильмов ужасов — призрачные фигуры, тревожные крупные планы, наводящие ужас существа. Все иллюстрации выполнены на сплошном черном фоне. Цветовая гамма строго следующая: темно-красный, кроваво-красный, глубокий темно-синий, насыщенный темно-синий, яркий бирюзовый, светло-голубой и белый. Изображение должно вызывать чувство страха.

не мультяшное, никаких ярких цветов, кроме указанных

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more