
Описание проекта
Хоррор — жанр, который структурно получает более низкие рейтинги, независимо от качества исполнения.
Это не «плохое кино», а несовпадение жанровых ожиданий и метрик оценки
Цель проекта — проверить гипотезу о том, что жанр хоррор систематически недооценивается в массовых рейтинговых системах: высокие оценки встречаются редко, а распределение концентрируется в среднем диапазоне, что может отражать не только качество исполнения, но и культурные ожидания аудитории.
Данные и источник
Для анализа был использован открытый датасет Horror Movies Dataset с платформы Kaggle, содержащий 21 967 фильмов жанра хоррор. Датасет включает 20 переменных, среди которых дата релиза, средний зрительский рейтинг (vote_average) и количество голосов (vote_count). Такой набор данных позволяет анализировать не только уровень оценок, но и их надёжность.
Начало работы

Данные загружаются из CSV-файла. Для воспроизводимого чтения используется Python-парсер Pandas с пропуском повреждённых строк, что позволяет корректно обработать неконсистентные текстовые поля.

После загрузки датасет содержит 21 967 записей и 20 переменных. Ключевые поля для анализа (vote_average, vote_count, release_date) заполнены полностью и имеют корректные типы данных.
Для единого визуализации графиков я написала код, задающий единый стиль
Аудит данных и проблема надёжности
Первичный аудит показал, что значительная часть фильмов не имеет зрительских голосов: 35,65% записей содержат vote_count = 0. В таких случаях рейтинг либо отсутствует, либо не отражает реальное зрительское восприятие. Включение этих фильмов в анализ приводит к искажению распределений и требует введения методологического фильтра.
Для повышения корректности анализа был введён критерий надёжности рейтинга. Основная подвыборка включает фильмы с количеством голосов не менее 50 (N = 3 487), а устойчивость выводов дополнительно проверяется на более строгой подвыборке с не менее 100 голосами (N = 2 247). Такой подход снижает влияние шума и позволяет отделить устойчивые паттерны от случайных эффектов.
В основной подвыборке (vote_count ≥ 50) средний рейтинг хоррор-фильмов составляет 5,81, медиана — 5,80, стандартное отклонение — 0,86. Это указывает на концентрацию оценок в среднем диапазоне и отсутствие смещения в сторону высоких значений, характерных для жанров с устойчивым культурным признанием.
Распределение рейтингов демонстрирует выраженное скопление значений в диапазоне примерно от 5 до 7 баллов. Высокие оценки встречаются редко и не формируют доминирующей зоны распределения, что визуально подтверждает наличие «рейтингового потолка» внутри жанра.


Анализ среднего рейтинга по десятилетиям показывает отсутствие устойчивого роста оценок хоррор-фильмов во времени. Несмотря на изменения в производстве, технологиях и форматах дистрибуции, жанр сохраняет стабильный уровень зрительского оценивания, что указывает на структурный, а не временной характер наблюдаемого эффекта.
Полученные результаты позволяют предположить, что зрительский рейтинг отражает не только художественные характеристики фильма, но и культурные ожидания аудитории. Хоррор как жанр систематически работает с дискомфортом, страхом и неопределённостью, что делает его менее совместимым с массовыми критериями «приятного» и «престижного» культурного опыта.
С точки зрения социологии культуры, рейтинги можно рассматривать как механизм культурной легитимации, фиксирующий иерархии вкуса. В этой системе хоррор оказывается жанром с пониженным символическим статусом, чьи эстетические стратегии хуже конвертируются в высокие оценки, даже при широкой аудитории и устойчивом интересе.
Исследование не устанавливает причинно-следственную связь между жанром и рейтингами и не сравнивает хоррор с другими жанрами. Полученные результаты следует интерпретировать как описание устойчивого статистического паттерна, а не как универсальное утверждение о «качестве» жанра.
Анализ показал, что хоррор характеризуется устойчивым «рейтинговым потолком»: высокие оценки встречаются редко, остаются редкими при контроле надёжности и не демонстрируют роста во времени. Это поддерживает критический взгляд на рейтинги как универсальную метрику качества и подчёркивает необходимость учитывать жанровые и культурные смещения при интерпретации данных.
Материалы
1. В рамках проекта генеративная модель ChatGPT 5.1 использовалась исправление ошибок в кодах (Pandas, Matplotlib).
2. Carbon создание визуализаций
3. Kaggle поиск датасета
4. Google Colab