Original size 1140x1600

Статистика кинематографа: анализ данных IMDb

PROTECT STATUS: not protected
The project is taking part in the competition

ОПИСАНИЕ

IMDb — база данных о фильмах мирового кинематографа. Любой человек, который хоть немного интересовался кинематографом, знает о ней. Рейтинги, сборы, имена режиссёров и стран — за этими цифрами и названиями скрываются закономерности, тенденции и иногда неожиданные открытия о том, что на самом деле делает кино успешным.

В своём проекте я хочу взглянуть на кинематограф через призму данных. Как страна производства влияет на рейтинг? Имеет ли значения длина фильма? Совпадает ли мнение критиков с мнением зрителей?

Для анализа я выбрала датасет с Kaggle, содержащий информацию почти о 5000 фильмов — их названия, рейтинги, создателей, бюджеты, сборы и многое другое.

big
Original size 0x0

Цвета проекта — серо-черный (#121212), желтый (#f5c518), белый (#ffffff). Ассоциация с логотипом IMDb.

В ходе исследования я сосредоточилась на визуализации данных с помощью графиков, которые делают сложные закономерности простыми и понятными:

Гистограмма — чтобы увидеть, как распределяются рейтинги IMDb. Ящик с усами  — чтобы сравнить рейтинги фильмов из разных стран. Диаграмма рассеивания — для сравнения влияния продолжительности фильма и его рейтинга, сравнения оценок критиков и зритилей. Облако слов — для выявления наиболее часто используемых слов в названии.

1. Распределение рейтингов IMDb

Диаграмма демонстрирует, как рейтинги IMDb распределены среди 4989 фильмов выборки. По горизонтальной оси отложены значения рейтингов, по вертикальной — количество фильмов.

big
Original size 1174x707

Гистограмма распределения рейтингов IMDb — показывает частоту встречаемости фильмов в зависимости от их оценки.

Original size 1225x564

Код для гистограммы распределения рейтингов IMDb.

Гистограмма показала: 1. Большинство фильмов в датасете имеют рейтинг 7.2-7.8. 2. Пик приходится на 7.6. 3. Редкие высокие рейтинги (8.5+). 4. Симметричное нормальное распределение.

2. Распределения рейтингов по странам производства

Диаграмма сравнивает рейтинги фильмов из 7 ведущих стран-производителей. Для каждой страны показаны: типичный рейтинг, межквартильный размах (диапазон, где находятся 50% средних фильмов), разброс данных без выбросов и фильмы с аномально высокими/низкими рейтингами — выбросы.

Original size 1380x781

Ящик с усами распределения рейтингов IMDb по странам производства

Original size 1225x882

Код для ящика с усами.

Ящик с усами показал: 1. Страны с самыми высокими медианами имеют наиболее качественные фильмы в среднем 2. Ширина ящика показывает стабильность качества: узкий = стабильное качество, широкий = большой разброс 3. Наличие выбросов указывает на наличие исключительно успешных/неудачных фильмов 4. Сравнение межквартильных размахов показывает, в каких странах качество фильмов более предсказуемо (фильмов имеют рейтинги в узком диапазоне).

3. Влияние длительности фильма на оценку зрителей IMDb

Диаграмма демонстрирует взаимосвязь между длительностью фильма в минутах и рейтинг IMDb. Каждая точка — один фильм.

Original size 1380x781

Диаграмма рассеивания зависимости рейтинга IMDb от длительности фильма

Original size 1225x882

Код диаграммы рассеивания.

Главный вывод диаграммы рассеивания: Длительность фильма не является статистически значимым предиктором его рейтинга на IMDb. Качественные фильмы могут быть как краткими, так и продолжительными.

4. Сравнение критических и зрительских оценок фильмов

Диаграмма сравнивает два типа оценок фильмов: агрегированную оценку профессиональных кинокритиков по Metascore и среднюю оценку зрителей платформы IMDb Average Rating. Каждая точка — фильм с доступными обеими оценками.

Original size 1380x781

Диаграмма рассеивания корреляции оценок критиков (Metascore) и зрителей (IMDb)

Original size 1225x882

Код для диаграммы связи оценок.

Диаграмма рассеивания показала: 1. Отсутствие прямой связи между оценками критиков (Metascore) и зрителей (IMDb). 2. Наибольшая плотность точек сосредоточена в диапазоне Metascore 60-85 и IMDb 7.4-8.0, что соответствует большинству фильмов, получающих средние положительные оценки с обеих сторон. 3. Фильмы с высоким Metascore, но средним IMDb — критически признанные работы, не нашедшие массового отклика (и наоборот). 4. Лишь немногие фильмы получают одновременно высокие оценки и от критиков, и от зрителей. 5. Фильмы с Metascore >90 при IMDb <7.5 — элитарное кино, непонятое широкой аудиторией.

5. Тренды нейминга: частые слова в названии

Визуализация демонстрирует частоту употребления слов в названиях фильмов.

Original size 1380x747

Облако слов наиболее частотных слов в названиях фильмов

Original size 1225x882

Код для облака слов.

Облако слов показало: 1. Три основные тематические группы: Временные ('Last', 'Night', 'Day', 'Year') Персонажные ('Man', 'Life', 'Love', 'Girl') Действенные ('Story', 'Secret', 'Dead', 'Lost') 2. Преобладание существительных над глаголами и прилагательными 3. Использование общей лексики. 4. Частое использование числительных свидетельствует о популярности нумерованных частей (сиквелов, приквелов).

Заключение

Подводя итоги, базовый анализ данных IMDb позволил выявить ключевые закономерности в распределении рейтингов и провести наглядное сравнение характеристик фильмов по странам их производства. А также понять, что хорошее кино не всегда определяется оценкой.

Использованные генеративные модели

Chat GPT Подбор тем для анализа, рекомендации по улучшению кода, помощь с отбором методов. DeepSeek Помощь с обработкой цвета, выявлением Hex кода для оформления презентации.

ТАКЖЕ: Adobe Photoshop Создание обложки.

Статистические методы

1. Дескриптивная статистика — использовалась для расчёта средних значений (рейтинг 7,63) и общей характеристики данных.

2. Анализ распределения — гистограмма показала, что большинство фильмов имеют рейтинг 7,2–8,0 баллов.

3. Сравнение групп (ящик с усами) — применялся для сравнения рейтингов по странам производства, что выявило различия в качестве фильмов.

4. Частотный анализ — позволил определить самые частые страны-производители в выборке.

5. Визуализация данных — использовалась для наглядного представления распределений и сравнений через графики (гистограммы, боксплоты).

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more