
ОПИСАНИЕ
IMDb — база данных о фильмах мирового кинематографа. Любой человек, который хоть немного интересовался кинематографом, знает о ней. Рейтинги, сборы, имена режиссёров и стран — за этими цифрами и названиями скрываются закономерности, тенденции и иногда неожиданные открытия о том, что на самом деле делает кино успешным.
В своём проекте я хочу взглянуть на кинематограф через призму данных. Как страна производства влияет на рейтинг? Имеет ли значения длина фильма? Совпадает ли мнение критиков с мнением зрителей?
Для анализа я выбрала датасет с Kaggle, содержащий информацию почти о 5000 фильмов — их названия, рейтинги, создателей, бюджеты, сборы и многое другое.

Цвета проекта — серо-черный (#121212), желтый (#f5c518), белый (#ffffff). Ассоциация с логотипом IMDb.
В ходе исследования я сосредоточилась на визуализации данных с помощью графиков, которые делают сложные закономерности простыми и понятными:
Гистограмма — чтобы увидеть, как распределяются рейтинги IMDb. Ящик с усами — чтобы сравнить рейтинги фильмов из разных стран. Диаграмма рассеивания — для сравнения влияния продолжительности фильма и его рейтинга, сравнения оценок критиков и зритилей. Облако слов — для выявления наиболее часто используемых слов в названии.
1. Распределение рейтингов IMDb
Диаграмма демонстрирует, как рейтинги IMDb распределены среди 4989 фильмов выборки. По горизонтальной оси отложены значения рейтингов, по вертикальной — количество фильмов.

Гистограмма распределения рейтингов IMDb — показывает частоту встречаемости фильмов в зависимости от их оценки.
Код для гистограммы распределения рейтингов IMDb.
Гистограмма показала: 1. Большинство фильмов в датасете имеют рейтинг 7.2-7.8. 2. Пик приходится на 7.6. 3. Редкие высокие рейтинги (8.5+). 4. Симметричное нормальное распределение.
2. Распределения рейтингов по странам производства
Диаграмма сравнивает рейтинги фильмов из 7 ведущих стран-производителей. Для каждой страны показаны: типичный рейтинг, межквартильный размах (диапазон, где находятся 50% средних фильмов), разброс данных без выбросов и фильмы с аномально высокими/низкими рейтингами — выбросы.
Ящик с усами распределения рейтингов IMDb по странам производства
Код для ящика с усами.
Ящик с усами показал: 1. Страны с самыми высокими медианами имеют наиболее качественные фильмы в среднем 2. Ширина ящика показывает стабильность качества: узкий = стабильное качество, широкий = большой разброс 3. Наличие выбросов указывает на наличие исключительно успешных/неудачных фильмов 4. Сравнение межквартильных размахов показывает, в каких странах качество фильмов более предсказуемо (фильмов имеют рейтинги в узком диапазоне).
3. Влияние длительности фильма на оценку зрителей IMDb
Диаграмма демонстрирует взаимосвязь между длительностью фильма в минутах и рейтинг IMDb. Каждая точка — один фильм.
Диаграмма рассеивания зависимости рейтинга IMDb от длительности фильма
Код диаграммы рассеивания.
Главный вывод диаграммы рассеивания: Длительность фильма не является статистически значимым предиктором его рейтинга на IMDb. Качественные фильмы могут быть как краткими, так и продолжительными.
4. Сравнение критических и зрительских оценок фильмов
Диаграмма сравнивает два типа оценок фильмов: агрегированную оценку профессиональных кинокритиков по Metascore и среднюю оценку зрителей платформы IMDb Average Rating. Каждая точка — фильм с доступными обеими оценками.
Диаграмма рассеивания корреляции оценок критиков (Metascore) и зрителей (IMDb)
Код для диаграммы связи оценок.
Диаграмма рассеивания показала: 1. Отсутствие прямой связи между оценками критиков (Metascore) и зрителей (IMDb). 2. Наибольшая плотность точек сосредоточена в диапазоне Metascore 60-85 и IMDb 7.4-8.0, что соответствует большинству фильмов, получающих средние положительные оценки с обеих сторон. 3. Фильмы с высоким Metascore, но средним IMDb — критически признанные работы, не нашедшие массового отклика (и наоборот). 4. Лишь немногие фильмы получают одновременно высокие оценки и от критиков, и от зрителей. 5. Фильмы с Metascore >90 при IMDb <7.5 — элитарное кино, непонятое широкой аудиторией.
5. Тренды нейминга: частые слова в названии
Визуализация демонстрирует частоту употребления слов в названиях фильмов.
Облако слов наиболее частотных слов в названиях фильмов
Код для облака слов.
Облако слов показало: 1. Три основные тематические группы: Временные ('Last', 'Night', 'Day', 'Year') Персонажные ('Man', 'Life', 'Love', 'Girl') Действенные ('Story', 'Secret', 'Dead', 'Lost') 2. Преобладание существительных над глаголами и прилагательными 3. Использование общей лексики. 4. Частое использование числительных свидетельствует о популярности нумерованных частей (сиквелов, приквелов).
Заключение
Подводя итоги, базовый анализ данных IMDb позволил выявить ключевые закономерности в распределении рейтингов и провести наглядное сравнение характеристик фильмов по странам их производства. А также понять, что хорошее кино не всегда определяется оценкой.
Использованные генеративные модели
Chat GPT Подбор тем для анализа, рекомендации по улучшению кода, помощь с отбором методов. DeepSeek Помощь с обработкой цвета, выявлением Hex кода для оформления презентации.
ТАКЖЕ: Adobe Photoshop Создание обложки.
Статистические методы
1. Дескриптивная статистика — использовалась для расчёта средних значений (рейтинг 7,63) и общей характеристики данных.
2. Анализ распределения — гистограмма показала, что большинство фильмов имеют рейтинг 7,2–8,0 баллов.
3. Сравнение групп (ящик с усами) — применялся для сравнения рейтингов по странам производства, что выявило различия в качестве фильмов.
4. Частотный анализ — позволил определить самые частые страны-производители в выборке.
5. Визуализация данных — использовалась для наглядного представления распределений и сравнений через графики (гистограммы, боксплоты).