Original size 1640x2360

Анализ топ-1000 фильмов IMDb

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Для своего проекта я решила изучить тенденции и закономерности в мире кино, из-за чего на просторах сайта Kaggle. com мною был выбран датасет о 1000 фильмах с высоким рейтингом IMDb. Internet Movie Database является крупнейшей онлайн-платформой, где собираются данные о фильмах, сериалах, актёрах, режиссёрах, рейтингах и отзывах зрителей со всего мира. На основе этих данных формируются рейтинги фильмов, которые часто используют для оценки популярности и качества картин.

Целью моего проекта является выявление факторов, влияющих на успешность фильма, а также анализ распределения рейтингов и динамики их выпуска.

Для визуализации данных в своём проекте я выбрала следующие типы диаграмм:

1. Гистограмма — для отображения распределения рейтингов IMDb. 2. Линейный график — для отображения динамики выхода фильмов по годам. 3. Круговая диаграмма — для отображения топ-6 жанров по количеству фильмов. 4. Столбчатая диаграмма — для отображения среднего рейтинга по жанрам.

Данные типы диаграмм выбраны для обеспечения наглядности и быстрого восприятия информации.

Подготовка к проекту

big
Original size 2413x450

Цвета: #FOEEE9, #DDD576, #BB3CA9, #35BCD2

Для визуализации данных топ-100 фильмов IMDb мною была выбрана гармоничная палитра, сочетание цветов которой делает графики информативными, визуально привлекательными и лёгкими для восприятия.

big
Original size 1112x180

Шрифт: Sans-Serif

Для графиков использован шрифт без засечек (Sans-serif), который обеспечивает чистую и современную визуализацию данных. Поскольку такой шрифт лишён декоративных элементов и является широко распространённым, он повышает читаемость подписей, заголовков и числовых значений, особенно при большом объёме информации на графике.

Обработка данных

Сначала я подключила библиотеку pandas и загрузила CSV-файл с информацией о 1000 лучших фильмах IMDb, который загрузила с сайта Kaggle. com, в DataFrame. Эти действия позволили работать с данными в удобной табличной форме для последующего анализа.

Original size 783x223

После этого я проверила первые строки таблицы, названия столбцов и типы данных, чтобы понять структуру датасета и выявить возможные пропуски или некорректные значения.

Original size 440x146

Далее, были удалены лишние пробелы в названиях столбцов, чтобы избежать возможных ошибок при обращении к данным.

Original size 604x91

Я очистила и преобразовала ключевые числовые столбцы: оставила только числовые значения в столбце Released_Year и преобразовала их в целочисленный формат, привела столбцы IMDB_Rating и No_of_Votes к типам float и int соответственно, а также очистила столбец Gross от запятых, преобразовала его в float и заполнила пропуски средним значением. Эта работа позволила подготовить данные для анализа по годам выпуска, рейтингам и доходам фильмов.

Original size 1370x695

Проверив первые строки, типы столбцов и основные статистические показатели числовых данных после очистки, я убедилась, что данные готовы для построения графиков.

Визуализация графиков

Original size 2413x844

Мудборд

Для визуализации графиков я выбрала яркие, но при этом мягкие цвета, которые ассоциируются с конфетами. Мне кажется, что конфеты — отличная ассоциация для кино, поскольку это лёгкий и ненавязчивый снек. Именно это умозаключение и определило мой выбор цветовой палитры.

Так же, как и в фильмах, сюжет должен подаваться лаконично и понятно. Поэтому я постаралась сделать шрифт без засечек и достаточно жирным, а графики — крупными и сразу привлекающими внимание.

Original size 488x675

Поэтому в коде, отвечающем за визуальный стиль графиков, я прописала и настроила параметры цвета текста, сетки и шрифтов в соответствии со своей задумкой. Это сделало графики читаемыми и стильными, а также позволило убрать лишние рамки и стандартные стили Seaborn.

Распределения рейтингов IMDb

На данном этапе я выбрала из таблицы только столбец с рейтингами IMDb и создала для удобства отдельную таблицу ratings_table.

Original size 691x120

Далее я построила гистограмму с 18 интервалами (bins=18) для визуализации распределения рейтингов. Столбцам гистограммы был задан соответствующий цвет и уровень прозрачности. Заголовок и подписи осей были оформлены в соответствии с моей цветовой палитрой.

Original size 1158x574
Original size 855x478

Распределения рейтингов IMDb. Гистограмма

Гистограмма демонстрирует распределение рейтингов фильмов. Анализ графика показывает, что большинство фильмов в выборке имеют рейтинги в диапазоне от 7 до 9 баллов, что визуально подтверждает преобладание высоко оценённых картин.

Благодаря этой визуализации я выявила наиболее частые значения рейтингов в датасете.

Динамика выхода фильмов по годам

В данной части кода я сгруппировала фильмы по году выпуска и посчитала, сколько фильмов попало в топ-1000 за каждый год.

Original size 565x280

Далее я построила линейный график, где по оси X представлены годы выпуска, а по оси Y — количество фильмов, попавших в топ-1000. Также я настроила цвет линии и маркеров, оформила заголовок и подписи осей, добавив сетку для удобства чтения графика.

0
Original size 1002x477

Динамика выхода фильмов по годам. Линейный график

Линейный график демонстрирует динамику выпуска популярных фильмов по годам. По графику можно заметить, как менялись тренды роста и спада, а также то, что в период с 2000 по 2020 год большее количество фильмов попало в топ-1000.

Жанровая структура топ-1000 фильмов IMDb

На этом этапе я подсчитала количество фильмов для каждого жанра и выбрала шесть наиболее популярных из них, вошедших в топ-1000 IMDb. Это позволило сделать график наглядным и избежать его перегруженности.

Original size 573x108

Здесь я построила круговую диаграмму, где каждый сектор отражает долю определённого жанра. Для лучшей визуальной читаемости использована гармоничная последовательность цветов, а проценты выводятся непосредственно на графике, что позволяет сразу оценить соотношение жанров.

0
Original size 596x584

Жанровая структура топ-1000 фильмов IMDb. Круговая диаграмма

Круговая диаграмма наглядно демонстрирует, какие жанры доминируют среди лучших фильмов по версии IMDb и какую долю каждый из них занимает. Анализ графика показывает, что наиболее распространённым жанром является драма, за которой следуют экшен и комедия. Такое распределение позволяет сделать вывод о том, что зрители отдают предпочтение эмоционально насыщенным киножанрам.

Средний рейтинг IMDb по жанрам

Для построения этой диаграммы я сначала сгруппировала данные датасета по жанрам и вычислила средний рейтинг IMDb для каждого из них. Затем я отобрала 8 жанров с наивысшими средними оценками. Как и в случае с круговой диаграммой, это было сделано для наиболее наглядного и понятного сравнения.

Original size 638x301

После этого создаётся столбчатая диаграмма, где каждый столбец отражает средний рейтинг фильмов определённого жанра. Для того чтобы акцент был на высоте столбцов, а не на их цветах, используется единый цветовое оформление.

Original size 1040x670
Original size 838x516

Средний рейтинг IMDb по жанрам. Столбчатая диаграмма

Столбчатая диаграмма демонстрирует, какие жанры в среднем получают более высокие оценки IMDb, независимо от частоты их встречаемости в выборке. К моему удивлению, наиболее высокую зрительскую признательность получил жанр вестерн, который, на мой взгляд, не является самым популярным в настоящее время. Далее следуют жанры, средние оценки которых незначительно отстают от лидирующего.

Заключение

В ходе данного исследования и анализа датасета, содержащего информацию о фильмах, вошедших в топ-1000 IMDb, мною были построены четыре диаграммы. Благодаря этому можно наглядно проследить ключевые закономерности, связанные с рейтингами, жанровой структурой и динамикой выпуска фильмов.

Исходя из графиков, я сделала вывод, что интерес к фильмам возрастал с течением времени, что объясняет высокую динамику выпуска популярных картин в последние десятилетия. Кроме того, наблюдается стабильная привлекательность для зрителей тех жанров, которые способны вызывать сильные эмоции. В целом, результаты показывают, что на успешность фильма влияет совокупность факторов: временной контекст его выпуска, жанровая принадлежность и общее качество картины, отражённое в рейтинге.

post

В ходе выполнения проекта были использованы языковые модели ChatGPT и DeepSeek, применявшиеся для анализа данных, разработки программного кода и формулирования пояснительных текстов.

Наиболее часто используемый промпт для генерации программного кода был ориентирован на получение чистого, читаемого и стилистически согласованного Python-кода для анализа данных и визуализации с использованием библиотек pandas, matplotlib и seaborn, с акцентом на пошаговую обработку данных и аккуратное оформление графиков.

Список источников

[1] Набор данных IMDb, 1000 лучших фильмов и сериалов, 2021. (URL: https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows) Просмотрено: 19.12.2025.

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more