
Концепция
Для своего проекта я решила изучить тенденции и закономерности в мире кино, из-за чего на просторах сайта Kaggle. com мною был выбран датасет о 1000 фильмах с высоким рейтингом IMDb. Internet Movie Database является крупнейшей онлайн-платформой, где собираются данные о фильмах, сериалах, актёрах, режиссёрах, рейтингах и отзывах зрителей со всего мира. На основе этих данных формируются рейтинги фильмов, которые часто используют для оценки популярности и качества картин.
Целью моего проекта является выявление факторов, влияющих на успешность фильма, а также анализ распределения рейтингов и динамики их выпуска.
Для визуализации данных в своём проекте я выбрала следующие типы диаграмм:
1. Гистограмма — для отображения распределения рейтингов IMDb. 2. Линейный график — для отображения динамики выхода фильмов по годам. 3. Круговая диаграмма — для отображения топ-6 жанров по количеству фильмов. 4. Столбчатая диаграмма — для отображения среднего рейтинга по жанрам.
Данные типы диаграмм выбраны для обеспечения наглядности и быстрого восприятия информации.
Подготовка к проекту

Цвета: #FOEEE9, #DDD576, #BB3CA9, #35BCD2
Для визуализации данных топ-100 фильмов IMDb мною была выбрана гармоничная палитра, сочетание цветов которой делает графики информативными, визуально привлекательными и лёгкими для восприятия.

Шрифт: Sans-Serif
Для графиков использован шрифт без засечек (Sans-serif), который обеспечивает чистую и современную визуализацию данных. Поскольку такой шрифт лишён декоративных элементов и является широко распространённым, он повышает читаемость подписей, заголовков и числовых значений, особенно при большом объёме информации на графике.
Обработка данных
Сначала я подключила библиотеку pandas и загрузила CSV-файл с информацией о 1000 лучших фильмах IMDb, который загрузила с сайта Kaggle. com, в DataFrame. Эти действия позволили работать с данными в удобной табличной форме для последующего анализа.
После этого я проверила первые строки таблицы, названия столбцов и типы данных, чтобы понять структуру датасета и выявить возможные пропуски или некорректные значения.
Далее, были удалены лишние пробелы в названиях столбцов, чтобы избежать возможных ошибок при обращении к данным.
Я очистила и преобразовала ключевые числовые столбцы: оставила только числовые значения в столбце Released_Year и преобразовала их в целочисленный формат, привела столбцы IMDB_Rating и No_of_Votes к типам float и int соответственно, а также очистила столбец Gross от запятых, преобразовала его в float и заполнила пропуски средним значением. Эта работа позволила подготовить данные для анализа по годам выпуска, рейтингам и доходам фильмов.
Проверив первые строки, типы столбцов и основные статистические показатели числовых данных после очистки, я убедилась, что данные готовы для построения графиков.
Визуализация графиков
Мудборд
Для визуализации графиков я выбрала яркие, но при этом мягкие цвета, которые ассоциируются с конфетами. Мне кажется, что конфеты — отличная ассоциация для кино, поскольку это лёгкий и ненавязчивый снек. Именно это умозаключение и определило мой выбор цветовой палитры.
Так же, как и в фильмах, сюжет должен подаваться лаконично и понятно. Поэтому я постаралась сделать шрифт без засечек и достаточно жирным, а графики — крупными и сразу привлекающими внимание.
Поэтому в коде, отвечающем за визуальный стиль графиков, я прописала и настроила параметры цвета текста, сетки и шрифтов в соответствии со своей задумкой. Это сделало графики читаемыми и стильными, а также позволило убрать лишние рамки и стандартные стили Seaborn.
Распределения рейтингов IMDb
На данном этапе я выбрала из таблицы только столбец с рейтингами IMDb и создала для удобства отдельную таблицу ratings_table.
Далее я построила гистограмму с 18 интервалами (bins=18) для визуализации распределения рейтингов. Столбцам гистограммы был задан соответствующий цвет и уровень прозрачности. Заголовок и подписи осей были оформлены в соответствии с моей цветовой палитрой.
Распределения рейтингов IMDb. Гистограмма
Гистограмма демонстрирует распределение рейтингов фильмов. Анализ графика показывает, что большинство фильмов в выборке имеют рейтинги в диапазоне от 7 до 9 баллов, что визуально подтверждает преобладание высоко оценённых картин.
Благодаря этой визуализации я выявила наиболее частые значения рейтингов в датасете.
Динамика выхода фильмов по годам
В данной части кода я сгруппировала фильмы по году выпуска и посчитала, сколько фильмов попало в топ-1000 за каждый год.
Далее я построила линейный график, где по оси X представлены годы выпуска, а по оси Y — количество фильмов, попавших в топ-1000. Также я настроила цвет линии и маркеров, оформила заголовок и подписи осей, добавив сетку для удобства чтения графика.
Динамика выхода фильмов по годам. Линейный график
Линейный график демонстрирует динамику выпуска популярных фильмов по годам. По графику можно заметить, как менялись тренды роста и спада, а также то, что в период с 2000 по 2020 год большее количество фильмов попало в топ-1000.
Жанровая структура топ-1000 фильмов IMDb
На этом этапе я подсчитала количество фильмов для каждого жанра и выбрала шесть наиболее популярных из них, вошедших в топ-1000 IMDb. Это позволило сделать график наглядным и избежать его перегруженности.
Здесь я построила круговую диаграмму, где каждый сектор отражает долю определённого жанра. Для лучшей визуальной читаемости использована гармоничная последовательность цветов, а проценты выводятся непосредственно на графике, что позволяет сразу оценить соотношение жанров.
Жанровая структура топ-1000 фильмов IMDb. Круговая диаграмма
Круговая диаграмма наглядно демонстрирует, какие жанры доминируют среди лучших фильмов по версии IMDb и какую долю каждый из них занимает. Анализ графика показывает, что наиболее распространённым жанром является драма, за которой следуют экшен и комедия. Такое распределение позволяет сделать вывод о том, что зрители отдают предпочтение эмоционально насыщенным киножанрам.
Средний рейтинг IMDb по жанрам
Для построения этой диаграммы я сначала сгруппировала данные датасета по жанрам и вычислила средний рейтинг IMDb для каждого из них. Затем я отобрала 8 жанров с наивысшими средними оценками. Как и в случае с круговой диаграммой, это было сделано для наиболее наглядного и понятного сравнения.
После этого создаётся столбчатая диаграмма, где каждый столбец отражает средний рейтинг фильмов определённого жанра. Для того чтобы акцент был на высоте столбцов, а не на их цветах, используется единый цветовое оформление.
Средний рейтинг IMDb по жанрам. Столбчатая диаграмма
Столбчатая диаграмма демонстрирует, какие жанры в среднем получают более высокие оценки IMDb, независимо от частоты их встречаемости в выборке. К моему удивлению, наиболее высокую зрительскую признательность получил жанр вестерн, который, на мой взгляд, не является самым популярным в настоящее время. Далее следуют жанры, средние оценки которых незначительно отстают от лидирующего.
Заключение
В ходе данного исследования и анализа датасета, содержащего информацию о фильмах, вошедших в топ-1000 IMDb, мною были построены четыре диаграммы. Благодаря этому можно наглядно проследить ключевые закономерности, связанные с рейтингами, жанровой структурой и динамикой выпуска фильмов.
Исходя из графиков, я сделала вывод, что интерес к фильмам возрастал с течением времени, что объясняет высокую динамику выпуска популярных картин в последние десятилетия. Кроме того, наблюдается стабильная привлекательность для зрителей тех жанров, которые способны вызывать сильные эмоции. В целом, результаты показывают, что на успешность фильма влияет совокупность факторов: временной контекст его выпуска, жанровая принадлежность и общее качество картины, отражённое в рейтинге.

В ходе выполнения проекта были использованы языковые модели ChatGPT и DeepSeek, применявшиеся для анализа данных, разработки программного кода и формулирования пояснительных текстов.
Наиболее часто используемый промпт для генерации программного кода был ориентирован на получение чистого, читаемого и стилистически согласованного Python-кода для анализа данных и визуализации с использованием библиотек pandas, matplotlib и seaborn, с акцентом на пошаговую обработку данных и аккуратное оформление графиков.
Список источников
[1] Набор данных IMDb, 1000 лучших фильмов и сериалов, 2021. (URL: https://www.kaggle.com/datasets/harshitshankhdhar/imdb-dataset-of-top-1000-movies-and-tv-shows) Просмотрено: 19.12.2025.