
Вводная часть
Для своего проекта я выбрала набор данных о топ-200 фильмах 2023 года, представленный на платформе Kaggle в формате CSV — смотреть датасет.
Будучи настоящим поклонником кино, я захотела провести глубокий анализ различных аспектов популярных фильмов. Такое исследование позволяет глубже понять особенности современной кинематографической индустрии.
В своем анализе я визуализирую данные с помощью круговой и столбчатой диаграммы, диаграммы рассеяния, линейного графика, а также гистограммы. Эти инструменты позволяют наглядно представить ключевые выводы исследования.
Этапы работы
Для начала я импортировала Pandas, с помощью которого собираюсь проводить анализ данных. Я загрузила данные и вывела датасет и информацию о нём. Более точечные комментарии я писала внутри Google Colab, чтобы не запутаться в последовательности.
После импорта данных из файла, нужно их правильно отсортировать. Например, удалить строки, где нет чисел или есть тире. Также я преобразую значения в числовые и создаю новые колонки.

Далее я решила настроить цвета для будущих графиков. Мне захотелось поработать с градиентом розового цвета.
(1) Круговая диаграмма «топ-5 дистрибьюторов»
Мне стало интересно узнать, какие дистрибьюторы находятся в топе. Я выбрала размер диаграммы, назначила метки секторам диаграммы. Добавила проценты внутри секторов, округляя значения до одного десятичного знака. Определила начальное положение первого сектора, поворачивая его на угол 140 градусов против часовой стрелки. Использовала заранее определенный список цветов (gradient_colors) для раскраски секторов.
Результат: я вычислила 5 самых крупных дистрибьюторов.
Итоговая круговая диаграмма
(2) Столбчатая диаграмма «топ-10 фильмов по сборам»
Здесь я захотела реализовать построение столбчатой диаграммы для отображения топ-10 фильмов по величине кассовых сборов. Я использовала библиотеку Seaborn, в которой строится столбчатая диаграмма, где ось x представляет сумму сборов, а ось y — название фильма ('Title'). Цветовая палитра задается переменной gradient_colors. Также я создала сетку для визуальной четкости в показаниях.
Результат: диаграмма, которая помогает лучше воспринять результат анализа.
Итоговая столбчатая диаграмма
(3) Scatter-график «количество кинотеатров и сборы»
Я решила создать диаграмму рассеяния, чтобы выявить взаимосвязь или её отсутствие между компонентами и определить характер связи. Я настроила цвета и прозрачность точек, отключила нотацию. График разброса «scatter plot» показывает взаимосвязь между двумя величинами: количеством кинотеатров, в которых демонстрировался фильм, и общим объемом кассовых сборов этого фильма. Моей задачей было построить точки, каждая из которых соответствует одному фильму. По горизонтальной оси откладывается количество кинотеатров (Theaters), а по вертикальной — общие сборы (Total Gross).
Результат: получился цветной график, на котором легко увидеть связь между числом кинотеатров и доходами фильмов. Мы можем заметить, что, чем больше охват у кинотеатров, тем выше вероятность высоких доходов.
Итоговая диаграмма рассеяния
(4) Линейный график «количество релизов по месяцам»
Сначала создаю упорядоченный список месяцев, начиная с января и заканчивая декабрём. Из таблицы данных беру месяцы выпуска фильмов, считаю, сколько фильмов вышло в каждом месяце. Сортирую по правильному порядку месяцев. Далее рисуется график, соединяющий количество фильмов, вышедших в разные месяцы. Чтобы было удобнее воспринимать информацию, я добавила кружки.
Результат: график показывает, в каком месяце выходит больше всего фильмов, а в каком меньше.
Итоговый график
(5) Гистограмма «распределение количества кинотеатров»
Строю поле размером 10×5 для будущей гистограммы. Гистограмма показывает, сколько фильмов показано примерно одинаковое число раз в разных кинотеатрах. Она разбита на 20 частей, чтобы удобно было видеть группы фильмов с похожим числом кинотеатров. Плавная кривая плотности (KDE) отключена, потому что важно сосредоточиться именно на самой гистограмме.
Результат: благодаря гистограмме можно увидеть, как распределяется количество кинотеатров.
Итоговая гистограмма
Описание применения генеративной модели
Я использовала искусственный интеллект для генерации обложки проекта в Recraft.
Prompt: Create an attractive and engaging cover design for a project showcasing the top 200 movies of 2023. The main color should be pink. You can add people or cinema attributes.