Original size 1140x1600

Топ-200 фильмов 2023 года

PROTECT STATUS: not protected
7

Вводная часть

Для своего проекта я выбрала набор данных о топ-200 фильмах 2023 года, представленный на платформе Kaggle в формате CSV — смотреть датасет.

Будучи настоящим поклонником кино, я захотела провести глубокий анализ различных аспектов популярных фильмов. Такое исследование позволяет глубже понять особенности современной кинематографической индустрии.

В своем анализе я визуализирую данные с помощью круговой и столбчатой диаграммы, диаграммы рассеяния, линейного графика, а также гистограммы. Эти инструменты позволяют наглядно представить ключевые выводы исследования.

Этапы работы

Для начала я импортировала Pandas, 
с помощью которого собираюсь проводить 
анализ данных. Я загрузила данные и вывела датасет и информацию о нём. Более точечные комментарии я писала внутри Google Colab, чтобы не запутаться в последовательности.

0

После импорта данных из файла, 
нужно их правильно отсортировать. Например, удалить строки, где нет чисел или есть тире. Также я преобразую значения в числовые и создаю новые колонки.

big
Original size 1075x371

Далее я решила настроить цвета для будущих графиков. Мне захотелось поработать с градиентом розового цвета.

Original size 966x342

(1) Круговая диаграмма «топ-5 дистрибьюторов»

Мне стало интересно узнать, какие дистрибьюторы находятся в топе. Я выбрала размер диаграммы, назначила метки секторам диаграммы. Добавила проценты внутри секторов, округляя значения до одного десятичного знака. Определила начальное положение первого сектора, поворачивая его на угол 140 градусов против часовой стрелки. Использовала заранее определенный список цветов (gradient_colors) для раскраски секторов.

Результат: я вычислила 5 самых крупных дистрибьюторов.

Original size 1113x462
Original size 956x679

Итоговая круговая диаграмма

(2) Столбчатая диаграмма «топ-10 фильмов по сборам»

Здесь я захотела реализовать построение столбчатой диаграммы для отображения топ-10 фильмов по величине кассовых сборов. Я использовала библиотеку Seaborn, в которой строится столбчатая диаграмма, где ось x представляет сумму сборов, а ось y — название фильма ('Title'). Цветовая палитра задается переменной gradient_colors. Также я создала сетку для визуальной четкости в показаниях.

Результат: диаграмма, которая помогает лучше воспринять результат анализа.

Original size 1103x620
Original size 1192x590

Итоговая столбчатая диаграмма

(3) Scatter-график «количество кинотеатров и сборы»

Я решила создать диаграмму рассеяния, чтобы выявить взаимосвязь или её отсутствие между компонентами и определить характер связи. Я настроила цвета и прозрачность точек, отключила нотацию. График разброса «scatter plot» показывает взаимосвязь между двумя величинами: количеством кинотеатров, в которых демонстрировался фильм, и общим объемом кассовых сборов этого фильма. Моей задачей было построить точки, каждая из которых соответствует одному фильму. По горизонтальной оси откладывается количество кинотеатров (Theaters), а по вертикальной — общие сборы (Total Gross).

Результат: получился цветной график, на котором легко увидеть связь между числом кинотеатров и доходами фильмов. Мы можем заметить, что, чем больше охват у кинотеатров, тем выше вероятность высоких доходов.

Original size 1094x620
Original size 925x554

Итоговая диаграмма рассеяния

(4) Линейный график «количество релизов по месяцам»

Сначала создаю упорядоченный список месяцев, начиная с января и заканчивая декабрём. Из таблицы данных беру месяцы выпуска фильмов, считаю, сколько фильмов вышло в каждом месяце. Сортирую по правильному порядку месяцев. Далее рисуется график, соединяющий количество фильмов, вышедших в разные месяцы. Чтобы было удобнее воспринимать информацию, я добавила кружки.

Результат: график показывает, в каком месяце выходит больше всего фильмов, а в каком меньше.

0
Original size 1014x526

Итоговый график

(5) Гистограмма «распределение количества кинотеатров»

Строю поле размером 10×5 для будущей гистограммы. Гистограмма показывает, сколько фильмов показано примерно одинаковое число раз в разных кинотеатрах. Она разбита на 20 частей, чтобы удобно было видеть группы фильмов с похожим числом кинотеатров. Плавная кривая плотности (KDE) отключена, потому что важно сосредоточиться именно на самой гистограмме.

Результат: благодаря гистограмме можно увидеть, как распределяется количество кинотеатров.

Original size 954x448
Original size 845x476

Итоговая гистограмма

Описание применения генеративной модели

Я использовала искусственный интеллект для генерации обложки проекта в Recraft.

Prompt: Create an attractive and engaging cover design for a project showcasing the top 200 movies of 2023. The main color should be pink. You can add people or cinema attributes.

Топ-200 фильмов 2023 года
7
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more