Original size 896x1344

Анализ фильмов 2024 года

PROTECT STATUS: not protected

Описание

На втором курсе меня начало интересовать кино — для изучения я выбирала дисциплины, связанные с историей кино, и старалась много смотреть фильмов во внеучебное время. Поэтому при выборе темы для этого проекта я тоже обратилась к интересующей меня теме, и для анализа выбрала датасет о фильмах, вышедших в 2024 году.

Датасет я нашла на сайте kaggle. Датасет содержит в себе 501 фильм, вышедший в 2024 году и имеющий страницу на сайте IMDb.

big
Original size 1539x548

Внешний вид графиков и самого проекта вдохновлен сайтов IMDb, в частности сочетанием черного и желтого. Для разнообразия цветовой гаммы я использовала несколько оттенков желтого.

Для визуализации данных я решила выбрать три вида графиков — столбчатые графики (хорошо отображают числовые значения), точечные графики (ярко демонстрируют не только данные в сравнении, но и количество фильмов) и круговые диаграммы (для удобного отображения процентного соотношения жанров).

Обработка данных

Для начала я импортировала необходимые мне библиотеки matplotlib.pyplot и pandas, после чего считала скачанный csv-файл датасета. Также я указала путь к используемому шрифту.

big
Original size 3120x1792

Для удобной работы мне было необходимо отредактировать датасет: привести строки жанра, каста, оригинального языка, продакшн компании к более простому виду.

Так, с помощью кода я привела строки вида " ['Fantasy', 'Horror', 'Mystery'] " к строкам вида " Fantasy, Horror, Mystery "

Это значительно упростило мне работу и облегчило дальнейший код.

0

Далее мне нужно было привести данные о доходах фильма к одному виду. Я не планировала использовать для анализа данные о бюджете каждого фильма, поэтому приведение чисел к виду миллионов долларов ($M) коснулось только доходов фильма.

Чтобы не запутаться в значениях, я попросила Deepseek написать функцию, которая привела бы значения дохода к одному виду.


промпт нейросети Deepseek: напиши функцию, которая приведет к виду «160» миллионов долларов значения «160», «160K», «160M», «160B»

Original size 2320x2016

Приведя датасет к удобному для работы виду, я сохранила изменения в новом файле, с которым в дальнейшем работала.

Original size 2320x824

Дальше я проанализировала популярность разных жанров в круговой диаграмме.

Несмотря на предыдущую редактуру датасета, над списком жанров пришлось постараться вновь. Некоторые фильмы относятся сразу к нескольким жанрам, поэтому необходимо было разделить список жанров, отделенных друг от друга запятой. C этой задачей я обратилась к нейросети Deepseek, которая подсказала мне, как лучше отредактировать эти данные.


промпт нейросети Deepseek: как преобразовать данные в списке через запятую в отдельные данные в строке?

Original size 3120x900

Далее я привела данные о количестве фильмов разных жанров к процентному виду и выделила в отдельную группу все жанры, число которых было меньше 2%.

Original size 3120x1720

Визуализация данных

0

Круговая диаграмма популярности жанров

Помимо подтвердившихся гипотез о популярности драмы, триллеров и комедии, меня удивило положение хорроров. Нельзя сказать, что они непопулярны, но я однозначно ожидала большего количества фильмов в этом жанре.

0

Точечная диаграмма зависимости рейтинга фильма от выручки

Также было интересно посмотреть, насколько рейтинг фильма отображает успех в прокате. Случилось интересное открытие — фильмы с рейтингом около 9 не принесли огромные богатства своим создателям.

Наибольший успех получили фильмы рейтингом около 6 и 7 — несмотря на то, что невероятных высот в доходе они не достигли, их количество позволяет им занять значительную позицию в доходе.

Самых же больших высот достиг фильм с рейтингом 8, что логично: скорее всего он понравился широкой аудитории.

0

Облако частотности слов в названиях фильмов

С помощью облака частотности слов удалось выяснить, какие слова чаще всего оказываются в названии фильмов. Большой популярностью пользуются слова «Girl', „Man“, „One“, „Love“, „Night“. Популярность этих слов не стала для меня открытием, а вот крупность слов „Night“ и „Murder“ удивила. Все-таки хорроры занимают большую часть в списке фильмов.

0

Столбчатый график количества фильмов выпущенными 20 компаниями

Через датасет удалость проанализировать самые большие компании и количество фильмов, которые они выпустили. В качестве выборки я взяла 20 компаний. Из них лидерами по количеству выпущенных фильмов оказались Paramount Pictures, Netflix и A24 с 11 фильмами у каждого.

Удивили Universal Pictures — у них оказалось всего 4 выпущенных фильма за год.

Как и в случае с круговой диаграммой, здесь я применила функцию explode (), чтобы разделить несколько названий компаний через запятую в одном столбце на несколько строк.

0

Точечный график распределения рейтинга по жанрам фильмов

Самых низких оценок удостоились только фильмы в жанре комедия и хоррор — и, как правило, они действительно самые противоречивые!

В остальном же все жанры удостаиваются примерно одинакового диапазона оценок.

Здесь я применила функцию explode (), чтобы разделить несколько жанров одного фильма, разделенных запятой, на несколько строк.

Описание применения генеративной модели

Deepseek — обращения с целью исправления багов в коде, получения инструкций и вопросы по тому, как правильно преобразовать данные в списке и привести значения дохода к одному виду.

Leonardo AI — генерация изображения для обложки проекта. промпт: create an illustration with vintage camera in black white and yellow colors

Список источников

IMDb 2024 (Movies and TV Shows) / [Электронный ресурс] // Kaggle: [сайт]. — URL: https://www.kaggle.com/datasets/sanadalali/imdb-2024-movies-and-tv-shows (дата обращения: 22.03.2025).

Анализ фильмов 2024 года
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more