Original size 736x1041

Анализ данных самых популярных фильмов и сериалов

PROTECT STATUS: not protected
10

Описание проекта

С недавнего времени, меня очень привлекает киноиндустрия, и свой проект я бы хотела посвятить фильмам и сериалам, в особенности их популярности. На сайте Kaggle я нашла подходящий датасет, который содержит нужную мне информацию.

А именно: название, дату, рейтинг, количество эпизодов, жанр. Самое удивительное, что в приведенной таблице есть показатель жестокости и сражений, количество ненормативной лексики и алкоголя, что было тоже полезно и интересно анализировать.

«Кино должно заставить зрителя забыть о том, что он сидит в кино» (Роман Полански)

Для выбор цветовой палитры я вдохновилась обложкой своего любимого сериала.

big
Original size 3840x2160

Стив Мартин и Джон Хоффман «Убийства в одном здании» 31.09.2021 г.

big
Original size 2737x596

В ходе работы я использовала следующие графики: Круговая диаграмма Столбчатая диаграмма Матрица ошибок Линейчатая диаграмма

Обработка данных

В начале процесса осуществляется импорт необходимых библиотек: matplotlib.pyplot для визуализации данных и pandas для работы с табличной информацией.

Далее данные о фильмах и сериалах, хранящиеся в файле imbd.csv, загружаются на локальный компьютер с помощью функции files.upload (), которая доступна в среде Google Colab. После загрузки файл читается в таблицу (DataFrame) с использованием функции pd.read_csv (), что создает удобные условия для анализа данных.

В завершение, выводится информация из таблицы, чтобы проверить правильность загрузки данных.

Original size 2755x865

График 1

Первая столбчатая диаграмма иллюстрирует количество фильмов/сериалов, выпускаемых в определенные даты. Сортировка данных по возрастанию позволяет наглядно определить численность выпусков в разные года.

Для удобства под каждым столбцом указан год, а слева можно наблюдать шкалу с числами, которая указывает на количество фильмов. Смотря на диаграмму, можем сделать вывод о том, что со временем фильмы/сериалы стали все больше появляться на экранах. Особенно после 2020 года, где наблюдается резкий скачок.

Original size 3600x1800
Original size 3078x1626

График 2

Этот график показывает количество выпущенных кинокартин и многосерийных фильмов.

Данный тип диаграммы был выбран, чтобы наглядно посмотреть на различия. Таким образом можно сделать вывод о том, что на настоящий момент количество существующих и выпущенных в свет фильмов в 2 раза превышает количество сериалов

Original size 3000x1800
Original size 3078x1293

График 3

Этот график визуализирует 6 жанров киноиндустрии. Используя данные об известных жанрах, диаграмма иллюстрирует самые популярные из них.

Круговая диаграмма в данном случае смотрится выигрышно по причине того, что в процентах можно увидеть различия и популярность.

Таким образом, можно сделать вывод о том, что в мире кино — комедии встают на первое место по количеству, второе же место досталось драматическим фильмам и сериалам.

Original size 2400x2400
Original size 3078x1519

График 4

Далее мое внимание зацепил не только привычный фактор, по типу: жанра, рейтинга и т. д. Я немного отошла от анализа обычных показателей и решила исследовать фактор ненормативной лексики в фильмах/сериалах.

Данная круговая диаграмма показывает количество браной лексики в мире кино. Удивительно то, что практически половина фильмов и сериалов имеют нецензурную брань. Такие показатели достаточны для вывода о том, что в современном мире ненормативная лесика является почти неотъемлемой частью любого фильма или сериала.

Original size 2400x2400
Original size 3078x1282

График 5

Матрица ошибок в кино — это инструмент анализа, который помогает выявить и понять, как обнаженность и жестокость представлены в фильмах. В рамках матрицы рассматриваются различные уровни, которые указывают на количество сцен, где фигурирует либо жесткость, либо обнаженность.

Таким образом, матрица ошибок позволяет исследовать, количество использования обнаженности и жестокости в разных фильмах и сериалах.

Original size 2400x2400
Original size 3077x1507

Вывод

На основе проведенного анализа самых популярных фильмов и сериалов можно сделать несколько ключевых выводов. Во-первых, наблюдается выраженная тенденция к смешению жанров, что позволяет создавать более многослойные и эмоционально насыщенные сюжеты, способные привлечь широкую аудиторию. Во-вторых, можно наблюдать огромную разницу по количеству сериалов и фильмов, что указывает на то, что в наше время чаще на свет и экраны появляются в основном фильмы. В-третьих, наблюдается значительное количество нецензурной лексики и сцен с обнаженностью и жесткостью, что, конечно, имеет плохое влияние на общество, но делает картину более живой и раскрепощенной и приближает зрителей к реальности.

Original size 3214x1490
Анализ данных самых популярных фильмов и сериалов
10
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more