
Описание проекта
С недавнего времени, меня очень привлекает киноиндустрия, и свой проект я бы хотела посвятить фильмам и сериалам, в особенности их популярности. На сайте Kaggle я нашла подходящий датасет, который содержит нужную мне информацию.
А именно: название, дату, рейтинг, количество эпизодов, жанр. Самое удивительное, что в приведенной таблице есть показатель жестокости и сражений, количество ненормативной лексики и алкоголя, что было тоже полезно и интересно анализировать.
«Кино должно заставить зрителя забыть о том, что он сидит в кино» (Роман Полански)
Для выбор цветовой палитры я вдохновилась обложкой своего любимого сериала.

Стив Мартин и Джон Хоффман «Убийства в одном здании» 31.09.2021 г.

В ходе работы я использовала следующие графики: Круговая диаграмма Столбчатая диаграмма Матрица ошибок Линейчатая диаграмма
Обработка данных
В начале процесса осуществляется импорт необходимых библиотек: matplotlib.pyplot для визуализации данных и pandas для работы с табличной информацией.
Далее данные о фильмах и сериалах, хранящиеся в файле imbd.csv, загружаются на локальный компьютер с помощью функции files.upload (), которая доступна в среде Google Colab. После загрузки файл читается в таблицу (DataFrame) с использованием функции pd.read_csv (), что создает удобные условия для анализа данных.
В завершение, выводится информация из таблицы, чтобы проверить правильность загрузки данных.
График 1
Первая столбчатая диаграмма иллюстрирует количество фильмов/сериалов, выпускаемых в определенные даты. Сортировка данных по возрастанию позволяет наглядно определить численность выпусков в разные года.
Для удобства под каждым столбцом указан год, а слева можно наблюдать шкалу с числами, которая указывает на количество фильмов. Смотря на диаграмму, можем сделать вывод о том, что со временем фильмы/сериалы стали все больше появляться на экранах. Особенно после 2020 года, где наблюдается резкий скачок.
График 2
Этот график показывает количество выпущенных кинокартин и многосерийных фильмов.
Данный тип диаграммы был выбран, чтобы наглядно посмотреть на различия. Таким образом можно сделать вывод о том, что на настоящий момент количество существующих и выпущенных в свет фильмов в 2 раза превышает количество сериалов
График 3
Этот график визуализирует 6 жанров киноиндустрии. Используя данные об известных жанрах, диаграмма иллюстрирует самые популярные из них.
Круговая диаграмма в данном случае смотрится выигрышно по причине того, что в процентах можно увидеть различия и популярность.
Таким образом, можно сделать вывод о том, что в мире кино — комедии встают на первое место по количеству, второе же место досталось драматическим фильмам и сериалам.
График 4
Далее мое внимание зацепил не только привычный фактор, по типу: жанра, рейтинга и т. д. Я немного отошла от анализа обычных показателей и решила исследовать фактор ненормативной лексики в фильмах/сериалах.
Данная круговая диаграмма показывает количество браной лексики в мире кино. Удивительно то, что практически половина фильмов и сериалов имеют нецензурную брань. Такие показатели достаточны для вывода о том, что в современном мире ненормативная лесика является почти неотъемлемой частью любого фильма или сериала.
График 5
Матрица ошибок в кино — это инструмент анализа, который помогает выявить и понять, как обнаженность и жестокость представлены в фильмах. В рамках матрицы рассматриваются различные уровни, которые указывают на количество сцен, где фигурирует либо жесткость, либо обнаженность.
Таким образом, матрица ошибок позволяет исследовать, количество использования обнаженности и жестокости в разных фильмах и сериалах.
Вывод
На основе проведенного анализа самых популярных фильмов и сериалов можно сделать несколько ключевых выводов. Во-первых, наблюдается выраженная тенденция к смешению жанров, что позволяет создавать более многослойные и эмоционально насыщенные сюжеты, способные привлечь широкую аудиторию. Во-вторых, можно наблюдать огромную разницу по количеству сериалов и фильмов, что указывает на то, что в наше время чаще на свет и экраны появляются в основном фильмы. В-третьих, наблюдается значительное количество нецензурной лексики и сцен с обнаженностью и жесткостью, что, конечно, имеет плохое влияние на общество, но делает картину более живой и раскрепощенной и приближает зрителей к реальности.
Скачать ссылку с кодом и датасет. Также источники изображений.