
В поиске подходящего датасета на сайте kaggle.com, я наткнулась на любопытные данные со статистикой по разным аспектам киноиндустрии. Решила взять его, чтобы посмотреть, какие связи получится найти, например, между жанром и рейтингом или кассовыми сборами и актерами. С этой информацией получится составить образ «среднего успешного фильма» и возможно снять свой успешный фильм в будущем.
Диаграммы подбирались в соответствии с анализируемыми данными, где-то нужно было посмотреть соотношение долей, а где-то просто выявить самый частый результат
Типы диаграмм: 1. диаграмма-область 2. диаграмма-область 3. точечная диаграмма 4. столбчатая диаграмма 5. диаграмма Санки

Обработка данных
Для начала я импортировала необходимые мне библиотеки. После чего считала скачанный csv-файл датасета.

Изучаем исходный датасет, чтобы принять решение с какой его частью будем работать.
Выбираем самые популярные рейтинги.
Выбираем самые популярные жанры.
То же самое проделываем для годов выпуска. Для 2020 записей слишком мало. В выборке df_sel не будем учитывать значения для этого года, а также отбросим записи по фильмам c редко встречающимися жанрами и рейтингами.
Затем я составила сокращенный вариант выборки, в котором не учитывались данные, с недостаточной информацией.
Визуализация данных
Для визуального оформления использовалась градиентная палитра между комплиментарными желтым и фиолетовым. Противоположные основные цвета подчеркивают разноплановость данных, а плавный градиент желто-фиолетовых оттенков, принадлежность данных к одной сфере кино.
Помимо этого выбранные цвета хорошо смотрятся в сочетании со строчками кода, которые тоже обладают цветовой кодировкой.
Первая диаграмма
Динамика изменения долей фильмов различных жанров по годам
График иллюстрирует, как меняется распределение фильмов по жанрам с годами. Видно, что комедия в целом во все времена была популярна, но ближе к настоящему времени, рынок захватывают экшены.
Вторая диаграмма
Динамика изменения бюджетов фильмов различных жанров по годам
На этом графике мы видим, как менялся средний бюджет фильмов каждого жанра с годами. Можно заметить несколько изменений, например, 2 резких скачка в бюджетах фильмов жанра мистики или то, что анимация из минимальных затрат перешла в чуть ли не максимальные, в сравнении с другими жанрами.
Третья диаграмма
Связь оценки и числа голосов
Третья диаграмма отражает, как связаны оценка фильма и количество голосующих. Мы видим, что если фильм плохой, то и желания ставить оценку у людей нет, но если фильм действительно хорош, то оценку ему поставят многие из зрителей. При этом драма и экшн занимают высокие места и по количеству голосов, и по рейтингу.
Четвертая диаграмма
Средние сборы фильмов с участием звёзд
Столбчатая диаграмма показывает, участие какой звезды в фильме связано с большими сборами. По ней можно определить, у каких актеров, самая активная фанатская база.
Пятая диаграмма
Диаграмма Санки: жанр и рейтинг
Последняя диаграмма иллюстрирует, как связаны рейтинги и жанры фильмов. По нему видно, что больше всего снимается комедии с рейтингом R.
Итог
В процессе изучения датасета, с информацией о самых разных аспектах фильмов, я создала 5 диаграмм, которые показали, какими характеристиками должен обладать фильм, чтобы быть популярным.
В итоге образ среднего успешного фильма это комедия, если подешевле, или экшен, если подороже, с рейтингом R и Томом Холландом в главной роли.
Нейросети
Код для диаграммы Санки был написан с использованием Chat GPT.