Original size 406x533

Магия кино: анализ 16000 фильмов

PROTECT STATUS: not protected
The project is taking part in the competition

Описание проекта

post

Я решила анализировать кино, потому что люблю фильмы и считаю, что они способны передавать мощные эмоции и важные послания.

Кино всегда было моим увлечением, и я хочу исследовать его разнообразие, чтобы понять, какие факторы делают фильмы успешными и запоминающимися.

Датасет я брала с платформы Kaggle.

Стилизация

post

Для графиков я подобрала тематическую палитру цветов.

Она сочетает в себе глубокие и насыщенные оттенки, которые создают атмосферу драматизма, напряжения и энергии, идеально подходящую для проекта о кино. Более светлый цвет вносит баланс и элегантность, создавая гармонию с яркими акцентами, что отражает разнообразие эмоций и жанров, присущих киноиндустрии.

Палитра:

винный: 651335 бежевый: ECCEC3 красный: DE4343 оранжевый: E8890A
post

Times New Roman был выбран для графиков, так как это классический и универсальный шрифт, который ассоциируется с формальностью и читаемостью. Он широко используется в академических и профессиональных документах, что придает графикам строгость и официальность. Этот шрифт легко воспринимается на любых устройствах, а его традиционность делает его хорошим выбором для анализа данных, особенно в контексте исследования.

Загрузка, анализ и подготовка данных

Импорт необходимых библиотек

post

Сначала мы импортировали необходимые библиотеки:

  • pandas — для работы с датафреймами
  • matplotlib.pyplot — для создания визуализаций
  • модуль font_manager для установки шрифта

Затем мы прочитали csv файл, а также удалили лишнюю колонку и в конце вывели первые 5 строчек.

Original size 1498x392

Так выглядят первые 5 наблюдений в наших данных

Просмотр данных

post

В датасете представлены следующие признаки:

• Title — название фильма • Release Date — дата релиза • Description — описание фильма • Rating — средняя оценка на Metacritic, дающая представление о том, как фильм был воспринят критиками • No of Persons Voted — количество людей, оценивших фильм на Metacritic • Directed by — режиссер (ы) фильма • Written by — сценарист (ы), ответственный (ые) за сценарий фильма • Duration — продолжительность фильма • Genres — жанры фильма

Всего в наборе данных 16290 наблюдений и 9 признаков.

Очистка данных

post

В данных содержится 1117 дубликатов и достаточное число пропусков.

Я решила, что заменять их на медиану неправильно, так как у них слишком высокая доля.

Поэтому удалила пропуски и дубликаты, тем самым оставив для анализа 11447 наблюдений.

Графики

1. Круговая диаграмма

post

Сначала я написала функцию, которая создает новый признак — Rating Category, значение которого зависит от рейтинга фильма.

Функция разделяет фильмы на три категории: Высокий, Средний и Низкий рейтинги.

Мне стало интересно, фильмов какого рейтинга в данных больше всего представлено.

Original size 640x503

График 1. Круговая диаграмма

post

На круговой диаграмме показано распределение фильмов по категориям рейтинга. Большинство фильмов имеют средний рейтинг (72.3%), в то время как высокий рейтинг имеют 16,2% фильмов, а низкий рейтинг — 11,5%. Это свидетельствует о том, что большинство фильмов в выборке имеют достаточно средние оценки, с меньшей долей как высоких, так и низких оценок.

2. Линейный график

Original size 684x471

График 2. Линейный

post

На линейном графике показано, как изменялось количество фильмов по категориям рейтинга с 1970 по 2020 год. Явно видно, что количество фильмов с высоким рейтингом значительно увеличилось в последние десятилетия, особенно после 2010 года. В то время как количество средних и низких рейтингов остается относительно стабильным, но с небольшим ростом. Это может свидетельствовать о росте качества фильмов в киноиндустрии за последние годы.

Линейный график идеально подходит для отображения изменений во времени, так как он позволяет наглядно увидеть тренды и динамику изменения количества фильмов в разных категориях рейтинга по годам. Он помогает сравнивать изменения в каждой категории и видеть, как они развиваются на протяжении времени.

3. Столбчатая диаграмма

Original size 854x581

График 3. Столбчатая диаграмма

post

На графике видно, что наиболее популярный жанр кино — это драма, затем идут комедия и триллер.

Столбчатая диаграмма — это наиболее удачный вариант для демонстрации распределения категориальных данных.

4. Ящик-с-усами

Original size 570x516

График 4. Ящик-с-усами

post

График показывает, что у Clint Eastwood и Ron Howard есть фильмы с низким рейтингом (выбросы), в то время как у Steven Soderbergh, Steven Spielberg и Woody Allen рейтинги более стабильные и высокие.

Ящичная диаграмма идеально визуализирует распределение рейтингов, показывая медиану, разброс и выбросы, что позволяет легко сравнить режиссеров по этим характеристикам.

Выводы

post

Python отлично подходит для анализа данных и визуализации благодаря мощным библиотекам, таким как pandas для обработки данных и matplotlib для создания графиков. Он позволяет эффективно очищать, обрабатывать и анализировать большие объемы данных, а также создавать разнообразные визуализации для их представления.

Благодаря навыкам в области анализа данных я смогла исследовать интересующую меня тему!

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more