Original size 1140x1600

Анализ по хоррор фильмам

PROTECT STATUS: not protected
The project is taking part in the competition

Концепция

Хоррор фильмы стали популярны еще очень давно, но несмотря на это интерес к ним у аудитории не падает с годами. Я сама невероятный любитель этого жанра. Кажется, что любителям кинематографа будет интересно посмотреть на анализ подобных данных. Это ведь не просто досуг, но и стиль жизни для особых ценителей.

big
Original size 1257x442

В своем анализе я использовала данные по хоррор фильмам с сайта Kaggle. Датасет содержит сводку по названиям, годам, рейтингу и прочему. Основными данными для анализа стали: год, рейтинг, жанр. Я выбрала эти данные, чтобы посмотреть на что сейчас делают упор: на качество или на количество?

Для внешнего вида я выбирала оттенки серого и красного, как и принято в ужастиках. Также старалась сохранить читаемость и легкую визуализацию.

Обработка данных

1. Импорт библиотек: numpy, matplotlib.pyplot и pandas. 2. Открытие CSV файла с помощью pandas в Google Collab.

Для точечной диаграммы я посчитала среднее значение рейтинга фильмов по годам. Для удобства позже добавила линию тренда.

mean_rate = df.groupby ('Movie Year')['Rating'].mean () years = mean_rate.index.values ratings = mean_rate.values

z = np.polyfit (years, ratings, 1) p = np.poly1d (z) plt.plot (years, p (years), color='#800020', alpha=0.7, linewidth=2)

Для гистограммы я сделала диапазоны по десятилетиям и посчитала количество фильмов по каждому десятилетию.

df['Decade'] = (df['Movie Year'] // 10) * 10

movies_decade = df['Decade'].value_counts ().sort_index ().reset_index () movies_decade.columns = ['Decade', 'Count']

Для круговой диаграммы создала список «all_horror» в который надо было добавить все жанры, содержащие хоррор. Для этого создала функцию. Из списка позже удалила все жанры, кроме самого хоррора. Посмотрела частоту каждого жанра и выделила 5 самых частых, а остальное убрала в категорию «Other».

all_horror = [] for genres in df['Genre']: if 'Horror' in genres: all_horror.extend (genres) all_genres_horror = [genre for genre in all_horror if genre ≠ 'Horror'] genre_c = pd.Series (all_horror).value_counts ()

top5_genres = genre_c.head (5) other_count = genre_c.iloc[5:].sum ()

Визуализация данных

Original size 988x549

Точечная диаграмма. Средний рейтинг фильмов по году выпуска. Линия тренда.

Точечная диаграмма показала, что рейтинг фильмов падает с годами. Это подтверждает линия тренда.

Original size 1005x908

Гистограмма. Количество фильмов снятых в конкретных десятилетиях.

С помощью гистограммы можно увидеть, что с годами стало больше фильмов в жанре хоррор. К сожалению, они стали хуже по рейтингу (это видно из предыдущей диаграммы), что говорит о том, что упор идет на количество контента, а не на качество.

Original size 794x814

Круговая диаграмма. Показывает соотношение поджанров. Выделены самые популярные 5.

Несмотря на то, что чистый жанр хоррора остается на первом месте, многие также предпочитают смотреть такие фильмы с примесью других жанров, что позволяет охватыватить большую аудиторию.

Список источников

We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more