
Концепция
Хоррор фильмы стали популярны еще очень давно, но несмотря на это интерес к ним у аудитории не падает с годами. Я сама невероятный любитель этого жанра. Кажется, что любителям кинематографа будет интересно посмотреть на анализ подобных данных. Это ведь не просто досуг, но и стиль жизни для особых ценителей.

В своем анализе я использовала данные по хоррор фильмам с сайта Kaggle. Датасет содержит сводку по названиям, годам, рейтингу и прочему. Основными данными для анализа стали: год, рейтинг, жанр. Я выбрала эти данные, чтобы посмотреть на что сейчас делают упор: на качество или на количество?
Для внешнего вида я выбирала оттенки серого и красного, как и принято в ужастиках. Также старалась сохранить читаемость и легкую визуализацию.
Обработка данных
1. Импорт библиотек: numpy, matplotlib.pyplot и pandas. 2. Открытие CSV файла с помощью pandas в Google Collab.
Для точечной диаграммы я посчитала среднее значение рейтинга фильмов по годам. Для удобства позже добавила линию тренда.
mean_rate = df.groupby ('Movie Year')['Rating'].mean () years = mean_rate.index.values ratings = mean_rate.values
z = np.polyfit (years, ratings, 1) p = np.poly1d (z) plt.plot (years, p (years), color='#800020', alpha=0.7, linewidth=2)
Для гистограммы я сделала диапазоны по десятилетиям и посчитала количество фильмов по каждому десятилетию.
df['Decade'] = (df['Movie Year'] // 10) * 10
movies_decade = df['Decade'].value_counts ().sort_index ().reset_index () movies_decade.columns = ['Decade', 'Count']
Для круговой диаграммы создала список «all_horror» в который надо было добавить все жанры, содержащие хоррор. Для этого создала функцию. Из списка позже удалила все жанры, кроме самого хоррора. Посмотрела частоту каждого жанра и выделила 5 самых частых, а остальное убрала в категорию «Other».
all_horror = [] for genres in df['Genre']: if 'Horror' in genres: all_horror.extend (genres) all_genres_horror = [genre for genre in all_horror if genre ≠ 'Horror'] genre_c = pd.Series (all_horror).value_counts ()
top5_genres = genre_c.head (5) other_count = genre_c.iloc[5:].sum ()
Визуализация данных
Точечная диаграмма. Средний рейтинг фильмов по году выпуска. Линия тренда.
Точечная диаграмма показала, что рейтинг фильмов падает с годами. Это подтверждает линия тренда.
Гистограмма. Количество фильмов снятых в конкретных десятилетиях.
С помощью гистограммы можно увидеть, что с годами стало больше фильмов в жанре хоррор. К сожалению, они стали хуже по рейтингу (это видно из предыдущей диаграммы), что говорит о том, что упор идет на количество контента, а не на качество.
Круговая диаграмма. Показывает соотношение поджанров. Выделены самые популярные 5.
Несмотря на то, что чистый жанр хоррора остается на первом месте, многие также предпочитают смотреть такие фильмы с примесью других жанров, что позволяет охватыватить большую аудиторию.
Список источников