Original size 615x803

Эволюция и ландшафтная индустрия видеоигр

PROTECT STATUS: not protected
The project is taking part in the competition

Вводная часть

Для этого анализа я выбрала набор «Продажи видеоигр» на платформе Kaggle. Это один из самых популярных наборов данных. Он содержит информацию о продажах более 16 500 видеоигр, выпущенных с 1980 по 2020 год.

Набор данных представляет собой CSV-файл с учетом столбцов: Rank- Ранг по продажам Name- Название игры Platform- Платформа (например, PS4, ПК, Wii) Year- Год выпуска Genre- Жанр игры Publisher- Издатель NA_Sales- Продажи в Северной Америке (в миллионах) EU_Sales- Продажи в Европе (в миллионах) JP_Sales- Продажи в Японии (в миллионах) Other_Sales- Продажи во всем мире (в миллионах) Global_Sales- Общие мировые смерти (в миллионах)

Видеоигровая индустрия — это огромный культурный и экономический феномен. Анализ этих данных позволяет не просто посмотреть цифры, а историю:

Технологические изменения: как менялись платформы от Atari до PlayStation 5. Культурные тенденции: какие жанры были популярны в разные эпохи и в разных регионах. Бизнес-аналитика: кто является «королем» отрасли среди издателей и какая стратегия ведет к успеху. Ценность этих данных в том, что они позволяют проследить, как технологический прогресс и изменение вкусов потребляют многомиллиардный рынок.

Я выбрала 4 разных типа графиков, чтобы решать разные вопросы и различать варианты визуализации: Линейный график (линейный график): идеален для идентификации динамиков во времени. Я использую его, чтобы показать, как менялось количество выпускаемых игр. Горизонтальная столбчатая диаграмма (горизонтальная гистограмма): Отлично подходит для сравнения категорий. Я показываю самые прибыльные жанры игр.

Сложенная столбчатая диаграмма (столбиковая диаграмма): измеряет не только общие значения, но и их составляющие. Я использую ее для анализа вкладов разных регионов (Америка, Европа, Япония). Диаграмма рассеяния (диаграмма рассеяния): используется для выявления взаимосвязей между двумя числами переменных. Я проверю, существует ли корреляция между мировыми продажами игры и ее названием.

1. Обработка данных Прежде чем создавать графики, данные необходимо подготовить: загрузить, применить и привести к нужному формату.

Шаг 1: Загрузка и первичный осмотр Сначала импортируем библиотеки и загружаем данные. Затем смотрим наличие основной информации и проверяем пропуски.

Original size 700x327

Шаг 2: Очистка данных пропусков, хотя и немного по сравнению с общим определением данных (271 для Year из 16598), самым простым методом будет удалена строка с пропусками.

Original size 602x265

2. Стилизация графиков Для создания инфографики я решила использовать темный стиль, вдохновленный интерфейсами современных приложений. Это помогает выделить яркие цвета данных. Источник вдохновения: Дашборды на сайтах типа Dribbble и журналистика данных из изданий The Pudding и т. п. Цветовая палитра: я выбрала палитру viridis из matplotlib, так как она хорошо читается на темном фоне и приятна для глаз. Шрифт и элементы: используемый стандартный шрифт без засечек, убраны лишние рамки (верхняя и правая), добавлена ​​сетка для лучшего считывания результатов по оси Y. Заголовки сделаны крупными и информативными, часто с подзаголовком, объясняющими суть графики. Вот код для применения базового стиля ко всем графикам:

Original size 506x245

3. Изучающий формат: это этап, когда мы задаем вопросы данным. Например, при построении диаграмм рассеяния я не знаю заранее, есть ли связь между четвертым названием и продажами. Я строю график, чтобы рассмотреть эту гипотезу. Код на этом этапе может быть простым: plt.scatter (x, y). Объясняющий (пояснительный) формат: Это окончательный результат, который мы показываем. Здесь цель — рассказ истории. Я беру сырой изучающий график и добавляю к нему: Четкий заголовок и подзаголовок: «Связь продаж и длина названия: Краткость — сестра таланта?. Аннотации: выделяю интересные точки или тенденции. Цветовое кодирование: использую цвет, чтобы привлечь внимание к ключевой информации. Удаление лишнего

4. Описание различных методов. В этом анализе использовались методы: Описательная статистика: я использую функцию .sum ()для подсчета общих продаж, .count () (или .value_counts ()) для подсчета количества игр по годам или жанрам. Метод .describe ()дает полное представление числовых данных (среднее, медиана, стандартное отклонение и т. д.). Группировка и агрегация: это ключевая метод, функция тренда в Pandas с помощью .groupby (). Я группирую данные по Year, Genrеили Platform, а затем применяю к этим группам агрегирующие функции (sum, count) для получения итоговых результатов. Сортировка: метод .sort_values (), используемый для ранжирования данных, например, для поиска самых продаваемых жанров или платформ.

График 1: Линейный график — игровая индустрия «Золотой век» Этот график показывает количество игр, выпускаемых каждый год. Мы видим явный пик в альбоме 2008–2009 годов, после которого наступил спад. Это может быть связано с мировым кризисом и сменой названий консолей.

Original size 653x587

График 2: Горизонтальная столбчатая диаграмма — Какие жанры носят больше всего денег? Здесь мы видим, какие жанры доминируют в мировых продажах. «Экшен» (Экшен) с отрывом от выступления лидирует, что говорит о его популярности. На втором месте «Спорт» (Sport), что также ожидаемо из-за ежегодных сериалов типа FIFA и NBA.

Original size 557x658

График 3: Сложенная столбчатая диаграмма — Региональные рынки для платформы топ-5 Этот график показывает не только общие продажи для 5 самых успешных платформ всех времен, но и то, как эти продажи меняются по трем ключевым регионам. Мы наблюдаем культурные различия: доминирование Японии в Nintendo и сильные позиции PlayStation и Xbox в Северной Америке и Европе.

Original size 615x618

График 4: Диаграмма рассеяния — Влияет ли продолжительность названия на продажу? Это исследовательский график. Гипотеза: возможно, короткие и запоминающиеся названия протекают лучше. График показывает каждую игру как точку. По оси Y — ее продажа, по оси X — количество символов в названии.

Вывод: явной закономерности не наблюдается. Есть супер-успешные игры, как с короткими, так и с длинными названиями. Это говорит о том, что качество и маркетинг игры гораздо важнее, чем продолжительность ее имени.

Original size 546x660
We use cookies to improve the operation of the website and to enhance its usability. More detailed information on the use of cookies can be fo...
Show more