

Для финального проекта по курсу я выбрал массив данных о продажах игр на платформе Steam, который можно найти на сайте Kaggle. Этот датасет содержит информацию о различных играх, доступных в Steam, включая такие данные, как: - Названия игр - Дата релиза - Рейтинг аудитории - Число отзывов - Цена игры - Платформа
Всё это позволяет визуализировать различные аспекты рынка видеоигр, такие как популярность, отзывы пользователей и критиков, а также влияние цены на отзывы и популярность.
Для меня как геймдизайнера это может быть крайне полезно, поскольку даёт возможность увидеть периоды развития Steam в цифрах и оценить конкуренцию на платформе, статистическую вероятность нахождения аудитории и определить, какие игры приобрели наибольшую популярность за всё время существования или попали в тренды в последние годы. А также как примерно менялась благосклонность аудитории к играм в последние годы.
С такой постановкой задачи я использовал гистограмму для анализа показателей всей платформы в целом. А вертикальные и горизонтальные столбчатые диаграммы для сравнения отдельных игр между собой.
Линейные графики применены для отображения изменений по времени (например, выделения игр, получивших внимание аудитории, на фоне общего количества). Это позволяет увидеть и оценить насколько трудно добиться внимания игроков.
А круговые диаграммы, идеально подходящие для анализа долей в общей массе данных, использованы для демонстрации изменения год за годом средней благосклонности аудитории на платформе в целом.
Анализ данных
Сначала рассмотрим развитие Steam, как онлайн магазина, проанализировав количество ежегодное количество выходящих игр с момента запуска платформы.

Первоначально создавшая её компания Valve использовала Steam для распространения игр собственного производства и от приглашённых разработчиков. После 2007 началось бурное развитие, но количество допущенных до распространения игр всё ещё было ограничено. А после 2015 года можно увидеть бум инди-игр выпущенных в Steam благодаря платформам Greenlight и последовавшей за ней Direct. Valve начала экспериментировать с Greenlight ещё в 2013, но по данным видно, что заметный результат это начало приносить лишь с 2015 года. Но сколько среди этого потока игр-однодневок, не способных набрать аудиторию из-за низкого качества и недоработок?
Чтобы ответить на этот вопрос, рассматривая только игры вышедшие после 2015, сопоставим графики общего количества игр с графиком игр, получивших больше 100 отзывов.
Из визуализации видно, что подавляющая часть игр выпускаемых на платформе не получает внимания аудитории. Причинами может выступать как низкое качество продукта, так и необходимость в продвижении из-за такой конкуренции. Но как сами пользователи Steam относятся к появлению такого количества новых игр?
Наблюдая динамику соотношения пользовательских отзывов можно заметить, что она остаётся консистентной и не сильно изменилась с 2015 года. Сумма процентов положительных отзывов стабильно держится около 75. Хоть играм и сложно найти покупателя, покупатели всё же находят то, что ищут.
Теперь рассмотрим как обстоят дела среди крупных релизов. Для этого проанализируем график самых высоко оценённых релизов среди игр получивших более 100000 отзывов и на старте имевших цену больше 35$.
По данным видно, что ни одной игре не удалось достичь 100% и оценки быстро убывают, что показывает высокую конкуренцию. Также получившийся список показывает сильный разброс по жанру и году выпуска.
Если же из интереса вывести топ 3 игр по количеству отзывов за каждый год, то можно увидеть достаточно точное отображение истории индустрии.
Стиль визуализации
В стилизации графиков использовалась палитра извлечённая из логотипа Steam: - #171a21 для главных заголовков - #66c0f4 для акцентных элементов - #1b2838 для фона - #2a475e для второстепенных заголовков - #c7d5e0 для обычного шрифта
Также вдохновением послужили графики из итогов года, проходящих сейчас в Steam:
Создание графиков
Первым шагом в работе с данными стала загрузка данных Google Collab и проверочная очистка очистка их от пропусков и дубликатов.
Во время работы я активно использовал ChatGPT для быстрого создания основы кода и отладки ошибок. Первоначальный запрос для каждого графика формулировался примерно так: «Напиши код с использованием Pandas для визуализации данных о количестве игр, выпущенных в каждом году, взятых из этого датасета: https://www.kaggle.com/datasets/antonkozyriev/game-recommendations-on-steam?select=games.csv Используй гистограмму, где по оси x располагаются годы выпуска, а по оси y суммарное количество игр в этом году. Перед визуализацией сгруппируй по годам, отсекая числа и месяцы у дат.»
В коде была лишь мелкая ошибка, связанная с указанием неверного названия столбца, и после замены «release date» на «date_release», совпадающий с заголовком нужного столбца датасета, я получил вполне подходящую для анализа гистограмму:
Мне оставалось лишь дополнить код для появления сетки, подписи каждого года и количества игр в столбцах. А также я добавил красные вертикальные линии для более наглядного выделения анализируемых этапов.


После этого оставалось лишь заменить цвет у всех элементов на совпадающий с палитрой Steam и внести небольшие графические улучшения, как например частичную прозрачность столбцов гистограммы.
Работа над другими графиками протекала по тому же рабочему процессу. Для исправления ошибок я также полагался на помощь ChatGPT, обращаясь к нему, например, с таким запросом: «Переписать этот код так, чтобы по оси x ориентироваться на подробные даты выхода in_theaters_date». Также в более простых моментах таких, как необходимость вспомнить ключевое слово для жирного шрифта, помогали статьи на StackOverflow.
Код и датасет:
Ссылка на датасет: https://www.kaggle.com/datasets/antonkozyriev/game-recommendations-on-steam?select=games.csv Ссылка на блокнот: https://colab.research.google.com/drive/191SY9oIrdCLOXW9THulfsi8E9j_tWh5w?usp=sharing Резервные копии: https://disk.yandex.ru/d/igIzCTYe71sQQQ
Описание применения генеративных моделей
Во время работы использовался ChatGPT модели 4o mini: https://chatgpt.com/. Цель применения: создание основы кода для дальнейшей доработки, а так же помощь в отладке. Более подробное описание алгоритма работы содержится в разделе «Создание графиков». Обложка проекта также сгенерирована через него по запросу: «Сгенерируй изображение для обложки проекта Анализ продаж видеоигр на платформе Steam»