
В рамках проекта был выбран датасет на платформе Kaggle
Когда я начала думать над темой проекта, то решила сделать его про мою любимую игру—Майнкрафт. Игра очень сильно изменилась с момента моего знакомства с ней и на данный момент. Мне стало интересно провести анализ биомов Minecraft: ресурсы, мобы и сложность выживания.
Цель исследования—изучить, как распределяются биомы, насколько они насыщены ресурсами и существует ли связь между распространённостью биома и его ресурсной ценностью. Для анализа данных были использованы следующие типы визуализаций: Горизонтальная столбчатая диаграмма—для сравнения суммарного количества ресурсов в наиболее распространённых биомах. Горизонтальная столбчатая диаграмма — для анализа частоты встречаемости биомов и выявления доминирующих типов ландшафта. Круговая диаграмма—для визуализации долей наиболее распространённых биомов относительно остальных. Горизонтальная столбчатая диаграмма—для сравнения среднего количества ресурсов в разных биомах. Box plot—для анализа распределения ресурсов внутри биомов и выявления разброса значений. Диаграмма рассеяния—для исследования связи между распространённостью биома и средней ресурсной насыщенностью.
Цветовая гамма


Я остановилась на зелено-земляных оттенках, поскольку именно они ассоциируются у многих, в том числе и у меня, с данной игрой. Также речь идёт о биомах, которые чаще всего есть именно такие оттенки. В качестве контрастного цвета я выбрала #05b24e—цвет Крипера, враждебного моба, который сливается с местной флорой. Для шрифта я выбрала DejaVu Sans, ведь он читабельный и минималистичный.
Использование данных методов и визуализаций позволило не только сравнить биомы между собой, но и сделать выводы о степени их пригодности для выживания на ранних этапах игры


Датасет был загружен в среду Kaggle с помощью библиотеки Pandas. На данном этапе была проведена первичная проверка структуры данных, названий столбцов и наличия пропусков.
Для анализа были отобраны столбцы, содержащие информацию о биомах и ключевых ресурсах. На их основе был создан дополнительный признак—суммарное количество ресурсов в чанке. Также были выполнены группировки данных по биомам и рассчитаны агрегированные показатели (количество чанков, средние и суммарные значения).


Анализ данных провели так: сначала посмотрели, какие есть биомы, потом—насколько они богаты ресурсами. В конце изучили, как ресурсы меняются внутри каждого биома и как всё это связано.
Каждая точка=один чанк, а цвет точки=количество ресурсов






Для представления результатов анализа были построены шесть визуализаций разных типов: горизонтальные столбчатые диаграммы, круговая диаграмма, box plot и диаграмма рассеяния. Тип каждого графика выбирался исходя из того, какую именно информацию он наиболее наглядно отражает.
Вывод
Таким образом я утвердилась в мысли, что биомы в мире Minecraft распределены неравномерно: несколько типов биомов встречаются значительно чаще остальных. При этом высокая распространённость биома не всегда означает его высокую ресурсную ценность. Анализ показал, что среднее количество ресурсов заметно различается между биомами, даже если они относятся к схожим типам ландшафта. Кроме того, внутри одного и того же биома наблюдается значительный разброс по количеству ресурсов, что указывает на вариативность генерации игрового мира. Связь между частотой встречаемости биома и его ресурсной насыщенностью присутствует, однако она не является прямой и однозначной. Использование нескольких типов визуализаций позволило рассмотреть данные с разных сторон и получить более полное представление о структуре распределения ресурсов в Minecraft.
Применение генеративных моделей
Для совершенствования кодов и для помощи с их написанием использовался ChatGPT
Для генерации обложки использовалась нейросеть ideogram AI