Childhood in Minecraft на Mediiia

Введение

Проект посвящен тренду ностальгии по «Старому Minecraft» который остался заперт в нашем детстве. Этот тренд подразумевает сразу 2 типа изображений:

Малиновая обработка скриншотов мира в ночи или на рассвете с эффектом аберрации
Стандартная версия 1.7.4 игры, когда освещение было плоским, дальность прорисовки была сильно ограничена из-за слабых комплектующих в компьютерах.

Я решил сделать симбиоз сразу 2х направлений и посмотреть на результат. В моих планах было напомнить через генерации о том самом мире с другом/братом/сестрой, который остался где-то на жестком диске твоего компьютера.

Источником изображений стали скриншоты из игровых форумов 2012 и фанатские обработки

Я допускаю нелогичные строения, странные формы, которые только усиливают восприятие изображения как демонстрация детского хаоса без взрослой дотошности. Всё будто застыло в ожидании продолжения приключения, но его никогда уже не будет

Целью проекта я ставлю обучение генеративной модели на построение форм на вымышленной сетке, из кубов и при этом пиксельными текстурами. Освещение должно работать как сырой шейдер для старых версий

Датасет изображений / примеры

Исходный размер 1584x512

Примеры из датасета (Minecraft)

Исходный размер 1584x512

Примеры из датасета (Minecraft)

Исходный размер 1584x512

Примеры из датасета (Minecraft)

Собрано 50 скриншотов в один датасет для обучения модели. Как было описано выше, используются скриншоты с обработкой и без для имитации быстрого майнкрафт-шейдера

Гугл-диск с изображениями

Датасет включает:

Кадры дневные природы
Постройки из булыжника, стекла и досок
Кадры в пещерах
Кадры берега и моря
Карты крупных строений с воздушной перспективой

Кадры очищены, обрезаны под квадрат, 512px на вход. Разные ракурсы, удаленность от объектов, погодные условия, а также время суток

Обучение модели

В проекте использовалась модель Stable Diffusion XL (SDXL), дообученная с помощью метода LoRA (Low-Rank Adaptation). Этот подход позволяет адаптировать модель под конкретный стиль без полного переобучения, что значительно снижает вычислительные требования.

Обучение проводилось с использованием единого текстового описания, задающего стиль:

… in TOK minecraft style, cubic pixel art…

Параметры обучения: — разрешение: 512 px — количество шагов: 600 — batch size: 2 — rank LoRA: 16 — оптимизация через 8-bit Adam

negative_prompt="realistic, smooth, photographic, rounded shapes, organic forms, blurry»

Финальная серия изображений

В результате обучения получена серия изображений, демонстрирующих различные сцены в усвоенном стиле. Серия включает: — лесные и природные биомы — горные и песочные ландшафты — подземные пещеры с лавой — архитектурные сцены и интерьеры

Исходный размер 2088x1024

Исходный размер 1024x1024

Исходный размер 2088x1024

Создалась приятная воздушная перспектива которую модель переняла из изображений с ограниченной дальностью прорисовки (малая отрисовка чанков) на скриншотах старой версии игры

Исходный размер 2088x1024

Хорошо получилось: Лава воспринимается как жидкость между блоков, а не как единый блок (она ниже по высоте)

Исходный размер 2088x1024

Анализ результатов

Модель уверенно воспроизводит ключевые визуальные характеристики стиля: — блочную, кубическую геометрию всех объектов — пиксельные текстуры с характерной детализацией — условное освещение с резкими границами тени для дня и плавность для вечера/утра — цветовую палитру

В ряде изображений наблюдаются незначительные отклонения от исходного стиля — сильная хаотичность рельефа и неразборчивые блоки мебели, что можно решить увеличением количества изображений стандартных генераций мира, а также добавлением всех блоков быта через интерьеры под разными ракурсами и освещением.

В моей работе я хотел добиться эффекта ностальгического освещения, лесного биома и хаотичных строений, что удачно получилось реализовать

Что у неё получается лучше всего: обычный лесной биом, рассвет, замки на горах в силу увеличенной выборки в датасете

Ограничения обученной модели

Наличие более 2х строений приводит к излишнему хаосу в ландшафте и композиции в целом, потому что обучал именно на единичных строениях по центру экрана. Также другие биомы игры не занесены в датасет и поэтому модель предсказывает с большими неточностями в сравнении с игрой, например она считает: снежный биом — это обычный лес но с белой травой и большим количеством снежинок, без льда на воде. Она может предсказать вид биома, но делает это с большими допущениями и докидывая детали которых нет в игре. Именно пренебрегая этим дефектом я сгенерировал пирамиду, где она сделала кактусы другой формы и попыталась уйти в умеренный реализм

Генеративные нейросети в проекте

Stable Diffusion XL — базовая генеративная модель

LoRA — метод дообучения

Claude — для: — создания корневого промта и негативных промтов — помощи с дообучением

Код проекта